Benchmarks Agents

Суть

LMArena — слепое человеческое предпочтение (Elo); «как ощущается» модель, не задача.
SWE-bench — 500 реальных GitHub-issue; модель должна выдать patch, проходящий тесты.
Open LLM Leaderboard — сравнение open-weight (Llama, Qwen, Mistral, DeepSeek).
AgentBench — 8 интерактивных сред (OS/bash, DB/SQL, knowledge graph, web shopping и др.); меряет long-term reasoning, decision-making, instruction following.

Это инструмент оценки качества при Model Selection. Главные причины провала агентов видны именно тут: плохие long-term reasoning и decision-making.

Не доверяй одному — смотри 3+ бенчмарка под свою задачу.
Смотри дату: старше 6 мес — устарело.
Vendor-scores = best-case на их scaffold → умножай на ~0.7.
Scaffold (Claude Code, Aider, Codex) меняет результат на 10–20%.
Verified vs Pro: на приватных данных баллы падают в ~3× (GPT-5: 74.9% → 14.9%) — в проде реальность ближе к Pro.
Финал: свои evals на 50–200 примерах своего домена (на практике — см. Agent Evals).
В новых материалах для сравнения моделей встречается ARC-AGI Leaderboard (напр., GPT-4.5 / Claude 3.7 / DeepSeek). Отдельное наблюдение: классические бенчмарки на атомарные задачи теряют релевантность для оценки именно «агентности» — модели их уже «решают», а сложность сместилась в многошаговость.
OSWorld / OSWorld-Verified — бенчмарк для computer-use агентов (Computer Use): задачи управления реальным ПК через GUI. Цифры 2026: Claude Opus 4.6 — 72.7% (впервые выше human baseline ~72%), UI-TARS-1.5 — 42.5%, OpenAI Operator — 36.4%, Claude 3.7 — 28%.

репрезентативный минимальный eval-набор → см. Agent Evals (ждёт курс: лекция #25 Testing & Evals, 2026-07-27)
как считать scaffold-поправку для своего харнесса