Суть
- LMArena — слепое человеческое предпочтение (Elo); «как ощущается» модель, не задача.
- SWE-bench — 500 реальных GitHub-issue; модель должна выдать patch, проходящий тесты.
- Open LLM Leaderboard — сравнение open-weight (Llama, Qwen, Mistral, DeepSeek).
- AgentBench — 8 интерактивных сред (OS/bash, DB/SQL, knowledge graph, web shopping и др.); меряет long-term reasoning, decision-making, instruction following.
Зачем это нужно
Это инструмент оценки качества при Model Selection. Главные причины провала агентов видны именно тут: плохие long-term reasoning и decision-making.
Как работает (как читать — 5 правил)
- Не доверяй одному — смотри 3+ бенчмарка под свою задачу.
- Смотри дату: старше 6 мес — устарело.
- Vendor-scores = best-case на их scaffold → умножай на ~0.7.
- Scaffold (Claude Code, Aider, Codex) меняет результат на 10–20%.
- Verified vs Pro: на приватных данных баллы падают в ~3× (GPT-5: 74.9% → 14.9%) — в проде реальность ближе к Pro.
- Финал: свои evals на 50–200 примерах своего домена (на практике — см. Agent Evals).
- В новых материалах для сравнения моделей встречается ARC-AGI Leaderboard (напр., GPT-4.5 / Claude 3.7 / DeepSeek). Отдельное наблюдение: классические бенчмарки на атомарные задачи теряют релевантность для оценки именно «агентности» — модели их уже «решают», а сложность сместилась в многошаговость.
- OSWorld / OSWorld-Verified — бенчмарк для computer-use агентов (Computer Use): задачи управления реальным ПК через GUI. Цифры 2026: Claude Opus 4.6 — 72.7% (впервые выше human baseline ~72%), UI-TARS-1.5 — 42.5%, OpenAI Operator — 36.4%, Claude 3.7 — 28%.
Связано с
- Model Selection — бенчмарки = критерий «качество»
- AI Agent — AgentBench меряет именно «агентность»
- Agent CostControl — онлайн-метрики дополняют офлайн-бенчмарки
Открытые вопросы
- репрезентативный минимальный eval-набор → см. Agent Evals (ждёт курс: лекция #25 Testing & Evals, 2026-07-27)
- как считать scaffold-поправку для своего харнесса