Benchmarks Agents

Бенчмарки для оценки моделей и «агентности»: LMArena (вайб диалога), SWE-bench (код), Open LLM Leaderboard (open-weight), AgentBench (agency). Главное — мерить под свою задачу, а не верить одной цифре.

Суть

  • LMArena — слепое человеческое предпочтение (Elo); «как ощущается» модель, не задача.
  • SWE-bench — 500 реальных GitHub-issue; модель должна выдать patch, проходящий тесты.
  • Open LLM Leaderboard — сравнение open-weight (Llama, Qwen, Mistral, DeepSeek).
  • AgentBench — 8 интерактивных сред (OS/bash, DB/SQL, knowledge graph, web shopping и др.); меряет long-term reasoning, decision-making, instruction following.

Зачем это нужно

Это инструмент оценки качества при Model Selection. Главные причины провала агентов видны именно тут: плохие long-term reasoning и decision-making.

Как работает (как читать — 5 правил)

  • Не доверяй одному — смотри 3+ бенчмарка под свою задачу.
  • Смотри дату: старше 6 мес — устарело.
  • Vendor-scores = best-case на их scaffold → умножай на ~0.7.
  • Scaffold (Claude Code, Aider, Codex) меняет результат на 10–20%.
  • Verified vs Pro: на приватных данных баллы падают в ~3× (GPT-5: 74.9% → 14.9%) — в проде реальность ближе к Pro.
  • Финал: свои evals на 50–200 примерах своего домена (на практике — см. Agent Evals).
  • В новых материалах для сравнения моделей встречается ARC-AGI Leaderboard (напр., GPT-4.5 / Claude 3.7 / DeepSeek). Отдельное наблюдение: классические бенчмарки на атомарные задачи теряют релевантность для оценки именно «агентности» — модели их уже «решают», а сложность сместилась в многошаговость.
  • OSWorld / OSWorld-Verified — бенчмарк для computer-use агентов (Computer Use): задачи управления реальным ПК через GUI. Цифры 2026: Claude Opus 4.6 — 72.7% (впервые выше human baseline ~72%), UI-TARS-1.5 — 42.5%, OpenAI Operator — 36.4%, Claude 3.7 — 28%.

Связано с

  • Model Selection — бенчмарки = критерий «качество»
  • AI Agent — AgentBench меряет именно «агентность»
  • Agent CostControl — онлайн-метрики дополняют офлайн-бенчмарки

Открытые вопросы

  • репрезентативный минимальный eval-набор → см. Agent Evals (ждёт курс: лекция #25 Testing & Evals, 2026-07-27)
  • как считать scaffold-поправку для своего харнесса