Model Selection

Выбор модели под задачу по 4 критериям: качество, контекст, стоимость, latency + tool use. Нет одной «лучшей» модели — есть подходящая под конкретную задачу.

Содержит быстро устаревающие данные (текущие топ-модели, цены $/токен, лидерборды) — status/volatile. Сверяй конкретные модели и цены при ревизии.

Суть

  • Качество — benchmark score + свои evals на домене (см. Benchmarks Agents); «bench ≠ прод».
  • Контекст — 128K/200K/1M (см. Context Window); больше контекст → больше «забываний» и не бесплатно.
  • Стоимость — $/1M токенов (input+output); агент делает десятки вызовов → цена умножается.
  • Latency + tool use — reasoning-модели дают качество ценой времени; агентам критична надёжность tool calls.

Зачем это нужно

«Флагман на каждую задачу» — главный источник перерасхода: разница цены между Tier 1 и Tier 3 моделями ~17–19×, а на простых задачах (классификация, FAQ) gap качества < 2%. Отсюда — роутинг (см. Agent Routing).

Как работает

  • Качество — под задачу: одна модель топ в коде (SWE-bench), другая — в long-context, третья — в computer use.
  • Reasoning modes дают +5–10% качества ценой −2–5× по latency и цене (см. Reasoning Effort).
  • Практика: подбирай разные модели на роли (классификатор / «мозг» / исполнитель), решай по evals на своём домене, а не по общим лидербордам.
  • Классы моделей с ценами: proprietary top-tier (GPT-5.1, Claude 4.5 Sonnet, Gemini 3) — лучший reasoning и низкий error-rate на edge-кейсах, но дорого; open-source 32B (Qwen3, DeepSeek-R1/V3) — почти GPT-4-level, в разы дешевле (~$0.05–0.1/1k ток), хватает на простую разметку и удобно «запускать несколько для голосования» (self-consistency, см. Chain of Thought).
  • API vs self-host (экономика): API быстро/дёшево на прототипе, но на больших RPS дорого (10 RPS ≈ 864k запросов/день → на GPT-5.1 ~$1944/день, ~$58k/мес) и данные уходят наружу; своя инфраструктура (Local LLM Deployment) выгоднее при объёме/приватности, но без облачного fine-tuning.

Связано с

  • Benchmarks Agents — как мерить «качество»
  • Agent Routing — как использовать разные модели по цене/качеству
  • Reasoning Effort — глубина рассуждения как отдельный рычаг
  • Context Window — критерий «контекст»
  • Local LLM Deployment — локальная open-weight модель как дешёвый tier

Открытые вопросы

  • как собрать eval-набор для выбора модели (50–200 примеров) → метод см. Agent Evals (ждёт курс: лекция #25 Testing & Evals, 2026-07-27)
  • выбор модели для РФ (YandexGPT/GigaChat) — отдельная заметка (TODO)