Суть
Четыре режима по глубине и цене:
- Reflexive (~$0.003) — прямой ответ без рассуждения («Как вас зовут?»).
- Standard (~$0.01) — промпт + 1 вызов.
- Deliberate (~$0.05) — Chain-of-Thought до 5 шагов (анализ, сравнение).
- Exhaustive (~$0.50+) — много итераций, reflection, self-correction (код, сложный reasoning).
Зачем это нужно
«Мышление — это ресурс, им нужно управлять явно, а не по умолчанию». Высокое усилие оправдано только в ~20% задач; на остальном глубокий reasoning жжёт бюджет и latency без пользы.
Как работает (три рычага усилия)
- Модель — Tier 1 (mini/haiku) против Tier 3 (Opus/GPT-5); разница цены 17–19× (это Model Selection + Agent Routing).
- Глубина reasoning —
reasoning.effort: low/medium/high(OpenAI), thinking budget /max_tokensна thinking-блок (Claude); в Claude Code:think≈ 4K,think harder≈ 10K,ultrathink≈ 32K токенов. - Число шагов —
max_iterationsв петле + early stopping при достижении цели (защита от quadratic cost growth, см. Agent CostControl).
Новая ось — test-time compute: качество растёт не только от размера модели, но и от того, сколько модель «думает» на инференсе. Reasoning-модели (o1/o3, Claude extended thinking, DeepSeek R1) тратят больше токенов на рассуждение перед ответом — это «усилие» уже на уровне самой модели (связано с Chain of Thought и Emergent Abilities).
Альтернативный взгляд
Прошинский описывает усилие как «рычаги» (модель / глубина / шаги). В новой партии «мышление» объясняется через декомпозицию: «давайте есть слона по кусочкам» — LLM умеет решать атомарные задачи, и суть reasoning в том, чтобы оркестратор разрезал сложное на простое и склеил результат (близко к Plan and Execute).
Нюанс про self-reflection: у Прошинского рефлексия/self-correction — признак «глубокого» режима (Exhaustive). Яндутов добавляет предупреждение: самокоррекция может усугубить ошибку или вызвать «когнитивный диссонанс» (модель запутывается + расход ресурсов). Вывод: рефлексия — не бесплатное добро, применять осознанно (см. Chain of Thought).
Связано с
- Agent CostControl — усилие напрямую = деньги
- Agent Routing — дешёвый режим по умолчанию, эскалация по необходимости
- Model Selection — выбор tier как один из рычагов
- Chain of Thought — CoT как форма управляемого усилия
Открытые вопросы
- как на практике классифицировать задачу по нужному усилию
- дефолт effort для агентного пайплайна