Reasoning Effort

Суть

Четыре режима по глубине и цене:

Reflexive (~$0.003) — прямой ответ без рассуждения («Как вас зовут?»).
Standard (~$0.01) — промпт + 1 вызов.
Deliberate (~$0.05) — Chain-of-Thought до 5 шагов (анализ, сравнение).
Exhaustive (~$0.50+) — много итераций, reflection, self-correction (код, сложный reasoning).

Зачем это нужно

«Мышление — это ресурс, им нужно управлять явно, а не по умолчанию». Высокое усилие оправдано только в ~20% задач; на остальном глубокий reasoning жжёт бюджет и latency без пользы.

Как работает (три рычага усилия)

Модель — Tier 1 (mini/haiku) против Tier 3 (Opus/GPT-5); разница цены 17–19× (это Model Selection + Agent Routing).
Глубина reasoning — reasoning.effort: low/medium/high (OpenAI), thinking budget / max_tokens на thinking-блок (Claude); в Claude Code: think ≈ 4K, think harder ≈ 10K, ultrathink ≈ 32K токенов.
Число шагов — max_iterations в петле + early stopping при достижении цели (защита от quadratic cost growth, см. Agent CostControl).

Новая ось — test-time compute: качество растёт не только от размера модели, но и от того, сколько модель «думает» на инференсе. Reasoning-модели (o1/o3, Claude extended thinking, DeepSeek R1) тратят больше токенов на рассуждение перед ответом — это «усилие» уже на уровне самой модели (связано с Chain of Thought и Emergent Abilities).

Альтернативный взгляд

Прошинский описывает усилие как «рычаги» (модель / глубина / шаги). В новой партии «мышление» объясняется через декомпозицию: «давайте есть слона по кусочкам» — LLM умеет решать атомарные задачи, и суть reasoning в том, чтобы оркестратор разрезал сложное на простое и склеил результат (близко к Plan and Execute).

Нюанс про self-reflection: у Прошинского рефлексия/self-correction — признак «глубокого» режима (Exhaustive). Яндутов добавляет предупреждение: самокоррекция может усугубить ошибку или вызвать «когнитивный диссонанс» (модель запутывается + расход ресурсов). Вывод: рефлексия — не бесплатное добро, применять осознанно (см. Chain of Thought).

Связано с

Agent CostControl — усилие напрямую = деньги
Agent Routing — дешёвый режим по умолчанию, эскалация по необходимости
Model Selection — выбор tier как один из рычагов
Chain of Thought — CoT как форма управляемого усилия

Открытые вопросы

как на практике классифицировать задачу по нужному усилию
дефолт effort для агентного пайплайна