Context Window

Контекстное окно — объём токенов, который модель «видит» за один вызов (system + история + результаты инструментов). В 2026 норма — 1M токенов, но контекст не бесплатен и растёт квадратично в агентной петле.

Суть

Это самый «горячий» вид памяти агента (Agent Memory): только то, что в окне сейчас, влияет на ответ. Всё, что не влезло, нужно хранить снаружи (vector DB, summary, pointers).

Зачем это нужно

Понимание окна объясняет две вещи: (1) почему агент «забывает» цель на длинной дистанции и (2) почему каждый шаг агента дороже предыдущего — API биллится по полному контексту на каждом шаге.

Как работает

  • Квадратичный рост стоимости: шаг 1 — 500 токенов, шаг 10 — в 8–10× больше (история + tool results накапливаются). Отсюда нужен лимит шагов max_iterations (см. Agent CostControl).
  • Свыше ~200K input у многих моделей включается long-context тариф ×1.5–2.
  • Оптимизация: Prompt Caching (−90% на повторяющиеся system-промпты), обрезка/суммаризация истории, memory pointers.
  • Больше окно ≠ всегда лучше: на больших контекстах падает retrieval («забывания»); это критерий в Model Selection.
  • Компактизация (компрессия) контекста — «отдельная наука»: по мере роста (шаг 1 → шаг 15) часть оставляем как есть (system prompt, схемы tools), часть сжимаем (накопленные user/assistant-сообщения, memory/RAG-вставки). Цель — удержать важное в окне, не раздувая стоимость.
  • Context anxiety и context resets (Harness, Anthropic): на длинных задачах модель не только теряет связность к концу окна, но и проявляет «контекстную тревогу» — преждевременно сворачивает работу у мнимого предела (выражено у Claude Sonnet 4.5). Лечится сбросом контекста: чистый агент + структурированный handoff-артефакт с состоянием и следующими шагами. Отличие от компактизации: compaction суммирует историю на месте (тревога остаётся), reset даёт «чистый лист» ценой оркестрации/latency. Подробнее — Generator Evaluator.
  • Рост окна и оптимизации: от 2K (GPT-2) до 2M+ токенов (современные). Attention оптимизируют через Flash Attention, Ring Attention, sparse attention; есть линейные по длине альтернативы трансформеру — Mamba, RWKV. Память на длинный контекст — это в т.ч. KV Cache (растёт линейно с длиной).

Связано с

  • Agent Memory — окно как один из 4 видов памяти
  • Agent CostControl — квадратичный рост → лимиты
  • Model Selection — размер окна как критерий выбора
  • KV Cache — память на контекст растёт линейно с длиной
  • Prompt Caching — кэш статического префикса в окне

Открытые вопросы

  • практический предел полезного контекста до деградации retrieval