Суть
Это самый «горячий» вид памяти агента (Agent Memory): только то, что в окне сейчас, влияет на ответ. Всё, что не влезло, нужно хранить снаружи (vector DB, summary, pointers).
Зачем это нужно
Понимание окна объясняет две вещи: (1) почему агент «забывает» цель на длинной дистанции и (2) почему каждый шаг агента дороже предыдущего — API биллится по полному контексту на каждом шаге.
Как работает
- Квадратичный рост стоимости: шаг 1 — 500 токенов, шаг 10 — в 8–10× больше (история + tool results накапливаются). Отсюда нужен лимит шагов
max_iterations(см. Agent CostControl). - Свыше ~200K input у многих моделей включается long-context тариф ×1.5–2.
- Оптимизация: Prompt Caching (−90% на повторяющиеся system-промпты), обрезка/суммаризация истории, memory pointers.
- Больше окно ≠ всегда лучше: на больших контекстах падает retrieval («забывания»); это критерий в Model Selection.
- Компактизация (компрессия) контекста — «отдельная наука»: по мере роста (шаг 1 → шаг 15) часть оставляем как есть (system prompt, схемы tools), часть сжимаем (накопленные user/assistant-сообщения, memory/RAG-вставки). Цель — удержать важное в окне, не раздувая стоимость.
- Context anxiety и context resets (Harness, Anthropic): на длинных задачах модель не только теряет связность к концу окна, но и проявляет «контекстную тревогу» — преждевременно сворачивает работу у мнимого предела (выражено у Claude Sonnet 4.5). Лечится сбросом контекста: чистый агент + структурированный handoff-артефакт с состоянием и следующими шагами. Отличие от компактизации: compaction суммирует историю на месте (тревога остаётся), reset даёт «чистый лист» ценой оркестрации/latency. Подробнее — Generator Evaluator.
- Рост окна и оптимизации: от 2K (GPT-2) до 2M+ токенов (современные). Attention оптимизируют через Flash Attention, Ring Attention, sparse attention; есть линейные по длине альтернативы трансформеру — Mamba, RWKV. Память на длинный контекст — это в т.ч. KV Cache (растёт линейно с длиной).
Связано с
- Agent Memory — окно как один из 4 видов памяти
- Agent CostControl — квадратичный рост → лимиты
- Model Selection — размер окна как критерий выбора
- KV Cache — память на контекст растёт линейно с длиной
- Prompt Caching — кэш статического префикса в окне
Открытые вопросы
- практический предел полезного контекста до деградации retrieval