Карта раздела: заметки сгруппированы по темам с короткими аннотациями — читайте по порядку как путеводитель или переходите сразу к нужной теме.
1. Базовая механика LLM
Как модель устроена изнутри и какие физические ограничения у inference. Трансформер — базовая архитектура, attention — механизм выбора релевантного контекста, токенизация — граница между текстом и моделью, а контекстное окно и KV-cache задают лимиты того, что модель «видит» за один вызов.
- Transformer — базовая архитектура современных LLM, точка входа в тему.
- Attention — механизм взвешивания релевантного контекста внутри последовательности.
- Tokenization — как текст превращается в токены; всё меряется в токенах, не в символах.
- Embeddings — векторное представление токенов/текста, фундамент работы модели.
- Context Window — бюджет токенов за один вызов; растёт квадратично в агентной петле.
- KV Cache — память на контекст при inference, растёт линейно с длиной.
2. Генерация и управление ответом
Как модель порождает текст и как управлять «как именно» она думает. Sampling задаёт случайность вывода; CoT и reasoning effort управляют глубиной рассуждения; structured output нужен, когда ответ должен быть машинно-проверяемым.
- Sampling Parameters — temperature / top-p / top-k: управление случайностью генерации.
- Chain of Thought — пошаговое рассуждение как способ поднять качество ответа.
- Reasoning Effort — управление глубиной/бюджетом рассуждения модели.
- Structured Output — машинно-проверяемый вывод по схеме (мост модель↔runtime).
- Schema Guided Reasoning — cross-link к Structured Output: рассуждение, направляемое схемой (детали — в
agents/patterns/).
3. Prompting и interaction patterns
Промпт — основной интерфейс управления моделью. Few-shot демонстрирует нужный паттерн примерами, prompt caching оптимизирует повторяющийся префикс, а tool calling переводит модель от текста к действиям.
- Prompt Engineering — промпт как интерфейс управления поведением модели.
- Few Shot Prompting — демонстрация паттерна через примеры в промпте.
- Prompt Caching — переиспользование статического префикса (−затраты на повторный контекст).
- Tool Calling — переход от генерации текста к вызову инструментов/действий.
4. Обучение, scaling и model behavior
Откуда у модели берётся поведение: стадии обучения, законы масштабирования и спорные эффекты вроде emergent abilities. Сюда же выбор класса архитектуры (decoder-only vs encoder/encoder-decoder).
- LLM Training Stages — pretraining / fine-tuning / RLHF-DPO.
- Backpropagation — механика обучения, на которой стоит pretraining (
ml/). - Model Scaling — scaling laws и diminishing returns.
- Emergent Abilities — спорный тезис о «возникающих» способностях с ростом масштаба.
- Encoder vs Decoder — decoder-only vs encoder / encoder-decoder и когда что.
5. Выбор модели и deployment
Прикладной слой: выбор модели как trade-off quality / latency / cost / context и локальный self-hosted запуск. Memory-ограничения (KV-cache, контекст) определяют, что реально влезет на своё железо.
- Model Selection — выбор модели под задачу: quality / latency / cost / context.
- Local LLM Deployment — self-hosted inference через Ollama / vLLM.
- Model Scaling — размер модели как вход в trade-off качества и стоимости.
- Context Window — контекстный бюджет как критерий выбора и ограничение inference.
- KV Cache — VRAM при self-hosted inference = веса + KV-cache.
6. LLM в агентах и RAG
Где LLM-механика стыкуется с прикладными системами. LLM — reasoning/generation-ядро агента; RAG — внешний knowledge layer; structured output и tool calling — мост к runtime; model selection и cost control — production-ограничения.
- AI Agent — LLM как reasoning-ядро агента (мост к Агенты).
- Agent CostControl — production-ограничение, вытекающее из роста контекста/KV-cache.
- Reasoning Effort — управление мышлением модели в агентном цикле.
- Tool Calling — мост между генерацией LLM и вызовом инструментов runtime.
- Structured Output — типизированный вывод как контракт между LLM и кодом.
- RAG — внешний knowledge layer для LLM (мост к RAG).
- RU Embedding Model Selection — выбор embedding-модели для RU как частный случай model selection.
7. Практические маршруты изучения
A. Понять LLM с нуля Tokenization → Embeddings → Transformer → Attention → Context Window → Sampling Parameters
B. Научиться управлять поведением модели Prompt Engineering → Few Shot Prompting → Chain of Thought → Reasoning Effort → Structured Output → Tool Calling
C. Выбрать и запустить модель в проекте Model Selection → Context Window → KV Cache → Prompt Caching → Local LLM Deployment → Agent CostControl
Связано с
- Transformer — корневая архитектура направления
- Model Selection — прикладной выбор модели под задачу
- Prompt Engineering — основной интерфейс управления моделью
- AI Agent — мост к агентам (Агенты)
- RAG — мост к retrieval-направлению (RAG)