LLM

Как устроены большие языковые модели внутри и как с ними работать: от механики до выбора модели под задачу.

Карта раздела: заметки сгруппированы по темам с короткими аннотациями — читайте по порядку как путеводитель или переходите сразу к нужной теме.

1. Базовая механика LLM

Как модель устроена изнутри и какие физические ограничения у inference. Трансформер — базовая архитектура, attention — механизм выбора релевантного контекста, токенизация — граница между текстом и моделью, а контекстное окно и KV-cache задают лимиты того, что модель «видит» за один вызов.

  • Transformer — базовая архитектура современных LLM, точка входа в тему.
  • Attention — механизм взвешивания релевантного контекста внутри последовательности.
  • Tokenization — как текст превращается в токены; всё меряется в токенах, не в символах.
  • Embeddings — векторное представление токенов/текста, фундамент работы модели.
  • Context Window — бюджет токенов за один вызов; растёт квадратично в агентной петле.
  • KV Cache — память на контекст при inference, растёт линейно с длиной.

2. Генерация и управление ответом

Как модель порождает текст и как управлять «как именно» она думает. Sampling задаёт случайность вывода; CoT и reasoning effort управляют глубиной рассуждения; structured output нужен, когда ответ должен быть машинно-проверяемым.

  • Sampling Parameters — temperature / top-p / top-k: управление случайностью генерации.
  • Chain of Thought — пошаговое рассуждение как способ поднять качество ответа.
  • Reasoning Effort — управление глубиной/бюджетом рассуждения модели.
  • Structured Output — машинно-проверяемый вывод по схеме (мост модель↔runtime).
  • Schema Guided Reasoning — cross-link к Structured Output: рассуждение, направляемое схемой (детали — в agents/patterns/).

3. Prompting и interaction patterns

Промпт — основной интерфейс управления моделью. Few-shot демонстрирует нужный паттерн примерами, prompt caching оптимизирует повторяющийся префикс, а tool calling переводит модель от текста к действиям.

  • Prompt Engineering — промпт как интерфейс управления поведением модели.
  • Few Shot Prompting — демонстрация паттерна через примеры в промпте.
  • Prompt Caching — переиспользование статического префикса (−затраты на повторный контекст).
  • Tool Calling — переход от генерации текста к вызову инструментов/действий.

4. Обучение, scaling и model behavior

Откуда у модели берётся поведение: стадии обучения, законы масштабирования и спорные эффекты вроде emergent abilities. Сюда же выбор класса архитектуры (decoder-only vs encoder/encoder-decoder).

  • LLM Training Stages — pretraining / fine-tuning / RLHF-DPO.
  • Backpropagation — механика обучения, на которой стоит pretraining (ml/).
  • Model Scaling — scaling laws и diminishing returns.
  • Emergent Abilities — спорный тезис о «возникающих» способностях с ростом масштаба.
  • Encoder vs Decoder — decoder-only vs encoder / encoder-decoder и когда что.

5. Выбор модели и deployment

Прикладной слой: выбор модели как trade-off quality / latency / cost / context и локальный self-hosted запуск. Memory-ограничения (KV-cache, контекст) определяют, что реально влезет на своё железо.

  • Model Selection — выбор модели под задачу: quality / latency / cost / context.
  • Local LLM Deployment — self-hosted inference через Ollama / vLLM.
  • Model Scaling — размер модели как вход в trade-off качества и стоимости.
  • Context Window — контекстный бюджет как критерий выбора и ограничение inference.
  • KV Cache — VRAM при self-hosted inference = веса + KV-cache.

6. LLM в агентах и RAG

Где LLM-механика стыкуется с прикладными системами. LLM — reasoning/generation-ядро агента; RAG — внешний knowledge layer; structured output и tool calling — мост к runtime; model selection и cost control — production-ограничения.

  • AI Agent — LLM как reasoning-ядро агента (мост к Агенты).
  • Agent CostControl — production-ограничение, вытекающее из роста контекста/KV-cache.
  • Reasoning Effort — управление мышлением модели в агентном цикле.
  • Tool Calling — мост между генерацией LLM и вызовом инструментов runtime.
  • Structured Output — типизированный вывод как контракт между LLM и кодом.
  • RAG — внешний knowledge layer для LLM (мост к RAG).
  • RU Embedding Model Selection — выбор embedding-модели для RU как частный случай model selection.

7. Практические маршруты изучения

A. Понять LLM с нуля TokenizationEmbeddingsTransformerAttentionContext WindowSampling Parameters

B. Научиться управлять поведением модели Prompt EngineeringFew Shot PromptingChain of ThoughtReasoning EffortStructured OutputTool Calling

C. Выбрать и запустить модель в проекте Model SelectionContext WindowKV CachePrompt CachingLocal LLM DeploymentAgent CostControl

Связано с

  • Transformer — корневая архитектура направления
  • Model Selection — прикладной выбор модели под задачу
  • Prompt Engineering — основной интерфейс управления моделью
  • AI Agent — мост к агентам (Агенты)
  • RAG — мост к retrieval-направлению (RAG)