LLM — Вики — nikolskiy.dev

Карта раздела: заметки сгруппированы по темам с короткими аннотациями — читайте по порядку как путеводитель или переходите сразу к нужной теме.

1. Базовая механика LLM

Как модель устроена изнутри и какие физические ограничения у inference. Трансформер — базовая архитектура, attention — механизм выбора релевантного контекста, токенизация — граница между текстом и моделью, а контекстное окно и KV-cache задают лимиты того, что модель «видит» за один вызов.

Transformer — базовая архитектура современных LLM, точка входа в тему.
Attention — механизм взвешивания релевантного контекста внутри последовательности.
Tokenization — как текст превращается в токены; всё меряется в токенах, не в символах.
Embeddings — векторное представление токенов/текста, фундамент работы модели.
Context Window — бюджет токенов за один вызов; растёт квадратично в агентной петле.
KV Cache — память на контекст при inference, растёт линейно с длиной.

2. Генерация и управление ответом

Как модель порождает текст и как управлять «как именно» она думает. Sampling задаёт случайность вывода; CoT и reasoning effort управляют глубиной рассуждения; structured output нужен, когда ответ должен быть машинно-проверяемым.

Sampling Parameters — temperature / top-p / top-k: управление случайностью генерации.
Chain of Thought — пошаговое рассуждение как способ поднять качество ответа.
Reasoning Effort — управление глубиной/бюджетом рассуждения модели.
Structured Output — машинно-проверяемый вывод по схеме (мост модель↔runtime).
Schema Guided Reasoning — cross-link к Structured Output: рассуждение, направляемое схемой (детали — в agents/patterns/).

3. Prompting и interaction patterns

Промпт — основной интерфейс управления моделью. Few-shot демонстрирует нужный паттерн примерами, prompt caching оптимизирует повторяющийся префикс, а tool calling переводит модель от текста к действиям.

Prompt Engineering — промпт как интерфейс управления поведением модели.
Few Shot Prompting — демонстрация паттерна через примеры в промпте.
Prompt Caching — переиспользование статического префикса (−затраты на повторный контекст).
Tool Calling — переход от генерации текста к вызову инструментов/действий.

4. Обучение, scaling и model behavior

Откуда у модели берётся поведение: стадии обучения, законы масштабирования и спорные эффекты вроде emergent abilities. Сюда же выбор класса архитектуры (decoder-only vs encoder/encoder-decoder).

LLM Training Stages — pretraining / fine-tuning / RLHF-DPO.
Backpropagation — механика обучения, на которой стоит pretraining (ml/).
Model Scaling — scaling laws и diminishing returns.
Emergent Abilities — спорный тезис о «возникающих» способностях с ростом масштаба.
Encoder vs Decoder — decoder-only vs encoder / encoder-decoder и когда что.

5. Выбор модели и deployment

Прикладной слой: выбор модели как trade-off quality / latency / cost / context и локальный self-hosted запуск. Memory-ограничения (KV-cache, контекст) определяют, что реально влезет на своё железо.

Model Selection — выбор модели под задачу: quality / latency / cost / context.
Local LLM Deployment — self-hosted inference через Ollama / vLLM.
Model Scaling — размер модели как вход в trade-off качества и стоимости.
Context Window — контекстный бюджет как критерий выбора и ограничение inference.
KV Cache — VRAM при self-hosted inference = веса + KV-cache.

6. LLM в агентах и RAG

Где LLM-механика стыкуется с прикладными системами. LLM — reasoning/generation-ядро агента; RAG — внешний knowledge layer; structured output и tool calling — мост к runtime; model selection и cost control — production-ограничения.

AI Agent — LLM как reasoning-ядро агента (мост к Агенты).
Agent CostControl — production-ограничение, вытекающее из роста контекста/KV-cache.
Reasoning Effort — управление мышлением модели в агентном цикле.
Tool Calling — мост между генерацией LLM и вызовом инструментов runtime.
Structured Output — типизированный вывод как контракт между LLM и кодом.
RAG — внешний knowledge layer для LLM (мост к RAG).
RU Embedding Model Selection — выбор embedding-модели для RU как частный случай model selection.

7. Практические маршруты изучения

A. Понять LLM с нуля Tokenization → Embeddings → Transformer → Attention → Context Window → Sampling Parameters

B. Научиться управлять поведением модели Prompt Engineering → Few Shot Prompting → Chain of Thought → Reasoning Effort → Structured Output → Tool Calling

C. Выбрать и запустить модель в проекте Model Selection → Context Window → KV Cache → Prompt Caching → Local LLM Deployment → Agent CostControl

Связано с

Transformer — корневая архитектура направления
Model Selection — прикладной выбор модели под задачу
Prompt Engineering — основной интерфейс управления моделью
AI Agent — мост к агентам (Агенты)
RAG — мост к retrieval-направлению (RAG)