RAG — Вики — nikolskiy.dev

Карта раздела: заметки сгруппированы по темам с короткими аннотациями — читайте по порядку как путеводитель или переходите сразу к нужной теме.

1. Базовая модель RAG

RAG — это не «умная LLM», а pipeline: запрос → retrieval → сборка контекста → генерация. Качество результата определяется в первую очередь retrieval'ом, а не моделью: если в контекст пришло не то, генерация не спасёт. Поэтому chunking, токенизация и контекстный бюджет — не технические детали, а основа качества.

RAG — retrieval-augmented generation как pipeline, точка входа в тему.
Chunking — нарезка документов; размер/overlap прямо влияют на retrieval.
Embeddings — векторное представление, фундамент dense retrieval.
Context Window — физический бюджет, в который собирается найденное.
Tokenization — чанки и лимиты меряются в токенах, не в символах.

2. Retrieval stack: поиск и ранжирование

Два разных механизма поиска: dense (по смыслу, через эмбеддинги) и lexical/BM25 (по словам). Гибрид (vector + BM25, объединённые через RRF) покрывает слабости каждого. Reranker — отдельный второй проход, нужен когда top-k «грязный». Выбор embedding/reranker нельзя брать из бенчмарка вслепую — проверяй на своём корпусе.

Hybrid Search — dense + lexical (BM25) + RRF.
Reranking — переранжирование кандидатов вторым проходом.
RU Embedding Model Selection — выбор embedding-модели под русский корпус.
Model Selection — выбор моделей (embedding/reranker/генератор) под задачу и бюджет.

3. Storage и lifecycle индекса

Vector Databases — где хранить эмбеддинги: pgvector vs dedicated store.
Vector Store Persistence — versioning, re-embedding, alias-миграция индекса.
RAG Observability — трейсинг retrieval для диагностики регрессий индекса.

4. Архитектурные варианты knowledge access

Четыре способа дать модели знания, выбор зависит от объёма, частоты обновления и того, кто решает «что искать»: RAG — retrieval на каждый запрос (большая/меняющаяся база); CAG — знания заранее загружены в контекст/кэш (небольшая стабильная база); Agentic RAG — агент сам решает, что и когда искать (сложные многошаговые запросы); GraphRAG — знания как граф сущностей/связей (запросы, требующие обхода связей).

RAG — базовый вариант: retrieval на каждый запрос.
CAG — cache-augmented: знания в контексте вместо поиска (глубокая механика — см. Prompt Caching → KV Cache).
Agentic RAG — retrieval под управлением самого агента.
GraphRAG — графовая структура знаний вместо плоских чанков.
Prompt Caching — переиспользование префикса промпта; механизм, на котором стоит CAG.
RAG vs CAG vs Agentic RAG — decision matrix выбора подхода.

5. Quality, evals и observability

Две взаимодополняющие линзы: offline eval (метрики на фиксированном датасете до деплоя) и online tracing (что реально происходит в проде). Частый диагноз «LLM галлюцинирует» на деле означает «retrieval принёс не то» — поэтому chunk-attribution и index_version в трейсе важнее, чем кажется.

RAG Metrics — offline-метрики: Hit Rate, MRR, Faithfulness.
RAG Observability — online-трейсинг: chunk-attribution, index_version в трейсах.
Reranking — рычаг улучшения precision top-k по результатам eval.
Agent Evals — общая методология оценки (offline датасет vs online), применима к RAG.

6. Production RAG route

Собрать production-ish RAG RAG → Chunking → Embeddings → Hybrid Search → Reranking → Vector Databases → Vector Store Persistence → RAG Metrics

(После выхода в прод подключай RAG Observability — раздел 3/5.)

7. Architecture decision route

Выбрать RAG / CAG / Agentic RAG / GraphRAG RAG → CAG → Agentic RAG → GraphRAG → RAG vs CAG vs Agentic RAG

Связано с

RAG — корневая концепция направления
RAG vs CAG vs Agentic RAG — выбор архитектуры knowledge access
RAG Metrics — как измерять качество retrieval
Agentic RAG — мост к агентам (Агенты)
Vector Databases — storage-слой