Embeddings

Суть

После токенизации (Tokenization) каждый токен кодируется не случайным номером, а вектором, построенным так, что смысловые отношения сохраняются как геометрические. Классический пример из лекции: вектор(король) − вектор(мужчина) + вектор(женщина) ≈ вектор(королева).

Зачем это нужно

LLM внутри — это матричные операции (см. Transformer); ей нужны «осмысленные матрицы», а не перенумерованные слова. Эмбеддинги дают это: модель оперирует смыслом, а не строками. На эмбеддингах же стоит семантический поиск в RAG — близкие по смыслу куски находятся как ближайшие векторы.

Как работает

Текст → токены → векторы; векторное пространство имеет тысячи/десятки тысяч измерений.
Вектора обучаются (не назначаются вручную): близкие по употреблению понятия оказываются рядом.
Векторные операции (сложение/вычитание) переносят смысловые отношения — отсюда «король − мужчина + женщина ≈ королева».
Историческая модель для текстовых эмбеддингов, упомянутая в лекции, — BERT.
Матрица эмбеддингов: таблица vocab_size × embed_dim (например, 128 000 × 4096 ≈ 524M параметров); получение вектора — простой lookup строки по ID токена.
Инициализация: в начале случайные числа из N(0, 0.02²), без «правильных» значений; осмысленная геометрия формируется через Backpropagation за триллионы шагов.
Дистрибутивная гипотеза (Firth, 1957): «You shall know a word by the company it keeps» — слова в похожих контекстах получают похожие векторы.
Позиционная информация: к эмбеддингам добавляется позиция (иначе модель не различает порядок слов); современный способ — RoPE (Rotary Position Embeddings).
Retrieval-эмбеддинги (для RAG) — отдельные модели, которыми кодируют чанки и запрос для векторного поиска. Размер выбирают по бюджету памяти: например, Qwen3-emb-0.6b (~~1.5 ГБ) и Qwen3-emb-4b (~~9 ГБ). Сами модели — «монстры из матричных умножений», дорогие в вычислении; индексация корпуса — самая тяжёлая операция конвейера (см. Vector Store Persistence).
Finetune retrieval — если терминология домена специфична (медицина, юриспруденция), общеязыковая модель ошибается → дообучают модель эмбеддингов под домен. Выбор сверяют по лидербордам: MERA (русский, но это LLM-бенчмарк), superlinked vector-db-comparison, ann-benchmarks.
Выбор RU/RU+EN embedding-моделей и ruMTEB — см. RU Embedding Model Selection.

Связано с

Tokenization — что превращается в векторы
Transformer — где векторы перемножаются (attention)
RAG — векторный поиск построен на эмбеддингах
RU Embedding Model Selection — выбор RU/RU+EN модели и ruMTEB (volatile tooling-слой)

Открытые вопросы

чем эмбеддинги токенов (внутри модели) отличаются от эмбеддингов для retrieval (частично: retrieval-модели обучают на близость пар «запрос↔документ», см. выше и RAG)