Суть
После токенизации (Tokenization) каждый токен кодируется не случайным номером, а вектором, построенным так, что смысловые отношения сохраняются как геометрические. Классический пример из лекции: вектор(король) − вектор(мужчина) + вектор(женщина) ≈ вектор(королева).
Зачем это нужно
LLM внутри — это матричные операции (см. Transformer); ей нужны «осмысленные матрицы», а не перенумерованные слова. Эмбеддинги дают это: модель оперирует смыслом, а не строками. На эмбеддингах же стоит семантический поиск в RAG — близкие по смыслу куски находятся как ближайшие векторы.
Как работает
- Текст → токены → векторы; векторное пространство имеет тысячи/десятки тысяч измерений.
- Вектора обучаются (не назначаются вручную): близкие по употреблению понятия оказываются рядом.
- Векторные операции (сложение/вычитание) переносят смысловые отношения — отсюда «король − мужчина + женщина ≈ королева».
- Историческая модель для текстовых эмбеддингов, упомянутая в лекции, — BERT.
- Матрица эмбеддингов: таблица
vocab_size × embed_dim(например, 128 000 × 4096 ≈ 524M параметров); получение вектора — простой lookup строки по ID токена. - Инициализация: в начале случайные числа из N(0, 0.02²), без «правильных» значений; осмысленная геометрия формируется через Backpropagation за триллионы шагов.
- Дистрибутивная гипотеза (Firth, 1957): «You shall know a word by the company it keeps» — слова в похожих контекстах получают похожие векторы.
- Позиционная информация: к эмбеддингам добавляется позиция (иначе модель не различает порядок слов); современный способ — RoPE (Rotary Position Embeddings).
- Retrieval-эмбеддинги (для RAG) — отдельные модели, которыми кодируют чанки и запрос для векторного поиска. Размер выбирают по бюджету памяти: например, Qwen3-emb-0.6b (
1.5 ГБ) и Qwen3-emb-4b (9 ГБ). Сами модели — «монстры из матричных умножений», дорогие в вычислении; индексация корпуса — самая тяжёлая операция конвейера (см. Vector Store Persistence). - Finetune retrieval — если терминология домена специфична (медицина, юриспруденция), общеязыковая модель ошибается → дообучают модель эмбеддингов под домен. Выбор сверяют по лидербордам: MERA (русский, но это LLM-бенчмарк), superlinked vector-db-comparison, ann-benchmarks.
- Выбор RU/RU+EN embedding-моделей и ruMTEB — см. RU Embedding Model Selection.
Связано с
- Tokenization — что превращается в векторы
- Transformer — где векторы перемножаются (attention)
- RAG — векторный поиск построен на эмбеддингах
- RU Embedding Model Selection — выбор RU/RU+EN модели и ruMTEB (volatile tooling-слой)
Открытые вопросы
- чем эмбеддинги токенов (внутри модели) отличаются от эмбеддингов для retrieval (частично: retrieval-модели обучают на близость пар «запрос↔документ», см. выше и RAG)