Embeddings

Эмбеддинги — представление токенов/текста векторами в пространстве большой размерности (от нескольких тысяч до десятков тысяч измерений), где близость векторов = близость смысла. Это «мостик» от текста к математике, на которой работает LLM.

Суть

После токенизации (Tokenization) каждый токен кодируется не случайным номером, а вектором, построенным так, что смысловые отношения сохраняются как геометрические. Классический пример из лекции: вектор(король) − вектор(мужчина) + вектор(женщина) ≈ вектор(королева).

Зачем это нужно

LLM внутри — это матричные операции (см. Transformer); ей нужны «осмысленные матрицы», а не перенумерованные слова. Эмбеддинги дают это: модель оперирует смыслом, а не строками. На эмбеддингах же стоит семантический поиск в RAG — близкие по смыслу куски находятся как ближайшие векторы.

Как работает

  • Текст → токены → векторы; векторное пространство имеет тысячи/десятки тысяч измерений.
  • Вектора обучаются (не назначаются вручную): близкие по употреблению понятия оказываются рядом.
  • Векторные операции (сложение/вычитание) переносят смысловые отношения — отсюда «король − мужчина + женщина ≈ королева».
  • Историческая модель для текстовых эмбеддингов, упомянутая в лекции, — BERT.
  • Матрица эмбеддингов: таблица vocab_size × embed_dim (например, 128 000 × 4096 ≈ 524M параметров); получение вектора — простой lookup строки по ID токена.
  • Инициализация: в начале случайные числа из N(0, 0.02²), без «правильных» значений; осмысленная геометрия формируется через Backpropagation за триллионы шагов.
  • Дистрибутивная гипотеза (Firth, 1957): «You shall know a word by the company it keeps» — слова в похожих контекстах получают похожие векторы.
  • Позиционная информация: к эмбеддингам добавляется позиция (иначе модель не различает порядок слов); современный способ — RoPE (Rotary Position Embeddings).
  • Retrieval-эмбеддинги (для RAG) — отдельные модели, которыми кодируют чанки и запрос для векторного поиска. Размер выбирают по бюджету памяти: например, Qwen3-emb-0.6b (1.5 ГБ) и Qwen3-emb-4b (9 ГБ). Сами модели — «монстры из матричных умножений», дорогие в вычислении; индексация корпуса — самая тяжёлая операция конвейера (см. Vector Store Persistence).
  • Finetune retrieval — если терминология домена специфична (медицина, юриспруденция), общеязыковая модель ошибается → дообучают модель эмбеддингов под домен. Выбор сверяют по лидербордам: MERA (русский, но это LLM-бенчмарк), superlinked vector-db-comparison, ann-benchmarks.
  • Выбор RU/RU+EN embedding-моделей и ruMTEB — см. RU Embedding Model Selection.

Связано с

  • Tokenization — что превращается в векторы
  • Transformer — где векторы перемножаются (attention)
  • RAG — векторный поиск построен на эмбеддингах
  • RU Embedding Model Selection — выбор RU/RU+EN модели и ruMTEB (volatile tooling-слой)

Открытые вопросы

  • чем эмбеддинги токенов (внутри модели) отличаются от эмбеддингов для retrieval (частично: retrieval-модели обучают на близость пар «запрос↔документ», см. выше и RAG)