RU Embedding Model Selection

Выбор embedding-модели для русскоязычного и смешанного RU+EN retrieval (RAG). Главный ориентир — бенчмарк ruMTEB (RU-версия MTEB именно для эмбеддингов, не путать с MERA для LLM). «Лучшей» модели нет — есть подходящая под корпус и бюджет.

Заметка содержит быстро устаревающие данные (лидерборд ruMTEB, конкретные модели и баллы) — status/volatile. Сверяй актуальный лидерборд при ревизии.

Суть

Общая концепция эмбеддингов — в Embeddings. Здесь — прикладной слой: какие модели реально брать под RU/RU+EN и как это проверять. Retrieval-качество меряют на ruMTEB; конкретные лидеры меняются, поэтому заметка volatile.

Зачем это нужно

Качество retrieval критичнее качества LLM («мусор на входе = мусор на выходе», см. RAG), а на русском общеязыковые англо-центричные модели часто проседают. Правильный выбор embedding-модели под RU напрямую поднимает recall и точность поиска.

Как работает (выбор)

  • Бенчмарк ruMTEB — RU-расширение MTEB: 23 датасета / 7 категорий (Classification, Clustering, MultiLabelCls, PairCls, Reranking, Retrieval, STS). Метрики: nDCG@10 (retrieval), MAP@10 (reranking), Spearman (STS), Accuracy (classification).

  • Текущие лидеры (на момент источников, ⚠️ быстро устаревает):

    Модель ruMTEB avg Заметка
    GigaEmbeddings (на базе GigaChat-3B) ~69.1 SOTA на ruMTEB; vendor — Sber
    E5-mistral-7b-instruct 67.18 сильная multilingual-instruct
    mE5-large-instruct 66.03 multilingual-instruct
    ru-en-RoSBERTa 61.77 RU-фокус, наравне с BGE-M3
    BGE-M3 61.58 популярная multilingual (dense+sparse+colbert)
  • Критерии выбора под RU/RU+EN корпус:

    • бюджет памяти (ср. размеры Qwen3-emb в Embeddings) против качества;
    • multilingual vs RU-специализированная — для смешанного RU+EN важна устойчивость на обоих языках;
    • не верить одной цифре лидерборда — проверять на своём домене (см. открытый вопрос);
    • доменная терминология (мед./юр.) → возможен finetune retrieval (см. Embeddings).
  • ruMTEB ≠ MERA: MERA оценивает генеративные LLM, ruMTEB — именно embedding-модели для retrieval.

Связано с

  • Embeddings — что такое эмбеддинги (базовый стабильный концепт)
  • RAG — где embedding-модель работает (retrieval-слой)
  • Model Selection — общий выбор модели под задачу; здесь — частный случай для RU embedding-моделей

Открытые вопросы

  • как проверить выбранную embedding-модель на своём доменном RU/RU+EN корпусе (domain-specific eval; нужен ли finetune retrieval)?