RU Embedding Model Selection

Заметка содержит быстро устаревающие данные (лидерборд ruMTEB, конкретные модели и баллы) — status/volatile. Сверяй актуальный лидерборд при ревизии.

Суть

Общая концепция эмбеддингов — в Embeddings. Здесь — прикладной слой: какие модели реально брать под RU/RU+EN и как это проверять. Retrieval-качество меряют на ruMTEB; конкретные лидеры меняются, поэтому заметка volatile.

Зачем это нужно

Качество retrieval критичнее качества LLM («мусор на входе = мусор на выходе», см. RAG), а на русском общеязыковые англо-центричные модели часто проседают. Правильный выбор embedding-модели под RU напрямую поднимает recall и точность поиска.

Как работает (выбор)

Бенчмарк ruMTEB — RU-расширение MTEB: 23 датасета / 7 категорий (Classification, Clustering, MultiLabelCls, PairCls, Reranking, Retrieval, STS). Метрики: nDCG@10 (retrieval), MAP@10 (reranking), Spearman (STS), Accuracy (classification).

Текущие лидеры (на момент источников, ⚠️ быстро устаревает):

Модель	ruMTEB avg	Заметка
GigaEmbeddings (на базе GigaChat-3B)	~69.1	SOTA на ruMTEB; vendor — Sber
E5-mistral-7b-instruct	67.18	сильная multilingual-instruct
mE5-large-instruct	66.03	multilingual-instruct
ru-en-RoSBERTa	61.77	RU-фокус, наравне с BGE-M3
BGE-M3	61.58	популярная multilingual (dense+sparse+colbert)

Критерии выбора под RU/RU+EN корпус:
- бюджет памяти (ср. размеры Qwen3-emb в Embeddings) против качества;
- multilingual vs RU-специализированная — для смешанного RU+EN важна устойчивость на обоих языках;
- не верить одной цифре лидерборда — проверять на своём домене (см. открытый вопрос);
- доменная терминология (мед./юр.) → возможен finetune retrieval (см. Embeddings).
ruMTEB ≠ MERA: MERA оценивает генеративные LLM, ruMTEB — именно embedding-модели для retrieval.

Связано с

Embeddings — что такое эмбеддинги (базовый стабильный концепт)
RAG — где embedding-модель работает (retrieval-слой)
Model Selection — общий выбор модели под задачу; здесь — частный случай для RU embedding-моделей

Открытые вопросы

как проверить выбранную embedding-модель на своём доменном RU/RU+EN корпусе (domain-specific eval; нужен ли finetune retrieval)?