Заметка содержит быстро устаревающие данные (лидерборд ruMTEB, конкретные модели и баллы) — status/volatile. Сверяй актуальный лидерборд при ревизии.
Суть
Общая концепция эмбеддингов — в Embeddings. Здесь — прикладной слой: какие модели реально брать под RU/RU+EN и как это проверять. Retrieval-качество меряют на ruMTEB; конкретные лидеры меняются, поэтому заметка volatile.
Зачем это нужно
Качество retrieval критичнее качества LLM («мусор на входе = мусор на выходе», см. RAG), а на русском общеязыковые англо-центричные модели часто проседают. Правильный выбор embedding-модели под RU напрямую поднимает recall и точность поиска.
Как работает (выбор)
Бенчмарк ruMTEB — RU-расширение MTEB: 23 датасета / 7 категорий (Classification, Clustering, MultiLabelCls, PairCls, Reranking, Retrieval, STS). Метрики: nDCG@10 (retrieval), MAP@10 (reranking), Spearman (STS), Accuracy (classification).
Текущие лидеры (на момент источников, ⚠️ быстро устаревает):
Модель ruMTEB avg Заметка GigaEmbeddings (на базе GigaChat-3B) ~69.1 SOTA на ruMTEB; vendor — Sber E5-mistral-7b-instruct 67.18 сильная multilingual-instruct mE5-large-instruct 66.03 multilingual-instruct ru-en-RoSBERTa 61.77 RU-фокус, наравне с BGE-M3 BGE-M3 61.58 популярная multilingual (dense+sparse+colbert) Критерии выбора под RU/RU+EN корпус:
- бюджет памяти (ср. размеры Qwen3-emb в Embeddings) против качества;
- multilingual vs RU-специализированная — для смешанного RU+EN важна устойчивость на обоих языках;
- не верить одной цифре лидерборда — проверять на своём домене (см. открытый вопрос);
- доменная терминология (мед./юр.) → возможен finetune retrieval (см. Embeddings).
ruMTEB ≠ MERA: MERA оценивает генеративные LLM, ruMTEB — именно embedding-модели для retrieval.
Связано с
- Embeddings — что такое эмбеддинги (базовый стабильный концепт)
- RAG — где embedding-модель работает (retrieval-слой)
- Model Selection — общий выбор модели под задачу; здесь — частный случай для RU embedding-моделей
Открытые вопросы
- как проверить выбранную embedding-модель на своём доменном RU/RU+EN корпусе (domain-specific eval; нужен ли finetune retrieval)?