Суть
Когда нет ground truth (а в агентных задачах его обычно нет), качество измеряют не сравнением со строкой-эталоном, а суждением модели: «насколько ответ точен / полон / в нужном тоне». Судьёй может быть более мощная модель (GPT-4o, Claude) либо более простая — в зависимости от задачи и бюджета.
Две семьи метрик оценки
Reference-based (нужен эталон):
- BLEU — точность совпадения n-грамм, хорошо для перевода.
- ROUGE — recall-ориентированная (ROUGE-1/2/L), для саммаризации.
- BERTScore — семантическое сходство через эмбеддинги, лучше BLEU на длинных текстах.
- (+ METEOR, MoverScore, BLEURT и др. — полный список ссылок в Источниках.)
Reference-free (эталон не нужен):
- LLM-as-Judge — модель оценивает ответ по критериям (бинарно 0/1 или градиентно 1–5).
- G-Eval — оценка через цепочку рассуждений (Chain-of-thought) судьи.
- Task-specific — кастомные метрики: точность извлечения данных, соответствие тону компании, latency, cost.
Принципы (как делать судью надёжным)
- Бинарность лучше градиента — шкалы PASS/FAIL (Да/Нет, 0/1) проще согласовать и между людьми, и между LLM и человеком, чем «оценка 7 из 10».
- Калибровка судьи — модель-судью калибруют на небольшом датасете, размеченном человеком-экспертом, иначе её вердикты смещены.
- Чёткие критерии вместо «общих» — для нишевого домена вместе с экспертом продумывают, что есть «хорошо/плохо», а не берут средневзвешенные метрики.
- CoT + структурный вывод — судья рассуждает по шагам и отдаёт JSON-вердикт (удобно парсить и агрегировать).
- Судья ≠ самооценка — нельзя просить модель оценивать собственный вывод: «агенты уверенно хвалят свою работу, даже посредственную». Судья должен быть внешним (см. Generator Evaluator). Где есть объективная проверка (код, тесты) — она предпочтительнее судьи (детерминизм дешевле и надёжнее).
- Гибридное будущее — LLM Juries (коллегии судей) для сложных случаев; «trust or escalate»: маленькие модели (~3B) берут 80% рутинных оценок, тяжеловесы подключаются при сомнении; кросс-валидация автоматическими метриками (BERTScore) на фактологии.
Связано с
- Agent Evals — судья автоматизирует
answer_groundedи метрики качества - Generator Evaluator — паттерн «генератор + внешний судья», почему самооценке нельзя верить
- DeepEval Agentic Metrics — почти все метрики DeepEval работают через LLM-as-judge
- RAG Metrics — RAGAS использует судью без ground truth
Открытые вопросы
- насколько confidence самого судьи можно доверять без калибровки
- когда reference-based (BERTScore) надёжнее судьи, а когда наоборот