LLM as Judge

Оценка качества ответов более умной (или просто другой) моделью-судьёй по заданным критериям. Опирается на эмпирический факт: оценивать проще, чем генерировать — если дать модели чёткие критерии, она выносит вердикт не хуже эксперта. Это reference-free метод: эталонный ответ не нужен, в отличие от классических метрик (BLEU/ROUGE/BERTScore).

Суть

Когда нет ground truth (а в агентных задачах его обычно нет), качество измеряют не сравнением со строкой-эталоном, а суждением модели: «насколько ответ точен / полон / в нужном тоне». Судьёй может быть более мощная модель (GPT-4o, Claude) либо более простая — в зависимости от задачи и бюджета.

Две семьи метрик оценки

Reference-based (нужен эталон):

  • BLEU — точность совпадения n-грамм, хорошо для перевода.
  • ROUGE — recall-ориентированная (ROUGE-1/2/L), для саммаризации.
  • BERTScore — семантическое сходство через эмбеддинги, лучше BLEU на длинных текстах.
  • (+ METEOR, MoverScore, BLEURT и др. — полный список ссылок в Источниках.)

Reference-free (эталон не нужен):

  • LLM-as-Judge — модель оценивает ответ по критериям (бинарно 0/1 или градиентно 1–5).
  • G-Eval — оценка через цепочку рассуждений (Chain-of-thought) судьи.
  • Task-specific — кастомные метрики: точность извлечения данных, соответствие тону компании, latency, cost.

Принципы (как делать судью надёжным)

  • Бинарность лучше градиента — шкалы PASS/FAIL (Да/Нет, 0/1) проще согласовать и между людьми, и между LLM и человеком, чем «оценка 7 из 10».
  • Калибровка судьи — модель-судью калибруют на небольшом датасете, размеченном человеком-экспертом, иначе её вердикты смещены.
  • Чёткие критерии вместо «общих» — для нишевого домена вместе с экспертом продумывают, что есть «хорошо/плохо», а не берут средневзвешенные метрики.
  • CoT + структурный вывод — судья рассуждает по шагам и отдаёт JSON-вердикт (удобно парсить и агрегировать).
  • Судья ≠ самооценка — нельзя просить модель оценивать собственный вывод: «агенты уверенно хвалят свою работу, даже посредственную». Судья должен быть внешним (см. Generator Evaluator). Где есть объективная проверка (код, тесты) — она предпочтительнее судьи (детерминизм дешевле и надёжнее).
  • Гибридное будущее — LLM Juries (коллегии судей) для сложных случаев; «trust or escalate»: маленькие модели (~3B) берут 80% рутинных оценок, тяжеловесы подключаются при сомнении; кросс-валидация автоматическими метриками (BERTScore) на фактологии.

Связано с

  • Agent Evals — судья автоматизирует answer_grounded и метрики качества
  • Generator Evaluator — паттерн «генератор + внешний судья», почему самооценке нельзя верить
  • DeepEval Agentic Metrics — почти все метрики DeepEval работают через LLM-as-judge
  • RAG Metrics — RAGAS использует судью без ground truth

Открытые вопросы

  • насколько confidence самого судьи можно доверять без калибровки
  • когда reference-based (BERTScore) надёжнее судьи, а когда наоборот