DeepEval Agentic Metrics

Специализированные метрики DeepEval для оценки поведения агента, а не только текста ответа: насколько эффективно выполнена задача, правильно ли выбраны инструменты и аргументы. Позиционирование: RAGAS отвечает на вопрос «насколько хорош мой RAG», а DeepEval — «как встроить проверку AI-качества в инженерный процесс» (регресс-тесты в CI/CD). Почти все метрики работают через LLM as Judge.

Суть

Когда агент ходит в инструменты и выполняет многошаговые задачи, метрик уровня «релевантность ответа» мало — надо оценивать траекторию: какие инструменты вызваны, в правильном ли порядке, с правильными ли аргументами, доведена ли задача до результата. DeepEval даёт под это готовый каталог.

Agentic-метрики (ядро)

  • Task Completion — насколько эффективно агент выполнил задачу. Обязательные параметры: запрос пользователя, окончательный ответ, список вызванных инструментов. LLM извлекает задачу/результат/инструменты и выносит вердикт: какие инструменты вызваны и насколько полезную информацию дали.
  • Tool Correctness — правильность использования инструментов: отношение реальных вызовов к ожидаемым. Может проверять и правильный порядок вызовов. Параметры: запрос, список ожидаемых инструментов, список фактически вызванных.
  • Argument Correctness — соответствуют ли аргументы вызова инструмента запросу пользователя. Возвращает yes/no.

Другие группы метрик

  • MCP (оценка работы через Model Context Protocol, см. MCP): MCP-Use, Multi-Turn MCP-Use (доля корректных вызовов примитивов/аргументов к общему числу взаимодействий с MCP-сервером), MCP Task Completion.
  • Multi-Turn (диалоги): Turn Relevancy, Role Adherence, Knowledge Retention, Conversation Completeness.
  • Safety: Bias, Toxicity, Non-Advice, Misuse, PII Leakage, Role Violation.
  • Others: Summarization, Prompt Alignment, Hallucination, JSON Correctness.
  • Multimodal: Image Coherence/Helpfulness/Reference, Multimodal Answer Relevancy/Faithfulness и др.

DeepEval vs RAGAS

  • RAGAS — стандарт де-факто для оценки именно RAG («триада»: Faithfulness, Answer/Context Relevancy), оценка LLM-судьёй без ground truth (см. RAG Metrics).
  • DeepEval — шире: pytest-native регресс-тесты, span-level scoring трейсов, агентные и MCP-метрики, генерация синтетических датасетов. Заточен встраиваться в инженерный процесс (CI/CD), а не только мерить retrieval.

Связано с

  • Agent Evals — агентные метрики как следующий уровень после мини-метрик и DoD
  • LLM as Judge — механизм, на котором работают метрики DeepEval
  • RAG Metrics — RAGAS/DeepEval для RAG; здесь — агентный угол
  • MCP — что оценивают MCP-метрики

Открытые вопросы

  • какие 3-4 агентные метрики ставить в CI/CD на старте, чтобы не утонуть в каталоге
  • насколько Tool Correctness устойчива, когда у задачи несколько валидных путей по инструментам