DeepEval Agentic Metrics

Суть

Когда агент ходит в инструменты и выполняет многошаговые задачи, метрик уровня «релевантность ответа» мало — надо оценивать траекторию: какие инструменты вызваны, в правильном ли порядке, с правильными ли аргументами, доведена ли задача до результата. DeepEval даёт под это готовый каталог.

Agentic-метрики (ядро)

Task Completion — насколько эффективно агент выполнил задачу. Обязательные параметры: запрос пользователя, окончательный ответ, список вызванных инструментов. LLM извлекает задачу/результат/инструменты и выносит вердикт: какие инструменты вызваны и насколько полезную информацию дали.
Tool Correctness — правильность использования инструментов: отношение реальных вызовов к ожидаемым. Может проверять и правильный порядок вызовов. Параметры: запрос, список ожидаемых инструментов, список фактически вызванных.
Argument Correctness — соответствуют ли аргументы вызова инструмента запросу пользователя. Возвращает yes/no.

Другие группы метрик

MCP (оценка работы через Model Context Protocol, см. MCP): MCP-Use, Multi-Turn MCP-Use (доля корректных вызовов примитивов/аргументов к общему числу взаимодействий с MCP-сервером), MCP Task Completion.
Multi-Turn (диалоги): Turn Relevancy, Role Adherence, Knowledge Retention, Conversation Completeness.
Safety: Bias, Toxicity, Non-Advice, Misuse, PII Leakage, Role Violation.
Others: Summarization, Prompt Alignment, Hallucination, JSON Correctness.
Multimodal: Image Coherence/Helpfulness/Reference, Multimodal Answer Relevancy/Faithfulness и др.

DeepEval vs RAGAS

RAGAS — стандарт де-факто для оценки именно RAG («триада»: Faithfulness, Answer/Context Relevancy), оценка LLM-судьёй без ground truth (см. RAG Metrics).
DeepEval — шире: pytest-native регресс-тесты, span-level scoring трейсов, агентные и MCP-метрики, генерация синтетических датасетов. Заточен встраиваться в инженерный процесс (CI/CD), а не только мерить retrieval.

Связано с

Agent Evals — агентные метрики как следующий уровень после мини-метрик и DoD
LLM as Judge — механизм, на котором работают метрики DeepEval
RAG Metrics — RAGAS/DeepEval для RAG; здесь — агентный угол
MCP — что оценивают MCP-метрики

Открытые вопросы

какие 3-4 агентные метрики ставить в CI/CD на старте, чтобы не утонуть в каталоге
насколько Tool Correctness устойчива, когда у задачи несколько валидных путей по инструментам