Суть
Когда агент ходит в инструменты и выполняет многошаговые задачи, метрик уровня «релевантность ответа» мало — надо оценивать траекторию: какие инструменты вызваны, в правильном ли порядке, с правильными ли аргументами, доведена ли задача до результата. DeepEval даёт под это готовый каталог.
Agentic-метрики (ядро)
- Task Completion — насколько эффективно агент выполнил задачу. Обязательные параметры: запрос пользователя, окончательный ответ, список вызванных инструментов. LLM извлекает задачу/результат/инструменты и выносит вердикт: какие инструменты вызваны и насколько полезную информацию дали.
- Tool Correctness — правильность использования инструментов: отношение реальных вызовов к ожидаемым. Может проверять и правильный порядок вызовов. Параметры: запрос, список ожидаемых инструментов, список фактически вызванных.
- Argument Correctness — соответствуют ли аргументы вызова инструмента запросу пользователя. Возвращает
yes/no.
Другие группы метрик
- MCP (оценка работы через Model Context Protocol, см. MCP): MCP-Use, Multi-Turn MCP-Use (доля корректных вызовов примитивов/аргументов к общему числу взаимодействий с MCP-сервером), MCP Task Completion.
- Multi-Turn (диалоги): Turn Relevancy, Role Adherence, Knowledge Retention, Conversation Completeness.
- Safety: Bias, Toxicity, Non-Advice, Misuse, PII Leakage, Role Violation.
- Others: Summarization, Prompt Alignment, Hallucination, JSON Correctness.
- Multimodal: Image Coherence/Helpfulness/Reference, Multimodal Answer Relevancy/Faithfulness и др.
DeepEval vs RAGAS
- RAGAS — стандарт де-факто для оценки именно RAG («триада»: Faithfulness, Answer/Context Relevancy), оценка LLM-судьёй без ground truth (см. RAG Metrics).
- DeepEval — шире: pytest-native регресс-тесты, span-level scoring трейсов, агентные и MCP-метрики, генерация синтетических датасетов. Заточен встраиваться в инженерный процесс (CI/CD), а не только мерить retrieval.
Связано с
- Agent Evals — агентные метрики как следующий уровень после мини-метрик и DoD
- LLM as Judge — механизм, на котором работают метрики DeepEval
- RAG Metrics — RAGAS/DeepEval для RAG; здесь — агентный угол
- MCP — что оценивают MCP-метрики
Открытые вопросы
- какие 3-4 агентные метрики ставить в CI/CD на старте, чтобы не утонуть в каталоге
- насколько Tool Correctness устойчива, когда у задачи несколько валидных путей по инструментам