AgentOps

Суть

Собрать агента на демо легко; довести до реального бизнеса — тяжело. Прод ставит вопросы инфры: как понять, что агент приносит пользу, где он деградирует, почему вырос счёт. AgentOps — это рамка непрерывного улучшения: что-то делаем → замеряем → корректируем → снова делаем. Главный сдвиг мышления: агент — это система принятия решений, а не «умный чат», поэтому эксплуатировать его надо как систему, а не «вроде отвечает нормально».

Почему агенты ломаются в проде (таксономия отказов)

Каскадные галлюцинации — агент придумывает несуществующий факт (например, SKU товара) и передаёт его дальше по цепочке API. Система не падает — результат просто становится неверным, а агент «уверен», что всё сделал правильно.
Runaway / бесконечные циклы — нет явных stopping criteria: инструмент возвращает ошибку → бесконечный retry; цель недостижима → агент перебирает стратегии; баг в tool → зацикливание на одном действии (подробнее в Agent CostControl).
Переполнение контекста — в долгих диалогах (10+ шагов) агент «захлёбывается» нерелевантной информацией и теряет исходную цель.
Коррупция памяти — ошибочные данные, записанные в memory, сохраняются между сессиями и портят будущие решения.
Скрытая недетерминированность — вариативность задержек инструментов и сэмплинга LLM: один и тот же запрос обрабатывается разными путями.

Общее у всех: стандартный мониторинг (Prometheus: CPU/RAM/HTTP) их не ловит — нужны AI-специфичные метрики и трейсинг каждого шага (Agent Observability).

Три пиллара AgentOps

Observability — видеть, что происходит внутри: трейсинг шагов, tool calls, latency, ошибки. Отвечает на «почему агент принял это решение / где сломался» (Agent Observability, инструменты — LangSmith vs Langfuse).
Evals — измеримая оценка качества: от мини-метрик и DoD (Agent Evals) до агентных метрик (DeepEval Agentic Metrics) и судьи (LLM as Judge).
Cost control — бюджеты и защита от runaway/Token DoS, маршрутизация дешёвых/дорогих моделей (Agent CostControl, Agent Routing).

Связка пилларов: трейс деградации метрики → алерт → расследование → фикс → новый прогон evals перед деплоем. Девиз: «процесс важнее инструмента» — простые программные проверки лучше, чем сразу городить сложный self-hosted Langfuse.

Пример

Кейс «мониторинг цен Wildberries» (демо лекции): агентный workflow парсит WB и пишет в Google Sheets.

Agentic scraping — Firecrawl обходит защиты и тащит динамические DOM-контейнеры (цена, материал, фото, SKU).
Обработка — модель DeepSeek V4 переводит описания и считает цены по формулам клиента.
Трейсинг в Langfuse — каждый tool call и шаг перевода фиксируется для анализа задержек/ошибок.

Метрики кейса: Health Score 1.0 (все товары обработаны), ~1 мин/SKU против 5 мин у человека, **$0.012/позиция**.

Контрпример без AgentOps — кейс «пятничный деплой»: агент из-за бага ушёл в бесконечный цикл, сделал 14 000 API-вызовов, сжёг 380 млн токенов и $12 400 за выходные; CPU/RAM при этом были в норме (см. Agent CostControl).

Связано с

Agent Observability — первый пиллар: трейсинг и почему классический мониторинг слеп
Agent Evals — второй пиллар: измеримая оценка качества
Agent CostControl — третий пиллар: бюджеты, Token DoS, runaway
LLM as Judge — автоматизация оценки качества судьёй
LangSmith vs Langfuse — инструменты observability

Открытые вопросы

с чего начинать AgentOps на маленьком проекте — минимальный набор метрик и алертов
как считать baseline для AI-специфичных метрик на старте