Agent Routing

Маршрутизация — направлять 80% запросов на дешёвую модель, эскалируя сложные на дорогую, сохраняя 95%+ качества. Это «архитектурное решение, а не оптимизация»: меняет unit-экономику агента (экономия 45–85%).

Суть

Типичная ошибка — одна (самая мощная) модель на всё: «который час?» и «напиши алгоритм» стоят одинаково дорого. Роутер оценивает сложность запроса и выбирает модель.

Зачем это нужно

Разница цены Tier 1 vs Tier 3 — 17–19×, а на простых задачах (классификация/FAQ) gap качества < 2%. Без роутинга платишь флагман-цену за тривиальное.

Как работает (3 способа + cascade)

  • Rule-based — ключевые слова/длина/тип задачи → cheap/expensive. Просто, предсказуемо, негибко.
  • Classifier-based — мини-модель оценивает simple/complex/ambiguous. Гибко, нужны данные.
  • Cascade (самый популярный в проде): cheap-модель → возвращает ответ + confidence score (0.0–1.0) → если ≥ порога отдаём, иначе эскалируем на дорогую.
  • Порог (старт 0.85) калибруется экспериментом на 100–200 реальных запросах (LLM-judge), не «на глаз».
  • Confidence получают через structured output (JSON: {answer, confidence, reason}).
  • Budget-aware (см. Agent CostControl): при остатке бюджета <30% — форсим cheap + уведомляем; <10% — только простые запросы.
  • Реализация в LangGraph: роутинг = условное ребро (add_conditional_edges), где функция-маршрутизатор возвращает имя следующего узла; решением может быть и выбор LLM. Практический intent-router двухуровневый (intent → ветка, затем внутри ветки — следующее решение) — см. LangGraph Intent Router, LangGraph Nodes and Edges.

Альтернативный взгляд

У Прошинского роутер — про экономику (cascade по confidence, 80% на дешёвую модель). У Стурейко роутер — это Intent / Task Router: лёгкая классификация запроса («объясни термин», «дай план», «сделай отчёт», «найди в документах», «диагностика») → выбор сценария ответа, шаблона и источника контекста, а не модели. Плюс роутер работает как guardrail: отсекает вредные запросы и prompt-injection ещё до «мозга» (policy before reasoning, см. Guardrails). Цена ошибки: ошибся роутер → ассистент «делает не то» (вместо отчёта выдаёт теорию).

Связано с

Открытые вопросы

  • как калибровать порог под свой домен
  • confidence от самой модели — насколько ему доверять