Agent Security

Безопасность агента — это защита активного исполнителя, а не пассивного чат-бота. Как только LLM получает «руки» (инструменты: API, БД, исполнение кода, отправка писем), каждый инструмент становится новой поверхностью атаки и новым способом потерять данные или деньги. Prompt injection — риск №1 в OWASP LLM Top-10 два издания подряд (2024, 2025). Это хаб-заметка по теме.

Суть

Пассивный риск (модель просто генерирует текст) превращается в активный (модель совершает действия). Чат-бот мог в худшем случае «сказать лишнее»; агент с инструментами может выполнить вредную команду: прочитать .env, отправить данные на внешний адрес, списать деньги. Поэтому безопасность агента — это не «фильтр на ответ», а сквозная дисциплина на всех слоях: вход → действие → выход.

Зачем это нужно

  • Бизнес уходит от «личного агента в песочнице» к командным/клиентским сценариям, где нужны строгие меры (изоляция хост-машины, контроль прав).
  • Появились бенчмарки агентной безопасности (например, AgentDojo — измеряет, как часто агента можно принудить к вредному действию).
  • Без security-контура внедрение разворачивается: по прогнозу Gartner, 40% предприятий к 2027 году понизят статус или выведут автономных агентов из-за production-инцидентов (см. Agent Governance).

Как работает (карта темы)

Модель угроз (threat model) — систематизация поверхностей атаки и того, что именно нарушается:

Тип атаки Что нарушается Корневая причина
Jailbreak Attacks Контентная политика провайдера Alignment обходится через перефрейминг
Prompt Injection Намерение приложения (principal intent) Модель не отличает данные от команд
Tool Hijacking Права и действия агента (Excessive Agency) Слишком много прав у инструментов
Data Exfiltration Конфиденциальность данных Нет фильтра на выходе / DLP
RAG Poisoning Целостность базы знаний Недоверенный контент влияет на flow

Слои защиты (от дешёвых к серьёзным):

  • Гигиена ур. 0 — spotlighting, делимитеры, prompt sandwiching (см. Guardrails).
  • Многослойные Guardrails — Input / Action / Output / Format.
  • Детекция инъекций — Injection Detection (ML-классификаторы, бинарный сигнал).
  • Архитектурное разделение — Dual LLM CaMeL.
  • Изоляция исполнения — Agent Sandboxing (Firecracker microVM).
  • Защита данных — DLP for LLM + PII Anonymization.
  • Управление парком агентов — Agent Governance.

Связано с

  • Prompt Injection — главный вектор (OWASP №1)
  • Guardrails — основной слой защиты, уже существовавшая заметка, дополнена этой партией
  • Agent Governance — организационный слой: уровни автономии
  • Computer Use — частный случай: угрозы агента, управляющего экраном (Confused Deputy)
  • Agent Evals — no_policy_violation и security-эвалюация

Открытые вопросы

  • Как выстроить полноценный red-team набор атак для регрессионного тестирования агента?
  • Где проходит граница «достаточной» защиты для агента уровня 2-3 автономии?