Суть
Пассивный риск (модель просто генерирует текст) превращается в активный (модель совершает действия). Чат-бот мог в худшем случае «сказать лишнее»; агент с инструментами может выполнить вредную команду: прочитать .env, отправить данные на внешний адрес, списать деньги. Поэтому безопасность агента — это не «фильтр на ответ», а сквозная дисциплина на всех слоях: вход → действие → выход.
Зачем это нужно
- Бизнес уходит от «личного агента в песочнице» к командным/клиентским сценариям, где нужны строгие меры (изоляция хост-машины, контроль прав).
- Появились бенчмарки агентной безопасности (например, AgentDojo — измеряет, как часто агента можно принудить к вредному действию).
- Без security-контура внедрение разворачивается: по прогнозу Gartner, 40% предприятий к 2027 году понизят статус или выведут автономных агентов из-за production-инцидентов (см. Agent Governance).
Как работает (карта темы)
Модель угроз (threat model) — систематизация поверхностей атаки и того, что именно нарушается:
| Тип атаки | Что нарушается | Корневая причина |
|---|---|---|
| Jailbreak Attacks | Контентная политика провайдера | Alignment обходится через перефрейминг |
| Prompt Injection | Намерение приложения (principal intent) | Модель не отличает данные от команд |
| Tool Hijacking | Права и действия агента (Excessive Agency) | Слишком много прав у инструментов |
| Data Exfiltration | Конфиденциальность данных | Нет фильтра на выходе / DLP |
| RAG Poisoning | Целостность базы знаний | Недоверенный контент влияет на flow |
Слои защиты (от дешёвых к серьёзным):
- Гигиена ур. 0 — spotlighting, делимитеры, prompt sandwiching (см. Guardrails).
- Многослойные Guardrails — Input / Action / Output / Format.
- Детекция инъекций — Injection Detection (ML-классификаторы, бинарный сигнал).
- Архитектурное разделение — Dual LLM CaMeL.
- Изоляция исполнения — Agent Sandboxing (Firecracker microVM).
- Защита данных — DLP for LLM + PII Anonymization.
- Управление парком агентов — Agent Governance.
Связано с
- Prompt Injection — главный вектор (OWASP №1)
- Guardrails — основной слой защиты, уже существовавшая заметка, дополнена этой партией
- Agent Governance — организационный слой: уровни автономии
- Computer Use — частный случай: угрозы агента, управляющего экраном (Confused Deputy)
- Agent Evals —
no_policy_violationи security-эвалюация
Открытые вопросы
- Как выстроить полноценный red-team набор атак для регрессионного тестирования агента?
- Где проходит граница «достаточной» защиты для агента уровня 2-3 автономии?