Agent Security

Суть

Пассивный риск (модель просто генерирует текст) превращается в активный (модель совершает действия). Чат-бот мог в худшем случае «сказать лишнее»; агент с инструментами может выполнить вредную команду: прочитать .env, отправить данные на внешний адрес, списать деньги. Поэтому безопасность агента — это не «фильтр на ответ», а сквозная дисциплина на всех слоях: вход → действие → выход.

Зачем это нужно

Бизнес уходит от «личного агента в песочнице» к командным/клиентским сценариям, где нужны строгие меры (изоляция хост-машины, контроль прав).
Появились бенчмарки агентной безопасности (например, AgentDojo — измеряет, как часто агента можно принудить к вредному действию).
Без security-контура внедрение разворачивается: по прогнозу Gartner, 40% предприятий к 2027 году понизят статус или выведут автономных агентов из-за production-инцидентов (см. Agent Governance).

Как работает (карта темы)

Модель угроз (threat model) — систематизация поверхностей атаки и того, что именно нарушается:

Тип атаки	Что нарушается	Корневая причина
Jailbreak Attacks	Контентная политика провайдера	Alignment обходится через перефрейминг
Prompt Injection	Намерение приложения (principal intent)	Модель не отличает данные от команд
Tool Hijacking	Права и действия агента (Excessive Agency)	Слишком много прав у инструментов
Data Exfiltration	Конфиденциальность данных	Нет фильтра на выходе / DLP
RAG Poisoning	Целостность базы знаний	Недоверенный контент влияет на flow

Слои защиты (от дешёвых к серьёзным):

Гигиена ур. 0 — spotlighting, делимитеры, prompt sandwiching (см. Guardrails).
Многослойные Guardrails — Input / Action / Output / Format.
Детекция инъекций — Injection Detection (ML-классификаторы, бинарный сигнал).
Архитектурное разделение — Dual LLM CaMeL.
Изоляция исполнения — Agent Sandboxing (Firecracker microVM).
Защита данных — DLP for LLM + PII Anonymization.
Управление парком агентов — Agent Governance.

Связано с

Prompt Injection — главный вектор (OWASP №1)
Guardrails — основной слой защиты, уже существовавшая заметка, дополнена этой партией
Agent Governance — организационный слой: уровни автономии
Computer Use — частный случай: угрозы агента, управляющего экраном (Confused Deputy)
Agent Evals — no_policy_violation и security-эвалюация

Открытые вопросы

Как выстроить полноценный red-team набор атак для регрессионного тестирования агента?
Где проходит граница «достаточной» защиты для агента уровня 2-3 автономии?