status/volatile Юридические нормы РФ (ФЗ, суммы штрафов, требования регуляторов) и статистика утечек меняются. Ревизия раз в квартал.
Суть
DLP для AI встраивается прямо в пайплайн и перехватывает данные до того, как они попали в модель (и на выходе). Это обязательный слой продакшн-агента на территории РФ при доступе многих пользователей.
Зачем это нужно
Статистика: 13% корпоративных запросов к AI-чатботам содержат риски (PII, платёжные данные, секреты, внутренние URL). Harmonic: Q4-2024 — 8,5% промптов с чувствительными данными; Q2-2025 — 4,37% промптов + 22% загруженных файлов; ChatGPT даёт >70% случаев утечки. Нарушение ФЗ-152 с 2025 — штраф до 15 млн руб.
Как работает
3 типа DLP:
- Endpoint DLP — защита на устройствах (ноутбуки, ПК, мобильные): мониторинг доступа, копирования, передачи файлов.
- Network DLP — данные в движении: почта, мессенджеры, файлы, интернет-трафик.
- Cloud DLP — данные в SaaS: Microsoft 365, Google Workspace, Dropbox.
3 точки перехвата в пайплайне:
- Pre-prompt scanning (до LLM) — детект ФИО, карт, телефонов, email, паспортных данных → маскирование (
Иван Петров → <PERSON>) или блокировка запроса (см. PII Anonymization). - Retrieval filtering (при RAG) — фильтр результатов поиска до контекста: документ с зарплатами может найтись, но не должен уйти в промпт (RAG Poisoning).
- Output redaction (перед ответом) — финальный ответ проверяется: LLM иногда «вспоминает» обучающие данные или воспроизводит данные из RAG — их перехватывают на выходе.
Юридический контур РФ:
- DLP-политики определяются 3 уровнями: федеральные законы, требования регуляторов (ФСТЭК, ФСБ), внутренние стандарты.
- Ключевые нормы: ФЗ-152 (ПДн), ФЗ-149 (информация), приказ ФСТЭК №21 (audit log, ролевая модель доступа), №98 (коммерческая тайна), ФЗ-420/2025 (штрафы, регистрация в Роскомнадзоре).
- Локализация: все ПДн — на серверах РФ (Yandex Cloud, SberCloud, MTS Cloud, Selectel; self-hosted Llama/GigaChat). OpenAI API — только после Presidio-анонимизации.
- Уведомления при утечке (ФЗ-152 ст.21): Роскомнадзор за 24 ч, пострадавших за 72 ч.
- Ролевая модель доступа (пример): LLM-агент поддержки — PII только Masked; RAG-индексатор — нет доступа к PII; ИБ-админ — полный.
Связано с
- PII Anonymization — инструмент pre-prompt scanning (Presidio)
- Guardrails — DLP как часть Input/Output слоёв
- RAG Poisoning — retrieval filtering как точка перехвата
- Agent CostControl — DLP-слой добавляет ~80 мс latency («налог на безопасность»)
- Agent Security — место DLP в защите данных
Открытые вопросы
- Как организовать data residency и аудит-логи без чрезмерного оверхеда для небольшой команды?