Prompt Tuning

Суть

Аддитивный метод (упрощённая версия prefix tuning): перед основным промптом ставятся виртуальные токены — непрерывные векторы, не являющиеся реальными словами. Через backpropagation обновляются только их эмбеддинги, направляя замороженную модель к нужному выводу. Аналогия из материала: «вшить сотруднику рефлекс» — модель действует «по-вашему», даже не думая об этом.

Зачем это нужно

Закрывает разрыв в иерархии дообучения: когда промпт-инжиниринга уже мало (нужен стабильный стиль/формат), а полный fine-tuning избыточно дорог. Это альтернатива бинарному выбору «промпт vs дообучение», который раньше встречался в материалах по RAG.

Как работает (иерархия выбора)

Ситуация	Рекомендация	Почему
Прототип / MVP	Prompt Engineering	Быстро, ноль затрат, гибко (выбирается в ~90% случаев)
Нужны актуальные данные	RAG	Модель не переобучается (RAG)
Конкретный стиль/формат	Prompt Tuning	Дешевле fine-tuning (~5-8% случаев, от 200-500 примеров)
Узкий домен (медицина, юр.)	Fine-tuning	Точность на специфике (~0.01-1%)
Low latency, нет RAG	Fine-tuning	Знание «зашито» в веса
Регулируемая отрасль	Fine-tuning / RAG	Полный контроль над моделью

Главное правило: всегда начинать с Prompt Engineering; переходить к Prompt Tuning только когда есть реальные данные о том, где модель ошибается — и эти ошибки нельзя исправить редактированием текста инструкции. Prompt tuning нужен для одной задачи с высоким качеством (для 2-3 задач — разные ветки).

Эволюция промптов (бонус, «писать промпты не модно»): самообучающиеся промпты через HADI-циклы — GEPA (эволюция с Парето-фронтиром), DSPy (программирование вместо текста), APE (LLM сама генерирует/отбирает инструкции), OPRO (оптимизация по истории попыток), STaR / ReST.

Связано с

Prompt Engineering — стартовый уровень, из которого вырастает prompt tuning
RAG — альтернатива для «актуальных данных» в той же иерархии
Agent Security — лекция-источник («Безопасность и оптимизация»), где prompt tuning — часть блока оптимизации

Открытые вопросы

PEFT-реализация (HuggingFace) prompt/prefix tuning — порог по объёму данных, при котором это окупается?
Где практичнее DSPy vs ручной prompt tuning?