Encoder vs Decoder

Суть

Свойство	Encoder (BERT)	Decoder (GPT/Claude)
Attention	bidirectional (видит всё)	causal (только прошлое)
Задача обучения	заполнить `[MASK]` (MLM)	предсказать следующий токен
Выход	векторы (понимание)	токены (генерация)
Применение	embeddings, классификация	диалог, генерация

Зачем это нужно

Объясняет, почему для RAG-эмбеддингов берут потомков BERT, а для генерации — GPT/Claude, и почему decoder-only «победили» в эпоху чат-моделей. Термины обманчивы: encoder ≈ «Understander» (текст → смысл-вектор), decoder ≈ «Generator» (смысл → текст); названия пришли из машинного перевода 2017.

Как работает

Encoder (BERT, 2018): предобучение через MLM — маскируют 15% токенов, модель угадывает их; маска заставляет использовать контекст с обеих сторон → двунаправленность. Парадигма pretrain + fine-tune, контекстные эмбеддинги («банк» в разных контекстах = разные векторы).
Decoder-only: causal mask (см. Attention), next-token prediction; универсальность через промпты, in-context learning, эмерджентные способности при масштабе (см. Emergent Abilities).
Encoder-decoder (T5, BART): для «текст→текст» (перевод, суммаризация); сейчас нишевые — decoder-only достаточного размера справляются через промпты.
Потомки BERT для embedding-моделей RAG: all-MiniLM-L6-v2, bge-large, e5, text-embedding-3, nomic-embed-text.

Связано с

Transformer — общая архитектура для обоих режимов
Attention — bidirectional vs causal — это про маску attention
RAG — embedding-модели (encoder) + генератор (decoder) работают вместе
LLM Training Stages — MLM vs next-token как задачи предобучения

Открытые вопросы

возвращается ли encoder-decoder с ростом мультимодальности