Encoder vs Decoder

Два режима трансформера, различающиеся направлением attention: encoder (bidirectional, «понимание» — BERT) и decoder (causal, «генерация» — GPT/Claude). Третий тип — encoder-decoder (T5, BART) — совмещает оба через cross-attention.

Суть

Свойство Encoder (BERT) Decoder (GPT/Claude)
Attention bidirectional (видит всё) causal (только прошлое)
Задача обучения заполнить [MASK] (MLM) предсказать следующий токен
Выход векторы (понимание) токены (генерация)
Применение embeddings, классификация диалог, генерация

Зачем это нужно

Объясняет, почему для RAG-эмбеддингов берут потомков BERT, а для генерации — GPT/Claude, и почему decoder-only «победили» в эпоху чат-моделей. Термины обманчивы: encoder ≈ «Understander» (текст → смысл-вектор), decoder ≈ «Generator» (смысл → текст); названия пришли из машинного перевода 2017.

Как работает

  • Encoder (BERT, 2018): предобучение через MLM — маскируют 15% токенов, модель угадывает их; маска заставляет использовать контекст с обеих сторон → двунаправленность. Парадигма pretrain + fine-tune, контекстные эмбеддинги («банк» в разных контекстах = разные векторы).
  • Decoder-only: causal mask (см. Attention), next-token prediction; универсальность через промпты, in-context learning, эмерджентные способности при масштабе (см. Emergent Abilities).
  • Encoder-decoder (T5, BART): для «текст→текст» (перевод, суммаризация); сейчас нишевые — decoder-only достаточного размера справляются через промпты.
  • Потомки BERT для embedding-моделей RAG: all-MiniLM-L6-v2, bge-large, e5, text-embedding-3, nomic-embed-text.

Связано с

  • Transformer — общая архитектура для обоих режимов
  • Attention — bidirectional vs causal — это про маску attention
  • RAG — embedding-модели (encoder) + генератор (decoder) работают вместе
  • LLM Training Stages — MLM vs next-token как задачи предобучения

Открытые вопросы

  • возвращается ли encoder-decoder с ростом мультимодальности