Суть
| Свойство | Encoder (BERT) | Decoder (GPT/Claude) |
|---|---|---|
| Attention | bidirectional (видит всё) | causal (только прошлое) |
| Задача обучения | заполнить [MASK] (MLM) |
предсказать следующий токен |
| Выход | векторы (понимание) | токены (генерация) |
| Применение | embeddings, классификация | диалог, генерация |
Зачем это нужно
Объясняет, почему для RAG-эмбеддингов берут потомков BERT, а для генерации — GPT/Claude, и почему decoder-only «победили» в эпоху чат-моделей. Термины обманчивы: encoder ≈ «Understander» (текст → смысл-вектор), decoder ≈ «Generator» (смысл → текст); названия пришли из машинного перевода 2017.
Как работает
- Encoder (BERT, 2018): предобучение через MLM — маскируют 15% токенов, модель угадывает их; маска заставляет использовать контекст с обеих сторон → двунаправленность. Парадигма pretrain + fine-tune, контекстные эмбеддинги («банк» в разных контекстах = разные векторы).
- Decoder-only: causal mask (см. Attention), next-token prediction; универсальность через промпты, in-context learning, эмерджентные способности при масштабе (см. Emergent Abilities).
- Encoder-decoder (T5, BART): для «текст→текст» (перевод, суммаризация); сейчас нишевые — decoder-only достаточного размера справляются через промпты.
- Потомки BERT для embedding-моделей RAG:
all-MiniLM-L6-v2,bge-large,e5,text-embedding-3,nomic-embed-text.
Связано с
- Transformer — общая архитектура для обоих режимов
- Attention — bidirectional vs causal — это про маску attention
- RAG — embedding-модели (encoder) + генератор (decoder) работают вместе
- LLM Training Stages — MLM vs next-token как задачи предобучения
Открытые вопросы
- возвращается ли encoder-decoder с ростом мультимодальности