Суть
Качество многих задач растёт не плавно, а скачком при переходе через некоторый размер модели. Это эмпирическое наблюдение, тесно связанное со scaling laws (см. Model Scaling).
Зачем это нужно
Это и есть причина гонки за масштабом: эмерджентность означает, что новые возможности нельзя надёжно предсказать из поведения маленьких моделей — приходится строить большие и смотреть.
Как работает
Конкретные эмерджентные способности (по guide):
- Арифметика с большими числами — у малых моделей не работает, у крупных «вдруг» появляется.
- Chain-of-Thought reasoning — пошаговое рассуждение (см. Chain of Thought).
- Следование инструкциям — понимание намерения.
- In-context learning — обучение из примеров в промпте без обновления весов (см. Few Shot Prompting).
- Перевод между языками без явного обучения, программирование.
Гипотезы происхождения: композиция простых способностей; обучение многих задач сразу; частично — артефакт измерения (дискретные метрики создают иллюзию скачка). Scaling laws: качество предсказуемо улучшается с N/D/C (степенные законы, линейны в log-масштабе).
Связано с
- Model Scaling — масштаб как условие появления способностей
- Chain of Thought — CoT как эмерджентная способность
- Few Shot Prompting — in-context learning тоже эмерджентен
Открытые вопросы
- насколько «скачки» реальны, а насколько артефакт метрик
- можно ли вызвать способность дообучением, а не масштабом