Emergent Abilities

Суть

Качество многих задач растёт не плавно, а скачком при переходе через некоторый размер модели. Это эмпирическое наблюдение, тесно связанное со scaling laws (см. Model Scaling).

Зачем это нужно

Это и есть причина гонки за масштабом: эмерджентность означает, что новые возможности нельзя надёжно предсказать из поведения маленьких моделей — приходится строить большие и смотреть.

Как работает

Конкретные эмерджентные способности (по guide):

Арифметика с большими числами — у малых моделей не работает, у крупных «вдруг» появляется.
Chain-of-Thought reasoning — пошаговое рассуждение (см. Chain of Thought).
Следование инструкциям — понимание намерения.
In-context learning — обучение из примеров в промпте без обновления весов (см. Few Shot Prompting).
Перевод между языками без явного обучения, программирование.

Гипотезы происхождения: композиция простых способностей; обучение многих задач сразу; частично — артефакт измерения (дискретные метрики создают иллюзию скачка). Scaling laws: качество предсказуемо улучшается с N/D/C (степенные законы, линейны в log-масштабе).

Связано с

Model Scaling — масштаб как условие появления способностей
Chain of Thought — CoT как эмерджентная способность
Few Shot Prompting — in-context learning тоже эмерджентен

Открытые вопросы

насколько «скачки» реальны, а насколько артефакт метрик
можно ли вызвать способность дообучением, а не масштабом