Emergent Abilities

Эмерджентные способности — те, что отсутствуют у малых моделей и внезапно появляются при достижении определённого масштаба. Главная интрига: мы не знаем заранее, какая способность возникнет на следующем порядке размера.

Суть

Качество многих задач растёт не плавно, а скачком при переходе через некоторый размер модели. Это эмпирическое наблюдение, тесно связанное со scaling laws (см. Model Scaling).

Зачем это нужно

Это и есть причина гонки за масштабом: эмерджентность означает, что новые возможности нельзя надёжно предсказать из поведения маленьких моделей — приходится строить большие и смотреть.

Как работает

Конкретные эмерджентные способности (по guide):

  • Арифметика с большими числами — у малых моделей не работает, у крупных «вдруг» появляется.
  • Chain-of-Thought reasoning — пошаговое рассуждение (см. Chain of Thought).
  • Следование инструкциям — понимание намерения.
  • In-context learning — обучение из примеров в промпте без обновления весов (см. Few Shot Prompting).
  • Перевод между языками без явного обучения, программирование.

Гипотезы происхождения: композиция простых способностей; обучение многих задач сразу; частично — артефакт измерения (дискретные метрики создают иллюзию скачка). Scaling laws: качество предсказуемо улучшается с N/D/C (степенные законы, линейны в log-масштабе).

Связано с

  • Model Scaling — масштаб как условие появления способностей
  • Chain of Thought — CoT как эмерджентная способность
  • Few Shot Prompting — in-context learning тоже эмерджентен

Открытые вопросы

  • насколько «скачки» реальны, а насколько артефакт метрик
  • можно ли вызвать способность дообучением, а не масштабом