Model Scaling

Масштабирование — рост качества модели с увеличением числа параметров (N), объёма данных (D) и вычислений (C). Scaling laws делают это улучшение предсказуемым (степенные законы), и это главная движущая идея всей гонки за размером.

Заметка содержит быстро устаревающие цифры (размеры frontier-моделей 2026) — status/volatile. Сверяй числа при ревизии.

Суть

Параметр — одно обучаемое число внутри модели. «Триллион параметров» = триллион чисел в матрицах эмбеддингов, attention (W_Q/K/V/O), feedforward (W_up/W_down) и output-матрице.

Зачем это нужно

Объясняет, почему индустрия гонится за размером: качество растёт предсказуемо по scaling laws, и при масштабе внезапно появляются новые способности (см. Emergent Abilities). Это контекст для выбора модели (см. Model Selection).

Как работает

  • Что увеличивают: d_model (4096→8192→16384, квадратичный рост параметров), число слоёв (32→80→126), intermediate_size (3–4×d_model), num_heads, vocab_size.
  • Распределение параметров (типичная LLM): ~70% в feedforward (хранилище знаний, см. Transformer), ~17% в attention, ~13% в эмбеддингах и output-матрице.
  • Chinchilla scaling laws (2022): оптимально ~20 токенов данных на параметр (модель 70B → ~1.4T токенов); современные часто учат на большем для качества.
  • Тренд (осторожно, быстро устаревает): в источнике утверждается, что на текущей стадии индустрия уходит от простого роста числа параметров к уплотнению информации («качество на миллион весов»), т.к. крупные модели часто недообучены относительно оптимального объёма данных (перекликается с Chinchilla). Отдача от чистого размера упирается не только в параметры, но и в данные/эффективность.
  • Mixture of Experts (MoE): триллионы параметров всего, но на токен активируется малая часть — «большой мозг по разумной цене» (GPT-4, Gemini, DeepSeek).
  • Frontier-оценки 2026 (volatile): GPT-4 ~1.7T (MoE), Claude Opus ~0.5–2T (оценки), Llama-3 405B (dense), DeepSeek V3 671B (37B активных).

Связано с

  • Model Selection — размер/архитектура как критерий выбора
  • Emergent Abilities — что даёт масштаб качественно
  • Transformer — где живут параметры (70% в FFN)

Открытые вопросы

  • где practically наступает diminishing returns от роста размера относительно данных, архитектуры и compute?
  • dense vs MoE для своих задач (стоимость инференса)