Model Scaling

Заметка содержит быстро устаревающие цифры (размеры frontier-моделей 2026) — status/volatile. Сверяй числа при ревизии.

Суть

Параметр — одно обучаемое число внутри модели. «Триллион параметров» = триллион чисел в матрицах эмбеддингов, attention (W_Q/K/V/O), feedforward (W_up/W_down) и output-матрице.

Зачем это нужно

Объясняет, почему индустрия гонится за размером: качество растёт предсказуемо по scaling laws, и при масштабе внезапно появляются новые способности (см. Emergent Abilities). Это контекст для выбора модели (см. Model Selection).

Как работает

Что увеличивают: d_model (4096→8192→16384, квадратичный рост параметров), число слоёв (32→80→126), intermediate_size (3–4×d_model), num_heads, vocab_size.
Распределение параметров (типичная LLM): ~70% в feedforward (хранилище знаний, см. Transformer), ~17% в attention, ~13% в эмбеддингах и output-матрице.
Chinchilla scaling laws (2022): оптимально ~20 токенов данных на параметр (модель 70B → ~1.4T токенов); современные часто учат на большем для качества.
Тренд (осторожно, быстро устаревает): в источнике утверждается, что на текущей стадии индустрия уходит от простого роста числа параметров к уплотнению информации («качество на миллион весов»), т.к. крупные модели часто недообучены относительно оптимального объёма данных (перекликается с Chinchilla). Отдача от чистого размера упирается не только в параметры, но и в данные/эффективность.
Mixture of Experts (MoE): триллионы параметров всего, но на токен активируется малая часть — «большой мозг по разумной цене» (GPT-4, Gemini, DeepSeek).
Frontier-оценки 2026 (volatile): GPT-4 ~1.7T (MoE), Claude Opus ~0.5–2T (оценки), Llama-3 405B (dense), DeepSeek V3 671B (37B активных).

Связано с

Model Selection — размер/архитектура как критерий выбора
Emergent Abilities — что даёт масштаб качественно
Transformer — где живут параметры (70% в FFN)

Открытые вопросы

где practically наступает diminishing returns от роста размера относительно данных, архитектуры и compute?
dense vs MoE для своих задач (стоимость инференса)