Scaling Laws

Scaling Laws

ํ•™์Šต ๋ชฉํ‘œ

  • Scaling Laws์˜ ๊ฐœ๋…๊ณผ ์ˆ˜ํ•™์  ํ˜•ํƒœ ์ดํ•ด
  • Kaplan et al. vs Chinchilla ๋ฒ•์น™ ๋น„๊ต
  • Compute-optimal ํ•™์Šต ์ „๋žต ์Šต๋“
  • ์‹ค๋ฌด์—์„œ์˜ Scaling Laws ํ™œ์šฉ๋ฒ• ํŒŒ์•…

1. Scaling Laws๋ž€?

1.1 ์ •์˜

Scaling Laws๋Š” ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜(N), ๋ฐ์ดํ„ฐ ์–‘(D), ๊ณ„์‚ฐ๋Ÿ‰(C)๊ณผ ์„ฑ๋Šฅ(Loss)์˜ ๊ด€๊ณ„๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๊ฒฝํ—˜์  ๋ฒ•์น™์ž…๋‹ˆ๋‹ค.

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                    Scaling Laws ํ•ต์‹ฌ ๊ด€๊ณ„                         โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚                                                                 โ”‚
โ”‚  Loss โ‰ˆ A/N^ฮฑ + B/D^ฮฒ + E                                       โ”‚
โ”‚                                                                 โ”‚
โ”‚  N = ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜                                             โ”‚
โ”‚  D = ํ•™์Šต ๋ฐ์ดํ„ฐ ํ† ํฐ ์ˆ˜                                          โ”‚
โ”‚  C = ๊ณ„์‚ฐ๋Ÿ‰ (FLOPs) โ‰ˆ 6 ร— N ร— D                                  โ”‚
โ”‚  E = ๋‹ฌ์„ฑ ๋ถˆ๊ฐ€๋Šฅํ•œ ์ตœ์†Œ ์†์‹ค (entropy of data)                    โ”‚
โ”‚                                                                 โ”‚
โ”‚  ํ•ต์‹ฌ ๋ฐœ๊ฒฌ:                                                       โ”‚
โ”‚  โ€ข Loss๋Š” N, D์— ๋Œ€ํ•ด Power Law๋กœ ๊ฐ์†Œ                            โ”‚
โ”‚  โ€ข C๋ฅผ ๊ณ ์ •ํ•  ๋•Œ, N๊ณผ D์˜ ์ตœ์  ๋น„์œจ์ด ์กด์žฌ                          โ”‚
โ”‚  โ€ข ๋” ํฐ ๋ชจ๋ธ์€ ๋” ํšจ์œจ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉ                         โ”‚
โ”‚                                                                 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

1.2 ์™œ ์ค‘์š”ํ•œ๊ฐ€?

"""
Scaling Laws์˜ ์‹ค๋ฌด์  ๊ฐ€์น˜:

1. ๋น„์šฉ ์˜ˆ์ธก
   - ํ•™์Šต ์ „์— ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค ์ถ”์ • ๊ฐ€๋Šฅ
   - "10B ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋ ค๋ฉด ์–ผ๋งˆ๋‚˜ ํ•„์š”ํ•œ๊ฐ€?"

2. ์ตœ์  ํ• ๋‹น
   - ๊ณ ์ •๋œ ์˜ˆ์‚ฐ์—์„œ ๋ชจ๋ธ ํฌ๊ธฐ vs ๋ฐ์ดํ„ฐ ์–‘ ๊ฒฐ์ •
   - "100M$ ์žˆ์„ ๋•Œ, ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ์œ„ํ•œ ์„ค์ •์€?"

3. ์„ฑ๋Šฅ ์˜ˆ์ธก
   - ์ž‘์€ ๋ชจ๋ธ๋กœ ํฐ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ์ถ”์ •
   - "ํ˜„์žฌ 7B ๋ชจ๋ธ, 70B๋กœ ํ‚ค์šฐ๋ฉด ์„ฑ๋Šฅ์ด ์–ผ๋งˆ๋‚˜?"

4. ์—ฐ๊ตฌ ๊ณ„ํš
   - ํˆฌ์ž ๋Œ€๋น„ ํšจ๊ณผ๊ฐ€ ํฐ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ๊ฒฐ์ •
   - "๋ฐ์ดํ„ฐ๋ฅผ ๋Š˜๋ฆด๊นŒ, ๋ชจ๋ธ์„ ํ‚ค์šธ๊นŒ?"
"""

2. Kaplan Scaling Laws (2020)

2.1 OpenAI ์ดˆ๊ธฐ ์—ฐ๊ตฌ

Kaplan et al.์˜ 2020๋…„ ๋…ผ๋ฌธ "Scaling Laws for Neural Language Models"์—์„œ ๋ฐœ๊ฒฌํ•œ ๋ฒ•์น™:

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                    Kaplan Scaling Laws                           โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚                                                                 โ”‚
โ”‚  1. Loss vs Parameters                                          โ”‚
โ”‚     L(N) = (N_c / N)^ฮฑ_N, where ฮฑ_N โ‰ˆ 0.076                     โ”‚
โ”‚                                                                 โ”‚
โ”‚  2. Loss vs Data                                                โ”‚
โ”‚     L(D) = (D_c / D)^ฮฑ_D, where ฮฑ_D โ‰ˆ 0.095                     โ”‚
โ”‚                                                                 โ”‚
โ”‚  3. Loss vs Compute                                             โ”‚
โ”‚     L(C) = (C_c / C)^ฮฑ_C, where ฮฑ_C โ‰ˆ 0.050                     โ”‚
โ”‚                                                                 โ”‚
โ”‚  ํ•ต์‹ฌ ์ฃผ์žฅ:                                                       โ”‚
โ”‚  โ€ข ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ๊ฐ€์žฅ ์ค‘์š” (ฮฑ_N < ฮฑ_D)                            โ”‚
โ”‚  โ€ข ๊ฐ™์€ compute๋ฉด, ํฐ ๋ชจ๋ธ + ์ ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์œ ๋ฆฌ                    โ”‚
โ”‚  โ€ข N โˆ C^0.73, D โˆ C^0.27 (Compute ์ตœ์  ํ• ๋‹น)                    โ”‚
โ”‚                                                                 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

2.2 ์‹œ๊ฐํ™”

   Loss (Log)
       โ”‚
   3.5 โ”œโ”€โ—โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ 100M params
       โ”‚   โ•ฒ
   3.0 โ”œโ”€โ”€โ”€โ”€โ”€โ—โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€  1B params
       โ”‚       โ•ฒ
   2.5 โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ—โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ 10B params
       โ”‚           โ•ฒ
   2.0 โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ—โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€100B params
       โ”‚               โ•ฒ
   1.5 โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ—โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€  1T params (์˜ˆ์ธก)
       โ”‚
       โ””โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ–ถ
          10^18  19   20   21   22   23   Compute (FLOPs)

   โ€ข ์ง์„  = Power Law (๋กœ๊ทธ ์Šค์ผ€์ผ์—์„œ ์„ ํ˜•)
   โ€ข ๊ธฐ์šธ๊ธฐ = ฮฑ_C โ‰ˆ 0.05

2.3 Kaplan ๋ฒ•์น™์— ๋”ฐ๋ฅธ ๋ชจ๋ธ ์„ค๊ณ„

"""
Kaplan ๋ฒ•์น™ ์ ์šฉ ์˜ˆ์‹œ:

Compute budget: 10^21 FLOPs

Kaplan ์ตœ์  ํ• ๋‹น:
- N โˆ C^0.73 โ†’ N โ‰ˆ 10^15 (์•ฝ 1์กฐ ํŒŒ๋ผ๋ฏธํ„ฐ?!)
- D โˆ C^0.27 โ†’ D โ‰ˆ 10^9 (์•ฝ 10์–ต ํ† ํฐ)

๋ฌธ์ œ์ :
- ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ์ปค์ง€๊ณ  ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑ
- ์‹ค์ œ GPT-3 (175B)๋Š” ์ด ๋ฒ•์น™์„ ๋”ฐ๋ž์ง€๋งŒ...
- Chinchilla๊ฐ€ ์ด๋ฅผ ๋ฐ˜๋ฐ•
"""

3. Chinchilla Scaling Laws (2022)

3.1 DeepMind์˜ ์žฌ๋ฐœ๊ฒฌ

Hoffmann et al.์˜ "Training Compute-Optimal Large Language Models"๋Š” Kaplan ๋ฒ•์น™์„ ์ˆ˜์ •:

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                    Chinchilla Scaling Laws                       โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚                                                                 โ”‚
โ”‚  ํ•ต์‹ฌ ๋ฐœ๊ฒฌ: ๊ธฐ์กด ๋ชจ๋ธ๋“ค์€ Under-trained!                           โ”‚
โ”‚                                                                 โ”‚
โ”‚  Compute-optimal scaling:                                        โ”‚
โ”‚  โ€ข N โˆ C^0.5  (ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜)                                      โ”‚
โ”‚  โ€ข D โˆ C^0.5  (๋ฐ์ดํ„ฐ ํ† ํฐ ์ˆ˜)                                   โ”‚
โ”‚  โ€ข ์ฆ‰, N๊ณผ D๋ฅผ ๋™์ผ ๋น„์œจ๋กœ ์ฆ๊ฐ€์‹œ์ผœ์•ผ ์ตœ์                          โ”‚
โ”‚                                                                 โ”‚
โ”‚  ์‹ค์šฉ์  ๊ทœ์น™:                                                     โ”‚
โ”‚  D โ‰ˆ 20 ร— N  (ํ† ํฐ ์ˆ˜ โ‰ˆ 20 ร— ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜)                        โ”‚
โ”‚                                                                 โ”‚
โ”‚  ์˜ˆ์‹œ:                                                           โ”‚
โ”‚  โ€ข 1B ๋ชจ๋ธ โ†’ 20B ํ† ํฐ ํ•„์š”                                       โ”‚
โ”‚  โ€ข 7B ๋ชจ๋ธ โ†’ 140B ํ† ํฐ ํ•„์š”                                      โ”‚
โ”‚  โ€ข 70B ๋ชจ๋ธ โ†’ 1.4T ํ† ํฐ ํ•„์š”                                     โ”‚
โ”‚                                                                 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

3.2 Chinchilla vs Gopher ๋น„๊ต

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚               Chinchilla (70B) vs Gopher (280B)                  โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚                                                                 โ”‚
โ”‚  ๋ชจ๋ธ        โ”‚ ํŒŒ๋ผ๋ฏธํ„ฐ  โ”‚ ํ•™์Šต ํ† ํฐ  โ”‚ Compute   โ”‚ ์„ฑ๋Šฅ       โ”‚
โ”‚  โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”‚โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”‚โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”‚โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”‚โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€  โ”‚
โ”‚  Gopher     โ”‚ 280B     โ”‚ 300B      โ”‚ 5.0ร—10^23 โ”‚ ๊ธฐ์ค€        โ”‚
โ”‚  Chinchilla โ”‚ 70B      โ”‚ 1.4T      โ”‚ 5.0ร—10^23 โ”‚ +10% ํ–ฅ์ƒ   โ”‚
โ”‚                                                                 โ”‚
โ”‚  ๊ฒฐ๋ก :                                                           โ”‚
โ”‚  โ€ข ๊ฐ™์€ Compute๋กœ 4๋ฐฐ ์ž‘์€ ๋ชจ๋ธ์ด ๋” ์ข‹์€ ์„ฑ๋Šฅ!                    โ”‚
โ”‚  โ€ข Gopher๋Š” Under-trained (๋ฐ์ดํ„ฐ ๋ถ€์กฑ)                          โ”‚
โ”‚  โ€ข ๋ชจ๋ธ ํฌ๊ธฐ๋งŒ ํ‚ค์šฐ๋ฉด ๋น„ํšจ์œจ์                                      โ”‚
โ”‚                                                                 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

3.3 ๊ธฐ์กด ๋ชจ๋ธ๋“ค์˜ ์ƒํƒœ

             Tokens (D)
                โ”‚
          10T   โ”œ                               โ— LLaMA 2 (2023)
                โ”‚                           โ—
           1T   โ”œ                       โ— Chinchilla (Optimal)
                โ”‚                   โ•ฑ
         100B   โ”œ               โ•ฑ       โ— GPT-3 (Under-trained)
                โ”‚           โ•ฑ
          10B   โ”œ       โ•ฑ
                โ”‚   โ•ฑ                   โ— Gopher (Very Under-trained)
           1B   โ”œโ”€
                โ””โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ–ถ
                   1B  10B 100B  1T  10T      Parameters (N)

             โ•ฑ = Compute-optimal frontier (D โ‰ˆ 20N)

             ์ ๋“ค์ด ์„  ์•„๋ž˜์— ์žˆ์œผ๋ฉด Under-trained

4. ์ˆ˜ํ•™์  ํ‘œํ˜„

4.1 Loss ํ•จ์ˆ˜

"""
Scaling Law์˜ ์ˆ˜ํ•™์  ํ˜•ํƒœ:

1. ๋‹จ์ผ ๋ณ€์ˆ˜ Scaling
   L(N) = (N_c / N)^ฮฑ + L_โˆž     # ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ๊ณ ๋ ค
   L(D) = (D_c / D)^ฮฒ + L_โˆž     # ๋ฐ์ดํ„ฐ๋งŒ ๊ณ ๋ ค

2. ๊ฒฐํ•ฉ๋œ Scaling (Chinchilla)
   L(N, D) = E + A/N^ฮฑ + B/D^ฮฒ

   where:
   - E โ‰ˆ 1.69 (irreducible loss, ๋ฐ์ดํ„ฐ ์—”ํŠธ๋กœํ”ผ)
   - A โ‰ˆ 406.4
   - B โ‰ˆ 410.7
   - ฮฑ โ‰ˆ 0.34
   - ฮฒ โ‰ˆ 0.28

3. Compute ๊ด€์ 
   C โ‰ˆ 6 ร— N ร— D  (FLOPs for training)

   ์ตœ์ ํ™”: min L(N, D) subject to C = 6ND

   ๊ฒฐ๊ณผ: N* โˆ C^0.5, D* โˆ C^0.5
"""

4.2 Python์œผ๋กœ Scaling Law ์‹œ๋ฎฌ๋ ˆ์ด์…˜

import numpy as np
import matplotlib.pyplot as plt

def chinchilla_loss(N, D, A=406.4, B=410.7, alpha=0.34, beta=0.28, E=1.69):
    """
    Chinchilla Scaling Law์— ๋”ฐ๋ฅธ Loss ๊ณ„์‚ฐ

    Args:
        N: ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ (billions)
        D: ํ† ํฐ ์ˆ˜ (billions)

    Returns:
        ์˜ˆ์ƒ Loss (perplexity์˜ log)
    """
    return E + A / (N ** alpha) + B / (D ** beta)

def optimal_allocation(compute_budget, flops_per_token=6):
    """
    ์ฃผ์–ด์ง„ Compute budget์—์„œ ์ตœ์ ์˜ N, D ๊ณ„์‚ฐ

    Args:
        compute_budget: ์ด FLOPs (์˜ˆ: 10^23)
        flops_per_token: ํ† ํฐ๋‹น FLOPs (์•ฝ 6N)

    Returns:
        optimal_N, optimal_D (in billions)
    """
    # Chinchilla ์ตœ์  ๋น„์œจ: D โ‰ˆ 20N
    # C = 6 * N * D = 6 * N * 20N = 120 * N^2
    # N = sqrt(C / 120)

    optimal_N = np.sqrt(compute_budget / 120) / 1e9  # billions
    optimal_D = 20 * optimal_N                        # billions

    return optimal_N, optimal_D

# ์˜ˆ์‹œ: 10^23 FLOPs ์˜ˆ์‚ฐ
compute = 1e23
N_opt, D_opt = optimal_allocation(compute)
print(f"Compute budget: 10^23 FLOPs")
print(f"Optimal parameters: {N_opt:.1f}B")
print(f"Optimal tokens: {D_opt:.1f}B")
print(f"Expected loss: {chinchilla_loss(N_opt, D_opt):.3f}")

# ์‹œ๊ฐํ™”: N vs D์— ๋”ฐ๋ฅธ Loss
N_range = np.logspace(0, 3, 50)  # 1B to 1000B
D_range = np.logspace(0, 4, 50)  # 1B to 10000B

N_grid, D_grid = np.meshgrid(N_range, D_range)
Loss_grid = chinchilla_loss(N_grid, D_grid)

plt.figure(figsize=(10, 8))
plt.contour(N_grid, D_grid, Loss_grid, levels=20)
plt.xscale('log')
plt.yscale('log')
plt.xlabel('Parameters N (Billions)')
plt.ylabel('Tokens D (Billions)')
plt.title('Chinchilla Scaling Law: Loss Contours')
plt.colorbar(label='Loss')
plt.plot(N_range, 20*N_range, 'r--', label='Optimal ratio (D=20N)')
plt.legend()
plt.show()

5. ์‹ค์ œ ๋ชจ๋ธ์—์„œ์˜ ์ ์šฉ

5.1 ์ฃผ์š” ๋ชจ๋ธ Scaling ๋น„๊ต

๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ (N) ํ† ํฐ (D) D/N ๋น„์œจ ์ƒํƒœ
GPT-3 175B 300B 1.7 Under-trained
Gopher 280B 300B 1.1 Very Under-trained
Chinchilla 70B 1.4T 20 Optimal
LLaMA 1 65B 1.4T 21.5 Near-optimal
LLaMA 2 70B 2T 28.6 Slight Over-trained
Mistral 7B 8T (์ถ”์ •) ~1000 Over-trained

5.2 Over-training์˜ ์žฅ์ 

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                Over-training ์ „๋žต (LLaMA 2, Mistral)             โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚                                                                 โ”‚
โ”‚  Chinchilla๋Š” "ํ•™์Šต" ์ตœ์ ์ด์ง€๋งŒ, "๋ฐฐํฌ"๋Š” ๋‹ค๋ฆ„!                    โ”‚
โ”‚                                                                 โ”‚
โ”‚  ๋ฐฐํฌ ๊ด€์ ์—์„œ:                                                   โ”‚
โ”‚  โ€ข ์ถ”๋ก  ๋น„์šฉ โˆ N (๋ชจ๋ธ ํฌ๊ธฐ)                                      โ”‚
โ”‚  โ€ข ํ•™์Šต์€ ํ•œ ๋ฒˆ, ์ถ”๋ก ์€ ์ˆ˜์กฐ ๋ฒˆ                                   โ”‚
โ”‚                                                                 โ”‚
โ”‚  ๋”ฐ๋ผ์„œ:                                                         โ”‚
โ”‚  โ€ข ์ž‘์€ ๋ชจ๋ธ + ๋งŽ์€ ๋ฐ์ดํ„ฐ = ์ถ”๋ก  ํšจ์œจ์                            โ”‚
โ”‚  โ€ข "Inference-optimal" โ‰  "Compute-optimal"                      โ”‚
โ”‚                                                                 โ”‚
โ”‚  LLaMA 2 ์ „๋žต:                                                   โ”‚
โ”‚  โ€ข 70B ๋ชจ๋ธ์— 2T ํ† ํฐ (D/N โ‰ˆ 29)                                 โ”‚
โ”‚  โ€ข Chinchilla๋ณด๋‹ค ๋” ์˜ค๋ž˜ ํ•™์Šต                                    โ”‚
โ”‚  โ€ข ๊ฒฐ๊ณผ: ์ž‘์€ ๋ชจ๋ธ๋กœ ๋” ์ข‹์€ ์„ฑ๋Šฅ                                  โ”‚
โ”‚                                                                 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

5.3 ์‹ค๋ฌด ๊ฐ€์ด๋“œ๋ผ์ธ

"""
์‹ค๋ฌด์—์„œ์˜ Scaling ์ „๋žต:

1. ์—ฐ๊ตฌ/์‹คํ—˜ ๋‹จ๊ณ„ (Compute-limited)
   - Chinchilla ๊ทœ์น™ ๋”ฐ๋ฅด๊ธฐ: D โ‰ˆ 20N
   - ์ž‘์€ ๋ชจ๋ธ๋กœ ๋น ๋ฅด๊ฒŒ ๋ฐ˜๋ณต

2. ํ”„๋กœ๋•์…˜ ๋ฐฐํฌ (Inference-limited)
   - Over-training ๊ณ ๋ ค: D > 20N
   - ์ž‘์€ ๋ชจ๋ธ + ๋งŽ์€ ๋ฐ์ดํ„ฐ
   - ์˜ˆ: Mistral 7B > LLaMA 2 13B (์ผ๋ถ€ ํƒœ์Šคํฌ)

3. ์˜ˆ์‚ฐ ๊ณ„ํš
   - C = 6 * N * D (FLOPs)
   - GPU hours โ‰ˆ C / (GPU_FLOPS * utilization)
   - ์˜ˆ: A100 80GB = ~300 TFLOPS (์‹คํšจ)

4. ์Šค์ผ€์ผ์—… ์ „๋žต
   - ์ž‘์€ ๋ชจ๋ธ๋กœ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹
   - Scaling Law๋กœ ํฐ ๋ชจ๋ธ ์„ฑ๋Šฅ ์˜ˆ์ธก
   - ๊ฒ€์ฆ ํ›„ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ์‹คํ–‰
"""

def estimate_training_cost(N_billions, D_billions, gpu_price_per_hour=2.0):
    """
    ํ•™์Šต ๋น„์šฉ ์ถ”์ •

    Args:
        N_billions: ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ (B)
        D_billions: ํ† ํฐ ์ˆ˜ (B)
        gpu_price_per_hour: GPU ์‹œ๊ฐ„๋‹น ๋น„์šฉ (USD)

    Returns:
        dict: ์˜ˆ์ƒ ๋น„์šฉ ์ •๋ณด
    """
    N = N_billions * 1e9
    D = D_billions * 1e9

    # 6ND FLOPs for training
    total_flops = 6 * N * D

    # A100 80GB: ~300 TFLOPS effective
    gpu_tflops = 300
    gpu_flops = gpu_tflops * 1e12

    # ์ด GPU ์‹œ๊ฐ„
    total_gpu_seconds = total_flops / gpu_flops
    total_gpu_hours = total_gpu_seconds / 3600

    # ๋น„์šฉ
    total_cost = total_gpu_hours * gpu_price_per_hour

    return {
        "total_flops": f"{total_flops:.2e}",
        "gpu_hours": f"{total_gpu_hours:,.0f}",
        "cost_usd": f"${total_cost:,.0f}",
        "cost_with_8gpus": f"${total_cost/8:,.0f} ({total_gpu_hours/8:,.0f} hours)"
    }

# ์˜ˆ์‹œ: LLaMA 2 7B ํ•™์Šต ๋น„์šฉ
cost_7b = estimate_training_cost(7, 2000)
print("LLaMA 2 7B (2T tokens):")
for k, v in cost_7b.items():
    print(f"  {k}: {v}")

6. Scaling Law์˜ ํ™•์žฅ

6.1 ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์—์„œ์˜ Scaling

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                    ๋„๋ฉ”์ธ๋ณ„ Scaling Laws                          โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚                                                                 โ”‚
โ”‚  Vision (ViT):                                                  โ”‚
โ”‚  โ€ข ๋น„์Šทํ•œ power law ๊ด€์ฐฐ                                         โ”‚
โ”‚  โ€ข ฮฑ โ‰ˆ 0.05 (Language๋ณด๋‹ค ์ž‘์Œ)                                 โ”‚
โ”‚  โ€ข ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์ด ๋” ์ค‘์š”                                          โ”‚
โ”‚                                                                 โ”‚
โ”‚  Multimodal (CLIP):                                             โ”‚
โ”‚  โ€ข ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ์Šค์ผ€์ผ๋ง ๋ณ„๋„ ์ตœ์ ํ™” ํ•„์š”                        โ”‚
โ”‚  โ€ข ๋ฐ์ดํ„ฐ ์Œ์˜ ํ’ˆ์งˆ์ด ํ•ต์‹ฌ                                        โ”‚
โ”‚                                                                 โ”‚
โ”‚  Code:                                                          โ”‚
โ”‚  โ€ข ๋” ๊ฐ€ํŒŒ๋ฅธ scaling (ฮฑ ๋” ํผ)                                   โ”‚
โ”‚  โ€ข ๊ณ ํ’ˆ์งˆ ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ์†Œ                                       โ”‚
โ”‚                                                                 โ”‚
โ”‚  Reasoning:                                                     โ”‚
โ”‚  โ€ข Emergent behavior๋กœ ์ธํ•ด smoothํ•˜์ง€ ์•Š์Œ                      โ”‚
โ”‚  โ€ข ํŠน์ • ์ž„๊ณ„์ ์—์„œ ๊ฐ‘์ž๊ธฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ                                โ”‚
โ”‚                                                                 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

6.2 Fine-tuning Scaling Laws

"""
Fine-tuning์—๋„ Scaling Law ์ ์šฉ:

์—ฐ๊ตฌ ๊ฒฐ๊ณผ:
- ๋” ํฐ base model = ๋” ์ ์€ fine-tuning ๋ฐ์ดํ„ฐ ํ•„์š”
- Fine-tuning ๋ฐ์ดํ„ฐ๋„ power law๋กœ ์Šค์ผ€์ผ
- LoRA ๋“ฑ PEFT๋„ ์œ ์‚ฌํ•œ ํŒจํ„ด

์‹ค์šฉ์  ๊ทœ์น™:
- Base ๋ชจ๋ธ ํฌ๊ธฐ ร— 10 = Fine-tuning ๋ฐ์ดํ„ฐ ์–‘ (๋Œ€๋žต)
- 7B ๋ชจ๋ธ: ~1K-10K examples
- 70B ๋ชจ๋ธ: ~100-1K examples (๊ฐ™์€ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ ์‹œ)

๋‹จ, ํ’ˆ์งˆ > ์–‘:
- ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ 100๊ฐœ > ์ €ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ 10,000๊ฐœ
"""

6.3 Inference Scaling (Test-time Compute)

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                    Inference Scaling (o1 ๋ฐฉ์‹)                    โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚                                                                 โ”‚
โ”‚  ์ „ํ†ต์  Scaling: ํ•™์Šต ์‹œ compute ์ฆ๊ฐ€                             โ”‚
โ”‚  Inference Scaling: ์ถ”๋ก  ์‹œ compute ์ฆ๊ฐ€                         โ”‚
โ”‚                                                                 โ”‚
โ”‚  ๋ฐฉ๋ฒ•:                                                           โ”‚
โ”‚  โ€ข Chain-of-Thought ๊ธธ๊ฒŒ ์ƒ์„ฑ                                    โ”‚
โ”‚  โ€ข ์—ฌ๋Ÿฌ ๋‹ต๋ณ€ ์ƒ์„ฑ ํ›„ ํˆฌํ‘œ (Self-consistency)                      โ”‚
โ”‚  โ€ข Tree of Thoughts / Beam Search                               โ”‚
โ”‚  โ€ข Verification/Refinement ๋ฐ˜๋ณต                                  โ”‚
โ”‚                                                                 โ”‚
โ”‚  ํšจ๊ณผ:                                                           โ”‚
โ”‚  โ€ข ์–ด๋ ค์šด ๋ฌธ์ œ์—์„œ ์ •ํ™•๋„ ํฌ๊ฒŒ ํ–ฅ์ƒ                                โ”‚
โ”‚  โ€ข ํ•™์Šต ์—†์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ ๊ฐ€๋Šฅ                                       โ”‚
โ”‚  โ€ข GPT-4 โ†’ o1์œผ๋กœ์˜ ํŒจ๋Ÿฌ๋‹ค์ž„ (์ถ”๋ก  ์‹œ๊ฐ„ scaling)                   โ”‚
โ”‚                                                                 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

7. Scaling์˜ ํ•œ๊ณ„

7.1 ๋ฌผ๋ฆฌ์  ํ•œ๊ณ„

"""
Scaling์˜ ์‹ค์ œ ํ•œ๊ณ„:

1. ๋ฐ์ดํ„ฐ ํ•œ๊ณ„
   - ์ธํ„ฐ๋„ท ํ…์ŠคํŠธ ์ด๋Ÿ‰: ~10-50T ํ† ํฐ
   - ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋Š” ํ›จ์”ฌ ์ ์Œ
   - 2024๋…„ ๊ธฐ์ค€, ๋ฐ์ดํ„ฐ ๊ณ ๊ฐˆ ๋…ผ์˜ ์‹œ์ž‘

2. ์ปดํ“จํŠธ ํ•œ๊ณ„
   - ์ „๋ ฅ ์†Œ๋น„ (MW ๋‹จ์œ„)
   - ๋ฐ˜๋„์ฒด ๊ณต๊ธ‰
   - ๋น„์šฉ (์ˆ˜์‹ญ์–ต ๋‹ฌ๋Ÿฌ)

3. ์•„ํ‚คํ…์ฒ˜ ํ•œ๊ณ„
   - Attention์˜ O(nยฒ) ๋ณต์žก๋„
   - Memory bandwidth bottleneck
   - Communication overhead in distributed training

4. ์ˆ˜์ต ์ฒด๊ฐ (Diminishing Returns)
   - ฮฑ โ‰ˆ 0.05๋Š” 10๋ฐฐ compute โ†’ ~12% loss ๊ฐ์†Œ
   - ์ ์  ๋” ํฐ ํˆฌ์ž ํ•„์š”
"""

7.2 Scaling ์™ธ์˜ ๊ฐœ์„  ๋ฐฉํ–ฅ

๋ฐฉํ–ฅ ์„ค๋ช… ์˜ˆ์‹œ
Architecture ๋” ํšจ์œจ์ ์ธ ๊ตฌ์กฐ Mamba, RWKV, Hyena
Data Quality ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ Phi, LIMA
Synthetic Data AI๋กœ ํ•™์Šต ๋ฐ์ดํ„ฐ ์ƒ์„ฑ Self-Instruct
Efficient Training ํ•™์Šต ํšจ์œจ ๊ฐœ์„  Flash Attention, ZeRO
Test-time Compute ์ถ”๋ก  ์‹œ ๊ณ„์‚ฐ ์ฆ๊ฐ€ CoT, Self-consistency, o1

์ •๋ฆฌ

ํ•ต์‹ฌ ๊ฐœ๋…

  • Scaling Laws: ํŒŒ๋ผ๋ฏธํ„ฐ, ๋ฐ์ดํ„ฐ, ๊ณ„์‚ฐ๋Ÿ‰๊ณผ ์„ฑ๋Šฅ์˜ power law ๊ด€๊ณ„
  • Kaplan: N์„ ์šฐ์„ ์‹œ (ํฐ ๋ชจ๋ธ + ์ ์€ ๋ฐ์ดํ„ฐ)
  • Chinchilla: N๊ณผ D ๊ท ํ˜• (D โ‰ˆ 20N)
  • Over-training: ์ถ”๋ก  ํšจ์œจ์„ ์œ„ํ•ด ์ž‘์€ ๋ชจ๋ธ์„ ๋” ์˜ค๋ž˜ ํ•™์Šต

์‹ค๋ฌด ๊ณต์‹

Compute-optimal: D โ‰ˆ 20 ร— N (ํ† ํฐ)
Training FLOPs: C โ‰ˆ 6 ร— N ร— D
Inference-optimal: ์ž‘์€ N, ํฐ D

๋‹ค์Œ ๋‹จ๊ณ„


์ฐธ๊ณ  ์ž๋ฃŒ

ํ•ต์‹ฌ ๋…ผ๋ฌธ

  • Kaplan et al. (2020). "Scaling Laws for Neural Language Models"
  • Hoffmann et al. (2022). "Training Compute-Optimal Large Language Models" (Chinchilla)
  • Touvron et al. (2023). "LLaMA 2: Open Foundation and Fine-Tuned Chat Models"

์ถ”๊ฐ€ ์ž๋ฃŒ

to navigate between lessons