長期的なトレーニングはなぜAIの進歩を鈍化させないのか?
大規模言語モデル(LLM)のトレーニングにおいて、長期的な視点での学習(長いhorizonでの訓練)は理論上、学習効率を低下させる可能性があるが、実際にはAIの進歩は加速し続けている。本稿では、この一見矛盾する現象の理由を、強化学習や自己教師あり学習の仕組み、そしてデータと計算資源のスケーリング効果に着目して解説する。
大規模言語モデル(LLM)のトレーニングにおいて、長期的な視点での学習(長いhorizonでの訓練)は理論上、学習効率を低下させる可能性があるが、実際にはAIの進歩は加速し続けている。本稿では、この一見矛盾する現象の理由を、強化学習や自己教師あり学習の仕組み、そしてデータと計算資源のスケーリング効果に着目して解説する。
AI progress hasn't slowed despite longer training horizons, possibly due to huge FLOP efficiency gains from fixing bugs, unreliable human intuitions about near-human intelligence, and capabilities depending on traits beyond intelligence like persistence.
Andrew Ng ranks coding agent acceleration from most to least effective: frontend development (dramatically sped up), backend (slower due to bugs and security), infrastructure (limited due to complex tradeoffs), and research (marginal help beyond coding). He uses this categorization to adjust team expectations and organization.