ゼロからのLLM構築、パート32k -- 介入: 勾配蓄積を用いたローカルでのより良いモデルのトレーニング
Sebastian Raschkaの書籍に基づいてGPT-2-smallスタイルのLLMを開発中。クラウドでのトレーニングで効果的な介入を特定した後、ローカルマシンで同等の品質を達成するため、バッチサイズを一致させる必要があった。RTX 3090では6シーケンスしか処理できないが、勾配蓄積を活用することで96の実効バッチサイズを実現し、クラウドトレーニングと同等のモデル品質をローカルで達成する方法を探る。