TurboPrefill: Llama-3-70Bにおけるllama.cppのパイプラインパラレルより2.7倍高速
TurboPrefillは、Llama-3-70Bモデルにおいてllama.cppのパイプラインパラレル方式と比較して最大2.7倍の高速化を実現する新たな推論最適化手法です。本PRではその実装とベンチマーク結果が公開されています。
背景メモ
- llama.cppは、Meta(旧Facebook)が公開した大規模言語モデル「Llama」を、個人のノートPCレベルの環境でも動かせるように最適化したC++製の推論エンジン。オープンソースで開発され、ローカルLLM実行のデファクトスタンダードのひとつ。
- Pipeline Parallel(パイプラインパラレル)は、巨大なモデルを複数のGPUに分割して推論する既存の並列化手法。しかし、前のGPUの処理が終わるまで次のGPUが待つ「段差」が発生しやすく、効率が落ちる。
- このPR(プルリクエスト)が提案する「TurboPrefill」は、Llama-3-70B(700億パラメータの大規模モデル)において、従来のPipeline Parallel比で最大2.7倍の高速化を達成する新しい推論手法。プロンプト処理のボトルネックを解消する設計になっている。
- 70Bクラスのモデルは一般的に複数GPUが必須だが、高速化によりVRAMの制約がある環境やリアルタイム応答が求められるシーンで実用性が大きく向上する可能性がある。