GateGPT: FPGA上で80MHz動作、毎秒56kトークンのTransformer(KVキャッシュ)
FPGA上で80MHzという低クロックで動作しながら、毎秒56,000トークンという驚異的な処理速度を実現するTransformer推論アクセラレータ「GateGPT」が話題を集めている。KVキャッシュを活用することで、メモリ帯域幅の制約を緩和し、高いスループットを達成している。
KVキャッシュ圧縮の歴史を解説。MQAやGQAからMLAや線形注意機構ハイブリッドに至るまで、この技術がどのように大規模言語モデルの長いコンテキストウィンドウを実現し、現代のエージェント型LLMを可能にしたかを紐解く。
KVキャッシュ圧縮の歴史を解説。MQAやGQAからMLAや線形注意機構ハイブリッドに至るまで、この技術がどのように大規模言語モデルの長いコンテキストウィンドウを実現し、現代のエージェント型LLMを可能にしたかを紐解く。
FPGA上で80MHzという低クロックで動作しながら、毎秒56,000トークンという驚異的な処理速度を実現するTransformer推論アクセラレータ「GateGPT」が話題を集めている。KVキャッシュを活用することで、メモリ帯域幅の制約を緩和し、高いスループットを達成している。
本稿では、SubQ 1.1 のモデルカードを紹介する。SubQ 1.1 は、線形スケーリングの sparse attention メカニズムを採用し、1200万トークンのコンテキスト長において 98% の高い検索精度を実現する。このアプローチにより、長大なシーケンスでも効率的な処理が可能となる。
Luce KVFlashは、GPUメモリ上でわずか72MiBのKVキャッシュを使用して256Kトークンの長大なコンテキスト処理を可能にする最適化技術です。従来の手法と比較して大幅にメモリ使用量を削減し、大規模言語モデルの推論効率を向上させます。このリポジトリでは、同技術の実装コードとベンチマークが公開されています。
Subquadratic は、新しい小型言語モデル SubQ 1.1 Small を発表した。本モデルは従来の二次関数型アーキテクチャの制約を克服し、より効率的な推論と長いコンテキスト処理を実現する。サブクアドラティックな計算効率を追求した設計が特徴で、リソース制約のある環境でも高性能を発揮する。
KVキャッシュ圧縮の歴史を解説。MQAやGQAからMLAや線形注意機構ハイブリッドに至るまで、この技術がどのように大規模言語モデルの長いコンテキストウィンドウを実現し、現代のエージェント型LLMを可能にしたかを紐解く。