TOPIC

KVキャッシュ圧縮技術の進化の歴史

0.4

KVキャッシュ圧縮の歴史を解説。MQAやGQAからMLAや線形注意機構ハイブリッドに至るまで、この技術がどのように大規模言語モデルの長いコンテキストウィンドウを実現し、現代のエージェント型LLMを可能にしたかを紐解く。

5 件2 ソース初出 6月16日最終更新 6月16日

ソース内訳

hn4martinalderson-com1

GateGPT: FPGA上で80MHz動作、毎秒56kトークンのTransformer（KVキャッシュ）

FPGA上で80MHzという低クロックで動作しながら、毎秒56,000トークンという驚異的な処理速度を実現するTransformer推論アクセラレータ「GateGPT」が話題を集めている。KVキャッシュを活用することで、メモリ帯域幅の制約を緩和し、高いスループットを達成している。

hn6月16日tech

4.0

SubQ 1.1 カード：線形スケーリング sparse attention により 1200万トークンで 98% の検索精度を達成 [pdf]

本稿では、SubQ 1.1 のモデルカードを紹介する。SubQ 1.1 は、線形スケーリングの sparse attention メカニズムを採用し、1200万トークンのコンテキスト長において 98% の高い検索精度を実現する。このアプローチにより、長大なシーケンスでも効率的な処理が可能となる。

hn6月16日tech

5.0

Luce KVFlash: 256KコンテキストをGPU上の72MiBのKVキャッシュで実現

Luce KVFlashは、GPUメモリ上でわずか72MiBのKVキャッシュを使用して256Kトークンの長大なコンテキスト処理を可能にする最適化技術です。従来の手法と比較して大幅にメモリ使用量を削減し、大規模言語モデルの推論効率を向上させます。このリポジトリでは、同技術の実装コードとベンチマークが公開されています。

hn6月16日tech

7.5

ディープダイブの生成に失敗しました.

タイムライン

2026年6月16日

2.0
Subquadratic は、新しい小型言語モデル SubQ 1.1 Small を発表した。本モデルは従来の二次関数型アーキテクチャの制約を克服し、より効率的な推論と長いコンテキスト処理を実現する。サブクアドラティックな計算効率を追求した設計が特徴で、リソース制約のある環境でも高性能を発揮する。
2026年6月16日

2026年6月15日

5.0
KVキャッシュ圧縮の歴史を解説。MQAやGQAからMLAや線形注意機構ハイブリッドに至るまで、この技術がどのように大規模言語モデルの長いコンテキストウィンドウを実現し、現代のエージェント型LLMを可能にしたかを紐解く。
2026年6月15日