GateGPT: FPGA上で80MHz動作、毎秒56kトークンのTransformer(KVキャッシュ)
FPGA上で80MHzという低クロックで動作しながら、毎秒56,000トークンという驚異的な処理速度を実現するTransformer推論アクセラレータ「GateGPT」が話題を集めている。KVキャッシュを活用することで、メモリ帯域幅の制約を緩和し、高いスループットを達成している。
FPGA上で80MHzという低クロックで動作しながら、毎秒56,000トークンという驚異的な処理速度を実現するTransformer推論アクセラレータ「GateGPT」が話題を集めている。KVキャッシュを活用することで、メモリ帯域幅の制約を緩和し、高いスループットを達成している。
KV cache compression techniques, including Multi-Query Attention (MQA), Grouped-Query Attention (GQA), Multi-head Latent Attention (MLA), and linear-attention hybrids, have evolved to reduce memory overhead in large language models. These developments have quietly enabled the long context windows required for modern agentic LLM applications by making key-value caching more efficient.