Subquadratic – SubQ 1.1 Small の紹介
Subquadratic は、新しい小型言語モデル SubQ 1.1 Small を発表した。本モデルは従来の二次関数型アーキテクチャの制約を克服し、より効率的な推論と長いコンテキスト処理を実現する。サブクアドラティックな計算効率を追求した設計が特徴で、リソース制約のある環境でも高性能を発揮する。
Subquadratic は、新しい小型言語モデル SubQ 1.1 Small を発表した。本モデルは従来の二次関数型アーキテクチャの制約を克服し、より効率的な推論と長いコンテキスト処理を実現する。サブクアドラティックな計算効率を追求した設計が特徴で、リソース制約のある環境でも高性能を発揮する。
KV cache compression techniques, including Multi-Query Attention (MQA), Grouped-Query Attention (GQA), Multi-head Latent Attention (MLA), and linear-attention hybrids, have evolved to reduce memory overhead in large language models. These developments have quietly enabled the long context windows required for modern agentic LLM applications by making key-value caching more efficient.