Gistトークンによる簡略化スパースアテンション
本論文では、トランスフォーマーモデルにおけるスパースアテンションを簡略化する手法として、Gistトークンを導入する。Gistトークンは入力シーケンスの要約情報を保持し、フルアテンションの計算コストを削減しながらも性能を維持する。実験結果は、本手法が長文処理や効率的な推論において有効であることを示している。
背景メモ
- 大規模言語モデル(LLM)は長い入力文書を扱うとき、すべての単語同士の関係を計算する「全注意機構(フルアテンション)」を使うため計算量が膨大になる。