行列直交化がリカレントモデルの記憶を向上させる
リカレントニューラルネットワークにおける勾配消失・爆発問題は長期記憶の保持を困難にする。本稿では、重み行列を直交化することで、勾配の流れを安定化させ、モデルの長期的な記憶能力を効果的に改善する手法を解説する。
背景メモ
本記事は、再帰型ニューラルネットワーク(RNN)における勾配消失・爆発問題の根本原因と、その解決策としての「重み行列の直交化」に焦点を当てた技術解説。著者は機械学習研究者のAyush Tambde。
- **勾配消失/爆発問題**: RNNは系列データを扱うが、時間を遡るほど勾配(学習信号)が指数関数的に消えるか、逆に爆発するため、長期記憶を学習できない。LSTMやGRUはこの問題を緩和するためのゲート機構を導入した発明。
- **直交行列**: 行列の各行(または列)が互いに直交し、ノルムが1の行列。直交行列をかけるとベクトルの長さが変わらないため、勾配の増減を抑えられる。
- **従来研究**: 重み行列を直交に制約する正則化手法は以前から存在したが、著者は「直交化そのものが記憶保持に直接寄与する」というメカニズムを実験で示し、LSTMなどの複雑な構造を使わずとも、単純なRNN+直交化で同等以上の長期記憶性能が得られる可能性を提起している。
- **なぜ今注目か**: 大規模言語モデルがTransformer全盛のなか、線形再帰や状態空間モデル(Mambaなど)が再注目されており、RNN系の表現力を見直す文脈に位置する。