プログラム合成によるアテンションの説明
本論文は、ニューラルネットワークのアテンションメカニズムを解釈する新しい手法を提案する。プログラム合成を用いてアテンションの動作を明示的なプログラムに変換することで、モデルの判断根拠を人間が理解可能な形で説明する。
背景メモ
- 本論文は、AIの「注意機構(アテンション)」が何に注目しているかを、プログラム合成という手法で説明しようとする試み。注意機構はTransformer系モデル(GPTなど)の中核だが、その内部動作はブラックボックス化しがちで、解釈性(explainability)が大きな課題となっている。
- プログラム合成とは、与えられた入出力例や仕様から、その動作を再現するプログラムを自動生成する技術。これにより、ニューラルネットの複雑な計算を、人間が読める記号的なロジックに置き換えて理解しようというアプローチ。
- 本稿の狙いは、注意機構の「なぜその入力に注目したか」を、単なる可視化(ヒートマップ)ではなく、解釈可能なプログラムの形で示すことにある。AIの透明性や安全性の議論に直結するテーマ。
- 著者らはMITやMicrosoft Researchなどに所属し、AIの解釈性やプログラム合成分野で実績がある。本論文は2025年6月にarXivに投稿され、プレプリント段階。