Zero Weights Language Model (MSE-GLM)

Zero Weights Language Model (MSE-GLM) is a novel language modeling approach that introduces zero-initialized weights to improve training stability and efficiency. By selectively setting certain weight parameters to zero at initialization, the model achieves better gradient flow and faster convergence during training, particularly beneficial for large-scale language models.

背景メモ

MSE-GLM（Zero Weights Language Model）は、従来のTransformer型LLMとは根本的に異なるアーキテクチャを提案する実験的な言語モデル。通常のニューラルネットは重み（重みパラメータ）を学習して情報を記憶するが、MSE-GLMは名前の通り「重みをゼロ」にし、代わりにMean Squared Error（平均二乗誤差）の勾配情報を推論時に動的に利用することで記憶と計算を行う。これは「勾配によるメモリ」という考え方に基づき、重みを固定・削除することでメモリ使用量や計算コストを劇的に削減できる可能性を示唆している。ただし現時点では概念実証（PoC）段階であり、大規模なベンチマークでの性能評価は未公開。このアプローチは、重み初期化や勾配降下の役割を再定義しようとする試みであり、既存のパラダイムに囚われない研究として一部で注目されている。