翻訳言語

Writing an LLM from scratch, part 32g -- Interventions: weight tying

Sebastian Raschkaの著書では、weight tying（重み共有）はパラメータ数を減らすが、モデルの性能を悪化させると指摘されている。しかし、著者は163Mパラメータの小さなモデルで実際に試し、この古典的な手法が有効かどうかを検証している。コード的には、埋め込み層の重みを出力層の重みとして転置して共有するだけで実装できる。