スケーラブルなGANとTransformer
本論文では、GAN(敵対的生成ネットワーク)にTransformerアーキテクチャを統合することで、大規模かつ高品質な画像生成を実現する手法を提案する。従来のGANのスケーラビリティ課題を克服し、Transformerの自己注意機構を活用することで、より安定した学習と高解像度な出力を可能にする。
背景メモ
• 本論文は、画像生成モデルの一種であるGAN(敵対的生成ネットワーク)にTransformerアーキテクチャを導入し、大規模化(スケールアップ)を可能にする手法を提案している。
• GANは「生成器」と「識別器」が競い合うことでリアルな画像を生成するが、学習の不安定さからスケールしにくいという課題があった。
• Transformerは元々自然言語処理で使われるアテンション機構だが、Vision Transformer(ViT)以降、画像分野でもCNN(畳み込みニューラルネットワーク)に代わり注目されている。拡散モデル(Stable Diffusionなど)が主流の今、GANにTransformerを組み合わせることで、より高速・効率的な生成が狙える可能性がある。
• 著者ら(MIT CSAIL・Adobe Researchなど)は、StyleGAN系の設計をTransformerに置き換えることで、従来のCNNベースGANと同等以上の画質を大規模に達成したと報告している。