翻訳言語

スケーラブルなGANとTransformer

本論文では、GAN（敵対的生成ネットワーク）にTransformerアーキテクチャを統合することで、大規模かつ高品質な画像生成を実現する手法を提案する。従来のGANのスケーラビリティ課題を克服し、Transformerの自己注意機構を活用することで、より安定した学習と高解像度な出力を可能にする。

背景メモ

• 本論文は、画像生成モデルの一種であるGAN（敵対的生成ネットワーク）にTransformerアーキテクチャを導入し、大規模化（スケールアップ）を可能にする手法を提案している。 • GANは「生成器」と「識別器」が競い合うことでリアルな画像を生成するが、学習の不安定さからスケールしにくいという課題があった。 • Transformerは元々自然言語処理で使われるアテンション機構だが、Vision Transformer（ViT）以降、画像分野でもCNN（畳み込みニューラルネットワーク）に代わり注目されている。拡散モデル（Stable Diffusionなど）が主流の今、GANにTransformerを組み合わせることで、より高速・効率的な生成が狙える可能性がある。 • 著者ら（MIT CSAIL・Adobe Researchなど）は、StyleGAN系の設計をTransformerに置き換えることで、従来のCNNベースGANと同等以上の画質を大規模に達成したと報告している。