译文语言

基于Transformer的可扩展生成对抗网络

本文提出了一种结合Transformer架构与生成对抗网络（GANs）的可扩展方法，旨在提升大规模图像生成任务的性能与效率。通过引入Transformer作为生成器和判别器的核心组件，该方法在保持GAN训练稳定性的同时，实现了更优的生成质量和更高的扩展能力，为高分辨率图像合成提供了新的技术路径。

背景速读

- 生成对抗网络（GAN）由两个神经网络——生成器与判别器——相互博弈，从而生成逼真的图像、视频等内容。传统 GAN 的核心架构多为卷积神经网络（CNN），虽擅长图像，但在处理长距离依赖（即像素间远距离关联）时效率不高。 - Transformer 架构（如 GPT、BERT 背后的技术）则擅长通过"注意力机制"捕捉全局关系，已横扫自然语言处理领域，近年也被引入计算机视觉（Vision Transformer，ViT）。 - 本文提出将 Transformer 完全替代 CNN 作为 GAN 的骨干网络，解决以往混合方案难以扩展到高分辨率或大批次训练的问题。其关键创新在于"可扩展性"——让模型参数量和训练规模合理增长时，性能仍稳定提升，这在此前的 GAN 研究中一直是个难题。 - 若该方法成立，意味着图像生成领域可能迎来类似 NLP 领域的"规模定律"：更大的模型、更多的数据直接带来更优的结果，而非像传统 GAN 那样易陷入模式崩塌或训练不稳定。