翻訳言語

LeWorldModel: ピクセルからの安定したエンドツーエンドJEPA

LeWorldModelは、ピクセル入力を直接使用して安定したエンドツーエンドのJEPA（Joint Embedding Predictive Architecture）を実現するモデルです。このアプローチは、視覚表現学習と予測的アーキテクチャを統合し、効率的な世界モデルの構築を目指しています。