大規模言語モデル(LLM)の推論におけるデコード処理は、従来のモデル推論と異なり計算能力(compute)ではなくメモリ帯域幅によって律速される。本資料では、LLMの自己回帰的なデコード特性とアテンション機構の計算パターンがなぜメモリバウンドになるのかを解説し、その影響と最適化の方向性について論じている。
#deep-learning
30 件
LLMの解剖学
4.0本記事では、大規模言語モデル(LLM)の内部構造を詳細に解説。トークン化、エンベディング、トランスフォーマーアーキテクチャ、自己注意機構、そしてデコードプロセスに至るまで、各構成要素の仕組みと役割を解剖学的に紐解いていく。
この記事では、AIが画像を「見て」読み取る仕組みを、Vision Language Models(視覚言語モデル)の可視化を通じて解説します。テキストと画像を同時に処理するこれらのモデルの内部動作を探り、視覚情報と自然言語の橋渡しがどのように行われているのかを明らかにします。
本記事では、DeepSeek-OCRの内部動作を可視化しながら解説する。モデルが画像からテキストを検出し認識するプロセスを、段階的な図解とともに詳述。エンコーダー・デコーダー構造やアテンションメカニズムの役割を視覚的に理解できる内容となっている。
本記事では、フロンティアレベルのフォント生成モデルをトレーニングした際の実践的知見を共有します。データセットの構築、モデルアーキテクチャの選択、トレーニング手法の最適化など、高品質なフォント生成を実現するための重要なポイントを解説します。
物理情報ニューラルネットワーク(PINNs)は、物理法則を損失関数に組み込むことで、データが少ない場合でも正確な予測を可能にするディープラーニング手法です。本記事では、PINNsの基本的な概念、数理的な定式化、および従来のニューラルネットワークとの違いを直感的に解説します。
本記事では、AIエージェントが実際にどのように動作するのかを、そのシステムアーキテクチャの観点から深掘りして解説する。具体的には、知覚(Perception)、推論(Reasoning)、行動(Action)の3つの主要コンポーネントと、それらを連携させるループ構造について詳述。また、ツール利用やメモリ管理、自己修正メカニズムなどの高度な機能にも触れ、AIエージェントの内部動作を理解するための包括的なガイドを提供する。
本稿では、大規模言語モデル(LLM)の基盤技術である「次トークン予測」(next-token prediction)が、単なるテキスト生成以上の意味を持つのかを考察する。このシンプルな目的関数が、推論、計画、世界モデルの構築といった複雑な能力をなぜ生み出すのか、その原理と限界について議論する。
KlongPy が PyTorch バックエンドと自動微分(Autograd)をサポート。Klong 配列言語を高速化するこのフレームワークは、GPU 対応のテンソル計算と自動微分機能を統合し、機械学習や数値計算のパフォーマンスを大幅に向上させる。
この動画では、テンソルが物理や数学において直感的に理解できる概念であることを解説。テンソルの基本的な考え方や応用例を紹介しながら、難しく思われがちなテンソルを身近なものとして捉え直す視点を提供する。
本記事では、最先端AIモデル(フロンティアモデル)の学習手法について解説する。事前学習、強化学習、人間のフィードバックを用いた調整など、大規模言語モデルのトレーニングパイプライン全体を俯瞰し、各段階での技術的課題と最新のベストプラクティスを紹介する。
ハイエンドNVIDIAカードの高騰に対し、Mac StudioやMacBook ProといったApple製品がローカルLLM推論の有力な代替手段となっている。DwarfStarプロジェクトでは、複数のMacを組み合わせた分散推論のアプローチとして、レイヤー分割によるシーケンシャル実行、RDMAを用いた並列実行、そしてモデルアンサンブルによる完全独立実行という3つの方法を検討。中でも、オープンウェイトモデル同士のアンサンブルは、通信オーバーヘッドがなく知識を補完し合える有望な手法として注目されている。
自己学習オートエンコーダ
1.0自己学習オートエンコーダ(Self Teaching Autoencoder)は、従来のオートエンコーダの枠組みを拡張し、ラベルなしデータからより効果的に特徴表現を学習する手法である。このアプローチでは、モデル自身が生成した擬似ラベルや補助タスクを活用することで、教師あり学習なしでも高品質な表現を得ることができる。自己教師あり学習と生成モデルの融合により、画像やテキストなど様々なデータ領域で汎用的な特徴抽出が可能となる。
Appleの機械学習チームが公開した「ML-PICO」は、学習ベースの画像圧縮手法において実用的な性能を最大化するための設計ポイントを体系的に分析した研究です。従来の手動設計コーデックを超える可能性を持つ一方で、実際の応用では速度と品質のトレードオフが重要であり、本論文ではアーキテクチャ、量子化、エントロピー符号化などの各要素が最終性能に与える影響を詳細に検証しています。
GPUによる行列乗算のパフォーマンスは、入力データの規則性(予測可能性)に大きく影響されることが明らかになった。特定のパターンや規則性を持つデータを与えると、GPUは計算を最適化し、処理速度が向上する。この発見は、機械学習や数値計算の効率化に新たな知見をもたらす。
本記事では、ディープラーニングの処理を高速化するための基本原理を、ハードウェアとソフトウェアの両面から解説する。メモリアクセスパターン、計算の並列化、カーネル融合といった最適化手法を、第一原理に基づいて紐解いていく。
Go Deep into Code(コードディープ)は、ソースコードの深い理解を可能にする新しいツールです。開発者はコードベースを視覚的に探索し、依存関係や構造を直感的に分析できます。このツールは複雑なプロジェクトの把握を容易にし、効率的なコードレビューやデバッグを支援します。
人間の脳とディープラーニングモデルの計算複雑性を比較し、生物学的ニューラルネットワークと人工ニューラルネットワークの根本的な違いを探る。特に、脳の並列処理能力とエネルギー効率の高さが、現在のディープラーニングをはるかに凌駕していることを示し、シンギュラリティ実現への課題を考察する。
本論文では、Transformerブロック内の演算をGEMM(一般行列乗算)のエピローグとして統一的に表現するCODA手法を提案。アテンション機構やフィードフォワードネットワークを含むTransformerの主要な計算を、カーネル融合によって最適化する。これにより、メモリアクセスを削減し、推論と学習の効率を大幅に向上させる。
DashAttentionは、深層学習モデルのアテンション機構を効率化する新たな手法で、スパースな階層構造を導入し、微分可能性と適応性を維持する。これにより、長いシーケンスを扱う際の計算コストを大幅に削減しつつ、高い表現力を実現する。
PyTorch 2.12 がリリースされました。このバージョンでは、パフォーマンスの最適化、新しい機能の追加、バグ修正が含まれており、ディープラーニングモデルのトレーニングと推論の効率がさらに向上しています。詳細は公式ブログをご覧ください。
本記事では、大規模言語モデル(LLM)をGPUにデプロイする際に必要なメモリ量を計算する公式を解説する。モデルのパラメータ数、精度(FP16/INT8など)、オプティマイザ状態、アクティベーションメモリなどの要素を考慮し、特定のGPUにどのモデルが収まるかを判断する方法を提供する。2026年時点の最新ハードウェアとソフトウェアの動向も踏まえた実践的なガイドとなっている。
This article explains KV Cache and Flash Attention, two key optimization techniques in transformer-based large language models, using interactive diagrams. It visualizes how KV Cache reduces redundant computations during autoregressive decoding and how Flash Attention optimizes memory usage and speed in attention mechanisms.
本コースでは、画像や動画を生成するAIエージェントの構築方法を学びます。パフォーマンス向上の鍵は、エージェント自身に出力を評価させ、反復的に品質を改善させることです。画像とテキストの類似性スコアリング、カスタム基準に基づくLLM評価、構造化ルーブリックという3つの評価手法を組み合わせたエージェント構築を、Google Cloud Techと共同で提供します。
トランスフォーマーアーキテクチャの限界と、その次世代モデルをめぐる専門家4名による白熱した討論会。論文「Attention Is All You Need」から7年、新たなアーキテクチャの可能性やスケーリング則、トークン生成の効率性について掘り下げる。Kaiser氏(元Google Brain)はState Space Modelsの可能性を、Kosowski氏(Anthropic)はトランスフォーマーの汎用性をそれぞれ主張する。
本論文では、機械学習(ML)コード生成においてベクトル長に依存しないスケーラブルなパックドレイアウト手法を提案する。従来のベクトル化手法が特定のベクトル長に制約されるのに対し、本手法は可変長ベクトル命令を効率的に活用し、異なるハードウェアプラットフォーム間でのコード移植性を向上させる。実験結果は、提案手法が既存のベクトル長依存型アプローチと比較して、パフォーマンスを維持しながらコード生成の柔軟性を大幅に向上させることを示している。
本論文では、トランスフォーマーアーキテクチャを活用して剛体力学を学習する新しいフレームワーク「RigidFormer」を提案する。従来の手法と比較して、剛体の動きをより正確に予測し、物理シミュレーションの効率を向上させる。
本記事では、大規模言語モデル(LM)の事前学習における汎化ダイナミクスについて解説する。学習データ内のパターンがどのようにモデルに獲得され、未知のデータに対してどのように汎化されるか、そのメカニズムを段階的に分析する。特に、モデルが単純なパターンから複雑なパターンへと学習を進める過程や、学習率やバッチサイズなどのハイパーパラメータが汎化性能に与える影響について、理論的・実験的な知見を提供する。
状態空間モデル(SSM)をコード例を用いて直感的に解説。線形時不変システムの基礎から、状態遷移と観測の仕組み、さらに近年注目されるMambaなどの深層学習モデルへの応用までを、実際のPythonコードを交えて段階的に学べる内容となっている。
Nous Research introduces Lighthouse Attention, a novel attention mechanism designed to improve efficiency and performance in transformer models by selectively focusing on key information, reducing computational overhead while maintaining model quality.