TAG · #DEEP-LEARNING

#deep-learning

30 件

HOTNESS

スクラッチからのLLM構築、パート34b――バイグラムからGPT-2へ、ひとつずつコンポーネントを追加（JAX）
3.0
本記事は長期連載の集大成。著者はSebastian Raschkaの書籍を元に、ノートのみを頼りにスクラッチからLLMを構築・訓練。PyTorch版のコードを一切参照せず、JAXを使用。当初は入力と同じ系列を出力するだけの「A-to-Aモデル」から出発し、LayerNormやTransformerブロックなどを段階的に追加。最終的にGPT-2 Small相当のモデルをRTX 3090で37時間15分かけて訓練し、損失3.418を達成。これは同等のPyTorchモデル（3.538）や元のGPT-2 small（3.499）を上回る結果となった。
gilesthomas-com2026年7月8日#テクノロジー
From bigrams to GPT-2, one component at a time (in Jax)
1.0
JAXを使用してGPT-2 Smallサイズの言語モデルをゼロから段階的に構築・訓練する詳細ガイド。バイグラムモデルから始め、トークン埋め込み、位置エンコーディング、マルチヘッド自己注意機構、順伝播層、層正規化を順に追加し、完全なTransformerを実現する。
hn2026年7月8日#テクノロジー
FlashAttention-4: アルゴリズムとカーネルパイプラインの協調設計による非対称ハードウェアスケーリングへの対応
5.0
FlashAttention-4は、非対称なハードウェアスケーリングに対応するため、アルゴリズムとカーネルパイプラインを協調設計した新しいアテンション機構である。従来の手法では難しかった、異種ハードウェア環境での効率的なメモリ管理と計算最適化を実現し、大規模モデルの推論および学習を高速化する。
hn2026年7月3日#テクノロジー
FlashAttention-4: アルゴリズムとカーネルパイプライニング
6.0
FlashAttention-4は、非対称ハードウェアスケーリングに対応するため、アテンションアルゴリズムとカーネルパイプライニングを協調設計した新手法である。メモリアクセスパターンと計算スケジューリングを最適化することで、異種ハードウェア環境におけるTransformerモデルの推論・学習効率を大幅に向上させる。
hn2026年7月2日#テクノロジー
1層で十分？単一トランスフォーマー層がフルパラメータRL訓練に匹敵
2.0
本論文では、強化学習（RL）を用いた大規模言語モデルの訓練において、単一のトランスフォーマー層のみを更新する手法が、全パラメータを更新する従来の手法と同等の性能を達成できることを示す。実験結果から、特定の条件下では1層の更新で十分であり、計算コストを大幅に削減できる可能性が明らかになった。
hn2026年7月2日#テクノロジー
モダンAI：基礎、学習、システム – 動画
2.0
本プレイリストでは、現代の人工知能（AI）の基礎理論、学習手法、そしてシステム設計について解説する動画を収録しています。ニューラルネットワークの仕組みから強化学習、大規模システムの構築まで幅広くカバーしています。
hn2026年7月1日#テクノロジー
RayTention – 幾何学的信号抽出によるセルフアテンション
3.0
RayTentionは、幾何学的信号抽出の原理に基づいた新しいセルフアテンション機構を導入するGitHubリポジトリです。従来のアテンション手法とは異なり、入力データの幾何学的構造を活用して重要な信号を効率的に抽出し、計算コストを削減しながらモデルの性能向上を図ります。このアプローチは、特に高次元データや複雑なパターン認識タスクにおいて有効性を発揮することが期待されます。
hn2026年7月1日#テクノロジー
行列直交化がリカレントモデルの記憶を向上させる
3.0
リカレントニューラルネットワークにおける勾配消失・爆発問題は長期記憶の保持を困難にする。本稿では、重み行列を直交化することで、勾配の流れを安定化させ、モデルの長期的な記憶能力を効果的に改善する手法を解説する。
hn2026年7月1日#テクノロジー
高パフォーマンス・コンピューティングにおけるPyTorchの有効性について
4.0
本論文では、深層学習フレームワークPyTorchが高パフォーマンス・コンピューティング（HPC）環境においてどの程度有効に機能するかを評価する。大規模並列処理やGPUクラスタでの性能、メモリ使用効率、計算オーバーヘッドなどを実測し、従来のHPC向けツールとの比較を通じてその適用可能性と限界を明らかにする。
hn2026年6月30日#テクノロジー
LLMトレーニング実行のためのJaxトレーニングループ構築
7.0
本記事では、大規模言語モデル（LLM）のトレーニング実行に向けて、Jaxを使用したトレーニングループをゼロから構築する方法を解説する。Jaxの関数変換や自動微分を活用し、効率的なトレーニングパイプラインの設計・実装手順を詳細に紹介する。
hn2026年6月30日#テクノロジー
Fail Fast, Run Faster: Shape Safe Deep Learning in Rust on Apple Silicon [pdf]
0.0
This paper presents a novel approach to building shape-safe deep learning frameworks using Rust on Apple Silicon hardware. By leveraging Rust's type system and ownership model, the authors demonstrate how to achieve compile-time shape checking for neural network operations, reducing runtime errors while maintaining high performance through efficient SIMD and GPU utilization on Apple's M-series processors.
hn2026年6月30日#テクノロジー
学習率が全てを決める
2.0
機械学習モデルの学習プロセスにおいて、学習率（learning rate）の設定が成果を大きく左右するという洞察を共有。適切な学習率の選択や調整方法の重要性を実例を交えて解説し、多くの失敗が学習率に起因することを指摘する。
hn2026年6月29日#テクノロジー
Show HN: NanoEuler – 純粋なC/CUDAでスクラッチから構築したGPT-2規模のモデル
3.0
NanoEulerは、純粋なC言語とCUDAのみでスクラッチから実装されたGPT-2規模のテキスト生成モデルです。23Mパラメータの段階でテキストの構造を学習し、SFTを活用してチャットボットへと発展させました。中間ライブラリを一切介さず、GPUの動作やパラメータとデータの相関を低レベルで理解することを目的としています。
hn2026年6月28日#テクノロジー
Foveon – Bayer to Foveon X3, learned, Mac App using deep learning
1.0
Foveon is a Mac application that uses deep learning to convert standard Bayer pattern sensor images into Foveon X3-like images, offering improved color accuracy and detail by simulating the unique multi-layer sensor technology of Foveon sensors through neural network processing.
hn2026年6月28日#テクノロジー
アテンションこそが私たちのすべて
0.0
本稿では、深層学習における「アテンション」機構の重要性を探求し、人間の認知や意識の働きとアテンションの類似性を論じる。Transformerモデルが「Attention Is All You Need」で提唱されて以来、この概念はAI分野を変革したが、著者はそれが単なる技術的ツールを超え、人間の注意力や思考の本質を理解するための鍵であると主張する。
hn2026年6月28日#テクノロジー
Sequence Modeling with CTC
6.5
CTC (Connectionist Temporal Classification) is a method for sequence modeling that eliminates the need for alignment between input and output sequences. It is especially useful in tasks like speech recognition and handwriting recognition, where the input and output sequences have different lengths and alignment is unknown. This article provides a clear, visual explanation of how CTC works, including its loss function, inference process, and practical considerations.
hn2026年6月27日#テクノロジー
Ask HN: イリヤ・サツケバーは最近公の場で話をしていますか？
2.0
最近、イリヤ・サツケバーの姿をあまり見かけなくなった。彼はこの1年の間に、講演、インタビュー、論文、技術的最新情報など、読む価値のあるものを発表しているだろうか？
hn2026年6月27日#テクノロジー
MLSysのためのモダンGPUプログラミング
2.0
本リソースは、機械学習システム（MLSys）におけるGPUプログラミングの最新手法を解説する。CUDAやその他のGPUコンピューティング技術を活用し、深層学習モデルのトレーニングや推論を効率化するための実践的な知識を提供する。
hn2026年6月27日#テクノロジー
ソフトウェアエンジニアのためのTransformer解説
1.0
本記事は、Transformerアーキテクチャとその中核をなすAttentionメカニズムについて、ソフトウェアエンジニア向けにわかりやすく解説する。数式に頼りすぎず、直感的な説明とコード例を交えながら、Transformerがどのようにして自然言語処理や大規模言語モデルの基盤となったのかを紐解く。Attentionの仕組みからマルチヘッドアテンション、位置エンコーディングまで、実践的な視点で理解を深めることができる。
hn2026年6月26日#テクノロジー
スケーリング則、慎重に
7.0
大規模言語モデルの性能向上における「スケーリング則」（Scaling Laws）の正しい理解と適用の重要性を解説。モデルサイズ、データ量、計算資源の増加がもたらす効果と、その限界について慎重な考察を提供する。
hn2026年6月26日#テクノロジー
ビヨンド・オブジェクト
2.0
本稿「Beyond Objects」は、従来の物体中心の表現を超えた、新しい視覚的・概念的枠組みを提案する。物体に依存しない関係性や相互作用に焦点を当てることで、より柔軟で汎用的な知能モデルの構築を目指す。
hn2026年6月26日#サイエンス
Show HN: A Transformer Is All You Need
1.0
Transformers are all you need. This project demonstrates a minimal Transformer implementation that achieves competitive performance on machine translation tasks, validating the core insight that attention mechanisms alone are sufficient for sequence-to-sequence modeling without recurrent or convolutional layers.
hn2026年6月26日#テクノロジー
Mapping Networks: CVPR 2026 Best Paper Award Nominee
6.0
本論文は、CVPR 2026で最優秀論文賞にノミネートされた「Mapping Networks」に関する研究を紹介する。従来のニューラルネットワークの学習手法とは異なり、マッピングネットワークはデータ空間と表現空間の間の写像を直接学習することで、より効率的かつ解釈可能なモデルを実現する。特に画像認識タスクにおいて、既存手法を大幅に上回る性能を示し、新しい深層学習のパラダイムを提案している。
hn2026年6月26日#テクノロジー
MLSysのためのモダンGPUプログラミングブック
4.0
このオンラインブックでは、GPUプログラミングの基礎から高度な最適化手法までを体系的に解説。機械学習システム（MLSys）に焦点を当て、CUDAカーネル開発、メモリ階層の活用、並列計算パターンを実際のコード例とともに学ぶことができる。
hn2026年6月26日#テクノロジー
スケーリング則、慎重に
2.0
大規模言語モデルの性能向上を支配する「スケーリング則」について、その理論的基盤から実践上の注意点までを包括的に解説。モデルサイズ、データ量、計算量の3要素がどのように相互作用し、性能に影響を与えるかを分析し、効率的な学習のための知見を提供する。
hn2026年6月25日#テクノロジー
World Action Models: A Survey
4.0
This survey paper comprehensively reviews World Action Models, a class of AI systems that integrate world models with action planning. It covers key methodologies, current applications in robotics and game AI, and discusses future research directions for building more capable autonomous agents.
hn2026年6月24日#サイエンス
深層学習により発見された心臓突然死の心電図バイオマーカー
7.5
深層学習を用いて、心臓突然死のリスクを高い精度で予測できる新しい心電図バイオマーカーが発見された。この手法は従来の臨床指標を超える予測性能を示し、日常的な心電図検査から突然死リスクの層別化が可能になる可能性がある。将来的には予防医療や早期介入に貢献することが期待される。
hn2026年6月24日#サイエンス
過剰パラメータ化の謎めいた成功：当たりくじチケットか逃避次元か？
2.0
本稿では、過剰パラメータ化されたニューラルネットワークが優れた性能を発揮する理由について、「当たりくじチケット仮説」（Lottery Ticket Hypothesis）と「逃避次元」（Escape Dimensions）という2つの主要な理論的枠組みを比較・検討する。これらの概念を統合的に分析することで、過剰パラメータ化が学習と汎化に与える影響の本質に迫る。
hn2026年6月24日#サイエンス
Show HN: ReflexConv2d – 画像再構成のぼやけを57%低減
3.0
ReflexConv2Dは、画像再構成におけるぼやけを従来手法と比較して最大57%低減する新しい畳み込みモジュールです。標準的な畳み込み層の代わりに使用することで、よりシャープで高品質な画像再構成を実現します。GitHubで公開されたオープンソースプロジェクトです。
hn2026年6月23日#テクノロジー
2023年～2031年のモデルサイズスケーリング
8.0
本記事は、2023年から2031年にかけてのAIモデルサイズの拡大傾向を分析し、計算資源やデータ量の増加に伴うスケーリング則の将来予測を提示する。大規模言語モデル（LLM）のパラメータ数が指数関数的に増加し続ける可能性と、その限界要因について考察する。
hn2026年6月23日#テクノロジー

次の 30 件を読み込む最終更新 —