TAG · #GPU

#gpu

30 件

HOTNESS

AMD MI355X GPU (CDNA4) における占有率計算：第一原理からのガイド
3.0
本稿では、AMD MI355X GPU（CDNA4アーキテクチャ）における占有率（occupancy）の数学的基礎を第一原理から解説する。占有率はGPUの計算ユニットを効率的に活用するための重要な指標であり、本ガイドではその計算方法と最適化手法について詳述する。
hn2026年7月9日#テクノロジー
Slughorn — MITライセンスのGPU非依存スラグフォント/グリフレンダリングライブラリ（OpenGL/OSG/Vulkan/全GPU駆動グラフィックスAPI対応）
1.0
Slughornは、OpenGL、OSG、VulkanなどあらゆるGPU駆動グラフィックスAPI向けに設計された、MITライセンスのスラグフォント/グリフレンダリングライブラリ。GPUに依存せず、高品質なフォントグリフの描画を実現する。
hn2026年7月8日#テクノロジー
FlashAttention-4: アルゴリズムとカーネルパイプラインの協調設計による非対称ハードウェアスケーリングへの対応
5.0
FlashAttention-4は、非対称なハードウェアスケーリングに対応するため、アルゴリズムとカーネルパイプラインを協調設計した新しいアテンション機構である。従来の手法では難しかった、異種ハードウェア環境での効率的なメモリ管理と計算最適化を実現し、大規模モデルの推論および学習を高速化する。
hn2026年7月3日#テクノロジー
Blackwellにおける行列乗算
4.0
本記事はNVIDIAのBlackwellアーキテクチャにおける行列乗算の実装と最適化について解説するシリーズの第1回目。GPUコンピューティングの基盤となる行列乗算が、Blackwellの新機能によってどのように高速化されるのか、その概要を紹介する。
hn2026年7月3日#テクノロジー
GPUにおけるレイテンシ隠蔽の理解 [pdf]
1.0
本論文は、GPUアーキテクチャにおけるレイテンシ隠蔽のメカニズムを包括的に分析する。命令レベル並列性とスレッドレベル並列性の相互作用を調査し、メモリアクセスレイテンシを隠蔽するための warp スケジューリング手法の効果を評価する。実測データに基づき、様々なワークロードにおけるレイテンシ隠蔽の限界と最適化手法を明らかにする。
hn2026年7月3日#テクノロジー
Blackwellにおける行列乗算
4.0
本記事はNVIDIAのBlackwellアーキテクチャにおける行列乗算の実装に関するシリーズの導入部です。Blackwell GPUのハードウェア機能を活用した高性能な行列計算手法の基礎を解説し、深層学習や科学計算における最適化への応用を展望します。
hn2026年7月2日#テクノロジー
FlashAttention-4: アルゴリズムとカーネルパイプライニング
6.0
FlashAttention-4は、非対称ハードウェアスケーリングに対応するため、アテンションアルゴリズムとカーネルパイプライニングを協調設計した新手法である。メモリアクセスパターンと計算スケジューリングを最適化することで、異種ハードウェア環境におけるTransformerモデルの推論・学習効率を大幅に向上させる。
hn2026年7月2日#テクノロジー
夜を借りて：アイドル状態の推論GPUを研究に活用する
3.0
Runwayは、推論タスクに使用されているGPUがアイドル状態になる夜間などの時間帯を活用し、それらを研究目的に再利用する「Borrowing the Night」アプローチを導入。これにより、追加のハードウェア投資なしで計算資源を最大限に活用し、AI研究の効率を向上させる。
hn2026年7月2日#テクノロジー
Show HN: UATC – GPUのOOMを防ぐ閉ループコントローラ
4.0
UATCは、GPUのメモリ不足（OOM）を防止するための閉ループ制御システムです。GPUメモリ使用量をリアルタイムで監視し、閾値を超えた場合に自動的にプロセスを一時停止・再開することで、安定したGPU動作を実現します。このツールは、大規模な機械学習モデルのトレーニングや推論を行う際のメモリ管理に役立ちます。
hn2026年7月2日#テクノロジー
LLM向けシェーダーベンチマーク
2.0
大規模言語モデル（LLM）のシェーダー記述能力を評価するためのベンチマークツール。GPUシェーディング言語（GLSLやHLSLなど）を用いたコード生成タスクを通じて、モデルのグラフィックスプログラミング性能を測定する。
hn2026年7月2日#テクノロジー
暗号通貨マイナーから見たNvidia
1.0
本記事は、暗号通貨マイナーの視点からNvidiaの事業戦略とGPU市場における同社の立ち位置を分析する。マイニング需要とゲーマー需要のバランス、GPU供給への影響、そしてNvidiaの製品ラインナップや価格設定がマイナーにどのような影響を与えているかを考察する。
hn2026年7月2日#テクノロジー
Wgpu v30
3.0
Wgpu v30 has been released. This version includes new features, improvements, and bug fixes for the cross-platform graphics abstraction layer written in Rust, providing better WebGPU support and enhanced performance.
hn2026年7月1日#テクノロジー
GPUスナップショットでGVisorのコールドスタートを削減
5.0
Cerebrium社は、GPUメモリスナップショット技術を用いて、CUDAワークロードのコールドスタート時間を数秒に短縮する手法を紹介。従来の長時間を要するコンテナ起動を大幅に改善し、オンデマンドのGPU推論やトレーニングをより効率的に実行可能にする。
hn2026年7月1日#テクノロジー
GPU Compute Tightness Index
4.0
Bargo has launched a "Compute Tightness Index" that measures real-time GPU supply-demand balance. The index tracks availability across major cloud providers and indicates when compute resources are scarce or abundant. It helps AI teams optimize their cloud spending and capacity planning decisions.
hn2026年6月30日#テクノロジー
Nvidia、RAM需要の高まりで旧型グラフィックカードを復活—テクノロジー価格に影響
3.0
Nvidiaは、急増するRAM需要がテクノロジー製品の価格に影響を与える中、RTX 3060などの旧型グラフィックカードの生産を再開した。新たなAI需要やメモリ市場の逼迫により、GPU価格が高騰している状況への対応策として、同社は既存の設計を活用したコスト効率の良いソリューションを提供している。
hn2026年6月30日#テクノロジー
低レイテンシGEMMによるAMD GPU上でのLLM推論の高速化
5.5
本記事では、AMD GPU上で大規模言語モデル（LLM）の推論を高速化するために、低レイテンシGEMM（一般行列積）を活用する手法について解説する。特に、推論時のボトルネックとなりやすい行列演算を最適化し、応答時間の短縮を実現する具体的なアプローチを紹介する。
hn2026年6月30日#テクノロジー
Linuxグラフィックを調査する（2025年）
3.0
2025年時点のLinuxグラフィックスタック（Wayland、X11、DRM、GPUドライバなど）の内部動作を詳細に調査した記事。著者は自身のグラフィックプログラムの移植を通じて、現代のLinuxにおける画面描画の仕組みを一から解説している。
hn2026年6月30日#テクノロジー
UATC – A Closed-Loop Controller to Prevent GPU OOM During LLM Training
4.0
UATC（Universal Automatic Throttling Controller）は、LLM学習中のGPUメモリ不足（OOM）を防ぐためのクローズドループ制御システムです。リアルタイムでGPUメモリ使用量を監視し、動的にスロットリングを行うことで、OOMエラーを未然に防止します。このツールは、大規模言語モデルの学習を安定化させ、利用可能なGPUリソースを最大限に活用することを可能にします。
hn2026年6月30日#テクノロジー
Zluda 6 リリース（未修正のCUDAアプリケーションをNvidia以外のGPUで実行）
4.0
Zluda 6がリリースされた。これは、Nvidia GPU向けに書かれたCUDAアプリケーションを修正なしで、AMDやIntelなどの非Nvidia GPU上で実行できるようにする互換レイヤーである。本バージョンでは、パフォーマンスの改善や対応GPUの拡充が図られている。
hn2026年6月30日#テクノロジー
TurboPrefill: Llama-3-70Bにおけるllama.cppのパイプラインパラレルより2.7倍高速
7.0
TurboPrefillは、Llama-3-70Bモデルにおいてllama.cppのパイプラインパラレル方式と比較して最大2.7倍の高速化を実現する新たな推論最適化手法です。本PRではその実装とベンチマーク結果が公開されています。
hn2026年6月30日#テクノロジー
ビニング（Binning）とは？基本定義（2022）
0.5
ビニング（Binning）とは、半導体製造工程において、同じウェハーから製造された個々のチップを、その性能や特性に基づいて異なるグレード（「ビン」）に分類するプロセスです。CPUやGPUの製造では、すべてのチップが同じ性能を発揮するわけではないため、動作クロック速度や消費電力、歩留まりに応じて選別され、異なる製品モデルとして販売されます。
hn2026年6月30日#テクノロジー
GPUバブルの崩壊
5.0
Moondream社のブログ記事「Popping the GPU Bubble」では、GPU需要の異常な高騰とAI業界を取り巻く「バブル」について考察している。著者は、現在のGPU不足は一時的なものであり、AIモデルの効率化や代替ハードウェアの登場によってバブルは崩壊すると主張。長期的にはGPU価格の正常化とアクセスの民主化が進むと予測する。
hn2026年6月30日#テクノロジー
WebGL Without a GPU
3.0
This article explores how to run WebGL rendering without a physical GPU by using software-based graphics processing. It discusses the technical challenges, performance implications, and practical use cases for GPU-less WebGL environments, such as server-side rendering and CI/CD testing pipelines.
hn2026年6月29日#テクノロジー
CUDAカーネルを実行すると何が起こるか
2.0
本記事では、GPUカーネルがCPU上から呼び出されてからGPU上で実際に実行されるまでの一連の流れを詳しく解説する。CUDAランタイムによるメモリ管理、カーネルの起動、スケジューリング、そして並列スレッド実行に至るまで、低レベルの仕組みを理解できる内容となっている。GPUプログラミングの内部動作に興味がある開発者に最適な技術解説である。
hn2026年6月29日#テクノロジー
2026 GPU価格レポート
3.0
本レポートでは、2026年における主要GPUの価格動向を分析。市場の需給バランス、新製品投入の影響、クラウドプロバイダー別の料金比較など、GPUコストに影響を与える要因を包括的にまとめる。
hn2026年6月29日#テクノロジー
自己破壊するグラフィックスカード
5.0
近年、ハイエンドGPUの電源コネクタが過熱・溶融する事例が相次ぎ、深刻な問題となっています。本記事では、この現象の原因やリスクを解説し、コネクタの完全挿入確認やケーブル管理体制の徹底など、安全にシステムを運用するための具体的な予防策を紹介します。
hn2026年6月28日#テクノロジー
2026年のNvidia Feynmanアーキテクチャについて分かっていること
4.0
Nvidiaの次世代アーキテクチャ「Feynman」について、2026年時点で判明している情報をまとめたRedditの議論。後継となるRubinアーキテクチャの詳細や、GPU業界への影響についてコミュニティで活発に意見交換が行われている。
hn2026年6月28日#テクノロジー
McNUFFT – MLXによるApple Silicon GPU向け非一様FFT
2.0
McNUFFTは、Apple Silicon搭載のGPU上で非一様高速フーリエ変換（NUFFT）を実現するライブラリです。MLXフレームワークを活用することで、GPUアクセラレーションによる高速な計算が可能で、MRI再構成や天文学など、非一様サンプリングデータの処理が必要な分野での応用が期待されます。
hn2026年6月27日#テクノロジー
Ask HN: MacBook vs 専用GPU——LLM実行の比較
1.0
MacBook上でLLM（大規模言語モデル）を動かしているユーザーに向けて、専用GPUとの違いや、MacBookがどの程度のモデルを実行できるかを判断する方法を尋ねる質問。ユニファイドメモリを活かしたMacBookの特性と、専用GPU搭載マシンとの性能差を比較したいという内容。
hn2026年6月27日#テクノロジー
VRAM ゴーストバスティング：閉じるのは誰だ？
1.0
GPUのVRAM（ビデオメモリ）をゴーストのように占有し、明示的に解放されるまでメモリを占有し続ける未使用テンソル（「ゴーストテンソル」）の問題と、それを特定して閉じる（close()）方法について解説。Pythonのコンテキストマネージャの活用や参照管理のベストプラクティスを通じて、VRAMリークを防止する実践的テクニックを紹介する。
hn2026年6月26日#テクノロジー

次の 30 件を読み込む最終更新 —