Waveは、GPUの命令セットアーキテクチャ(ISA)を統一することを目指したプロジェクトです。異なるGPUベンダー間での互換性を高め、開発者がより効率的にGPUコンピューティングを活用できるようにすることを目的としています。
#gpu
30 件
この記事は、PyTorchのプロファイリングツール「torch.profiler」の初心者向けガイドです。プロファイリングの基本概念から、torch.profilerのセットアップ方法、主要な機能(トレース、スタック、メモリプロファイリングなど)の使い方までを解説します。実際のコード例を用いて、モデルのボトルネックを特定しパフォーマンスを最適化する方法を学べます。
Nvidia Dynamo Snapshotは、Kubernetes環境での推論ワークロードの起動時間を大幅に短縮する技術です。コンテナのスナップショット機能を活用し、モデルのロードや初期化処理を事前に保存・復元することで、コールドスタート時の待ち時間を削減。大規模なAI推論サービスにおいて、迅速なスケーリングとリソース効率の向上を実現します。
gpusnek is a project that explores running 1 million Python interpreters on a GPU to enable parallel execution of arbitrary Python code. By leveraging GPU architectures, it aims to bypass CPython's GIL limitations and achieve massive parallelism for general-purpose Python workloads, not just traditional GPU-accelerated tasks like machine learning.
Nvidia Dynamo Snapshotは、Kubernetes環境における推論ワークロードの起動時間を短縮する技術です。コンテナのスナップショット機能を活用し、大規模なAIモデルのデプロイを高速化することで、推論サービスのスケーリングやコールドスタート時のレイテンシを大幅に低減します。
FastVideo Dreamverse がオープンソース化され、単一の NVIDIA B200 GPU 上でリアルタイムの Vibe ディレクティング(映像の雰囲気やスタイルを指示する手法)を実現しました。これにより、大規模な計算リソースを必要とせずに、高速かつ高品質な動画生成が可能になります。
cuSBFは、GPU(CUDA)上で動作する高速なブルームフィルタライブラリです。配列データ(シーケンス)に特化して最適化されており、従来の実装と比較して大幅な高速化を実現。メモリアクセスパターンの改善と並列処理の効率化により、大規模シーケンスデータの包含判定をGPU上で高速に行えます。
DoubleAI社の研究チームは、NVIDIA Blackwellアーキテクチャ上で動作する推論最適化エンジン「WarpSpeed」を発表した。このエンジンは、大規模言語モデルの推論速度を従来比で最大10倍に高速化し、ほぼ光速に近い応答速度を実現する。本技術は、AI推論のレイテンシーを劇的に削減し、リアルタイムAIアプリケーションの新たな可能性を切り拓く。
Nvidiaは、約20年にわたりGPU設定の中核を担ってきた従来の「Nvidia コントロールパネル」を廃止し、今後のドライバアップデートをすべて新「Nvidia App」に一本化することを発表した。これにより、GeForce Experienceの一部機能も統合され、より統一されたユーザー体験が提供される。
Nvidiaは、2005年から約20年にわたり提供してきたGeForceコントロールパネルアプリのサポートを正式に終了しました。今後は後継のNvidiaアプリへの移行が推奨されており、ドライバ設定やゲーム最適化などの機能は新しいアプリで引き続き利用できます。
Waveは、GPU向けのユニバーサル命令セットアーキテクチャ(ISA)です。異なるGPUハードウェア間での移植性を高め、効率的な並列計算を実現することを目的としています。
この記事では、CPUとGPUにおけるFloor関数およびCeil関数と非正規化数(デノーマル)の関係について解説しています。非正規化数が存在する場合、これらの数学関数のパフォーマンスに予期せぬ影響が生じることがあり、そのメカニズムと対策について詳しく説明しています。
Auto GPU Kernel は、GPU カーネルの自律的な発見と最適化を実現するオープンソースツールです。GPU プログラムのパフォーマンスを自動的に解析し、最適なカーネル構成を発見することで、手動チューニングの手間を大幅に削減します。並列処理に最適化されたコード生成をサポートし、開発者の生産性向上に貢献します。
エージェンティックAI(自律的に行動・推論するAI)の台頭により、従来GPUに集中していたAI処理負荷が変化し、CPUとGPUの役割分担やアーキテクチャ設計に根本的な見直しが迫られている。本記事では、AMDがこの新たなAIパラダイムに向けてどのようなCPU/GPU戦略を展開しているかを解説する。
The RADV Vulkan driver for AMD GPUs has gained support for the VK_KHR_shader_fma extension. This extension allows developers to use fused multiply-add operations in shaders with improved precision and performance. The implementation is based on the open-source RadeonSI approach and is now available in Mesa's RADV driver.
gpucheckは、GPUカーネルのテストを容易にするpytestベースのフレームワークです。開発者はCUDAやその他のGPUカーネルに対してユニットテストを記述・実行でき、テストの自動化と品質保証を効率化します。リポジトリでは、GPUプログラミングにおけるテスト駆動開発を支援するためのツールとサンプルが提供されています。
MetalBenchは、Apple Silicon搭載デバイスにおけるMetal Shading Language(MSL)のパフォーマンスを測定・比較するためのベンチマークツールです。GPUシェーダーの計算能力やレンダリング効率を評価し、Apple Mシリーズチップのグラフィックス性能を検証できます。
Tom's HardwareがRX 9070 XT GPUの高度なシェーダーデリバリー機能をテストしたところ、ロード時間が最大95%短縮される結果が得られた。この技術はシェーダーのデータ転送を最適化し、ゲームやアプリケーションの起動を大幅に高速化する。
Lupine is an open-source GPU-over-IP bridge designed to enable remote GPU acceleration over a network. It allows applications to offload GPU computations to remote machines, bridging the gap between local and remote GPU resources for distributed computing, cloud gaming, or AI workloads.
GPUによる行列乗算のパフォーマンスは、入力データの規則性(予測可能性)に大きく影響されることが明らかになった。特定のパターンや規則性を持つデータを与えると、GPUは計算を最適化し、処理速度が向上する。この発見は、機械学習や数値計算の効率化に新たな知見をもたらす。
本記事では、ディープラーニングの処理を高速化するための基本原理を、ハードウェアとソフトウェアの両面から解説する。メモリアクセスパターン、計算の並列化、カーネル融合といった最適化手法を、第一原理に基づいて紐解いていく。
Nvidiaは最新の財務報告において、長年主要部門として区分されてきた「ゲーミング」収益カテゴリーを削除した。今後はデータセンターやAI関連の収益をより重視した報告体系へと移行し、ゲーム事業が全体の中で相対的に縮小している実態が浮き彫りとなっている。
基本的な論理ゲートから出発し、GPU、TPU、FPGA、そして人間の脳がそれぞれなぜ現在のような構造になったのかをボトムアップで解説する。ハードウェアの設計原理を根本から理解したい読者に向けた内容。
NvidiaのCFOは、同社がCPU供給でも世界トップの企業になる軌道にあると発言。GPUだけでなく、CPU市場でも急成長を遂げているNvidiaの戦略と、今後の業界への影響について考察する。
NvidiaがGPU向け関数プラットフォーム「NVCF(Nvidia Cloud Functions)」をオープンソース化した。本記事では、NVCFのアーキテクチャの内部構造や、GPUリソースの効率的なスケジューリング、サーバーレスでの推論実行を可能にする仕組みについて詳しく解説する。
QBC Network announces the v1.2.1 update, introducing four new validators and enabling Aethermind AI inference on GPU for enhanced blockchain performance and decentralized AI processing capabilities.
MLX の Vulkan バックエンド実装です。GPU を利用した機械学習の計算を Vulkan API 経由で実行できるようにします。Apple Silicon 向けの MLX フレームワークを、Vulkan をサポートする他の GPU でも動作可能にすることを目指しています。
Opal Pathtracerは、GitHub上で公開されているオープンソースのパストレーサー(物理ベースレンダリングエンジン)です。高度なレイトレーシング技術を実装し、写実的な画像生成を可能にします。
IgniteMSは、8基のNVIDIA A100 GPU上で毎秒25万3千件のメッセージを処理可能な、高スループットなバッチテキスト埋め込みシステムです。大規模なテキストデータのベクトル化を効率的に行うためのツールで、高速な埋め込み生成を実現します。
本論文は、GPUカーネルドライバの脆弱性を発見するための新しいファジング手法「StepStone」を提案する。ユーザースペースライブラリを介してLLM(大規模言語モデル)を活用することで、従来手法では困難だったGPUドライバの深いコードパスを効率的に探索し、バグを発見することを可能にする。