Wave 是一个面向 GPU 的通用指令集架构(ISA),旨在提供跨硬件平台的统一编程接口。它通过抽象不同 GPU 的底层细节,让开发者能够编写一次代码即可在多种 GPU 上高效运行,从而降低开发复杂度并提升可移植性。
#gpu
30 条相关内容
本文是 PyTorch 性能分析系列教程的第一部分,专为初学者设计,介绍如何使用 torch.profiler 对 PyTorch 模型进行性能分析和优化。文章涵盖了 profiler 的基本概念、安装配置方法、常用 API 的使用技巧,以及如何解读分析结果来识别性能瓶颈。通过本指南,读者可以学会利用 torch.profiler 监控 GPU 和 CPU 的执行时间、内存使用情况,从而更高效地调试和优化深度学习模型。
Nvidia Dynamo Snapshot 是一项专为 Kubernetes 环境设计的技术,旨在显著加速推理工作负载的启动过程。通过利用快照机制,该方案能够减少模型加载和初始化时间,从而提升整体部署效率和服务响应速度,适用于需要快速弹性伸缩的 AI 推理场景。
该项目提出一种创新的并行计算方案:通过在 GPU 上同时运行大量 Python 解释器实例,实现任意 Python 代码的并行化。该方法绕过了传统并行化的限制,让原本无法并行执行的 Python 代码也能充分利用 GPU 的并行计算能力。
Nvidia Dynamo 快照是一项针对 Kubernetes 环境的新技术,可大幅加速 AI 推理工作负载的启动时间。通过预先捕获和存储推理容器的内存状态,该方案能够在启动时快速恢复,避免模型加载和初始化带来的延迟,从而提升整体部署效率和资源利用率。
FastVideo Dreamverse 已正式开源,该工具可在单块 NVIDIA B200 GPU 上实现实时“氛围导演”(Vibe Directing)功能。用户通过实时调整画面风格与氛围参数,即可获得即时反馈,极大降低视频创作门槛。项目代码现已公开,支持开发者和创作者在此基础上进行二次开发与定制。
cuSBF是一个基于GPU的高性能布隆过滤器实现,专门针对DNA、RNA等序列数据处理进行了优化。相比传统CPU方案,它利用GPU并行计算能力显著提升了过滤和查询速度,适用于生物信息学等大规模序列匹配场景。
WarpSpeed项目在Blackwell平台上取得了重大突破,其运行速度已接近理论极限——光速。这项进展标志着计算性能的新里程碑,为高性能计算和人工智能应用提供了前所未有的加速能力。
英伟达终于要告别其标志性的控制面板了——这款陪伴用户20年之久的经典界面将退出历史舞台。未来,新的驱动程序更新将仅通过Nvidia App进行推送。
经过长达 20 年的服务,Nvidia 正式退役了经典的 GeForce 控制面板应用。这一传统设置工具将被 Nvidia 应用所取代,后者整合了控制面板和 GeForce Experience 的功能,为玩家提供更统一、现代化的驱动管理与游戏优化体验。
Wave是一种通用的GPU指令集架构(ISA),旨在提供跨不同GPU硬件的统一编程接口。它通过定义独立于具体厂商的指令集,简化了GPU编程的复杂性,并提升了代码的可移植性和重用性。
本文探讨了在CPU和GPU上,floor(向下取整)和ceil(向上取整)函数与非规格化数(denormals)之间的交互问题。非规格化数在数值计算中用于表示非常小的浮点数,但会显著降低性能。文章分析了不同硬件平台上这些函数处理非规格化数时的行为差异,并提供了优化建议,帮助开发者避免因非规格化数导致的性能陷阱。
Auto GPU Kernel 是一款用于自主发现和优化 GPU 内核的工具,能够自动识别并调优 GPU 计算内核,提升性能与效率。该项目旨在简化 GPU 编程中的内核优化过程,减少手动调优的工作量。
随着智能体AI(Agentic AI)的崛起,计算架构正经历重大变革。这类AI系统能够自主推理、规划并执行复杂任务,对CPU和GPU的协同工作方式提出了全新要求。文章探讨了智能体AI如何打破传统CPU/GPU分工模式,推动硬件架构的创新,以应对更复杂的推理和多步骤任务处理需求。
RADV 开源 Vulkan 驱动程序已实现对 VK_KHR_shader_fma 扩展的支持。该扩展允许着色器使用融合乘加(FMA)操作,从而提升计算精度和性能。此次更新对 Mesa 的 RADV 驱动程序用户而言是一项重要的底层改进。
gpucheck 是一个基于 pytest 的轻量级测试工具,专为 GPU 内核验证而设计。它允许开发者以简洁的方式编写和执行 GPU 内核测试,简化了 GPU 计算代码的调试与验证流程,适用于 CUDA、OpenCL 等主流 GPU 编程框架。
MetalBench 是一个针对 Apple Silicon 上 Metal 着色语言(MSL)的基准测试工具。该项目旨在评估和比较苹果自研芯片在 Metal 图形与计算着色器方面的性能表现,为开发者提供量化的性能参考数据。
Tom's Hardware 对 RX 9070 XT 显卡的高级着色器交付(Advanced Shader Delivery)技术进行了测试,结果显示该技术可显著缩短游戏加载时间,最高降幅达 95%。这一技术优化了着色器的编译与传输流程,从而大幅提升图形处理效率与游戏启动速度。
Lupine是一个GPU-over-IP桥接工具,允许用户通过网络远程访问和利用GPU计算资源。该项目旨在解决物理GPU访问限制问题,使分布式或远程环境下的GPU加速计算成为可能,适用于需要跨设备共享GPU算力的场景。
研究发现,GPU处理矩阵乘法时,如果输入数据具有“可预测”的模式或结构,计算速度会显著提升。这一发现挑战了传统观点——即矩阵乘法的性能仅取决于矩阵大小和硬件,而与数据内容无关。了解这一特性有助于优化深度学习模型中的矩阵运算效率。
本文从计算机体系结构的第一性原理出发,深入探讨如何让深度学习模型实现极致的运行效率。作者分析了 GPU 计算、内存带宽、计算核心利用率等关键因素,揭示了从硬件到软件层面优化深度学习性能的系统性方法。内容涵盖硬件原理、编程实践与工程权衡,适合希望理解深度学习性能优化底层逻辑的读者。
英伟达在其最新财务报告中悄然移除了"游戏收入"这一独立分类,将其归入更广泛的计算与网络部门。这一调整反映出该公司业务重心正从传统的游戏显卡市场向数据中心和人工智能领域加速转移,游戏业务不再是其核心增长引擎。
本文从基本逻辑门出发,逐步向上解释为何GPU、TPU、FPGA以及人脑各自呈现出其特有的架构形态。通过自底向上的视角,揭示了不同计算范式背后的设计原理与权衡。
英伟达首席财务官表示,随着Grace CPU(基于Arm架构)的强劲发展,该公司有望成为全球领先的CPU供应商。英伟达正从GPU巨头向数据中心全栈解决方案提供商转型,其CPU产品在AI和高性能计算领域展现出强劲竞争力,有望在未来几年内挑战英特尔和AMD的市场主导地位。
NVCF(NVIDIA GPU 函数平台)现已正式开源。本文深入介绍了该平台的架构设计、核心功能及其在 GPU 计算领域的应用场景。开源后,开发者可以更自由地集成和定制 GPU 函数计算服务,推动高性能计算与 AI 推理的广泛部署。
QuantumAi区块链发布了v1.2.1版本更新,引入了四位验证器架构,并支持在GPU上运行Aethermind。此次升级旨在提升网络去中心化程度和计算效率,为AI驱动的区块链应用提供更强性能支持。
MLX Vulkan 后端是 MLX 框架的一个计算后端实现,它利用 Vulkan API 来加速机器学习模型的推理和训练。该项目旨在为 MLX 提供跨平台的 GPU 加速支持,使开发者能够在支持 Vulkan 的设备上高效运行 MLX 工作负载,而无需依赖特定厂商的 CUDA 或 Metal 后端。
Opal 路径追踪器
3.0Opal Pathtracer 是一个基于物理的渲染器,使用路径追踪算法来生成逼真的图像。该项目实现了光线与场景交互的模拟,包括漫反射、镜面反射和折射等材质效果,适用于计算机图形学学习和渲染实验。
IgniteMS 是一个高性能的批量文本嵌入工具,在8块 NVIDIA A100 GPU 上达到了每秒处理 253,000 条消息的吞吐量。该项目专为需要大规模文本向量化的场景设计,显著提升了嵌入生成的效率。
本文提出StepStone,一种利用大语言模型(LLM)通过用户空间库对GPU内核驱动进行模糊测试的方法。该方法通过分析用户空间库的API调用模式,自动生成针对GPU内核驱动的测试用例,从而有效发现驱动中的安全漏洞和缺陷。