TAG · #GPU

#gpu

30 条相关内容

HOTNESS

AMD MI355X GPU（CDNA4）占用率数学计算：从第一性原理出发的指南
3.0
本文从第一性原理出发，详细推导了AMD MI355X GPU（基于CDNA4架构）的占用率数学计算方法。指南涵盖了线程块调度、计算单元资源分配及并行效率优化等关键概念，帮助开发者深入理解硬件行为并最大化性能。通过系统化的数学框架，读者可以掌握如何精确计算和优化GPU内核的占用率参数。
hn2026年7月9日#科技
Slughorn：面向OpenGL/OSG/Vulkan及所有GPU驱动图形API的Slug字体/字形渲染库（MIT许可）
1.0
Slughorn 是一个基于 MIT 许可的开源字体/字形渲染库，专为 OpenGL、OSG（OpenSceneGraph）、Vulkan 等 GPU 驱动图形 API 设计。它采用 GPU 无关架构，能够高效渲染 Slug 字体，为跨平台图形应用提供灵活且高性能的文字渲染解决方案。
hn2026年7月8日#科技
FlashAttention-4：算法与内核流水线
5.0
FlashAttention-4 引入了算法与内核流水线的协同设计，以应对非对称硬件扩展带来的挑战。通过优化注意力计算的内存访问模式与并行调度策略，该方法显著提升了在大规模非对称硬件（如异构内存或计算单元）上的运行效率与可扩展性。
hn2026年7月3日#科技
Blackwell上的矩阵乘法
4.0
本文为系列文章的第一部分，介绍了NVIDIA Blackwell架构上矩阵乘法的基本原理与实现方法。文章详细阐述了矩阵乘法在GPU计算中的核心地位，以及Blackwell架构如何针对该计算任务进行优化，为后续深入探讨性能调优技术奠定基础。
hn2026年7月3日#科技
理解GPU上的延迟隐藏 [pdf]
1.0
本文以伯克利大学EECS系的技术报告形式，深入探讨了GPU架构中延迟隐藏（Latency Hiding）机制的原理与实现。报告分析了GPU如何通过大量线程并行执行来掩盖内存访问和高延迟操作，从而提升计算吞吐量，并讨论了不同工作负载下延迟隐藏策略的有效性及其对性能的影响。
hn2026年7月3日#科技
Blackwell 上的矩阵乘法
4.0
本文是系列文章的第一部分，介绍 NVIDIA Blackwell 架构上矩阵乘法的实现与优化。文章深入探讨了 Blackwell 的计算能力、内存层次结构以及如何利用这些特性高效执行矩阵乘法运算，为后续更详细的技术讨论奠定基础。
hn2026年7月2日#科技
FlashAttention-4：算法与内核流水线
6.0
FlashAttention-4 通过算法与内核流水线的协同设计，针对非对称硬件扩展场景优化注意力机制计算。该技术旨在提升大模型在异构硬件上的训练与推理效率，通过精细化的流水线调度减少内存访问瓶颈，从而在保持精度的同时实现更高的吞吐量。
hn2026年7月2日#科技
借夜而行：回收闲置推理GPU用于研究
3.0
Runway提出"夜间借用"策略，利用机器学习推理GPU在非高峰时段的闲置算力资源，将其重新分配给研究团队进行模型训练与实验。该方案在不增加硬件成本的前提下，显著提升了GPU集群的利用效率，为计算资源紧张的研究领域提供了可行思路。
hn2026年7月2日#科技
Show HN: UATC – 一种防止GPU内存溢出的闭环控制器
4.0
UATC（闭环控制器）是一个用于防止GPU内存溢出（OOM）的开源工具。它通过实时监测GPU内存使用情况并动态调整资源分配，在内存接近极限时主动触发保护机制，从而避免训练或推理过程中的崩溃。该项目适用于深度学习场景，帮助开发者更稳定地利用GPU资源。
hn2026年7月2日#科技
LLM着色器基准测试
2.0
Shader Benchmark 是一个专为大型语言模型设计的着色器性能测试工具。它通过评估模型在生成和优化着色器代码方面的能力，帮助开发者了解不同LLM在图形编程任务中的表现。该基准测试涵盖了多种着色器编写场景，旨在推动LLM在图形学领域的应用发展。
hn2026年7月2日#科技
矿工眼中的英伟达
1.0
本文从加密货币矿工的视角，深入分析了英伟达（Nvidia）在挖矿浪潮中的角色与影响。作者结合自身经历，探讨了GPU供需失衡、矿工与游戏玩家的矛盾，以及英伟达在应对市场需求时的策略转变。文章揭示了加密货币热潮如何重塑硬件市场格局，并为关注科技产业链的读者提供了独特的观察角度。
hn2026年7月2日#科技
Wgpu v30
3.0
Wgpu v30 发布。这是一个基于 WebGPU 标准的跨平台图形和计算 API，支持 Rust、C/C++ 和浏览器环境。新版本可能包含性能改进、API 更新和错误修复。详情请查阅发布说明。
hn2026年7月1日#科技
利用GPU快照技术减少GVisor冷启动时间
5.0
本文探讨了如何通过内存快照技术来加速GPU工作负载的冷启动过程，将CUDA应用的恢复时间从分钟级缩短至秒级。Cerebrium提出了一种创新方法，通过保存和恢复GPU状态快照，使得无服务器GPU环境中的工作负载能够几乎即时启动，显著提升资源利用率和用户体验。
hn2026年7月1日#科技
GPU 算力紧张指数
4.0
BarGo.ai 推出 GPU 算力紧张指数（Compute Tightness Index），用于衡量全球 GPU 资源的供需平衡状况。该指数通过分析算力价格、可用容量和排队时间等关键指标，帮助用户了解当前市场环境下 GPU 资源的紧张程度，为云计算资源采购和 AI 训练任务规划提供决策参考。
hn2026年6月30日#科技
Nvidia复活旧款显卡，内存需求推高技术价格
3.0
面对日益增长的内存需求对硬件价格的影响，Nvidia重新推出多款旧版显卡，包括RTX 3060等型号。这一"内存末日"式的策略反映出市场对高性价比GPU的迫切需求，同时也揭示了内存价格波动如何持续塑造整个科技行业的定价格局。
hn2026年6月30日#科技
利用低延迟GEMM在AMD GPU上加速LLM推理
5.5
本文介绍如何通过优化低延迟通用矩阵乘法（GEMM）来加速AMD GPU上的大语言模型（LLM）推理。文章探讨了在AMD GPU上实现高效推理的关键技术方法，旨在降低LLM推理过程中的延迟并提升整体性能表现。
hn2026年6月30日#科技
探究 Linux 图形系统（2025）
3.0
本文深入探讨了 Linux 图形系统的现状，涵盖从底层 DRM/KMS 驱动到上层显示服务器（如 Wayland 和 X11）的完整架构。作者分析了现代 Linux 图形栈中图形内存管理、渲染管线以及合成器的工作原理，并讨论了当前面临的挑战与未来发展方向。适合对 Linux 图形子系统底层机制感兴趣的开发者阅读。
hn2026年6月30日#科技
UATC – 一种防止大语言模型训练中GPU显存溢出的闭环控制器
4.0
UATC是一种闭环控制器，旨在防止大语言模型（LLM）训练过程中因GPU显存不足（OOM）而中断训练。它通过实时监控显存使用情况并动态调整训练负载，从而实现训练过程的稳定与高效，避免因显存溢出导致的任务失败或资源浪费。
hn2026年6月30日#科技
Zluda 6 发布（在非英伟达 GPU 上运行未经修改的 CUDA 应用程序）
4.0
Zluda 6 版本正式发布，允许用户在非英伟达 GPU 上直接运行未经修改的 CUDA 应用程序。该更新在兼容性和性能方面均有显著提升，进一步扩展了 CUDA 生态系统的硬件适用范围，为开发者提供了更多 GPU 选择灵活性。
hn2026年6月30日#科技
TurboPrefill：在Llama-3-70B上比llama.cpp管道并行快2.7倍
7.0
TurboPrefill 是一项针对 llama.cpp 流水线并行的性能优化，通过在 Llama-3-70B 模型上实现 2.7 倍的推理加速，显著提升了预填充阶段的处理效率。该方案优化了大规模语言模型在并行推理中的负载分配与通信开销。
hn2026年6月30日#科技
什么是分箱（Binning）？基本定义（2022）
0.5
分箱（Binning）是半导体制造过程中对芯片进行分级分类的工艺。制造商根据芯片在测试中达到的性能、功耗和稳定性表现，将其划分为不同等级（如高、中、低档）。这一过程决定了芯片最终的应用场景和售价，例如高性能芯片可用于高端处理器，而表现稍差的芯片则可能用于低端产品或降频使用。简而言之，分箱帮助厂商优化良品率并满足不同市场需求。
hn2026年6月30日#科技
戳破GPU泡沫
5.0
本文深入分析了当前GPU市场是否存在泡沫现象，探讨了AI算力需求激增背后，GPU供应短缺、价格飙升以及投资过热等问题。作者通过市场数据和行业趋势，论证了GPU泡沫可能破裂的风险，并提出了对AI基础设施投资的理性思考。
hn2026年6月30日#科技
无 GPU 下的 WebGL
3.0
本文探讨了在没有独立 GPU 的情况下运行 WebGL 应用的可行方案与替代技术。通过软件渲染、CPU 模拟或云端 GPU 加速，开发者仍可在低性能设备上实现图形渲染与可视化效果，突破硬件限制。
hn2026年6月29日#科技
运行 CUDA 内核时会发生什么？
2.0
本文深入探讨了运行 CUDA 内核时 GPU 内部发生的底层细节，从主机端调用到线程在流式多处理器（SM）上的调度与执行。文章解释了网格、线程块与 warp 的概念，以及内存层次结构（全局内存、共享内存、寄存器）如何协同工作。作者通过逐步拆解，帮助读者理解 GPU 并行计算的真实运作机制。
hn2026年6月29日#科技
2026年GPU价格报告
3.0
该报告分析了2026年GPU市场的价格趋势、供需动态及主要厂商（如NVIDIA、AMD）的定价策略，涵盖数据中心和消费级GPU的价格变化，并预测未来走势，为采购和投资决策提供参考。
hn2026年6月29日#科技
自毁显卡
5.0
本文探讨了高端显卡电源连接器过热熔化的原因及预防措施。分析了连接器设计缺陷、安装不当等因素如何导致接口熔化风险，并提供了用户可采取的安全防护建议，包括正确插拔、定期检查及选购优质线材等方法，帮助用户避免显卡因电源接口问题而损坏。
hn2026年6月28日#科技
关于2026年英伟达费曼架构，我们了解多少？
4.0
英伟达下一代的GPU架构代号为“费曼”（Feynman），预计将在2026年发布。该架构以著名物理学家理查德·费曼命名，据传将在AI计算性能、能效比和内存带宽方面实现重大突破。目前已知的信息包括：可能采用全新的SM（流式多处理器）设计、更先进的制程工艺，以及针对大语言模型训练和推理的专用硬件优化。社区正在密切关注相关泄露信息和官方预告。
hn2026年6月28日#科技
McNUFFT – 基于 MLX 的 Apple Silicon GPU 非均匀快速傅里叶变换
2.0
McNUFFT 是一个面向 Apple Silicon GPU 的非均匀快速傅里叶变换（NUFFT）实现，基于 MLX 框架构建。该项目在 GitHub 上开源，旨在为苹果芯片上的科学计算和信号处理提供高效的 GPU 加速方案。
hn2026年6月27日#科技
Ask HN：MacBook 与专用 GPU 在运行大语言模型上的对比
1.0
本文讨论在 MacBook 上运行大语言模型（LLM）与使用专用 GPU 的差异，并探讨如何判断一款 MacBook 能够运行多大参数量的模型。用户希望对两种方案的性能、内存需求和实际体验有更清晰的理解。
hn2026年6月27日#科技
VRAM 幽灵清除：你准备关闭谁？()
1.0
本文探讨了 VRAM（显存）管理中出现的“幽灵”占用问题，即应用程序关闭后显存未被正确释放的现象。作者分析了导致该问题的常见原因，如未正确关闭的 GPU 上下文或驱动程序 bug，并提出了几种有效的检测与修复方法，帮助开发者更高效地排查和解决显存泄漏问题。
hn2026年6月26日#科技

加载下一批 30 条更新于 —