TAG · #DEEP-LEARNING

#deep-learning

30 条相关内容

HOTNESS

从零开始写LLM，第34b部分——逐个组件从二元模型到GPT-2（JAX实现）
3.0
作者以JAX框架从零构建并训练了一个GPT-2 Small模型（参数量与原始论文一致），全程仅凭笔记，不参考任何现有代码。训练耗时37小时15分钟，在测试集上的损失（3.418784）优于等效PyTorch模型（3.538161）和原版GPT-2 Small（3.499677）。文章详细记录了从最简单的"映射到自身"模型开始，逐项添加位置编码、LayerNorm、多头注意力、Transformer块等组件，并验证每一步确实降低了损失的过程。
gilesthomas-com2026年7月8日#科技
从二元组到GPT-2，逐步构建组件（基于Jax）
1.0
本文详细讲解了如何在Jax框架下从零构建并训练一个小型GPT-2模型（34亿参数）。作者按照从二元语言模型到完整Transformer架构的顺序，逐一实现每个核心组件，包括嵌入层、自注意力机制、前馈网络等，并提供了完整的代码示例和训练流程，适合希望深入理解LLM内部原理的开发者学习。
hn2026年7月8日#科技
FlashAttention-4：算法与内核流水线
5.0
FlashAttention-4 引入了算法与内核流水线的协同设计，以应对非对称硬件扩展带来的挑战。通过优化注意力计算的内存访问模式与并行调度策略，该方法显著提升了在大规模非对称硬件（如异构内存或计算单元）上的运行效率与可扩展性。
hn2026年7月3日#科技
FlashAttention-4：算法与内核流水线
6.0
FlashAttention-4 通过算法与内核流水线的协同设计，针对非对称硬件扩展场景优化注意力机制计算。该技术旨在提升大模型在异构硬件上的训练与推理效率，通过精细化的流水线调度减少内存访问瓶颈，从而在保持精度的同时实现更高的吞吐量。
hn2026年7月2日#科技
一层Transformer就够了吗？单层Transformer匹配全参数强化学习训练
2.0
本研究探讨了Transformer模型在强化学习训练中的参数效率问题，发现仅使用单层Transformer即可达到与全参数模型相当的性能。实验结果表明，在多项RL任务中，单层架构在训练效率和最终表现上均不逊色于完整模型，挑战了"更深即更好"的传统认知，为资源受限场景下的模型部署提供了新的可能性。
hn2026年7月2日#科技
现代人工智能：基础、学习与系统 – 视频合集
2.0
本视频合集全面介绍了现代人工智能的核心概念，涵盖基础理论、机器学习方法以及系统架构设计。内容适合对AI技术感兴趣的初学者和进阶学习者，帮助观众系统性地理解AI从原理到实践的关键知识。
hn2026年7月1日#科技
RayTention – 基于几何信号提取的自注意力机制
3.0
RayTention 是一种创新的自注意力机制，通过几何信号提取方法来优化传统注意力计算。该技术在 GitHub 上开源，旨在提升模型在处理序列数据时的效率和表现力，尤其适用于需要捕捉长距离依赖关系的深度学习任务。
hn2026年7月1日#科技
矩阵正交化提升循环模型中的记忆能力
3.0
研究发现，在循环神经网络（RNN）等循环模型中应用矩阵正交化技术，可以有效改善模型的长期记忆保持能力。通过约束权重矩阵为正交或接近正交，能够缓解梯度消失或爆炸问题，从而让模型更好地捕捉长距离依赖关系。这一方法为提升循环架构在序列建模任务中的性能提供了简洁而有效的改进思路。
hn2026年7月1日#科技
论 PyTorch 在高性能计算中的效能
4.0
本文评估了 PyTorch 在高性能计算（HPC）场景下的实际效能，探讨其在深度学习框架之外的应用潜力。研究分析了 PyTorch 在分布式计算、内存管理与数值计算等方面的性能表现，并与传统 HPC 工具进行了对比。结果表明，PyTorch 在特定领域能够提供具有竞争力的计算效率，但仍有待优化以适应大规模科学计算需求。
hn2026年6月30日#科技
为LLM训练运行构建Jax训练循环
7.0
本文详细介绍了如何从头开始为大型语言模型（LLM）训练构建一个基于Jax的训练循环。内容涵盖数据加载、模型参数初始化、前向与反向传播、优化器设置以及分布式训练等关键步骤，为读者提供了在Jax框架下实现高效LLM训练的实际指导。
hn2026年6月30日#科技
快速失败，更快运行：在苹果芯片上使用Rust进行形状安全的深度学习 [pdf]
0.0
本文探讨了在苹果Silicon硬件上利用Rust编程语言实现深度学习系统的方法，重点强调“形状安全”设计原则——即在编译期而非运行时捕获张量形状不匹配等错误。通过采用“快速失败”的策略，系统能够在开发早期发现并处理问题，从而提升整体运行效率和可靠性。该研究展示了Rust在性能和内存安全方面的优势如何与苹果芯片的架构特性相结合，为构建更高效的深度学习框架提供了新思路。
hn2026年6月30日#科技
问题总出在学习率上
2.0
本文深入探讨了机器学习中一个经久不衰的核心痛点：学习率设置。作者通过自身经验与案例，阐述了选择不当的学习率如何导致模型训练失败、收敛缓慢或性能不佳，并分享了调整学习率的实用策略与直觉，强调这一看似简单的超参数往往是决定模型成败的关键因素。
hn2026年6月29日#科技
Show HN: NanoEuler – 纯 C/CUDA 从头实现的 GPT-2 规模模型
3.0
NanoEuler 是一个用纯 C 和 CUDA 从零构建的 GPT-2 规模语言模型项目。作者因 Anthropic 事件触动，立志进入 AI 领域，因此从底层入手，通过低层实现深入理解 LLM 的组成原理、参数与数据的关联性、GPU 工作机制以及层优化方法。项目从 Shakespeare.txt 起步，逐步研究 2300 万参数下文本生成模型的理解能力，并采用 SFT 等技术探索聊天机器人的构建流程。
hn2026年6月28日#科技
Foveon – 拜耳到Foveon X3，基于深度学习的Mac应用程序
1.0
Foveon是一款基于深度学习的Mac应用程序，能将普通拜耳传感器图像转换模拟为Foveon X3传感器风格。该工具利用神经网络学习两种传感器之间的色彩与细节映射关系，为摄影爱好者和专业用户提供独特的图像处理体验。
hn2026年6月28日#科技
注意力即我们所拥有的一切
0.0
本文探讨了"注意力"这一概念在人类认知和人工智能中的核心地位，指出无论是人类的思维活动还是AI模型（如Transformer架构）的运行机制，本质上都依赖于注意力的聚焦与分配。作者认为，理解注意力的本质是理解智能的关键。
hn2026年6月28日#科技
CTC序列建模
6.5
CTC（连接时序分类）是一种用于序列建模的算法，主要解决输入序列与输出序列长度不对齐的问题。它在语音识别、手写识别等领域有广泛应用，无需预先对输入数据进行精确对齐即可训练端到端的神经网络模型。本文详细介绍了CTC的工作原理、损失函数计算以及在实际应用中的解码策略。
hn2026年6月27日#科技
Ask HN：伊利亚·苏茨克沃最近有公开发言吗？
2.0
用户注意到伊利亚·苏茨克沃（Ilya Sutskever）近期公开露面较少，询问他在过去一年中是否发表过值得关注的演讲、接受过采访、发布过论文或技术更新。该问题反映了社区对这位AI领域重要人物最新动态的关注。
hn2026年6月27日#科技
面向机器学习系统的现代GPU编程
2.0
该课程面向希望深入理解GPU编程及其在机器学习系统中应用的开发者和研究者。内容涵盖从基础的GPU架构、CUDA编程模型，到高级的算子优化、内存管理和并行计算策略。通过理论与实践相结合的方式，帮助学员掌握如何高效利用GPU加速机器学习工作负载，为构建高性能ML系统打下坚实基础。
hn2026年6月27日#科技
软件工程师必读：Transformer 架构详解
1.0
本文面向软件工程师，用直观易懂的方式解释 Transformer 架构与注意力机制的核心原理。文章从传统序列模型（如 RNN）的局限性出发，逐步引出自注意力、多头注意力、位置编码以及编码器-解码器结构等关键概念，帮助读者理解这一驱动 GPT 等大语言模型的基础架构是如何工作的。
hn2026年6月26日#科技
缩放定律，审慎探讨
7.0
本文深入探讨了神经网络中的缩放定律（Scaling Laws），系统分析了模型性能如何随参数量、数据规模和计算量等关键因素的变化而扩展。文章强调在应用缩放定律时需要谨慎考虑其假设条件和局限性，避免盲目追求规模增大而忽视效率与数据质量。通过梳理相关研究成果，作者为理解和正确运用缩放定律提供了有价值的指导。
hn2026年6月26日#科技
超越物体
2.0
本文探讨了在计算机视觉和人工智能领域中，如何突破传统以物体为中心的感知与推理范式。作者提出了一种超越单一物体识别的新框架，旨在捕捉场景中更丰富的上下文关系、交互和动态变化，从而推动对视觉理解的更深层次研究。
hn2026年6月26日#科学
Show HN：Transformer 即所需
1.0
本文介绍了一个基于 Transformer 架构的新项目，强调该模型在自然语言处理任务中的核心作用。项目展示了如何仅使用 Transformer 即可高效完成复杂的序列建模，验证了“Attention Is All You Need”这一核心理念的实用性。
hn2026年6月26日#科技
映射网络：CVPR 2026 最佳论文奖提名
6.0
本文提出了一种名为“映射网络”的新型神经网络架构，该架构在视觉识别任务中展现出显著优势，成功获得 CVPR 2026 最佳论文奖提名。通过引入显式的空间映射机制，该方法有效提升了模型对复杂视觉结构的理解与表征能力，为计算机视觉领域提供了新的研究思路。
hn2026年6月26日#科技
现代GPU编程与MLSys书籍
4.0
这本在线书籍系统介绍了面向机器学习系统（MLSys）的现代GPU编程技术，涵盖GPU架构基础、CUDA编程模型、性能优化策略以及深度学习中的GPU加速实现等内容，适合希望深入理解GPU如何驱动现代机器学习系统的开发者和研究人员阅读。
hn2026年6月26日#科技
扩展定律，审慎探究
2.0
本文深入探讨了人工智能领域中扩展定律（Scaling Laws）的核心理念与微妙之处。作者Lilian Weng系统地梳理了模型规模、数据量和计算量三者之间的关系，并强调在应用这些定律时需要格外谨慎。文章指出了数据质量、计算效率以及边际收益递减等关键因素，帮助读者理解扩展不仅是简单地增加参数或数据，更需要在多个维度上进行精心平衡与优化。
hn2026年6月25日#科技
世界行动模型：综述
4.0
本文对世界行动模型（World Action Models）领域进行了系统综述，梳理了该领域从基础理论到前沿应用的研究进展。文章涵盖了模型的核心概念、主要技术路线、关键挑战以及在不同场景下的应用案例，旨在为该领域的研究人员提供全面的参考框架。综述还指出了当前方法的局限性，并展望了未来可能的发展方向。
hn2026年6月24日#科学
深度学习发现的心脏性猝死心电图生物标志物
7.5
该研究利用深度学习技术从标准心电图中识别出一种新型生物标志物，能够准确预测心脏性猝死风险。这一发现有望改善高危患者的早期筛查与预防策略，降低心脏性猝死的发生率。
hn2026年6月24日#科学
过度参数化的迷之成功：彩票假说还是逃逸维度？
2.0
本文探讨了深度学习中过度参数化现象的两个主要解释框架：彩票假说（Lottery Ticket Hypothesis）认为大型模型中存在性能优异的子网络，而逃逸维度（Escape Dimensions）理论则从高维优化景观的角度解释其成功。研究通过理论分析与实验对比，揭示了这两种机制在不同模型尺度下的相互作用，为理解神经网络过度参数化的本质提供了新视角。
hn2026年6月24日#科学
Show HN: ReflexConv2d – 图像重建模糊减少57%
3.0
ReflexConv2D 是一个新的图像重建卷积模块，通过改进卷积操作的边界处理方式，在图像重建任务中实现了比传统方法低57%的模糊程度。该项目已在GitHub上开源，为计算机视觉领域提供了一种更清晰、更高效的图像重建解决方案。
hn2026年6月23日#科技
2023-2031年模型规模扩展
8.0
本文分析了2023年至2031年间AI模型规模扩展的趋势与预测。通过回顾近年大语言模型的参数规模增长，作者探讨了Scaling Laws的持续有效性、训练计算量的指数级增长，以及模型规模扩大可能面临的硬件瓶颈和数据限制。文章对未来几年模型参数量级可能达到的水平进行了量化估算，并讨论了这一趋势对AI能力和潜在风险的影响。
hn2026年6月23日#科技

加载下一批 30 条更新于 —