大型语言模型(LLM)的推理过程与普通计算任务不同,其主要瓶颈并非计算能力不足,而是内存带宽受限。由于自回归解码需要逐token生成并加载整个模型权重到内存中,每次生成新token时都需要重新读取全部参数,使得内存访问成为性能的最终瓶颈。这一特性深刻影响了推理优化的方向——如量化、批处理和KV缓存等技术均旨在缓解内存压力,而非提升计算速度。
#deep-learning
30 条相关内容
LLM的解剖结构
4.0本文深入探讨了大型语言模型(LLM)的内部工作原理,从基础架构到训练过程,详细解析了Transformer模型的结构、注意力机制、token化以及模型如何通过海量数据学习语言模式。文章旨在帮助读者理解LLM背后的技术细节,让非专业人士也能窥见这些强大AI系统的运作原理。
理解视觉语言模型
1.0本文深入解析了视觉语言模型(Vision Language Models)的工作原理,探讨了AI如何同时处理图像和文本信息。文章通过可视化方式展示了模型如何"看见"图像内容并理解其语义,包括注意力机制、图像编码与文本解码的协同过程,帮助读者直观理解多模态AI的核心技术。
本文深入剖析了 DeepSeek-OCR 模型的工作原理与架构设计,通过可视化方式展示了其在光学字符识别任务中的关键机制,帮助读者直观理解模型如何处理和识别图像中的文字信息。
本文分享了训练前沿字体生成模型过程中的关键经验与教训。作者从模型架构选择、数据处理策略、训练技巧等方面详细阐述了构建高质量字体生成模型所面临的挑战与解决方案。文章深入探讨了如何平衡字体风格多样性、笔画结构准确性和生成速度等核心问题,为从事文字生成相关研究的开发者提供了实用的实践指南。
本文深入浅出地介绍了物理信息神经网络(PINNs)这一融合了深度学习与物理定律的前沿技术。文章从直觉出发,解释了PINNs如何通过将偏微分方程等物理约束直接嵌入神经网络的损失函数中,使得模型在数据稀缺时仍能做出符合物理规律的预测。作者还探讨了PINNs的优势、挑战以及其在科学计算和工程模拟中的广泛应用前景。
本文深入剖析AI智能体的内部架构,详细解释了智能体如何通过感知环境、制定决策和执行行动来独立完成任务。文章从核心组件(如感知模块、推理引擎、记忆系统和行动接口)入手,分析了多智能体协作模式、工具调用机制以及安全约束的设计原则,为读者理解现代AI智能体的实际运作方式提供了系统性参考。
本文探讨了下一代语言模型预训练范式——下一个词元预测(Next-Token Prediction)的现状与未来影响。文章分析了该技术如何在语言建模中带来显著进展,同时也指出了其潜在局限性,包括对长期依赖关系的建模能力不足以及生成文本时的机械性。作者呼吁重新思考当前研究方向,探索更贴近人类认知过程的训练目标。
KlongPy 是一个基于 PyTorch 的高性能数组编程语言后端,支持自动微分(autograd)功能。该项目将 Klong 语言的简洁性与 PyTorch 的深度学习计算能力相结合,为数值计算和机器学习任务提供了高效的实现方案。
张量过于直观了 [视频]
0.0这段视频探讨了张量的直观理解方式,指出常见的"张量就是多维数组"的说法过于简化,容易造成误解。视频深入解释了张量的数学本质及其在物理和机器学习中的实际应用,帮助观众建立更准确的概念框架。
前沿模型训练方法论
3.0本文深入探讨了前沿人工智能模型的训练方法论,涵盖数据采集、模型架构设计、训练策略优化及评估标准等关键环节。文章系统性地分析了当前主流训练技术的优缺点,并提出了提升模型性能和效率的创新思路,为相关领域的研究者和工程师提供了有价值的参考。
高性能 NVIDIA 显卡及配套服务器成本高昂,促使本地推理转向 Apple 硬件。M5 Max 128GB 笔记本能以约 500 t/s 的预填充和 35-40 t/s 的解码速度运行 2-bit 量化模型,是目前性价比最高的选择。文章探讨了三种分布式推理方案:按 Transformer 层拆分、通过 RDMA 进行专家并行,以及基于模型集成的无共享架构——后者允许多台机器独立运行不同模型,仅在最终阶段合并 logits 或选择最优输出,实验表明这种组合能提升模型表现。
自教学自编码器
1.0自教学自编码器是一种无监督学习框架,通过让编码器同时优化重构损失和自生成伪标签来提升表征学习能力。该方法利用模型自身的预测结果作为训练信号,在无标注数据上实现有效的特征提取与聚类,展现出在图像、文本等领域的广泛应用潜力。
本文探讨了实用学习型图像压缩中的关键因素。研究分析了不同网络架构、熵模型和训练策略对图像压缩性能的影响,为开发高效实用的学习型图像压缩系统提供了重要指导。该工作由苹果公司发布,旨在推动图像压缩技术在实际应用中的发展。
研究发现,GPU处理矩阵乘法时,如果输入数据具有“可预测”的模式或结构,计算速度会显著提升。这一发现挑战了传统观点——即矩阵乘法的性能仅取决于矩阵大小和硬件,而与数据内容无关。了解这一特性有助于优化深度学习模型中的矩阵运算效率。
本文从计算机体系结构的第一性原理出发,深入探讨如何让深度学习模型实现极致的运行效率。作者分析了 GPU 计算、内存带宽、计算核心利用率等关键因素,揭示了从硬件到软件层面优化深度学习性能的系统性方法。内容涵盖硬件原理、编程实践与工程权衡,适合希望理解深度学习性能优化底层逻辑的读者。
一个专注于深度代码探索的分析工具,帮助开发者深入理解代码库的结构与逻辑,提升代码审查与调试效率。
本文深入比较了人脑与深度学习模型在计算复杂度上的差异。作者从神经元数量、突触连接、能量消耗等维度分析了生物神经网络与人工神经网络的规模与效率差异,探讨了深度学习是否能够达到甚至超越人类水平的智能,以及通往技术奇点的可能性与瓶颈。
本文提出CODA方法,将Transformer模块中的计算重新表述为GEMM(通用矩阵乘法)与Epilogue(后处理)的组合程序。通过这种重写方式,能够更高效地利用硬件加速器特性,在保持模型精度的同时显著提升推理和训练速度。该方法为优化大规模Transformer模型的底层计算提供了新的视角与实现路径。
本文提出 DashAttention,一种可微分且可适应的稀疏层级注意力机制。该方法通过层级稀疏化策略显著降低计算复杂度,同时保持模型表达能力。实验表明,DashAttention 在长序列任务中能有效平衡效率与性能,为 Transformer 模型的注意力机制优化提供了新思路。
PyTorch 团队正式发布了 2.12 版本,带来了多项性能优化、新功能与稳定性改进,进一步提升了深度学习框架的训练与推理效率。
本文介绍了估算大型语言模型(LLM)在GPU上运行时所需内存的数学公式,帮助开发者判断自己的GPU能否容纳特定模型。文章涵盖了模型参数、优化器状态、梯度等各组成部分的内存占用计算,并提供了2026年最新硬件环境下的实际参考数据。
本文通过交互式图解,深入浅出地讲解了 KV Cache 和 Flash Attention 这两种优化大语言模型推理效率的关键技术,帮助读者直观理解其工作原理与实现细节。
本课程由Andrew Ng与Google Cloud技术团队联合打造,教你构建能生成图像和视频的AI智能体。核心在于让智能体自我评估输出结果并通过迭代提升质量。你将学习三种评估技术:图像-文本相似度评分检测输出与提示的匹配度、基于LLM的裁判按品牌一致性等自定义标准评分、以及结构化评分表将提示拆解为可验证的"是/否"问题(如"主体是否在画面中?""镜头运动是否匹配?")。课程涵盖图像和视频提示工程、将品牌指南转化为UI原型的图像智能体,以及规划多场景解说并生成同步音频动画的视频智能体。
这是一场关于 Transformer 架构及其之后可能发展方向的技术辩论。Kaiser、Kosowski、Jones 和 Lechner 四位专家围绕当前 Transformer 模型的局限性、替代方案(如状态空间模型、循环架构等)以及未来 AI 架构的演进方向展开深入讨论,探讨了计算效率、扩展性与模型能力之间的权衡。
本文提出了一种可扩展的打包布局方法,用于在向量长度无关(VLA)的机器学习代码生成中优化数据排布。该方法通过自动调整数据布局以适应不同硬件向量宽度,显著提升代码性能和可移植性,为跨平台ML加速提供了高效解决方案。
本研究提出RigidFormer,一种基于Transformer架构的深度学习方法,用于高效学习和预测复杂多体系统的刚体动力学。该模型通过自注意力机制捕捉物体间的交互关系,在仿真和机器人操控任务中展现出优越的泛化能力和物理一致性。
本文深入探讨了语言模型在预训练阶段的泛化动力学机制,分析了模型如何从大规模文本数据中学习并实现有效泛化。文章揭示了训练动态、数据分布与模型容量之间的复杂交互关系,为理解大型语言模型的预训练行为提供了理论视角。
本文通过代码示例深入浅出地解释了状态空间模型(State Space Models, SSMs)的核心概念,包括状态表示、状态转移方程与观测方程。文章结合Python代码,展示了如何在实践中构建和模拟SSM,帮助读者理解这类模型在时间序列分析、控制系统等领域的应用原理。
Nous Research 提出了一种名为 Lighthouse Attention 的新型注意力机制,旨在提升 Transformer 模型在长序列任务中的效率与性能。该方法通过智能地聚焦于关键信息区域,减少计算开销,同时保持或增强模型的表现力,为大规模语言模型的推理和训练提供了更高效的解决方案。