在 DwarfStar 中实现 LLM 推理的分布式部署
高性能 NVIDIA 显卡及配套服务器成本高昂,促使本地推理转向 Apple 硬件。M5 Max 128GB 笔记本能以约 500 t/s 的预填充和 35-40 t/s 的解码速度运行 2-bit 量化模型,是目前性价比最高的选择。文章探讨了三种分布式推理方案:按 Transformer 层拆分、通过 RDMA 进行专家并行,以及基于模型集成的无共享架构——后者允许多台机器独立运行不同模型,仅在最终阶段合并 logits 或选择最优输出,实验表明这种组合能提升模型表现。