TopicTracker
来自 HackerNews查看原文
译文语言译文语言

我们在RTX 3090上使用Qwen3.5-27B实现了207 tok/s的速度

Lucebox团队在单张RTX 3090显卡上运行Qwen3.5-27B模型,通过优化实现了每秒207个token的推理速度,展示了硬件性能的充分利用。

相关报道

  • The article provides a command-line recipe for transcribing audio files on macOS using the Gemma 4 E2B model with MLX and mlx-vlm. It demonstrates the transcription of a 14-second WAV file, noting minor misinterpretations in the output.