使用 MLX 实现 Gemma 4 音频转录
本文介绍了如何在 macOS 上使用 10.28 GB 的 Gemma 4 E2B 模型配合 MLX 和 mlx-vlm 来转录音频文件,并提供了一个具体的 uv run 命令示例。作者测试了一个 14 秒的 WAV 文件,模型成功转录了内容,尽管存在一些细微的识别误差。
本文介绍了如何在 macOS 上使用 10.28 GB 的 Gemma 4 E2B 模型配合 MLX 和 mlx-vlm 来转录音频文件,并提供了一个具体的 uv run 命令示例。作者测试了一个 14 秒的 WAV 文件,模型成功转录了内容,尽管存在一些细微的识别误差。
Qwen3.6-Max-Preview is an enhanced AI model offering improved performance and capabilities while continuing to evolve. The preview version demonstrates smarter reasoning and sharper responses across various tasks.
A developer has ported Microsoft's TRELLIS.2 image-to-3D model to run on Apple Silicon Macs by replacing CUDA-specific operations with pure-PyTorch alternatives. The modified version generates 400K vertex meshes from single photos in about 3.5 minutes on an M4 Pro Mac, working offline without cloud dependencies.
本文介绍了如何在Apple Silicon设备上通过WebAssembly实现零拷贝GPU推理,利用Metal性能着色器直接在GPU内存中处理数据,避免CPU与GPU间的数据复制开销,显著提升机器学习推理性能。
这是一个在浏览器中运行的演示项目,使用3.1GB的Gemma 4 E2B模型,能够将自然语言提示词转换为Excalidraw绘图。用户可以通过简单的文字描述自动生成对应的图表和示意图。
The article compares the coding performance of Gemma4 26B A4B and Qwen3.6 35B A3B models on a PC, presenting benchmark results for various programming tasks. It evaluates how well these models handle different coding challenges and which performs better in specific scenarios.