TopicTracker
出典 simonwillison.net原文を表示
翻訳言語翻訳言語

Gemma 4 audio with MLX

MLXとmlx-vlmを使用して、macOS上でGemma 4 E2Bモデル(10.28GB)で音声ファイルを文字起こしするuv runレシピを紹介。14秒のWAVファイルで試した結果、ほぼ正確な文字起こしが得られたが、一部の単語を誤認識した例も示されている。

関連記事