microsoft/VibeVoice
VibeVoiceはMicrosoftが公開したWhisperスタイルの音声認識モデルで、MITライセンスで提供され、話者識別(ダイアライゼーション)機能を内蔵しています。Mac上でuvとmlx-audioを使い、5.71GBの4ビット量子化モデルを用いて1時間の音声を約8分45秒で文字起こしできました(ピーク時30GB超のメモリ使用)。出力はJSON形式で話者ごとのセグメントが得られ、データセットを使って簡単に閲覧できます。ただし1時間以上の音声には分割処理が必要です。