翻訳言語

初のオープンソース拡散音声ASRモデル

本記事では、音声認識（ASR）分野における画期的な進展として、初のオープンソース拡散音声ASRモデルを紹介する。従来の手法とは異なり、拡散プロセスを活用することで、ノイズの多い環境下でも高精度な音声認識を実現する。このモデルの公開は、コミュニティによる研究開発や応用の促進につながると期待される。

背景メモ

- 記事が紹介するのは、オープンソースとして公開された初の「拡散（diffusion）型」音声認識（ASR）モデル。従来のASR（Whisperなど）はテキストをトークン単位で逐次生成するが、このモデルは画像生成で使われる拡散プロセスを音声のスペクトログラムに適用し、ノイズから徐々にテキストを復元する方式を採る。 - 開発元のInterfaze.aiは、音声基盤モデルに特化したスタートアップ。同社はこれまでもParaformerなど軽量ASRモデルを公開してきた実績がある。 - 拡散ASRの利点として、ノイズに強いロバスト性、出力の確率分布が滑らかでハルシネーション（幻覚）が減る可能性、従来のCTCやAEDとは異なるアーキテクチャによる研究上の新規性が挙げられる。一方で現時点ではリアルタイム用途には遅く、Whisperほどの認識精度は出ていない。 - このリリースの意義は、「言語モデル＋拡散」の組み合わせを音声に応用した研究を、誰でも再現・改良できるベースラインとして提供した点にある。音声コミュニティではWhisser以降の新たなパラダイムとして注目されている。