リアルタイム音声翻訳のベンチマーク評価

本稿では、リアルタイム音声翻訳システムの性能を評価するためのベンチマーク手法について解説する。翻訳の正確性、応答速度、自然さなど複数の指標を用いて既存システムを比較し、実用的な音声翻訳の課題と改善点を明らかにする。

背景メモ

StartPinch社が公開した、リアルタイム音声翻訳システムのベンチマークに関する報告。従来の翻訳評価（BLEUスコアなど）が「翻訳文の正確さ」だけを測るのに対し、ここでは**翻訳の待ち時間（レイテンシー）と完成度のバランス**を指標化している点が特徴。特に「TransSplit」と呼ばれる手法——音声を文の切れ目で分割しながら逐次翻訳する方式——が、既存のストリーミング翻訳モデルよりも低遅延で高品質を達成したとされる。評価にはFBank（音響特徴量）とWER（単語誤り率）などの指標が併用されており、多言語（英中など）での実験結果が示されている。リアルタイム翻訳はZoomの同時通訳やゲーム内音声翻訳など実用領域が拡大中で、この分野の標準的な評価手法の不在が業界課題となっていた。