既存の視覚的アプリケーションに対するUIレイヤーとしての音声に興奮しています ― 音声と画面が連動して更新される仕組みです。これはコールセンターの自動化のような音声のみのユースケースをはるかに超えるものです。
Andrew Ng氏は、音声と画面が連動して更新される既存の視覚的アプリケーションに対するUIレイヤーとしての音声に注目しています。Vocal Bridgeの二重エージェントアーキテクチャ(リアルタイム会話用のフォアグラウンドエージェントと推論用のバックグラウンドエージェント)により、低遅延かつ信頼性の高い音声インターフェースが実現可能です。彼はこの技術を使って娘のための数学クイズアプリに音声機能を追加し、1時間以内に完成させました。