
Sign up to save your podcasts
Or


Googleの研究部門「Google Research」が、私たちが夢見てきた「ほんやくコンニャク」の実現にまた一歩近づく、画期的な技術進捗を発表しました。それが、テキストを介さないリアルタイム音声翻訳、いわゆる「S2ST(Speech-to-Speech Translation)」の進化です。
これまで私たちが使ってきた翻訳アプリや、従来のGoogle翻訳の仕組みを想像してみてください。あれは、私たちが話した言葉を一度「文字」に起こし、その文字を「翻訳」し、最後にロボットの声で「読み上げる」という、いわば伝言ゲームのような「カスケード方式」をとっていました。この方法だと、どうしても数秒のタイムラグ、つまり「レイテンシ」が生じてしまいますし、何より「、」や「。」で区切られた文字情報になった瞬間に、私たちの声に含まれる「焦り」や「笑い」、あるいは「ささやき」といった人間らしいニュアンス──専門用語で言うところの「パラ言語情報」が削ぎ落とされていました。
今回Googleがブログで解説した新しいS2STモデルは、この中間プロセスを飛ばし、入力された「音の波」を、直接別の言語の「音の波」へと変換します。これにより、驚くべきことが可能になります。あなたが少し悲しそうな声で話せば、翻訳された英語や中国語も悲しそうなトーンを帯びるのです。また、処理にかかる時間が劇的に短縮されるため、まるで同じ言語を話しているかのようなテンポで会話のキャッチボールが可能になります。
Web上の周辺情報を見渡すと、2025年の現在は、OpenAIのGPT-4oが搭載する「Advanced Voice Mode」などが登場し、音声AIが群雄割拠の時代を迎えています。しかし、GoogleはこのS2ST技術を、単なるチャットボットとの対話だけでなく、Google Meetのような実用的なコミュニケーションツールへ組み込むことに注力しています。特に、今回の研究成果は、従来のエンドツーエンドモデルが苦手としていた「学習データの不足している言語」への対応や、翻訳精度の向上にブレイクスルーをもたらすものです。
ビジネスの現場で、相手の熱量をそのままに翻訳された声を聞くことができれば、交渉の行方も変わるかもしれません。あるいは、遠く離れた家族とのビデオ通話で、孫の笑い声のニュアンスまでおじいちゃん、おばあちゃんに届くようになるでしょう。技術は「言葉の意味」を伝える段階を超え、「心」を伝えるフェーズへと進化しているのです。
By ikuo suzukiGoogleの研究部門「Google Research」が、私たちが夢見てきた「ほんやくコンニャク」の実現にまた一歩近づく、画期的な技術進捗を発表しました。それが、テキストを介さないリアルタイム音声翻訳、いわゆる「S2ST(Speech-to-Speech Translation)」の進化です。
これまで私たちが使ってきた翻訳アプリや、従来のGoogle翻訳の仕組みを想像してみてください。あれは、私たちが話した言葉を一度「文字」に起こし、その文字を「翻訳」し、最後にロボットの声で「読み上げる」という、いわば伝言ゲームのような「カスケード方式」をとっていました。この方法だと、どうしても数秒のタイムラグ、つまり「レイテンシ」が生じてしまいますし、何より「、」や「。」で区切られた文字情報になった瞬間に、私たちの声に含まれる「焦り」や「笑い」、あるいは「ささやき」といった人間らしいニュアンス──専門用語で言うところの「パラ言語情報」が削ぎ落とされていました。
今回Googleがブログで解説した新しいS2STモデルは、この中間プロセスを飛ばし、入力された「音の波」を、直接別の言語の「音の波」へと変換します。これにより、驚くべきことが可能になります。あなたが少し悲しそうな声で話せば、翻訳された英語や中国語も悲しそうなトーンを帯びるのです。また、処理にかかる時間が劇的に短縮されるため、まるで同じ言語を話しているかのようなテンポで会話のキャッチボールが可能になります。
Web上の周辺情報を見渡すと、2025年の現在は、OpenAIのGPT-4oが搭載する「Advanced Voice Mode」などが登場し、音声AIが群雄割拠の時代を迎えています。しかし、GoogleはこのS2ST技術を、単なるチャットボットとの対話だけでなく、Google Meetのような実用的なコミュニケーションツールへ組み込むことに注力しています。特に、今回の研究成果は、従来のエンドツーエンドモデルが苦手としていた「学習データの不足している言語」への対応や、翻訳精度の向上にブレイクスルーをもたらすものです。
ビジネスの現場で、相手の熱量をそのままに翻訳された声を聞くことができれば、交渉の行方も変わるかもしれません。あるいは、遠く離れた家族とのビデオ通話で、孫の笑い声のニュアンスまでおじいちゃん、おばあちゃんに届くようになるでしょう。技術は「言葉の意味」を伝える段階を超え、「心」を伝えるフェーズへと進化しているのです。