
Sign up to save your podcasts
Or


OpenAIが8月28日、「Realtime API」を正式提供へ移行し、同時に音声対音声モデルの最新版「gpt-realtime」を公開しました。新モデルは、複雑な指示の厳密な読み上げや英数字の正確な復唱、会話中の言語切り替えまで自然にこなすことを狙い、音色・抑揚の制御性も向上。加えてCedarとMarinという新ボイスがRealtime専用で加わりました。従来の“音声認識→テキスト生成→音声合成”という多段パイプラインではなく、単一モデルで音声入出力を扱うため、レイテンシ低減と“話し言葉のニュアンス保持”を打ち出しています。
By ikuo suzukiOpenAIが8月28日、「Realtime API」を正式提供へ移行し、同時に音声対音声モデルの最新版「gpt-realtime」を公開しました。新モデルは、複雑な指示の厳密な読み上げや英数字の正確な復唱、会話中の言語切り替えまで自然にこなすことを狙い、音色・抑揚の制御性も向上。加えてCedarとMarinという新ボイスがRealtime専用で加わりました。従来の“音声認識→テキスト生成→音声合成”という多段パイプラインではなく、単一モデルで音声入出力を扱うため、レイテンシ低減と“話し言葉のニュアンス保持”を打ち出しています。