Gemini 3.1 Flash TTS 發佈,prompt 從挑 voice preset 變成寫五層劇本。Simon Willison 實測改地名就換口音。這篇拆解 audio tags、導演椅設計與 TTS 工作流的分界線。
⭐ 文章深度讀:拆解五層 prompt 結構與 Simon 改地名的三次實測
→ https://heymaibao.com/gemini-3-1-flash-tts-prompt-like-script/
⚡ 章節重點
為什麼這次 TTS 不只是升級 00:00
導演椅:從工程師變成導演 00:48
prompt 變成五層劇本 01:30
Simon 改地名就換口音的實驗 01:58
Elo 1,211 之外,真正的訊號是 SynthID 03:34
寫提示詞就是新的劇本寫作 04:24
📝 懶人包
∙ Gemini 3.1 Flash TTS 的 prompt 不是幾行參數,而是一份五層的電台劇本結構:`AUDIO PROFILE`(角色檔,連節目副標一起寫)、`THE SCENE`(場景,連燈光時間都寫)、`DIRECTOR'S NOTES`(導演註記,底下再分 Style、Pace、Accent 三個子節,Style 裡還包含 Vocal Smile 與 Dynamics 兩條)、`SAMPLE CONTEXT`(這角色適合做什麼)、`TRANSCRIPT`(正式台詞,含 inline tags)。Simon Willison 對整份官方提示指南的評語是:說它驚人,都還算是保守的說法。
∙ 口音靠文字描述裡的地名驅動。Simon 把範例裡「Jaz 來自 Brixton,London」的地名,先改成 Newcastle,再改成 Exeter,Devon,三次都拿到對應口音的輸出,完全不是靠選取語音 ID。
∙ 硬規格與通路快照:第三方 Artificial Analysis TTS leaderboard 在發佈當天的盲測給出 Elo 1,211,被放進「最佳象限」(高品質 + 低成本);走標準 Gemini API,model ID 是 `gemini-3.1-flash-tts-preview`,首日同時在 Google AI Studio、Vertex AI、Google Vids 三條管道開預覽;所有生成音訊都帶 SynthID 浮水印。
∙ 我的觀察:這次 TTS 的分界線不是誰的音質更像真人,而是心智模型的切換。從挑一個 voice preset,變成幫配音演員寫一份角色設定。這件事會改寫整個 AI 語音工作流,而不只是多了一款可換的引擎。
📚 參考資料
Gemini 3.1 Flash TTS
→ https://simonwillison.net/2026/Apr/15/gemini-31-flash-tts/
Gemini 3.1 Flash TTS: the next generation of expressive AI speech
→ https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
官方 prompting guide
→ https://ai.google.dev/gemini-api/docs/speech-generation#transcript-tags
Google AI Studio 生成語音
→ https://aistudio.google.com/generate-speech
Simon Willison 的測試 UI
→ https://tools.simonwillison.net/gemini-flash-tts
Artificial Analysis TTS leaderboard
→ https://artificialanalysis.ai/text-to-speech/models
DeepMind Gemini 3.1 Flash Audio model card
→ https://deepmind.google/models/model-cards/gemini-3-1-flash-audio/