Jedno procento

AI Inspirace: Google nabídl model, který vám snadno umožní vygenerovat audio pouze z textu. Třeba audioknihu nebo podcast "na míru"


Listen Later

Zajímá vás, jak nejlíp používat právě teď generativní AI? Přijďte na některý z našich workshopů. Třeba ve čtvrtek na odpolední AI Masterclass (od 13 hodin na Václavském náměstí v Diamantu). Rezervujte si místo hned teď.

O co jde: Potřebujete vytvořit kvalitní mluvené slovo z textu? Chcete nahrát audioknihu, podcast s více mluvčími, nebo jednoduše převést článek na audio? Google představil Gemini 2.5 Flash Preview TTS přímo v AI Studiu – nástroj, který dokáže vytvořit přirozený hlas s pokročilými možnostmi úprav stylu, tempa a emocí. Nejde o běžný převod textu na řeč, ale o inteligentního asistenta, který rozumí vašim instrukcím o tom, jak má text znít.

.

Jak to udělat: Otevřete si AI Studio od Googlu a v levém menu najděte sekci "Generate Media", kde kliknete na "Gemini speech generation". Můžete také jít přímo na https://aistudio.google.com/generate-speech. Nástroj nabízí dva režimy: jeden mluvčí nebo více mluvčích.

Pro základní použití jednoduše vložte text a popište, jak má znít. Místo technických parametrů používejte běžný jazyk: "čti nadšeně", "mluv šeptem", "přidej do hlasu vzrušení". Model podporuje 24 jazyků včetně češtiny a automaticky rozpozná jazyk textu.

Pro složitější projekty s více mluvčími použijte script builder, kde můžete přiřadit různým postavám specifické hlasové charakteristiky. Systém nabízí přednastavené hlasy jako Puck nebo Aoede. Můžete také vytvořit vlastní "gem" (specializovaný prompt), který automaticky generuje skripty pro více mluvčích.

Model má limit 8 000 tokenů na vstup, takže delší texty rozdělte na menší části. Výsledkem je audio soubor ve formátu, který si můžete stáhnout a dále používat.

.

Proč je to užitečné: Největší výhodou je přirozený způsob ovládání – prostě popíšete, jak má text znít, a model to pochopí. Dokáže vytvořit realistické konverzace s více hlasy, přidat emoce, změnit tempo nebo styl mluvy podle kontextu. Na rozdíl od tradičních TTS systémů nemusíte rozumět technickým parametrům.

Model je zdarma pro testování a experimentování, placená verze stojí $0,50 za milion vstupních tokenů a $10 za milion výstupních tokenů. To je velmi konkurenceschopná cena za pokročilé funkce.

Podporuje 24 jazyků včetně češtiny, němčiny, španělštiny, francouzštiny či japonštiny, s automatickým rozpoznáváním jazyka. Kvalita hlasu je vysoká a vhodná pro profesionální použití.

.

Příklad: Co třeba podcast o tom, že Andrej Babiš nabízí “merch” pro generaci Z (vytvořený moderátory z generace Z)?

Úkol zněl: vytvořit fiktivní epizodu podcastu, ve kterém se dva moderátoři baví o tom, co znamená to, že se Babiš domluvil se slovenskou firmou, a nabízí zboží “obrandované” svým jménem? Jde o mikiny s kapucí a podobné věci. Jako brand používá svou původně nechvalně proslulou ghlášku “Sorry jako”. Ukážu vám bod po bodu, jak jsem postupoval, a na závěr si podcast samozřejmě můžete poslechnout.

1. Dáme dohromady podklady

Použil jsem Perplexity, v režimu “research” (dříve deep search).

Prompt:

Najdi všechny informace o "merchi" Andreje Babiše. Mikiny atd. Plus zjisti, proč je v této souvislosti důležité "sorry jako".

Výsledek si můžete přečíst jako Perplexity page.

.

2. Z podkladů vygenerujeme text podcastu.

Použil jsem Claude. Napsal jsem prompt, který dokáže jakýkoli text na vstupu převést do konverzace, a odpovídá cca pětiminutové podcastové epizodě.

Prompt:

Tvým úkolem je vytvořit rozhovor mezi dvěma osobami, které diskutují o daném textu. Rozhovor by měl být podobný podcastu a měl by zdůrazňovat nejzajímavější a nejdůležitější informace z textu. Postupuj takto:
Nejprve si pečlivě přečti a analyzuj text, který jsem ti dal.
Nyní vytvoř rozhovor mezi dvěma mluvčími, kteří diskutují o tomto textu. Řiď se následujícími pokyny:
1. Rozhovor by měl být v češtině.
2. Označ mluvčí jako Speaker 1 (muž) a Speaker 2 (žena).
3. Diskuse by měla pokrývat nejzajímavější a nejdůležitější informace z textu.
4. Konverzace by měla mít vážný tón, ale občas i hravý.
5. Snaž se o přirozený tok dialogu, jako by mluvčí vedli skutečnou konverzaci.
6. Zahrň relevantní fakta, postřehy a případně i některé otázky nebo spekulace k tématu.
7. Celková délka konverzace by měla být přibližně 600 slov.
Výsledek prezentuj v následujícím formátu:
Speaker 1: [První výrok nebo otázka]
Speaker 2: [Odpověď]
Speaker 1: [Další výrok nebo otázka]
Speaker 2: [Odpověď]
[Pokračuj v konverzaci...]
Nezapomeň zachovat rovnováhu mezi informativním obsahem a poutavým dialogem. Rozhovor by měl působit jako zajímavá podcastová diskuse, která zachycuje podstatu vstupního textu a zároveň je přístupná a zábavná pro posluchače.

Nahrál jsem jako podklad rešerši z Perplexity a výsledek si můžete přečíst.

.

3. A nakonec vygenerujeme zvuk.

Šel jsem do AI studia na Google. Vybral jsem si mužský a ženský hlas. Dal následující popis stylu konverzace:

Prompt:

Rozhovor dvou moderátorů podcastu, který je určen pro generaci Z. Moderátoři, muž a žena, jsou také z generace Z. Mluví neformálně a s energií odpovídající jejich věku.

Samotná konverzace je už od Claude vygenerovaná v požadovaném formátu (s řečníky pojmenovanými defaultně Speaker 1 a Speaker 2), a obojí i s promptem jsem jako text vložil do políčka “raw structure”. Nic dalšího jsem nenastavoval, kliknul na “run”.

Zde je výsledek:

Díky a hodně štěstí s vašími audionahrávkami!

.

AI Inspirace je pravidelná rubrika pro ty, kteří chtějí z generativní AI vytěžit víc než jen pár vtipů na firemní poradu.Jsem rád, že je sledujete. A srdečně zvu na naše workshopy, kde vám ukážeme, jak gen AI používat zajímavě, zábavně a efektivně. Děkuju a těším se na vás!
...more
View all episodesView all episodes
Download on the App Store

Jedno procentoBy Miloš Čermák