March 17, 2025

Gemini od Googlu umí "malovat". Není to revoluce, ale pokrok v generování AI obrázků určitě ano

Influenceři hlásí “Vyhoďte Photoshop!” a “Gemini mění historii!”, a to jako obvykle není pravda. Generování obrázků či fotografií zůstává problematickou, a v praxi obtížně využitelnou záležitostí. Ale model Gemini 2.0 Flash (Image Generation) Experimental, který si lze vyzkoušet v Google AI Studiu, je nepochybně krok dopředu. A když nic, tak minimálně zajímavá hračka, s kterou se pobavíte.

Model Gemini 2.0 přináší významná vylepšení v tzv. multimodálnosti, včetně nativní podpory výstupu obrazu a zvuku, a také schopnost využívat externí nástroje. Koncept „éry agentů“ naznačuje posun k umělé inteligenci, která dokáže lépe chápat okolní svět, uvažovat o budoucích krocích a jednat jménem uživatele s jeho dohledem.

Gemini 2.0 Flash Experimental je raná, experimentální verze tohoto modelu, která vývojářům a uživatelům umožňuje prozkoumat tyto nové možnosti, včetně generování obrazu . Označení „experimental“ je klíčové, protože naznačuje, že tato funkce je stále ve vývoji a může podléhat změnám, nestabilitě a omezením . Uživatelé by proto měli počítat s možnými chybami, nekonzistencemi a změnami funkcí bez předchozího upozornění.

Funkce generování obrazu v Gemini 2.0 Flash Experimental podporuje vytváření obrázků z textových promptů, konverzační úpravy existujících obrázků a generování textu s vloženými obrázky. Tato kombinace funkcí v rámci jednoho modelu představuje významný krok vpřed, který může zefektivnit pracovní postupy, jež dříve vyžadovaly použití samostatných nástrojů.

Chcete se o nástrojích generativní AI dozvědět víc? A začít je využívat naplno? Přijďte na naše workshopy. Nebo na pravidelnou Inventuru AI, kde se bavíme o novinkách. Již v úterý 25. března v Knihovně Čermáka a Staňka. Zde je program jenbližších workshopů:

19. března, 13:00 - 17:00, AI MASTERCLASS
20. března, 13:00 - 17:00, AI LEADERSHIP
21. března, 9:00 - 13:00, AI MASTERCLASS
25. března, 18:00 - 21:00, INVENTURA AI
27. března, 18:00 - 21:00, AI KREATIVITA s Čermákem a Staňkem
1. dubna, 17:00 - 21:00, AI MASTERCLASS
2. dubna, 13:00 - 16:00, AI PRO
8. dubna, 17:00 - 20:00, AI PRO

Co Gemini 2.0 (s generováním obrázků) nabízí:

Generování obrázků z textu (Text-to-Image Generation): Uživatelé mohou vytvářet obrázky na základě textových promptů. Typu: “Udělej obrázek Národního divadla, ve stylu dobové časopisecké ilustrace z roku 1890.” Gemini 2.0 Flash Experimental se snaží vytvářet vizuály, které jsou kontextově relevantní a přesné, a to díky využití rozsáhlých znalostí o světě. Ovšem: zároveň platí, že se mu to příliš nedaří. Gemini je v tomto stále výrazně horší než třeba Midjourney nebo Ideogram.
Konverzační úpravy obrázků (Conversational Image Editing): Uživatelé mohou upravovat existující obrázky prostřednictvím přirozeného jazyka v rámci “vícekolové” konverzace . Například lze nahrát obrázek modrého auta a následně požádat o jeho změnu na kabriolet a přebarvení na žluto . Tato schopnost iterativních úprav, při zachování kontextu v průběhu konverzace, umožňuje intuitivnější doladění a prozkoumávání různých kreativních nápadů.
Generování textu s vloženými obrázky (Text with Interleaved Images): Model dokáže v jednom kroku vygenerovat text a vložené obrázky, což je vhodné pro vytváření ilustrovaných příběhů či blogových postů.

Shrnutí toho nejdůležitějšího:

Co je Gemini 2.0 Flash: Experimentální AI model od Googlu s pokročilou schopností generování obrázků z textu
Klíčové funkce:
- Multimodální schopnosti kombinující text a obrázky
- Udržení vizuální konzistence postav a prostředí v sérii obrázků
- Schopnost vytvářet obrázky v kontextu konverzace
- Možnost konverzačních úprav již vygenerovaných obrázků
Praktické využití:
- Marketing a sociální média
- Vzdělávání a vysvětlování komplexních konceptů
- Ilustrace postupů a návodů (např. recepty)
- Vývoj multimodálních aplikací
Tipy pro efektivní použití:
- Používejte přímé pokyny pro generování obrázků
- Specifikujte umělecký styl nebo formát
- Podrobně popisujte postavy pro udržení konzistence
- Využívejte konverzační úpravy pro vylepšení výsledků
Omezení:
- Experimentální fáze s možnou nestabilitou
- Nejlepší výkon pouze v některých jazycích
- Všechny obrázky obsahují neviditelný vodoznak SynthID
Dostupnost:
- Pro vývojáře: Google AI Studio, Gemini API

Příklady

1) Vyměň pivo za víno

2) A uměl bys vyměnit psa za dinosaura?

3) … případně z fotky udělat obraz od van Gogha?

4) Zařídit, aby v Praze na Můstku zmizely kola a koloběžky?

5) A na Václaváku všichni lidi?

6) Ten plešatý chlápek se na fotku taky nehodí.

7) A šlo by zařídit, že bych s ou slečnou byl na jedné fotce v zasedačce na Manhattanu?

8) Taky bych si přál přejmenovat vyhlášenou londýnskou restauraci Milos na Senta (a Milos)

9) Nebo nakreslit hezkou karikaturu …

10) … mít na tričku jméno své ženy

11) … vidět ženu namalovanou od Picassa

12) … nebo od karikaturisty

13) A trochu jinak zařídit lounge v našem coworkingu v Diamantu!

...more

View all episodes

By Miloš Čermák

March 17, 2025

Gemini od Googlu umí "malovat". Není to revoluce, ale pokrok v generování AI obrázků určitě ano

19. března, 13:00 - 17:00, AI MASTERCLASS
20. března, 13:00 - 17:00, AI LEADERSHIP
21. března, 9:00 - 13:00, AI MASTERCLASS
25. března, 18:00 - 21:00, INVENTURA AI
27. března, 18:00 - 21:00, AI KREATIVITA s Čermákem a Staňkem
1. dubna, 17:00 - 21:00, AI MASTERCLASS
2. dubna, 13:00 - 16:00, AI PRO
8. dubna, 17:00 - 20:00, AI PRO

Co Gemini 2.0 (s generováním obrázků) nabízí:

Generování obrázků z textu (Text-to-Image Generation): Uživatelé mohou vytvářet obrázky na základě textových promptů. Typu: “Udělej obrázek Národního divadla, ve stylu dobové časopisecké ilustrace z roku 1890.” Gemini 2.0 Flash Experimental se snaží vytvářet vizuály, které jsou kontextově relevantní a přesné, a to díky využití rozsáhlých znalostí o světě. Ovšem: zároveň platí, že se mu to příliš nedaří. Gemini je v tomto stále výrazně horší než třeba Midjourney nebo Ideogram.
Konverzační úpravy obrázků (Conversational Image Editing): Uživatelé mohou upravovat existující obrázky prostřednictvím přirozeného jazyka v rámci “vícekolové” konverzace . Například lze nahrát obrázek modrého auta a následně požádat o jeho změnu na kabriolet a přebarvení na žluto . Tato schopnost iterativních úprav, při zachování kontextu v průběhu konverzace, umožňuje intuitivnější doladění a prozkoumávání různých kreativních nápadů.
Generování textu s vloženými obrázky (Text with Interleaved Images): Model dokáže v jednom kroku vygenerovat text a vložené obrázky, což je vhodné pro vytváření ilustrovaných příběhů či blogových postů.

Shrnutí toho nejdůležitějšího:

Co je Gemini 2.0 Flash: Experimentální AI model od Googlu s pokročilou schopností generování obrázků z textu
Klíčové funkce:
- Multimodální schopnosti kombinující text a obrázky
- Udržení vizuální konzistence postav a prostředí v sérii obrázků
- Schopnost vytvářet obrázky v kontextu konverzace
- Možnost konverzačních úprav již vygenerovaných obrázků
Praktické využití:
- Marketing a sociální média
- Vzdělávání a vysvětlování komplexních konceptů
- Ilustrace postupů a návodů (např. recepty)
- Vývoj multimodálních aplikací
Tipy pro efektivní použití:
- Používejte přímé pokyny pro generování obrázků
- Specifikujte umělecký styl nebo formát
- Podrobně popisujte postavy pro udržení konzistence
- Využívejte konverzační úpravy pro vylepšení výsledků
Omezení:
- Experimentální fáze s možnou nestabilitou
- Nejlepší výkon pouze v některých jazycích
- Všechny obrázky obsahují neviditelný vodoznak SynthID
Dostupnost:
- Pro vývojáře: Google AI Studio, Gemini API

Příklady

1) Vyměň pivo za víno

2) A uměl bys vyměnit psa za dinosaura?

3) … případně z fotky udělat obraz od van Gogha?

4) Zařídit, aby v Praze na Můstku zmizely kola a koloběžky?

5) A na Václaváku všichni lidi?

6) Ten plešatý chlápek se na fotku taky nehodí.

7) A šlo by zařídit, že bych s ou slečnou byl na jedné fotce v zasedačce na Manhattanu?

8) Taky bych si přál přejmenovat vyhlášenou londýnskou restauraci Milos na Senta (a Milos)

9) Nebo nakreslit hezkou karikaturu …

10) … mít na tričku jméno své ženy

11) … vidět ženu namalovanou od Picassa

12) … nebo od karikaturisty

13) A trochu jinak zařídit lounge v našem coworkingu v Diamantu!

...more

Share Gemini od Googlu umí "malovat". Není to revoluce, ale pokrok v generování AI obrázků určitě ano

Sign up to save your podcasts

Gemini od Googlu umí "malovat". Není to revoluce, ale pokrok v generování AI obrázků určitě ano

Gemini od Googlu umí "malovat". Není to revoluce, ale pokrok v generování AI obrázků určitě ano