Jedno procento

Gemini od Googlu umí "malovat". Není to revoluce, ale pokrok v generování AI obrázků určitě ano


Listen Later

Influenceři hlásí “Vyhoďte Photoshop!” a “Gemini mění historii!”, a to jako obvykle není pravda. Generování obrázků či fotografií zůstává problematickou, a v praxi obtížně využitelnou záležitostí. Ale model Gemini 2.0 Flash (Image Generation) Experimental, který si lze vyzkoušet v Google AI Studiu, je nepochybně krok dopředu. A když nic, tak minimálně zajímavá hračka, s kterou se pobavíte.

Model Gemini 2.0 přináší významná vylepšení v tzv. multimodálnosti, včetně nativní podpory výstupu obrazu a zvuku, a také schopnost využívat externí nástroje. Koncept „éry agentů“ naznačuje posun k umělé inteligenci, která dokáže lépe chápat okolní svět, uvažovat o budoucích krocích a jednat jménem uživatele s jeho dohledem.

Gemini 2.0 Flash Experimental je raná, experimentální verze tohoto modelu, která vývojářům a uživatelům umožňuje prozkoumat tyto nové možnosti, včetně generování obrazu . Označení „experimental“ je klíčové, protože naznačuje, že tato funkce je stále ve vývoji a může podléhat změnám, nestabilitě a omezením . Uživatelé by proto měli počítat s možnými chybami, nekonzistencemi a změnami funkcí bez předchozího upozornění.

Funkce generování obrazu v Gemini 2.0 Flash Experimental podporuje vytváření obrázků z textových promptů, konverzační úpravy existujících obrázků a generování textu s vloženými obrázky. Tato kombinace funkcí v rámci jednoho modelu představuje významný krok vpřed, který může zefektivnit pracovní postupy, jež dříve vyžadovaly použití samostatných nástrojů.

.

Chcete se o nástrojích generativní AI dozvědět víc? A začít je využívat naplno? Přijďte na naše workshopy. Nebo na pravidelnou Inventuru AI, kde se bavíme o novinkách. Již v úterý 25. března v Knihovně Čermáka a Staňka. Zde je program jenbližších workshopů:

  • 19. března, 13:00 - 17:00, AI MASTERCLASS

  • 20. března, 13:00 - 17:00, AI LEADERSHIP

  • 21. března, 9:00 - 13:00, AI MASTERCLASS

  • 25. března, 18:00 - 21:00, INVENTURA AI

  • 27. března, 18:00 - 21:00, AI KREATIVITA s Čermákem a Staňkem

  • 1. dubna, 17:00 - 21:00, AI MASTERCLASS

  • 2. dubna, 13:00 - 16:00, AI PRO

  • 8. dubna, 17:00 - 20:00, AI PRO

.

Co Gemini 2.0 (s generováním obrázků) nabízí:
  • Generování obrázků z textu (Text-to-Image Generation): Uživatelé mohou vytvářet obrázky na základě textových promptů. Typu: “Udělej obrázek Národního divadla, ve stylu dobové časopisecké ilustrace z roku 1890.” Gemini 2.0 Flash Experimental se snaží vytvářet vizuály, které jsou kontextově relevantní a přesné, a to díky využití rozsáhlých znalostí o světě. Ovšem: zároveň platí, že se mu to příliš nedaří. Gemini je v tomto stále výrazně horší než třeba Midjourney nebo Ideogram.

  • Konverzační úpravy obrázků (Conversational Image Editing): Uživatelé mohou upravovat existující obrázky prostřednictvím přirozeného jazyka v rámci “vícekolové” konverzace . Například lze nahrát obrázek modrého auta a následně požádat o jeho změnu na kabriolet a přebarvení na žluto . Tato schopnost iterativních úprav, při zachování kontextu v průběhu konverzace, umožňuje intuitivnější doladění a prozkoumávání různých kreativních nápadů.

  • Generování textu s vloženými obrázky (Text with Interleaved Images): Model dokáže v jednom kroku vygenerovat text a vložené obrázky, což je vhodné pro vytváření ilustrovaných příběhů či blogových postů.

Shrnutí toho nejdůležitějšího:
  • Co je Gemini 2.0 Flash: Experimentální AI model od Googlu s pokročilou schopností generování obrázků z textu

  • Klíčové funkce:

    • Multimodální schopnosti kombinující text a obrázky

    • Udržení vizuální konzistence postav a prostředí v sérii obrázků

    • Schopnost vytvářet obrázky v kontextu konverzace

    • Možnost konverzačních úprav již vygenerovaných obrázků

  • Praktické využití:

    • Marketing a sociální média

    • Vzdělávání a vysvětlování komplexních konceptů

    • Ilustrace postupů a návodů (např. recepty)

    • Vývoj multimodálních aplikací

  • Tipy pro efektivní použití:

    • Používejte přímé pokyny pro generování obrázků

    • Specifikujte umělecký styl nebo formát

    • Podrobně popisujte postavy pro udržení konzistence

    • Využívejte konverzační úpravy pro vylepšení výsledků

  • Omezení:

    • Experimentální fáze s možnou nestabilitou

    • Nejlepší výkon pouze v některých jazycích

    • Všechny obrázky obsahují neviditelný vodoznak SynthID

  • Dostupnost:

    • Pro vývojáře: Google AI Studio, Gemini API

Příklady

1) Vyměň pivo za víno

2) A uměl bys vyměnit psa za dinosaura?

3) … případně z fotky udělat obraz od van Gogha?

4) Zařídit, aby v Praze na Můstku zmizely kola a koloběžky?

5) A na Václaváku všichni lidi?

6) Ten plešatý chlápek se na fotku taky nehodí.

7) A šlo by zařídit, že bych s ou slečnou byl na jedné fotce v zasedačce na Manhattanu?

8) Taky bych si přál přejmenovat vyhlášenou londýnskou restauraci Milos na Senta (a Milos)

9) Nebo nakreslit hezkou karikaturu …

10) … mít na tričku jméno své ženy

11) … vidět ženu namalovanou od Picassa

12) … nebo od karikaturisty

13) A trochu jinak zařídit lounge v našem coworkingu v Diamantu!

...more
View all episodesView all episodes
Download on the App Store

Jedno procentoBy Miloš Čermák