Wykorzystaliśmy m.in. Veo 3.1, Nano Banana, Runway, Canva, Vertex AI, Flow, CapCut i ElevenLabs, aby połączyć realistyczne sceny, cyfrowego sobowtóra kierowcy i naturalnego lektora w spójny, emocjonalny spot.
W artykule zdradzamy jak ominąć ograniczenia AI, jak tworzyć dobre referencje i dlaczego nie warto pisać w promptach słowa „child” (serio).
Od zdjęcia do filmuNarzędzia, bez których by się to nie udało 1.
Veo 3.1 (Google AI Studio)Tryb „References to Video”, który pozwala tworzyć realistyczne ujęcia z referencji. Limit: 3 obrazy i 8 sekund filmu.
Brzmi jak nic, ale w praktyce – to potężne narzędzie, które potrafi z pojedynczej fotografii wyczarować ruch, głębię i kamerę w stylu „kinowy ruch łukowy”.
Pro tip: jeśli chcesz, żeby ludzie na filmie mieli realistyczny ruch, ale nie chcesz widzieć halucynacyjnych twarzy – napisz w prompcie, że są „odwróceni tyłem”. Magia działa.
2.
Nano BananaWizualny szwajcarski scyzoryk – idealny do modyfikacji zdjęć referencyjnych.
To tutaj „doklejaliśmy” samochód przed wejściem do Rabkolandu, zanim Veo dostał swoje 3 referencje.
Czasem działał jak Photoshop, a czasem jak artysta na kacu – tworzył kompletnie nowe budynki, których w Rabce nikt nigdy nie widział.
3.
Vertex AI (Google Cloud)Świetny do testów – generuje do czterech wariantów tej samej sceny.
Pozwala wybrać:
Modelu (różne wersje: Veo 2, Veo 3, Veo 3.1)
Formatu obrazu (16:9 – poziomy, 9:16 – pionowy, idealny pod Reels/TikTok/Facebook)
Długości klipu (4, 6 lub 8 sekund)
Rozdzielczości (720p lub 1080p)
Typu referencji
Ustawień bezpieczeństwa dotyczących generowania ludzi
(możesz wybrać wszystkie grupy wiekowe, tylko dorosłych lub całkowicie wyłączyć generowanie osób — choć ta opcja bywa zawodna; nawet przy zaznaczeniu „wszystkie grupy wiekowe” model czasem odmawia wygenerowania postaci przy użyciu słowa „child”)
Seed – bardzo istotny parametr zapewniający spójność wyników.
Używając tego samego promptu i tej samej wartości seed, uzyskasz za każdym razem bardzo zbliżone rezultaty.
4.
Flow (Google)Platforma, która łączy Veo z Twoimi referencjami i promptami w bardziej wizualny sposób.
To tutaj powstał cyfrowy sobowtór kierowcy taxi – proces, który wymagał ośmiu różnych ujęć twarzy (z przodu, z profilu, od góry, z uśmiechem).
Połączenie ich w tzw. merged reference frame dało efekt realistycznej postaci, która „żyje” w wideo.
5.
Runway MLAlternatywa dla Veo – testowaliśmy te same prompty, by porównać, jak różne modele interpretują tę samą scenę.
Czasem Runway dawał lepsze światło, czasem Veo lepszy ruch.
To jak porównywanie dwóch operatorów filmowych – obaj mają talent, ale różne poczucie estetyki.
6.
CanvaBrzmi banalnie, ale Canva była nieoceniona przy tworzeniu zestawów referencyjnych.
Na jednym obrazie umieszczaliśmy 3 perspektywy twarzy (front, ¾ z prawej, ¾ z lewej) z podpisami.
Pro tip: jeśli model pozwala tylko na 3 obrazy, zrób kolaż – w jednym pliku zmieścisz 6–9 kadrów referencyjnych.
7.
CapCutMontaż końcowy. Tutaj składaliśmy wszystkie 8-sekundowe klipy w jedną całość, dopasowując kolory i dodając muzykę.
Bez CapCuta ten projekt wyglądałby jak zmontowany w Paintcie.
8.
ElevenLabsGłos narratora – AI lektor, który brzmi lepiej niż większość “voice-overów” z banków dźwięków.
Dzięki niemu reklama nabrała emocji – głos z naturalną intonacją, delikatnym podkreśleniem słów, bez „robotycznego” efektu.
9.
ChatGPT i GeminiOba modele pomagały mi w dopracowaniu promptów, rozbijaniu scenariusza i opisie ruchów kamery.
Ciekawostka: Testowałem generowanie promptów w ChatGPT i Gemini. Odpowiedzi były różne.
- ChatGPT tworzył bardziej konkretne, precyzyjne instrukcje.
- Gemini natomiast był wyraźnie bardziej twórczy i „artystyczny” w swoich propozycjach.
Dlaczego tak się dzieje?
To kwestia tzw. temperatury modelu – parametru, który określa, jak „śmiały” ma być model w generowaniu odpowiedzi.
Niższa temperatura = bardziej przewidywalne, logiczne i spójne treści (idealne do technicznych promptów, kroków procesu, checklist, skryptów).
Wyższa temperatura = bardziej kreatywne, zaskakujące i nieszablonowe pomysły (świetne do storytellingu, scen kreatywnych, moodboardów, konceptów video).
W skrócie: ChatGPT przy tych zadaniach zachowywał się jak pragmatyczny reżyser-planista, a Gemini jak inspirujący art-director z głową pełną wizji.
Czy można ustawić odpowiednią temperaturę?
Zła wiadomość: Jeśli chcesz ustawić dokładną temperaturę musisz wykorzystać interfejs programistyczny API.
Dobra wiadomość: Nie wiesz co to API? Nie szkodzi, możesz uzyskać określony styl odpowiedzi w inny sposób. Modele takie jak ChatGPT, czy Gemini mają opcję personalizacji. Możesz napisać modelowi wprost „Staraj się odpowiadać bardzo konkretnie.”
Wróćmy jednak do kulisów powstawania reklamy…
Etapy powstawania scen 1. Scena otwierająca – taxi przed Rabkolandem
Z trzech referencji (wejście do parku, to samo z samochodem i auto w ruchu) powstała pierwsza scena – parkująca taksówka, jesienne światło, ciepłe barwy.
Kluczowy był kinowy ruch kamery – łagodny łuk, jak w reklamach dużych marek.
Tip: Model często crashował po słowie “child”. Zmieniliśmy na “family walking” – i nagle przestał się buntować.
Niektórzy mówią, że AI ma emocje. My mówimy – ma cenzor.
2. Scena – kobieta zamawiająca taxi przy fontannie
Tu z kolei model miał problem z… rzeczywistością.
Zamiast Restauracji „Zdrojowa”, pojawił się całkiem nowy budynek. Halucynacja, klasyka gatunku.
Po kilku podejściach udało się uzyskać wersję, gdzie przynajmniej słoń z fontanny był prawdziwy.
Tip: Jeśli zależy Ci na realnym miejscu – generuj kilka wersji i wybieraj tę, która ma najmniej „halucynacji”.
To nie bug, to probablistyczna natura modeli językowych.
3. Scena – taxi wyjeżdża z dworca
Świetny przykład, jak AI potrafi zachować bryłę budynku i pojazdu, a przy okazji „usunąć” świętego Mikołaja z placu.
Prosimy o wybaczenie mieszkańców Rabki-Zdroju za tak drastyczną ingerencję w architekturę krajobrazu.
4. Scena – Zakopianka
W pełni fikcyjny krajobraz, który wyglądał bardziej realistycznie niż prawdziwa Zakopianka.
Tu Veo zaszalał z głębią ostrości – efekt jak z drona, którego nigdy nie użyliśmy.
5. Scena – kierowca w samochodzie
Tutaj zadziałał nasz cyfrowy sobowtór.
Wirtualny kierowca jest zbliżonego wyglądu do prawdziwego.
Oprócz tego model zachował w tej scenie kolor auta, detale kabiny i nawet odbicia w szybie.
Kiedy przyjrzysz się uważnie, zauważysz niebieskie refleksy – subtelne potwierdzenie, że to naprawdę ta niebieska Dacia.
6. Scena – samolot
Ostatnia scena generowana przez AI, symboliczna: srebrne taxi i startujący samolot – efektowna scena, która podkreśla jeden z głównych atutów firmy – atrakcyjne transfery taxi na lotniska Kraków-Balice, Katowice-Pyrzowice.
Czego nauczył nas ten projekt?
Każdy projekt AI to gigantyczny test cierpliwości.
Zauważyliśmy kilka rzeczy, które mogą Ci uratować tokeny i nerwy:
Zmieniaj wątek, gdy model zaczyna głupieć.
Po kilku iteracjach rozmowy model staje się zbyt „świadomy kontekstu” i zaczyna mieszać.
Lepiej otworzyć nowy wątek – świeży model, świeży umysł.
Twórz prototypy.
Nie generuj od razu całych 8 sekund – rób krótsze wersje, testuj ruch kamery i kolory.
Myśl jak reżyser, nie jak prompt engineer.
Zamiast pisać „show a car”, opisz „kamerę powoli cofającą się, ciepłe światło, refleksy na szybie”.
AI lepiej rozumie emocje niż suche fakty. Brak ci pomysłu? Poproś na początku rozmowy model o wcielenie się w rolę kreatywnego scenarzysty.
Zminimalizuj “odpady”.
Każde nieudane wideo kosztuje. Lepiej dopracować referencje w Canvie, niż przepalać kolejne minuty generacji.
Nie usuwaj nieudanych prób.
Model potrafi halucynować — taka już jego natura. Zamiast jednak frustrować się i usuwać kolejne nieidealne generacje wideo, obejrzyj je jeszcze raz i sprawdź, czy nie da się czegoś wyciąć, połączyć i wykorzystać. Ten materiał powstał właśnie w ten sposób. Uwierzcie — były momenty, kiedy śmiałem się do łez… i takie, kiedy miałem ochotę wyrzucić komputer przez okno.
WEBDOO: my nie robimy reklam — my tresujemy algorytmy
W WEBDOO wierzymy w eksperymenty, które przesuwają granice między kreatywnością a kodem.
Bo dziś kamera to nie tylko obiektyw, tylko też prompt.
A plan filmowy to nie ulica w Rabce-Zdroju, tylko folder z referencjami w Nano Banana.
Ten projekt to nie tylko reklama Taxi Rabka-Zdrój.
To dowód, że lokalne marki mogą wyglądać jak globalne, jeśli tylko odważą się zaufać technologii.
Nie mieliśmy aktorów, ale mieliśmy AI.
Nie mieliśmy kamery, ale umiemy w prompty.
I to właśnie jest duch WEBDOO.
Pytania i odpowiedzi Jak powstał cyfrowy sobowtór kierowcy?
Na bazie ośmiu różnych ujęć twarzy – przód, profile, uśmiech, góra, dół – połączonych w Canvie.
Dzięki temu model zachował spójność rysów i realistyczne oświetlenie.
Czy ten film powstał całkowicie bez ludzi?
Nie. Każda scena wymagała dopracowania promptów, wyboru najlepszych kadrów i montażu w CapCut.
AI to narzędzie – nie zastępuje reżysera, tylko daje mu supermoce.
Ile kosztuje stworzenie filmu?
Korzystając z płatnych narzędzi deweloperskich Google — takich jak Vertex AI i Gemini API — możesz w panelu Google Cloud szczegółowo monitorować zużycie zasobów oraz koszty generowane przez poszczególne modele. Cena produkcji wideo zależy przede wszystkim od liczby wygenerowanych prototypów (testowych ujęć) oraz poziomu złożoności parametrów — m.in. jakości, liczby wariantów, długości materiału czy dodania ścieżki dźwiękowej.
W praktyce koszt może wynosić od kilkuset do nawet kilku tysięcy złotych przy bardziej dopracowanych, wielowarstwowych realizacjach.
Łączny koszt stworzenia takiej reklamy obejmuje dwa elementy:
opłaty za wykorzystanie modeli AI,
czas pracy – robocizna.
Podsumowanie – co warto zapamiętać
AI nie zrobi wszystkiego za Ciebie.
Zrozumienie kompozycji, światła i emocji nadal leży po stronie człowieka.
Im lepsze referencje, tym lepszy efekt.
Zrób kolaże, opisz dokładnie scenę, wskaż szczegóły – każdy piksel ma znaczenie.
Testuj różne modele.
Veo, Runway i Vertex potrafią dać zupełnie inne interpretacje tego samego prompta.
Jak WEBDOO stworzyło film promocyjny dla Taxi Rabka-Zdrój, mając do dyspozycji jedynie kilka zdjęć i cały arsenał narzędzi AI.
Zamiast kamer i statystów, użyliśmy 9 kluczowych narzędzi AI, aby wygenerować każdą scenę, stworzyć głos lektora i zmontować całość w emocjonalny spot.
Ocena postrzeganej ważności każdego narzędzia w procesie twórczym.
Cały proces, od scenariusza po montaż, był cyfrową pętlą eksperymentów i dopracowywania referencji.
1. Scenariusz
(ChatGPT)
2. Referencje i Kolaże
(Canva & Nano Banana)
3. Generowanie Wideo
(Veo, Vertex, Flow)
4. Generowanie Audio
(ElevenLabs)
5. Montaż Końcowy
(CapCut)
Praca z AI to test cierpliwości i kreatywnego omijania ograniczeń. Oto kluczowe problemy i nasze rozwiązania.
WEBDOO: My nie robimy reklam.
My tresujemy algorytmy.
Dziś kamera to nie obiektyw, tylko prompt. A plan filmowy to nie ulica w Rabce, tylko folder z referencjami w Nano Banana.
Ten projekt to dowód, że lokalne marki mogą wyglądać jak globalne, jeśli tylko odważą się zaufać technologii.
Infografika stworzona przez Canvas Infographics na podstawie materiałów WEBDOO.