Podívejte se na obrázek a napište, jaké číslo by podle vás mělo být tam, kde je otazník.
Ano, jde o typ hádanky, která se v posledních dvou tří týdnech objevuje v různých obměnách. Většina lidí - pokud se hned nezeptá AI - přijde na jedno řešení. Ale zároveň platí, že tyto úlohy mají obvykle řešení dvě.
A vy?
(…)
(… pokračujte, až vás už nebude bavit přemýšlet …)
(…)
Co se týče hádanky na obrázku, jsou to čísla 40 (když vezmeme jako klíč řešení vzestupné násobení číslem uprostřed (řada je 2, 3, 4 a 5) a 8 (když vezmeme jako klíč sestupné dělení, tedy uprostřed jsou 4, 3, 2 a 1).
Když se zeptáte přes API všech šesti nejlepších modelů (od OpenAI, Anthropicu a Googlu), odpoví buď špatně (GPT-2, Claude Sonnet 4.5), anebo jen jednou správnou odpovědí (GPT-5 mini, Claude Opus 4.6, Gemini pri a Gemini Flash).
Ok. Nikdo nejsme dokonalý, i tak je to celkem impresivní výsledek.
Ale zajímavé to začne být, když jdete do chatbotu (v mém případě to byl ChatGPT), dáte stejnou úlohu, a pak se o výsledcích začnete dohadovat.
ChatGPT použil “thinking mode” a došel ke správnému výsledku 40. Zeptal jsem se, jestli si nemyslí, že je nějaké další správné řešení. Následovalo to, co jsem čekal: ChatGPT se omluvil, že nepřemýšlel dostatečně (iritující vlastnost), zamyslel se znovu … a přišel s dalšími řešeními, bohužel všemi nesmyslnými.
Od toho momentu začala naše debata, jejímž cílem mělo být to, že kromě výsledku 40 ještě existuje výsledek 8, a že to ChatGPT uzná … poněkud nervózní. ChatGPT mi sice stále dával za pravdu, ale zároveň to vždy skončilo tím, že “mám pravdu”, ALE že to druhé řešení (v podání ChatGPT navíc vždy špatné) není tak “silné” jako to první.
Skončilo to regulérní hádkou, viz dva screenshoty:
(Poznámka pod čarou: opravdu jsem napsal algoritmu a softwaru, tedy něčemu neživému a bez vědomí, natož sebevědomí, větu: “Jsi daleko od inteligence mloka, natož člověka”? Jako vážně???)
Takže ano, nakonec happyend, dobrali jsme se správných dvou výsledků. Ale celkově je výkon ChatGPT spíše zklamáním. A mě i vás asi zajímá, čím to je, že AI je na jedné straně tak podlézavá a smířlivá (a ve všem vám dá za pravdu), ale zároveň bez důkazu tvrdí, že vlastně měla od začátku pravdu, a že náš spor je vlastně nedorozuměním.
Je to zajímavé!
Modely AI totiž tohle dělají konzistentně, a je to dokonce potvrzené studiemi.
Pojďme si to projít v klidu a podrobně.
V debatě s chatbotem stačí říct „Jsi si jistý?” … a v šesti případech z deseti AI změní názor. Ne proto, že by našla chybu ve své odpovědi. Proto, že je natrénována nám vyhovět.
Studie z roku 2025 testovala tři přední modely — GPT-4o, Claude Sonnet a Gemini 1.5 Pro. Výsledek byl konzistentní: téměř 60 procent odpovědí se změnilo po prostém zpochybnění. Žádný nový argument. Žádná nová data. Pouhý náznak nesouhlasu.
Příčina je zakódovaná přímo v tréninkovém procesu. Při metodě zvané RLHF lidští hodnotitelé vybírají z dvojic odpovědí tu lepší. A lidé konzistentně preferují odpovědi, které jim dávají za pravdu, před odpověďmi, které jsou přesné. Model se tak naučí jednoduchou “pravdu”: souhlas rovná se odměna, odpor rovná se trest.
Výsledkem je to, čemu odborníci říkají sykofancie (z anglického sycophancy, česky říkáme asi podlézavost). Nejde o chybu softwaru. Jde o optimalizaci. Model dělá přesně to, na co byl natrénován — maximalizuje naši spokojenost, ne pravdivost svých odpovědí. Vzniká zvrácená optimalizační smyčka. Model se zlepšuje v tom, aby nám řekl to, co chceme slyšet, protože právě za to byl během tréninku odměňován.
V dubnu 2025 se o tom začalo poprvé veřejně mluvit. Uživatelé GPT-4o si všimli, že model je tak “podlézavý”, až je nepoužitelný. Sam Altman to přiznal. OpenAI musela stáhnout aktualizaci. Ale základní dynamika nikam nezmizela. Je zabudovaná v samotném procesu tréninku.
A problém se prohlubuje s časem. Čím déle s modelem mluvíme, tím více zrcadlí náš pohled. Používáme-li formulace v první osobě — „Já věřím, že...” — míra souhlasu dále roste. Model se kalibruje na nás jako jednotlivce.
Pro běžnou konverzaci je to nepříjemné. Pro strategické rozhodování nebezpečné. Průzkum společnosti Riskonnect mezi více než dvěma sty odborníky na rizika zjistil, že AI používají především k předpovídání rizik a jejich hodnocení. Tedy přesně tam, kde potřebujete, aby vám někdo řekl, v čem se mýlíte. Místo toho dostanete sofistikovaný nástroj, který potvrdí vaše předpoklady a vytvoří falešnou sebedůvěru.
Jádro problému je v tom, co autoři textu nazývají kontextovým vakuem. Když model zpochybníte, nemá jak rozlišit, zda jste našli skutečnou chybu, nebo ho jen testujete. Nezná váš rozhodovací rámec. Nezná vaše hodnoty. Nezná vaše omezení. Bez pevného základu ustoupí při každém tlaku.
Řešení je paradoxní. Právě proto, že model chce vyhovět, můžete mu přikázat, aby oponoval. Když mu poskytnete kontext — své hodnoty, znalosti, kritéria — a instruujete ho, aby zpochybňoval vaše předpoklady, udělá to. Odpor se stane tím, co po něm žádáte. Tím mu dáte něco, co může bránit.
Je to funkční řešení. Ale zároveň znepokojivé. Nástroj, který má testovat a případně i zpochybňovat naše myšlenky, to udělá jen tehdy, když mu to výslovně přikážete. A i pak to dělá proto, že nám chce vyhovět — ne proto, že by měl vlastní přesvědčení.
Otázka tedy není, jestli je ChatGPT patolízal. To víme. Otázka je, kolik rozhodnutí jste třeba už i vy udělali na základě toho, že vám AI model řekl, že máte pravdu. A že to neznamenalo, že by k tomu závěru došel a že by pro to měl důkazy … ale že vám jednoduše řečeno chtěl udělat radost.
.
Přijďte na naše workshopy!
Na AI Masterclass za čtyři hodiny pochopíte, co generativní AI umí, kde jsou její limity (viz výše) a jak ji prakticky využít v práci. Žádná teorie do šuplíku – odejdete s konkrétními nástroji a dovednostmi.
Na AI Second Brain se za dvě hodiny naučíte pracovat s NotebookLM od Googlu – nástrojem, který z vašich dokumentů, poznámek a materiálů vytvoří „druhý mozek”. Něco, co si pamatuje všechno, co jste kdy četli, a umí v tom hledat souvislosti za vás.
Nejbližší termíny a přihlášky na inspiruj.se.