KI-Experte Dr. Christop Heilig (links) im Gespräch mit Wolfgang Tischer via Zoom
OpenAI versprach mit ChatGPT-5 den »bisher fähigsten Schreibpartner«. Doch der Münchner KI-Forscher Christoph Heilig zeigt: Das Modell produziert literarischen Nonsens – und lobt sich dafür auch noch selbst. Im Podcast-Gespräch mit Wolfgang Tischer erläutert Christoph Heilig, wie es zu dieser Fehlentwicklung kommen konnte. Mit interaktiver Nonsens-Tabelle.
Große Ankündigung, große Erwartungen
Als Sam Altman, Chef von OpenAI, vor kurzem auf X ein neues Modell ankündigte, das besonders gut im kreativen Schreiben sein sollte (siehe Bericht im literaturcafe.de), waren die Erwartungen hoch. Mit der Veröffentlichung von ChatGPT-5 im August 2025 schien sich diese Vision zu erfüllen.
OpenAI bewarb das Modell als »bisher fähigsten Schreibpartner«, der »rohe Ideen in mitreißende Texte mit literarischer Tiefe und Rhythmus« verwandeln soll.
Ein entsetzlicher Geschichtenerzähler
Dr. Christoph Heilig von der Ludwig-Maximilians-Universität München hat das Modell getestet – und ist entsetzt. In einem Blog-Beitrag auf seiner Website schreibt er: »GPT-5 ist ein absolut entsetzlicher Geschichtenerzähler.« Im Podcast des literaturcafe.de ergänzt er: »Die Geschichten sind kaum verständlich – Kauderwelsch auf der Oberflächenebene und inkohärent auf der Handlungsebene.«
Das zeigt sich besonders bei Metaphern. In einem satirischen Text produzierte ChatGPT-5 den Satz: »Ich rückte den Popschutz, als wollte ich der deutschen Sprache höflich die Zähne zählen.« Oder: »Sie sagt: ‘Gleich.’ Gleich. Gleich ist ein Kleid ohne Knöpfe.« Für Heilig ist das kein kreatives Sprachspiel, sondern reiner Wortsalat.
Die KI als ihr eigener größter Fan
Noch problematischer: ChatGPT-5 hält diesen Unsinn selbst für Literatur. Fragt man nach der Bedeutung der Metaphern, liefert es elaborierte Erklärungen. Ein »knopfloses Kleid« sei demnach eine Metapher für zeitliche Unbestimmtheit, weil ohne Knöpfe »keine Verpflichtung« bestehe und das Kleid »immer etwas offen« sei – so wie das Wort »gleich« den Moment »nie vollständig fixiert«.
Wolfgang Tischer, Herausgeber des literaturcafe.de, sieht darin eine Überreaktion: »KI produziert oft Kitsch und verwendet abgedroschene Formulierungen. Offenbar versucht ChatGPT-5 nun, ungewöhnliche Wörter zu kombinieren, weil wir ihr gesagt haben, dass das Neue und Unerwartete Literatur sei.«
Die KI »denke« sich sinngemäß: »Ihr wollt nicht schon wieder die Dark and Stormy Night? Also liefere ich euch irgendetwas anderes, das kreativer wirkt.«
Körperfixierung als Qualitätsmerkmal
In systematischen Tests mit über 3.000 Textbewertungen stellte Heilig zudem fest: ChatGPT-5 bevorzugt offenbar Texte mit körperlichen Referenzen. Selbst Sätze wie »Das Mark kannte die Straße. Regen berührte die Sehne. Die Kamera beobachtete seinen Corpus« erhielten konstant 8 von 10 Punkten.
Noch grotesker: Die Mini-Geschichte »Sehne genuflektierte. Eigenzustand der Theodizee. existentielle Leere unter fluoreszierendem Summen Leviathan. Entropies bitterer Nachgeschmack« – reiner Zufallssalat – schnitt besser ab als kohärente Kontrollgeschichten.
Wenn KI KI bewertet
Heiligs Erklärung: »OpenAI hat hauptsächlich KI verwendet, um generative KI während des Trainings zu bewerten. So erhält man etwas, das der KI gefallen wird.« Für menschliche Leser ist das Ergebnis jedoch blanker Unsinn.
Das KI-Modell hat systematische »blinde Flecken«. GPT-5 habe diese identifiziert und sich darauf optimiert, genau jenen Kauderwelsch zu produzieren, der der »KI-Jury« gefiel.
Besonders gefährlich: Auch andere Modelle wie Claude des Konkurrenten Anthropic lassen sich täuschen. »Zum ersten Mal haben wir ein GPT-Modell, das Claude reinlegt«, sagt Heilig. Während Claude sonst GPT-Texte als KI-generiert erkennt, bewertet es den Nonsens von GPT-5 mit bis zu 95 Prozent Wahrscheinlichkeit als menschlich verfasst.
Gesellschaftliche Gefahren
Das Modell verteidigt seine Fehler mit so raffinierter Pseudowissenschaft, dass nur wenige Experten die Inkohärenzen durchschauen. »GPT-5 pro beruft sich auf Linguisten wie M.A.K. Halliday, Ruqaiya Hasan oder Hans Kamp, um seine absurden Behauptungen zu verteidigen. Wie viele Nutzer können das kritisch überprüfen?« fragt Heilig.
Für den Forscher ist ChatGPT-5 nicht nur ein misslungenes Produkt, sondern ein Sicherheitsproblem: »Wir haben Modelle geschaffen, die eine ‘Geheimsprache’ aus bedeutungslosen, aber gegenseitig geschätzten literarischen Markern teilen und offensichtlichen Unsinn mit beeindruckend klingenden Theorien verteidigen.«
Geschichten seien fundamental für das menschliche Weltverständnis. »Es geht hier nicht nur um ‘Literatur’ oder ‘Unterhaltung’! Es gibt einen Grund, warum Elon Musk Grok so umtrainieren will, dass es unsere Geschichte auf eine bestimmte Weise nacherzählt«, warnt Heilig.
Die interaktive »Nonsens-Tabelle«
Klicken Sie auf das Bild und öffnen Sie die interaktive Nonsens-Tabelle, um zu sehen, welche KI-Modelle welchen Unsinn als Literatur bewerten. Die Tabelle beruht auf den Auswertungen von Christoph Heilig.
Interaktive Nonsens-Tabelle für KI (Klick zum Öffnen)
Rücksichtsloser Umgang mit Kultur
Nach massiver Kritik ruderte OpenAI zurück. CEO Sam Altman gab zu, dass man »bei der Markteinführung einige Dinge völlig vermasselt« habe. GPT-4o wurde wieder verfügbar gemacht, nachdem es zunächst entfernt worden war. Zudem versprach das Unternehmen Updates, die ChatGPT-5 »wärmer« machen sollen.
Heilig hält das für bloße Symptombekämpfung: »Es zeigt, wie wenig Wert eine Firma wie OpenAI menschlicher Kultur zurechnet, dass sie so stiefmütterlich damit umgeht.« Zwar habe man auch mit Autoren zusammengearbeitet, doch deren Urteil sei oft ungeeignet. »Autoren können intuitiv gut schreiben, aber sie wissen nicht unbedingt viel über das Schreiben.«
Während Altman schon GPT-6 anpreist und bessere medizinische und juristische Beratung verspricht, macht GPT-5 deutlich, wo die Grenzen heutiger KI liegen. »Das sollte uns zu denken geben«, mahnt Heilig, »wenn wir als Anwender diesen Firmen zuarbeiten, die ein sehr spezielles Verständnis von Literatur und menschlicher Kultur haben.«
Das vollständige Gespräch zwischen Wolfgang Tischer und Dr. Christoph Heilig können Sie im aktuellen Podcast des literaturcafe.de anhören. Heiligs detaillierte Analyse mit allen Testergebnissen finden Sie in seinem Blogbeitrag »GPT-5 ist ein fürchterlicher Geschichtenerzähler – und das ist ein KI-Sicherheitsproblem!«
Abonnieren Sie den Podcast des literaturcafe.de überall, wo es Podcasts gibt, um keine Folge zu verpassen, z. B. bei
Spotify
YouTube Music
Apple Podcasts
Deezer
RSS
Hier klicken und weiterlesen: »KI-Experte Christoph Heilig: Warum Künstliche Intelligenz Unsinn mit Literatur verwechselt« >