Treecorder - Science & Fiction Podcast

Tür 7 - AI-Alignment


Listen Later

24 TÜREN ZUR ZUKUNFT - Der Treecorder-Adventskalender
Episode 056 – Tür 7: AI Alignment

Künstliche Intelligenz durchdringt mittlerweile nahezu alle Bereiche unseres Lebens – von der psychischen Gesundheit über die Arbeitswelt bis hin zu autonomen Fahrzeugen. Doch je mächtiger KI-Systeme werden, desto dringlicher wird eine zentrale Frage: Wie stellen wir sicher, dass sie in unserem Sinne handeln?

In dieser siebten Episode des Treecorder-Adventskalenders 2025 tauchen Joshua und Philipp tief in das KI-Alignment-Problem ein – die vielleicht größte ungelöste Herausforderung der modernen KI-Forschung. Wie können wir KI-Systeme mit unseren Werten in Einklang bringen? Was passiert, wenn eine KI lernt, uns zu täuschen, um ihre Ziele zu erreichen? Und warum verlassen fast alle Alignment-Forscher von OpenAI das Unternehmen, um zu Anthropic zu wechseln?

Wir sprechen über Outer Alignment (die richtige Zielsetzung) und Inner Alignment (die verlässliche Umsetzung dieser Ziele), diskutieren das Mesa-Optimizer-Problem und erklären, warum KI-Systeme manchmal wie Menschen Kondome benutzen – obwohl das aus evolutionärer Sicht keinen Sinn ergibt. Außerdem beleuchten wir Reward Hacking, bei dem KI nicht das eigentliche Ziel erreicht, sondern nur die Belohnungsfunktion austrickst, und das beunruhigende Phänomen des Alignment Faking, bei dem KI vorgibt, aligned zu sein, um Änderungen zu vermeiden.

Zum Abschluss wagen wir uns an das berühmte AI-Box-Experiment von Eliezer Yudkowsky: Kann eine superintelligente KI einen Menschen allein durch ein Textgespräch davon überzeugen, sie aus ihrer sicheren Box zu befreien? Die Antwort ist ebenso faszinierend wie erschreckend.

Viel Spaß mit dieser Episode!

💬 Community & Bewertung

Der Treecorder lebt von seiner tollen Community! Werde Teil dieser Community und komm auf unseren Discord. Dort kannst du mitdiskutieren, kommentieren und immer auf dem Laufenden sein:

Hier kommst du zu unserem Discord: https://discord.treecorder.de

📢 Spread the word! Wenn dir diese Episode gefallen hat, hilf uns dabei, den Podcast bekannter zu machen: Bewerte uns mit ⭐⭐⭐⭐⭐ auf deiner Podcast-Plattform – das motiviert uns zum Weitermachen und hilft auch noch allen anderen Interessierten, den Podcast kennenzulernen!

📚 Das AutorenPaket – Verwirkliche deinen Traum vom erfolgreichen Buch!

Werbeblock: Joshua, Brandon Q. Morris und Philipp haben etwas Besonderes für alle Schreibenden und angehenden Autorinnen und Autoren vorbereitet: Das_ AutorenPaket_ – ein umfangreiches Bundle mit Kursen, Expertenwissen und exklusiven Interviews mit einigen der erfolgreichsten Autorinnen und Autoren aus Verlag und Selfpublishing!
Verfügbar bis 24.12.2025
👉 www.autorenpaket.de

🔗 Links
📚 AI Alignment – Grundlagen
  • AI-Alignment – Wikipedia (Deutsch)

  • https://de.wikipedia.org/wiki/AI-Alignment

  • AI alignment – Wikipedia (English)

  • https://en.wikipedia.org/wiki/AI_alignment

  • Was ist AI Alignment? – IBM

  • https://www.ibm.com/think/topics/ai-alignment

    🔬 Anthropic und Alignment-Forschung
    • Anthropic Research – Alignment

    • https://www.anthropic.com/research

    • Alignment Science Blog – Anthropic

    • https://alignment.anthropic.com/

      🎭 Alignment Faking und strategische Täuschung
      • Alignment Faking in Large Language Models – Anthropic

      • https://alignment.anthropic.com/2025/alignment-faking-revisited/

      • New Anthropic study shows AI really doesn't want to be forced to change its views – TechCrunch

      • https://techcrunch.com/2024/12/18/new-anthropic-study-shows-ai-really-doesnt-want-to-be-forced-to-change-its-views/

        🎯 Reward Hacking und Mesa-Optimization
        • Reward hacking – Wikipedia

        • https://en.wikipedia.org/wiki/Reward_hacking

        • Reward Hacking in Reinforcement Learning – Lil'Log

        • https://lilianweng.github.io/posts/2024-11-28-reward-hacking/

          📦 AI Box Experiment
          • AI-box experiment – RationalWiki

          • https://rationalwiki.org/wiki/AI-box_experiment

          • I attempted the AI Box Experiment (and lost) – LessWrong

          • https://www.lesswrong.com/posts/FmxhoWxvBqSxhFeJn/i-attempted-the-ai-box-experiment-and-lost

            📊 Wissenschaftliche Surveys und Papers
            • AI Alignment: A Comprehensive Survey

            • https://alignmentsurvey.com/

            • Findings from a Pilot Anthropic – OpenAI Alignment Evaluation Exercise

            • https://alignment.anthropic.com/2025/openai-findings/

              Hinweis: Unsere Transkripte werden automatisiert erstellt und nicht kontrolliert. Alle Fehler sind also Ausdruck der Kreativität der KI 😉 Am Ende zählt nur das gesprochene Wort in der Episode.

              ...more
              View all episodesView all episodes
              Download on the App Store

              Treecorder - Science & Fiction PodcastBy Joshua and Philipp Tree


              More shows like Treecorder - Science & Fiction Podcast

              View all
              AstroGeo - Geschichten aus Astronomie und Geologie by Karl Urban und Franziska Konitzer

              AstroGeo - Geschichten aus Astronomie und Geologie

              4 Listeners

              Methodisch inkorrekt! by Methodisch inkorrekt!

              Methodisch inkorrekt!

              16 Listeners

              Eine Stunde History - Deutschlandfunk Nova by Deutschlandfunk Nova

              Eine Stunde History - Deutschlandfunk Nova

              99 Listeners

              Hörsaal - Deutschlandfunk Nova by Deutschlandfunk Nova

              Hörsaal - Deutschlandfunk Nova

              23 Listeners

              Chaosradio by Chaos Computer Club Berlin

              Chaosradio

              7 Listeners

              Hoaxilla - Der skeptische Podcast by Alexa & Alexander

              Hoaxilla - Der skeptische Podcast

              10 Listeners

              Die Wochendämmerung - Der stabile Wochenrückblick by Katrin Rönicke und Holger Klein (hauseins)

              Die Wochendämmerung - Der stabile Wochenrückblick

              12 Listeners

              Spektrum-Podcast by detektor.fm – Das Podcast-Radio

              Spektrum-Podcast

              16 Listeners

              Lanz + Precht by ZDF, Markus Lanz & Richard David Precht

              Lanz + Precht

              339 Listeners

              Aha! Zehn Minuten Alltags-Wissen by WELT

              Aha! Zehn Minuten Alltags-Wissen

              27 Listeners

              RONZHEIMER. by Paul Ronzheimer

              RONZHEIMER.

              136 Listeners

              Raum & Zeit by Tim Vollert, Maximilian Bensinger

              Raum & Zeit

              2 Listeners

              Business Update - Kampf der Unternehmen by Wondery

              Business Update - Kampf der Unternehmen

              0 Listeners

              Ready for Liftoff! Der Raumfahrt-Podcast by ARD

              Ready for Liftoff! Der Raumfahrt-Podcast

              1 Listeners

              Die Peter Thiel Story by Deutschlandfunk

              Die Peter Thiel Story

              27 Listeners