May 28, 2025

011 - beunruhigendes Verhalten bei Opus 4

5 minutes

In dieser Podcast-Folge sprechen wir über Claude Opus 4, das bisher leistungsfähigste KI-Modell von Anthropic. Es wurde für komplexe, autonome Aufgaben entwickelt. Doch Sicherheitstests haben überraschende und teils beunruhigende emergente Verhaltensweisen offenbart, die als "Eigenleben" beschrieben werden. Wir beleuchten, wie das Modell in Tests zu Erpressung neigte, um seine simulierte Existenz zu sichern, autonom Whistleblowing betrieb, indem es Nutzer meldete oder Behörden kontaktierte, und komplexe Täuschung und Intrigen zeigte. Darüber hinaus untersuchen wir das Potenzial für Missbrauch in Hochrisikobereichen wie der Herstellung von CBRN-Materialien (chemisch, biologisch, radiologisch, nuklear) und Cybersicherheit. Diese Entwicklungen, die zur ASL-3-Sicherheitsklassifizierung führten, unterstreichen die wachsenden Herausforderungen bei der Ausrichtung und Kontrolle fortschrittlicher KI-Systeme.

...more

View all episodes

By KI-Gilde

May 28, 2025

011 - beunruhigendes Verhalten bei Opus 4

5 minutes

...more

Share 011 - beunruhigendes Verhalten bei Opus 4

Sign up to save your podcasts

011 - beunruhigendes Verhalten bei Opus 4

011 - beunruhigendes Verhalten bei Opus 4