October 29, 2025

Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz

Listen Later

39 minutes

Send a text

Wie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet.

Plus: Einblicke vom AI Transparency Days Hackathon, wo das Team versuchte, die "Refusal"-Mechanismen in GPT-OSS-20B zu entschlüsseln. Teil 1 einer zweiteiligen Serie!

Circuit Insights: Towards interpretability Beond Activiations. https://www.arxiv.org/abs/2510.14936

Support the show

...more

View all episodes

View all episodes

Download on the App Store

Download on the App Store

Get it on Google Play

Knowledge Science - Alles über KI, ML und NLP

By Sigurd Schacht, Carsten Lanquillon

October 29, 2025

Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz

Listen Later

39 minutes

Send a text

Wie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet.

Plus: Einblicke vom AI Transparency Days Hackathon, wo das Team versuchte, die "Refusal"-Mechanismen in GPT-OSS-20B zu entschlüsseln. Teil 1 einer zweiteiligen Serie!

Circuit Insights: Towards interpretability Beond Activiations. https://www.arxiv.org/abs/2510.14936

Support the show

...more

More shows like Knowledge Science - Alles über KI, ML und NLP

Hintergrund by Deutschlandfunk

Hintergrund

63 Listeners

Geschichten aus der Geschichte by Richard Hemmer und Daniel Meßner

Geschichten aus der Geschichte

181 Listeners

Das Wissen | SWR by SWR

Das Wissen | SWR

114 Listeners

c’t uplink - der IT-Podcast aus Nerdistan by c’t Magazin

c’t uplink - der IT-Podcast aus Nerdistan

9 Listeners

Spektrum-Podcast by detektor.fm – Das Podcast-Radio

Spektrum-Podcast

15 Listeners

Doppelgänger by Philipp Glöckler, Philipp Klöckner

Doppelgänger

16 Listeners

Alles Geschichte - Der History-Podcast by ARD

Alles Geschichte - Der History-Podcast

64 Listeners

Lanz + Precht by ZDF, Markus Lanz & Richard David Precht

Lanz + Precht

336 Listeners

KI verstehen by Deutschlandfunk

KI verstehen

11 Listeners

RONZHEIMER. by Paul Ronzheimer

RONZHEIMER.

134 Listeners

Der KI-Podcast by ARD

Der KI-Podcast

18 Listeners

KI-Update – ein heise-Podcast by Isabel Grünewald, heise online

KI-Update – ein heise-Podcast

4 Listeners

Geschichten aus der Mathematik by detektor.fm – Das Podcast-Radio

Geschichten aus der Mathematik

1 Listeners

Tech, KI & Schmetterlinge by Sascha Lobo, Schwarz Digits

Tech, KI & Schmetterlinge

2 Listeners