Knowledge Science - Alles über KI, ML und NLP

Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz


Listen Later

Send a text

Wie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein  Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet. 

Plus: Einblicke vom AI Transparency Days Hackathon, wo das Team versuchte, die "Refusal"-Mechanismen in GPT-OSS-20B zu entschlüsseln. Teil 1 einer zweiteiligen Serie!


Circuit Insights: Towards interpretability Beond Activiations. https://www.arxiv.org/abs/2510.14936

Support the show

...more
View all episodesView all episodes
Download on the App Store

Knowledge Science - Alles über KI, ML und NLPBy Sigurd Schacht, Carsten Lanquillon


More shows like Knowledge Science - Alles über KI, ML und NLP

View all
Hintergrund by Deutschlandfunk

Hintergrund

62 Listeners

Geschichten aus der Geschichte by Richard Hemmer und Daniel Meßner

Geschichten aus der Geschichte

186 Listeners

Das Wissen | SWR by SWR

Das Wissen | SWR

117 Listeners

c’t uplink - der IT-Podcast aus Nerdistan by c’t Magazin

c’t uplink - der IT-Podcast aus Nerdistan

10 Listeners

Spektrum-Podcast by detektor.fm – Das Podcast-Radio

Spektrum-Podcast

16 Listeners

Doppelgänger by Philipp Glöckler, Philipp Klöckner

Doppelgänger

14 Listeners

Alles Geschichte - Der History-Podcast by ARD

Alles Geschichte - Der History-Podcast

62 Listeners

Lanz + Precht by ZDF, Markus Lanz & Richard David Precht

Lanz + Precht

325 Listeners

KI verstehen by Deutschlandfunk

KI verstehen

10 Listeners

RONZHEIMER. by Paul Ronzheimer

RONZHEIMER.

138 Listeners

Der KI-Podcast by ARD

Der KI-Podcast

17 Listeners

KI-Update – ein heise-Podcast by Isabel Grünewald, heise online

KI-Update – ein heise-Podcast

4 Listeners

Geschichten aus der Mathematik by detektor.fm – Das Podcast-Radio

Geschichten aus der Mathematik

1 Listeners

Tech, KI & Schmetterlinge by Sascha Lobo, Schwarz Digits

Tech, KI & Schmetterlinge

2 Listeners