
Sign up to save your podcasts
Or


Send a text
Wie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet.
Plus: Einblicke vom AI Transparency Days Hackathon, wo das Team versuchte, die "Refusal"-Mechanismen in GPT-OSS-20B zu entschlüsseln. Teil 1 einer zweiteiligen Serie!
Circuit Insights: Towards interpretability Beond Activiations. https://www.arxiv.org/abs/2510.14936
Support the show
By Sigurd Schacht, Carsten LanquillonSend a text
Wie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet.
Plus: Einblicke vom AI Transparency Days Hackathon, wo das Team versuchte, die "Refusal"-Mechanismen in GPT-OSS-20B zu entschlüsseln. Teil 1 einer zweiteiligen Serie!
Circuit Insights: Towards interpretability Beond Activiations. https://www.arxiv.org/abs/2510.14936
Support the show

62 Listeners

186 Listeners

117 Listeners

10 Listeners

16 Listeners

14 Listeners

62 Listeners

325 Listeners

10 Listeners

138 Listeners

17 Listeners

4 Listeners

1 Listeners

2 Listeners