
Sign up to save your podcasts
Or
Pourquoi les modèles comme GPT semblent toujours se souvenir du début d’un texte… et oublier le milieu ? Dans cet épisode, Alex et Léa décryptent un papier qui révèle un biais structurel dans les transformers : l’architecture elle-même pousse l’attention vers les premières positions. Grâce à une approche en graphe, les chercheurs prouvent que même sans entraînement, les modèles sont déjà orientés vers le passé.
On explore pourquoi ça pose problème, comment atténuer ce biais, et ce que ça veut dire pour les produits qui manipulent de longs textes.
Un épisode synthétique, sans vous laisser au milieu du gué 😉
Pourquoi les modèles comme GPT semblent toujours se souvenir du début d’un texte… et oublier le milieu ? Dans cet épisode, Alex et Léa décryptent un papier qui révèle un biais structurel dans les transformers : l’architecture elle-même pousse l’attention vers les premières positions. Grâce à une approche en graphe, les chercheurs prouvent que même sans entraînement, les modèles sont déjà orientés vers le passé.
On explore pourquoi ça pose problème, comment atténuer ce biais, et ce que ça veut dire pour les produits qui manipulent de longs textes.
Un épisode synthétique, sans vous laisser au milieu du gué 😉