
Sign up to save your podcasts
Or


Les multinationales de l’IA générative (essentiellement américaines et chinoises) sont engagées dans une « course aux benchmarks » dont il est difficile de comprendre les tenants et les aboutissants. Plusieurs éléments brouillent les cartes dans ce domaine. Les résultats sont massivement utilisés à des fins de marketing, ce qui rend l’interprétation des chiffres difficile pour les « consommateurs d’IAg ». Il se trouve que l’usage des IAg en conditions réelles est souvent décevant au regard des chiffres annoncés par les benchmarks. Il est certain que l’évaluation des performances des IA génératives via des benchmarks reste utile, mais la pertinence des scores dépend fortement à la fois de ce que l’on prétend mesurer et de la robustesse du protocole mis en œuvre. L’intérêt principal est de pouvoir proposer des éléments de comparaisons : des tests standardisés permettent de suivre des tendances et de repérer des ruptures de performance et d'obtenir (par exemple) un indicateur "performance/coût". Mais il faut être prudent sur la valeur de ces indicateurs : dès qu’un benchmark devient « populaire », il subit presque mécaniquement trois dérives :
Le benchmark "Humanity’s Last Exam (HLE)" a été conçu précisément en réaction à la saturation de benchmarks généralistes, en visant des questions académiques de niveau expert, souvent multimodales, avec corrigés vérifiables. Les auteurs insistent sur la difficulté et la faible performance des modèles de pointe, ce qui redonne du signal… mais réintroduit un risque : la qualité et la maintenance des corrections deviennent un enjeu central (sinon, on mesure aussi le bruit d’annotation). [voir l'article sur Arxiv]
ARC-AGI 1 puis 2 illustrent une autre direction : tester la généralisation à des tâches nouvelles et, avec ARC-AGI-2, intégrer explicitement une contrainte d’efficacité/coût (éviter que “plus de calcul” remplace “plus d’intelligence”). Cela améliore la pertinence pour juger des systèmes agentiques, mais rend la comparaison très sensible aux budgets, aux heuristiques et au cadre d’évaluation (public/privé).
Enfin, d'autres benchmark "plus calssique" comme AIME (math) ou GPQA-Diamond mesurent des compétences plus ciblées (raisonnement mathématique, QCM scientifiques “google-proof”). L'évalution des compétence/performance est fortement conditionné par le fromat de sortie (QCM vs réponses libres). [Voir d'autres exemples ici.]
By Aix-MarseilleLes multinationales de l’IA générative (essentiellement américaines et chinoises) sont engagées dans une « course aux benchmarks » dont il est difficile de comprendre les tenants et les aboutissants. Plusieurs éléments brouillent les cartes dans ce domaine. Les résultats sont massivement utilisés à des fins de marketing, ce qui rend l’interprétation des chiffres difficile pour les « consommateurs d’IAg ». Il se trouve que l’usage des IAg en conditions réelles est souvent décevant au regard des chiffres annoncés par les benchmarks. Il est certain que l’évaluation des performances des IA génératives via des benchmarks reste utile, mais la pertinence des scores dépend fortement à la fois de ce que l’on prétend mesurer et de la robustesse du protocole mis en œuvre. L’intérêt principal est de pouvoir proposer des éléments de comparaisons : des tests standardisés permettent de suivre des tendances et de repérer des ruptures de performance et d'obtenir (par exemple) un indicateur "performance/coût". Mais il faut être prudent sur la valeur de ces indicateurs : dès qu’un benchmark devient « populaire », il subit presque mécaniquement trois dérives :
Le benchmark "Humanity’s Last Exam (HLE)" a été conçu précisément en réaction à la saturation de benchmarks généralistes, en visant des questions académiques de niveau expert, souvent multimodales, avec corrigés vérifiables. Les auteurs insistent sur la difficulté et la faible performance des modèles de pointe, ce qui redonne du signal… mais réintroduit un risque : la qualité et la maintenance des corrections deviennent un enjeu central (sinon, on mesure aussi le bruit d’annotation). [voir l'article sur Arxiv]
ARC-AGI 1 puis 2 illustrent une autre direction : tester la généralisation à des tâches nouvelles et, avec ARC-AGI-2, intégrer explicitement une contrainte d’efficacité/coût (éviter que “plus de calcul” remplace “plus d’intelligence”). Cela améliore la pertinence pour juger des systèmes agentiques, mais rend la comparaison très sensible aux budgets, aux heuristiques et au cadre d’évaluation (public/privé).
Enfin, d'autres benchmark "plus calssique" comme AIME (math) ou GPQA-Diamond mesurent des compétences plus ciblées (raisonnement mathématique, QCM scientifiques “google-proof”). L'évalution des compétence/performance est fortement conditionné par le fromat de sortie (QCM vs réponses libres). [Voir d'autres exemples ici.]