Expliquer le fonctionnement des IA génératives aux élèves est devenu un enjeu de culture et de compétences numériques aussi bien que d'esprit critique.
Comment expliquer aux élèves le fonctionnement des phases d’entraînement et les mécanismes de génération des textes et des images ?
Les sciences et technologies d'intelligence artificielle existent depuis le milieu du XXe siècle et elles sont par exemple présentes dans nos téléphones, nos ordinateurs et nos assistants vocaux depuis une vingtaine d’années.
Depuis 2022, l’apparition de nombreux services numériques pour tous marque une accélération. Le lancement de ChatGPT, de Midjourney et de bon nombre d'intelligences artificielles dites génératives a permis au grand public de générer du texte, des images ou des vidéos sur la base de simples requêtes avec la machine.
Dès lors, expliquer le fonctionnement de ces IA génératives aux élèves est devenu un enjeu de culture et de compétences numériques pour participer au développement de l’esprit critique.
Pour pouvoir expliquer le fonctionnement des IA génératives aux élèves, nous allons nous intéresser à la manière dont les IA génératives sont entraînées, à la manière dont elles génèrent ensuite des contenus et, enfin, à ce qu’il faut savoir pour apprendre aux élèves à utiliser efficacement les IA génératives.
En informatique, une image est un ensemble de pixels.
Pour apprendre à interpréter et à prédire l'agencement des pixels, les IA génératives d’images sont entraînées, c’est-à-dire alimentées avec des ensembles organisés de données. Concrètement, pendant des milliers d'heures, elles analysent des bases de données contenant des milliards d’images associées à des textes qui les décrivent.
L’objectif : trouver des récurrences dans l’organisation des pixels pour ensuite identifier, par exemple, que cette configuration correspond à un chat.
Il s’agit aussi pour ces programmes d’identifier les éléments qui sont souvent associés à un chat dans les images : un canapé, un arbre... L'IA saisit ainsi de nombreuses autres variables : la localisation d'un objet ou d'une personne, ce qui l'entoure, ses caractéristiques, etc.
Cet entraînement est loin de ne se faire qu’entre machines : des ingénieurs interviennent au départ pour orienter la classification. Puis, des travailleurs payés à la tâche, majoritairement de pays du Sud, sont chargés de catégoriser des séries de contenus.
À la fin de l'entraînement, le programme peut décrire lui-même les photos avec précision : « Chat blanc allongé sur un canapé dans un salon avec vue sur la campagne ».
Le principe d’entraînement des IA génératives de texte est le même, à la différence que l’étiquetage se fait à différentes échelles : une lettre, un groupe de lettres, un mot, un groupe de mots.
En classe, on peut expérimenter avec les élèves le programme Eleus-IA, créé par des pédagogues suisses. Il permet de se mettre dans la peau d’une IA cherchant à identifier des récurrences.
Le maître du jeu, joué par l’enseignant dans un premier temps, choisit un corpus d’images et un critère plus ou moins évident. Il indique pour chacune des photos si elle correspond ou non au critère qu‘il a imaginé. Les élèves découvrent les images une par une et doivent prédire pour chacune si l’image correspond ou non au critère. Ils commencent avec une hypothèse très floue qui s’affine au fil des passages, jusqu’à identifier le point commun à toutes ces images, comme le font les IA !
Cette expérimentation peut se poursuivre par un temps d’échanges sur les biais induits par la qualité des bases de données utilisées, la subjectivité des interventions humaines et les approximations possibles dans la classification.
La phase d’entraînement terminée, le programme d’IA générative est prêt à être utilisé. L’utilisateur interagit en langage naturel, le programme interprétant chaque composant de la demande pour générer un contenu, qu’il s’agisse d’un texte, d’une image ou d’une vidéo.
Il faut bien comprendre que le programme génère des combinaisons chaque fois inédites.
Pour une image, il s'inspire de la manière dont les pixels s'agencent statistiquement dans les bases de données qui le nourrissent : cette phase s’appelle « la diffusion ». Le résultat est donc à chaque fois différent.
Attention, même si la production générée nous paraît souvent très impressionnante, l'IA ne comprend pas ce qu'elle génère. La tête du chat n’est pour elle qu'une combinaison de pixels, statistiquement prolongés par une combinaison qui va former les oreilles du chat. À partir d’un premier pixel, elle détermine les pixels voisins les plus probables statistiquement pour réaliser ce qui, dans sa base de données, est défini comme une tête de chat. L’image se construit par couches successives en fonction des probabilités.
Ainsi, si l’on ne précise pas la position du chat, on aura la proposition la plus probable entre un chat assis, un chat en train de sauter ou un chat couché... Si l'on ne donne pas d’indications de couleur, le chat aura la couleur la plus probable. Si l’on ajoute la contrainte « à la manière de Van Gogh », l’IA va croiser les images de chats avec les images identifiées « Van Gogh » dans sa base de données.
Les IA génératives de texte fonctionnent de la même manière : elles agencent statistiquement des lettres pour former des groupes de caractères, des mots puis des phrases.
En classe, les modules « Génération image » et « Génération texte » du site Vittascience permettent aux élèves d’expérimenter simplement la façon dont les contenus sont générés. Les élèves peuvent influer sur les paramètres que l’IA prend en compte, notamment la « guidance » qui détermine le degré de probabilité appliqué par l’IA.
En effet, certaines IA peuvent être paramétrées pour appliquer strictement la requête qui leur est faite et donc faire le choix systématiquement le plus probable par rapport aux éléments de cette requête, ou pour laisser une part d’aléatoire dans la composition du texte ou de l’image.
Les différentes IA n’utilisent pas les mêmes bases de données : elles sont plus ou moins nourries, plus ou moins spécialisées. Plus la base est qualifiée, plus la réponse sera fiable : il peut être intéressant de comparer avec les élèves les résultats d’une même requête sur différents outils. Ce sera l’occasion de constater qu’une base petite et qualifiée exclusivement dans un domaine fournit une réponse très fiable dans ce domaine, mais complètement hors sujet dans un autre !
Les outils d'IA génératives d'images, dont certains sont open source et gratuits, accessibles sans compte ou via le compte de l'enseignant, peuvent être utilisés dans ce cadre. Faire tester aux élèves le processus d’itération nécessaire pour aboutir au résultat voulu est essentiel : c’est ainsi qu’ils prendront conscience de l’importance de la requête pour filtrer des images de la base de données utilisées, et ainsi générer l’image voulue.
L’enseignant peut également procéder à un comparatif avec les élèves : est-il plus pertinent de générer une nouvelle image ou de chercher via un moteur de recherche une image déjà existante ?
Ce sera l’occasion d’aborder les questions d’impact environnemental de ces deux options, ainsi que les questions de droits d’auteur.
Un dernier élément à aborder en classe : pour réussir à générer une image comme on l’imagine, il faut être capable d’en décrire la composition, le cadrage, l’éclairage, le point de vue et le style pictural, ce qui requiert des compétences, par exemple en lecture d’images et en histoire de l’art, ainsi qu’une précision langagière demandant une grande maîtrise de la langue française.
Utiliser une IA générative fait donc appel à des compétences numériques mais nécessite surtout une réflexion préalable, des compétences de synthèse et de rédaction, ainsi que des connaissances disciplinaires pour peu que l’on cherche à obtenir un résultat convaincant.
De quoi déconstruire l’idée que les IA génératives sont prêtes à nous remplacer !
Scénario : Sébastien Guilleron, Thomas Jacobus, Mélinée Chanard, Bertrand Formet
En collaboration avec la Direction du numérique pour l’éducation – bureau TN2
Direction de publication : Marie-Caroline Missir
Production : Réseau Canopé
Partenariat : Pix
Ressource produite avec le soutien du ministère de l'Éducation nationale