La transcription automatique de textes (HTR/OCR) est l'une des applications pionnières de l’intelligence artificielle. Avec le projet Wenyuange Siku Quanshu Electronic Version initié 1996, la République populaire de Chine a été le premier pays à s’appuyer sur cette technologie pour numériser son patrimoine littéraire. Si l'on obtient aujourd’hui de bons résultats sur les imprimés modernes, les outils existants achoppent à produire des transcriptions de bonne qualité des documents historiques. En raison de la diversité des mises en page et des styles d'écriture, le taux d'erreur élevé impose un travail de correction fastidieux et chronophage. Ce coût a jusqu'ici limité la numérisation à grande échelle aux grands projets commerciaux (Airusheng) ou collaboratifs (Shidianguji, Ctext), conduisant à une offre de corpus numériques restreinte et souvent redondante. Cette présentation montrera comment les dernières avancées technologiques permettent de surmonter ces obstacles. En nous appuyant sur deux projets en cours – Read_Chinese (BnF Datalab), qui porte sur le fonds Pelliot chinois de la BnF, et CRISOLIC (ANR-24-CE27-4500-03), qui étudie les archives administratives de la fin des Qing – nous démontrerons qu'il est désormais possible de produire à moindre coût des transcriptions de haute qualité pour des corpus manuscrits aux écritures et mises en page très diverses.
Durée: 01:11:51