
Sign up to save your podcasts
Or


La technologie française Pyannote est devenue l'outil IA indispensable pour comprendre "qui" parle dans un enregistrement audio. De la transcription d'interviews au doublage de vidéos, de nombreuses applications sont possibles.
Interview : Vincent Molina, cofondateur de PyannoteEn quoi consiste votre technologie de "diarisation" ?La diarisation consiste Ă identifier les locuteurs dans un enregistrement audio. Avec Pyannote Audio, nous avons dĂ©veloppĂ© une technologie capable de reconnaĂźtre des voix quâelle nâa jamais entendues, quelle que soit la langue, ce qui reprĂ©sente une difficultĂ© scientifique majeure. Lâhistoire de Pyannote remonte Ă prĂšs de 15 ans : mon cofondateur, chercheur au CNRS, avait lancĂ© une bibliothĂšque open source devenue la rĂ©fĂ©rence mondiale, avec plus de 150 000 utilisateurs. Depuis un an et demi, nous avons bĂąti une sociĂ©tĂ© pour porter ces avancĂ©es et proposer des modĂšles commerciaux dĂ©jĂ utilisĂ©s en production.
Quels sont les principaux cas dâusage ?Notre brique technologique sâintĂšgre dans de nombreux pipelines audio : transcription dâinterviews, rendez-vous mĂ©dicaux, audiences judiciaires, rĂ©unions dâentreprise⊠partout oĂč il faut identifier qui parle. Nous sommes aussi trĂšs prĂ©sents dans le doublage, le sous-titrage ou lâentraĂźnement de grands modĂšles audio. TrĂšs souvent, on nous associe Ă des outils de transcription comme Whisper pour obtenir un traitement complet de la voix. Notre rĂŽle, câest dâindiquer prĂ©cisĂ©ment quand une voix apparaĂźt, ce qui est essentiel pour synchroniser une voix de synthĂšse ou des sous-titres. Et tout cela fonctionne avec des modĂšles suffisamment lĂ©gers pour tourner sur un tĂ©lĂ©phone, et bientĂŽt sur un Raspberry Pi.
JusquâoĂč peut aller lâanalyse de la voix ?La voix transporte bien plus que des mots : prosodie, rythme, chevauchements, indices contextuels⊠Sans aller jusquâĂ interprĂ©ter les sentiments â notion trop subjective dâun pays Ă lâautre â nous pouvons fournir des mĂ©tadonnĂ©es riches qui aident Ă comprendre la dynamique dâun Ă©change. Pour lâinstant, la plupart des usages sont en traitement diffĂ©rĂ©, mais nous prĂ©parons une bascule vers le temps rĂ©el : retranscriptions dâĂ©vĂ©nements, analyses en direct, signaux dâintensitĂ© vocale, etc.
-----------
â„ïž Soutien :
https://mondenumerique.info/don
đïž Newsletter :
https://mondenumerique.substack.com
Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.
By Jerome Colombain5
44 ratings
La technologie française Pyannote est devenue l'outil IA indispensable pour comprendre "qui" parle dans un enregistrement audio. De la transcription d'interviews au doublage de vidéos, de nombreuses applications sont possibles.
Interview : Vincent Molina, cofondateur de PyannoteEn quoi consiste votre technologie de "diarisation" ?La diarisation consiste Ă identifier les locuteurs dans un enregistrement audio. Avec Pyannote Audio, nous avons dĂ©veloppĂ© une technologie capable de reconnaĂźtre des voix quâelle nâa jamais entendues, quelle que soit la langue, ce qui reprĂ©sente une difficultĂ© scientifique majeure. Lâhistoire de Pyannote remonte Ă prĂšs de 15 ans : mon cofondateur, chercheur au CNRS, avait lancĂ© une bibliothĂšque open source devenue la rĂ©fĂ©rence mondiale, avec plus de 150 000 utilisateurs. Depuis un an et demi, nous avons bĂąti une sociĂ©tĂ© pour porter ces avancĂ©es et proposer des modĂšles commerciaux dĂ©jĂ utilisĂ©s en production.
Quels sont les principaux cas dâusage ?Notre brique technologique sâintĂšgre dans de nombreux pipelines audio : transcription dâinterviews, rendez-vous mĂ©dicaux, audiences judiciaires, rĂ©unions dâentreprise⊠partout oĂč il faut identifier qui parle. Nous sommes aussi trĂšs prĂ©sents dans le doublage, le sous-titrage ou lâentraĂźnement de grands modĂšles audio. TrĂšs souvent, on nous associe Ă des outils de transcription comme Whisper pour obtenir un traitement complet de la voix. Notre rĂŽle, câest dâindiquer prĂ©cisĂ©ment quand une voix apparaĂźt, ce qui est essentiel pour synchroniser une voix de synthĂšse ou des sous-titres. Et tout cela fonctionne avec des modĂšles suffisamment lĂ©gers pour tourner sur un tĂ©lĂ©phone, et bientĂŽt sur un Raspberry Pi.
JusquâoĂč peut aller lâanalyse de la voix ?La voix transporte bien plus que des mots : prosodie, rythme, chevauchements, indices contextuels⊠Sans aller jusquâĂ interprĂ©ter les sentiments â notion trop subjective dâun pays Ă lâautre â nous pouvons fournir des mĂ©tadonnĂ©es riches qui aident Ă comprendre la dynamique dâun Ă©change. Pour lâinstant, la plupart des usages sont en traitement diffĂ©rĂ©, mais nous prĂ©parons une bascule vers le temps rĂ©el : retranscriptions dâĂ©vĂ©nements, analyses en direct, signaux dâintensitĂ© vocale, etc.
-----------
â„ïž Soutien :
https://mondenumerique.info/don
đïž Newsletter :
https://mondenumerique.substack.com
Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

41 Listeners

13 Listeners

2 Listeners

23 Listeners

12 Listeners

13 Listeners

3 Listeners

127 Listeners

3 Listeners

76 Listeners

3 Listeners

5 Listeners

20 Listeners

3 Listeners

3 Listeners