Big Data Hebdo

Episode 224 : Données non structurées et modern OCR


Listen Later

Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les utilisateurs, et des mécanismes d'IA nécessaires pour traiter efficacement les documents.

On parle des enjeux liés à l'OCR, au chunking, et à l'importance des modèles d'embeddings.

00:00 Introduction
03:06 La promesse des éditeurs
08:05 Comprendre le RAG et son fonctionnement
11:06 Difficultés liées à l'OCR et à l'extraction de données
19:05 Recommandations pour l'optimisation des documents
28:46 Mistral Document AI et ses fonctionnalités
33:49 Chunking et gestion des documents
40:55 Fine-tuning des modèles d'embeddings
43:00 Formats de documents et leur pérennité
47:23 Conclusion et perspectives

Notes et ressources 
https://bigdatahebdo.com/podcast/episode-224-donnees-non-structurees-et-modern-ocr
...more
View all episodesView all episodes
Download on the App Store

Big Data HebdoBy Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz

  • 5
  • 5
  • 5
  • 5
  • 5

5

1 ratings


More shows like Big Data Hebdo

View all
Le rendez-vous Tech by NotPatrick

Le rendez-vous Tech

41 Listeners

NoLimitSecu by NoLimitSecu

NoLimitSecu

2 Listeners

Génération Do It Yourself by Matthieu Stefani | Orso Media

Génération Do It Yourself

116 Listeners

Silicon Carne, un peu de picante dans un monde de Tech ! by Carlos Diaz

Silicon Carne, un peu de picante dans un monde de Tech !

75 Listeners

Message à caractère informatique by Clever Cloud

Message à caractère informatique

0 Listeners

DataGen by Robin Conquet

DataGen

1 Listeners

Underscore_ by Micode

Underscore_

22 Listeners

Monde Numérique (Actu Tech) by Jerome Colombain

Monde Numérique (Actu Tech)

8 Listeners