Decideo - Data Science, Big Data, Intelligence Augmentée

#1.10 Le mot de la semaine : donnée non structurée


Listen Later

Une donnée non-structurée est une donnée, c’est à dire un élément, représenté d’une manière à en faire un traitement automatisé, qui sert de base à un raisonnement (voir le terme Donnée). Mais une donnée non structurée est impossible à utiliser directement pour un traitement ou une analyse, elle doit d’abord être convertie en données structurées. Une donnée non structurée, c’est une image, un fichier audio, un texte, une vidéo, etc. Prenons l’exemple d’une image globale de votre magasin pendant l’ouverture. Elle contient des informations intéressantes, le nombre de clients présents dans le magasin, leur sexe, leur tranche d’âge, le rayon dans lequel ils sont, etc. Mais aucune de ces informations n’est directement accessible par l’ordinateur à partir du fichier image. La donnée « image » est une simple suite de 0 et 1, non structurée. Elle n’est pas compréhensible directement par l’ordinateur. C’est la même chose pour le corps d’un email, le rapport d’activité rédigé sous Word, une vidéo de surveillance sur les quais du métro, le bruit enregistré par un capteur sonore à côté d’une machine dans une usine… Tout cela fait partie de la catégorie des données non structurées. Ces données ne peuvent pas être stockées dans une base de données relationnelle (voir ce terme) qui impose un modèle de données (voir ce terme) et une structure. D’autres outils peuvent en revanche accueillir des données non structurées : les fichiers plats, les bases NoSQL, Hadoop (voir ces termes). Mais les outils d’analyse et de reporting ne peuvent traiter que des données structurées (voir ce terme), des champs textes, des dates, des nombres. Avant toute analyse, une donnée non structurée doit être transformée en une ou plusieurs données structurées. Ce sont des algorithmes qui vont identifier et compter, dans l’exemple cité ci-dessus, le nombre de clients présents dans le magasin, leur sexe, leur tranche d’âge, le rayon dans lequel ils sont, etc. Cette phase est la transformation des données non structurées en données structurées. C’est également à cette étape que l’on constatera la qualité des données non structurées importées.

...more
View all episodesView all episodes
Download on the App Store

Decideo - Data Science, Big Data, Intelligence AugmentéeBy Philippe Nieuwbourg


More shows like Decideo - Data Science, Big Data, Intelligence Augmentée

View all
Affaires sensibles by France Inter

Affaires sensibles

302 Listeners

DataGen by Robin Conquet

DataGen

1 Listeners

LEGEND by Guillaume Pley

LEGEND

155 Listeners

Le podcast Data & IA by Orange Business

Le podcast Data & IA

0 Listeners