Les données se présentent rarement sous une forme utilisable. Le data wrangling, ou formatage des données, et l'analyse exploratoire des données font la différence entre un bon modèle de science des données et un modèle dit « garbage in/garbage out ».