Otras charlas de Commitconf 2019 también en podcast: https://lk.autentia.com/Commit19-iVoox
-------------
Los modelos de Machine Learning suelen verse como una especie de caja negra que es capaz casi predecir o estimar cualquier cosa. Sin embargo, en cuanto empiezas a trabajar un poco con ellos te das cuenta de que la mayoría de la calidad de un modelo depende directamente de la calidad (y a veces cantidad) de los datos que use para entrenar.
Durante esta charla me gustaría dar la importancia que merece a la fase de procesado y limpieza de los datos. Para ello daremos un vistazo a las dos principales arquitecturas Big Data (Batch y Streaming) y cómo influyen en nuestros modelos. Exploraremos estas arquitecturas, tanto desde el punto de vista de ingesta y generación de modelo datos, como desde el punto de vista de data augmentation y generación de conjuntos de datos de entrenamiento.
Además, con cada bloque veremos pinceladas de qué herramientas open source nos permiten desarrollar estos procesos, y cómo la nube pública (AWS, GCP) nos ayuda a optimizarlos.