Gmania: Inteligencia Artificial en Google

MÁS ALLÁ DE LO NORMAL: BIGQUERY ML.


Listen Later

Cada día, te enfrentas a una montaña de datos. Transacciones financieras, lecturas de sensores industriales, registros de actividad de usuarios en una aplicación. La mayoría de esos datos son "normales", rutinarios, esperados. Pero, ¿qué pasa con lo que no es normal? ¿Esas transacciones que se desvían sutilmente, ese patrón de vibración en una máquina que indica un fallo inminente, o esa secuencia de clics que podría ser un intento de fraude? El verdadero desafío no es solo encontrar patrones conocidos de anomalías, sino detectar lo *desconocido*, aquello para lo que no tienes etiquetas previas, aquello que nunca has visto y que, sin embargo, grita "problema".

El Problema

Imagina la frustración de operar un sistema complejo donde las fallas o el fraude se manifiestan de formas novedosas, mutantes. Tus reglas de negocio actuales, tus umbrales fijos, tus alertas predefinidas, son como intentar atrapar un fantasma con una red de pesca. Solo detectas lo que ya conoces. Si un nuevo tipo de ataque de fraude emerge, o si una pieza de maquinaria empieza a fallar de una manera nunca antes documentada, tus sistemas actuales se quedarán ciegos. Reaccionas *después* de que el daño ya está hecho: después de que el dinero ha sido robado, después de que la línea de producción se detiene, después de que un cliente se queja de un defecto.

La dependencia de datos etiquetados para entrenar modelos de detección es una camisa de fuerza. ¿Cómo etiquetas algo como "fraude" o "defecto" si es la primera vez que lo ves? ¿Quién tiene el tiempo y los recursos para revisar manualmente millones de registros para encontrar esas "agujas" que ni siquiera sabes cómo son? Este es un problema persistente y costoso para cualquier organización que maneje grandes volúmenes de datos. Necesitas una forma de que tus datos te hablen, de que te alerten sobre lo inusual, sin que tú tengas que decirles de antemano qué buscar.

La Herramienta

Aquí es donde entra en juego BigQuery ML, una extensión poderosa del almacén de datos empresarial de Google, BigQuery. Piensa en BigQuery como un cerebro gigante y ultrarrápido capaz de procesar cantidades masivas de información en segundos, sin que tú tengas que preocuparte por servidores o infraestructuras. Es un servicio completamente gestionado que escala automáticamente para manejar cualquier volumen de datos que le arrojes.

Pero BigQuery ML va un paso más allá. Transforma este robusto almacén de datos en un entorno de aprendizaje automático. Te permite construir y ejecutar modelos de inteligencia artificial directamente dentro de BigQuery, utilizando el lenguaje que ya conoces: SQL. Esto significa que no necesitas exportar tus datos a otras plataformas, ni aprender lenguajes de programación complejos como Python o R para aplicar técnicas avanzadas de aprendizaje automático. Si sabes SQL, tienes la llave para desbloquear el poder de la IA en tus propios datos. Es una democratización del aprendizaje automático, poniendo herramientas sofisticadas al alcance de analistas de datos y científicos de datos sin la fricción habitual de la configuración de entornos y el movimiento de datos.

El Truco

El truco para detectar anomalías sin etiquetas previas reside en un tipo de modelo de aprendizaje automático llamado *autoencoder*, y la magia es que BigQuery ML te permite construir y usar uno directamente con SQL. Imagina que tienes un amigo artista que es un genio dibujando retratos. Pero no dibuja cualquier retrato; se ha especializado tanto en dibujar caras "normales" que, si le muestras una cara, la dibuja de memoria, de forma simplificada, y luego la "recrea" a partir de ese resumen. Si la cara es una cara común, su recreación será casi idéntica al original. Pero si le muestras una cara muy inusual, con características que nunca ha visto, su recreación será muy diferente del original, porque no tiene un "modelo mental" para ella.

Así funciona un autoencoder. Lo entrenas con una gran cantidad de datos que consideras "normales" o "típicos". El autoencoder aprende a comprimir estos datos a una representación más pequeña y luego a reconstruirlos. Durante este proceso, aprende las características esenciales y los patrones subyacentes de la normalidad. La clave es que, al entrenarse solo con datos normales, se vuelve muy bueno en reconstruir lo que es normal.

Cuando le presentas un nuevo dato, el autoencoder intenta reconstruirlo. Si el dato es normal, la reconstrucción será muy precisa, y la "diferencia" entre el original y la reconstrucción será pequeña. Pero si el dato es una anomalía, algo que el modelo nunca vio o no sabe cómo "resumir" y "recrear" correctamente, la diferencia entre el original y la reconstrucción será grande. Esa "diferencia", o error de reconstrucción, es tu *puntuación de anomalía*. Cuanto mayor sea esa puntuación, más probable es que el dato sea una anomalía.

Para aplicar esto en BigQuery ML, el proceso es sorprendentemente sencillo, sin necesidad de escribir código complejo. Primero, le dices a BigQuery ML que quieres crear un modelo de autoencoder. Le indicas qué columnas de tus datos representan el comportamiento "normal" que quieres que aprenda. Es como decirle a tu amigo artista: "Aquí tienes miles de fotos de caras normales, apréndete sus rasgos esenciales". BigQuery ML se encarga de todo el entramado matemático subyacente, de configurar las capas de la red neuronal y de optimizar el proceso de aprendizaje. No necesitas especificar la arquitectura compleja de la red, solo el tipo de modelo y los datos de entrada.

Una vez que el modelo está entrenado, lo cual ocurre de forma automática y escalable en BigQuery, puedes usarlo para evaluar nuevos datos. Le pides a BigQuery ML que aplique este modelo a tus nuevos registros. El modelo procesa cada registro, intenta "resumirlo" y "recrearlo", y luego calcula esa "diferencia" o error de reconstrucción para cada uno. El resultado es una tabla con tus datos originales y una nueva columna que contiene la puntuación de anomalía para cada registro.

Finalmente, tú estableces un umbral. Es como decidir: "Si la diferencia entre el dibujo del artista y la foto original es mayor que X, entonces esa cara es sospechosa". Los registros con puntuaciones de anomalía por encima de ese umbral son los candidatos a ser anomalías, listos para tu investigación.

Ejemplo Real

Consideremos un caso de uso tangible: la detección de fraude en transacciones financieras. Eres el responsable de seguridad en un banco o una plataforma de comercio electrónico. Cada segundo se procesan miles, si no millones, de transacciones. La mayoría son legítimas, pero algunas son intentos de fraude. El problema es que los estafadores son innovadores; sus métodos evolucionan constantemente, haciendo que las reglas fijas sean obsoletas rápidamente.

Aquí es donde el autoencoder brilla. Primero, recopilas un historial extenso de transacciones que sabes que son *legítimas*. Esto incluye detalles como el monto de la transacción, la hora del día, la ubicación geográfica, el tipo de comercio, la frecuencia de las compras del usuario, el dispositivo utilizado, etc. No necesitas ninguna transacción etiquetada como "fraude" para este paso.

Luego, utilizas BigQuery ML para entrenar un autoencoder con estos datos de transacciones legítimas. El modelo aprende los patrones de comportamiento "normal" de las transacciones: qué montos son típicos para un usuario en un comercio específico, qué horarios son comunes para compras en línea, qué secuencias de transacciones son esperadas. El autoencoder internaliza la "firma" de una transacción legítima.

Una vez entrenado, aplicas este modelo a todas las nuevas transacciones en tiempo real o en lotes. Para cada nueva transacción, el autoencoder intenta "recrear" sus características basándose en lo que aprendió sobre transacciones normales. Si una transacción es fraudulenta, es muy probable que sus características (quizás un monto inusualmente alto para ese usuario, una ubicación geográfica extraña, una secuencia de compras muy rápida en categorías dispares) no encajen con los patrones de "normalidad" que el modelo aprendió. Como resultado, el autoencoder tendrá dificultades para reconstruir esa transacción con precisión, generando un alto error de reconstrucción, es decir, una alta puntuación de anomalía.

El resultado es una lista de transacciones, cada una con su puntuación de anomalía. Puedes ordenar esta lista y enfocarte en las transacciones con las puntuaciones más altas. Estas son las que el modelo considera más "extrañas" o "diferentes" de lo que ha aprendido como normal. Un equipo de analistas de fraude puede entonces investigar estas transacciones de alto riesgo, que podrían representar nuevos tipos de fraude que tus reglas existentes nunca habrían detectado. Esto convierte la detección de fraude de una tarea reactiva a una proactiva, capaz de identificar amenazas emergentes sin necesidad de una base de datos de fraudes previamente conocidos.

Otro ejemplo podría ser en la industria manufacturera, donde los sensores de una máquina generan datos continuos: temperatura, vibración, presión. Un autoencoder entrenado con datos de la máquina operando "normalmente" puede detectar sutiles desviaciones en esos patrones, alertando sobre un posible defecto o desgaste de la pieza mucho antes de que la máquina falle por completo.

Conclusión rápida

La capacidad de BigQuery ML para implementar modelos de autoencoder para la detección de anomalías sin necesidad de datos etiquetados previamente es una herramienta increíblemente potente. Te permite ir más allá de la detección de problemas conocidos, adentrándote en el territorio de los "desconocidos desconocidos". Al aprovechar la escalabilidad de BigQuery y la simplicidad de SQL, puedes transformar grandes volúmenes de datos brutos en un sistema de alerta temprana inteligente. Esto significa menos fraude, menos fallas inesperadas, y una capacidad mejorada para entender y reaccionar a lo que realmente importa en tus operaciones, todo ello sin la complejidad que solía acompañar a estas soluciones avanzadas. Es un paso fundamental para hacer que tus datos no solo almacenen información, sino que también te guíen hacia ella.

⏱️ CAPÍTULOS:
00:03 - Introducción
00:22 - El Problema
01:06 - La Herramienta
02:19 - El Truco
03:33 - Ejemplo Real
06:50 - Conclusión rápida
09:45 - Parte 6
10:32 - Cierre del episodio
...more
View all episodesView all episodes
Download on the App Store

Gmania: Inteligencia Artificial en GoogleBy Gmania AI