Gmania: Inteligencia Artificial en Google

Monitoreo de Sonido con Teachable Machine


Listen Later



El Problema

Es una situación común: estás concentrado en una tarea, quizás con auriculares puestos, o en una parte de tu casa alejada de la entrada principal. De repente, alguien toca a la puerta. O peor aún, el repartidor intenta entregar un paquete, no escuchas el timbre, y cuando te das cuenta, ya ha dejado el aviso de ausencia o se ha marchado. La frustración de perder una entrega importante o simplemente no ser consciente de una visita es palpable. El timbre de la puerta, ese sonido tan específico, se mezcla con el ruido ambiental, la música que escuchas, o simplemente la distancia física lo hace inaudible.

Esto no se limita solo a timbres. Piensa en otros sonidos críticos: el llanto de un bebé en otra habitación mientras realizas una videollamada, el ladrido inusual de tu perro que podría indicar algo más serio, o incluso la alarma de un electrodoméstico que te avisa de un problema. La capacidad humana para monitorizar constantemente un sonido específico en un entorno dinámico y ruidoso es limitada. Dependemos de nuestra atención, que es finita, y de nuestra proximidad física. El mundo digital nos ofrece soluciones para muchas de nuestras limitaciones, pero a menudo, la interacción con el mundo físico sigue siendo un punto ciego. Necesitamos un sistema que pueda escuchar por nosotros, que identifique ese sonido clave y nos alerte, sin requerir una inversión compleja en hardware o software especializado. Un sistema que sea tan adaptable como nuestras propias necesidades sonoras.



La Herramienta

La solución a este tipo de desafíos, y a muchos otros en el ámbito de la inteligencia artificial aplicada, se encuentra en una herramienta de Google llamada **Teachable Machine**. Este proyecto, desarrollado por el equipo de Google AI Experiments, democratiza el acceso a la creación de modelos de machine learning. Su propósito fundamental es permitir que cualquier usuario, sin necesidad de escribir una sola línea de código, entrene modelos de IA para reconocer imágenes, poses o, como en nuestro caso, sonidos.

Teachable Machine opera directamente en tu navegador web. Esto significa que no necesitas instalar software pesado, configurar entornos de desarrollo complejos o disponer de una máquina con recursos de computación extraordinarios. Todo el proceso de recopilación de datos, entrenamiento del modelo y prueba inicial se realiza en tiempo real, utilizando la capacidad de procesamiento de tu propio dispositivo. La privacidad es un aspecto clave aquí: tus datos y tu modelo se procesan localmente, en tu navegador, a menos que decidas exportarlos para un uso posterior.

La interfaz es intuitiva y visual, diseñada para guiar al usuario a través de los pasos esenciales del aprendizaje automático: la recolección de ejemplos (datos de entrenamiento), la definición de categorías (clases) y el proceso de entrenamiento. Para el reconocimiento de audio, Teachable Machine utiliza el micrófono de tu dispositivo para capturar los sonidos que deseas que el modelo aprenda a distinguir. Es una plataforma que transforma la complejidad inherente de la inteligencia artificial en una serie de acciones directas y comprensibles, poniendo el poder de la creación de modelos personalizados al alcance de cualquier persona con una idea y una conexión a internet. Su agilidad y accesibilidad la convierten en la herramienta ideal para prototipar rápidamente soluciones basadas en IA para problemas cotidianos.



El Truco

Ahora, vamos al grano. El truco para entrenar un modelo de IA que reconozca sonidos específicos, como el timbre de tu puerta, directamente en tu navegador y sin código, reside en la simplicidad y el enfoque de Teachable Machine. Sigue estos pasos exactos:

1. **Accede a Teachable Machine:** Abre tu navegador web y dirígete a `teachablemachine.withgoogle.com`. Una vez allí, haz clic en el botón "Get Started" o "Empezar" que suele aparecer prominentemente en la página principal.
2. **Selecciona un Proyecto de Audio:** En la siguiente pantalla, verás opciones para diferentes tipos de proyectos: "Image Project", "Audio Project" y "Pose Project". Para nuestro objetivo, debes hacer clic en "Audio Project". Esto te llevará a la interfaz de creación de un modelo de reconocimiento de sonido.
3. **Configura las Clases de Sonido:** La clave de cualquier modelo de machine learning es enseñarle a distinguir entre diferentes categorías. En Teachable Machine, estas categorías se llaman "Clases". Por defecto, verás dos clases. Necesitamos al menos dos: una para el "silencio" o "ruido de fondo" y otra para el sonido que queremos detectar.
* **Clase 1: Ruido de Fondo (Silencio):** Haz clic en el nombre de la primera clase y cámbialo a algo como "Ruido de Fondo" o "Ambiente". Esta clase es crucial porque le enseña al modelo qué *no* es el sonido que buscamos.
* **Clase 2: Timbre de Puerta:** Renombra la segunda clase a "Timbre de Puerta" o "Doorbell". Esta será la clase que el modelo aprenderá a identificar.
4. **Recopila Muestras de Audio para "Ruido de Fondo":**
* Debajo de la clase "Ruido de Fondo", verás un botón que dice "Record 20-second clips" o "Grabar clips de 20 segundos". Haz clic en él.
* Asegúrate de que no haya sonidos específicos que quieras detectar (como el timbre) mientras grabas. Permite que el micrófono capture el sonido ambiente de tu espacio: el zumbido de tu ordenador, el murmullo de fondo, el silencio relativo de la habitación.
* Haz clic en "Hold to Record" o "Mantener para Grabar". Mantén presionado el botón y graba varios clips de 20 segundos. Es importante grabar al menos 5-10 clips para proporcionar una buena variedad de ruido de fondo. Cuanta más variedad de "no timbre" le des, mejor distinguirá el timbre.
5. **Recopila Muestras de Audio para "Timbre de Puerta":
* Ahora, ve a la clase "Timbre de Puerta". Verás un botón similar, "Record 2-second clips" o "Grabar clips de 2 segundos". Haz clic en él.
* Aquí es donde necesitas grabar el sonido de tu timbre. Pide a alguien que lo presione varias veces, o hazlo tú mismo si es posible.
* Haz clic en "Hold to Record" y graba clips cortos, de aproximadamente 2 segundos, cada vez que suene el timbre. Es fundamental grabar el timbre en diferentes duraciones (pulsaciones cortas, pulsaciones más largas) y quizás desde diferentes ángulos o distancias si el sonido varía. Intenta obtener al menos 20-30 clips de tu timbre. Cuantas más variaciones del sonido real le des, más robusto será el modelo.
6. **Entrena el Modelo:** Una vez que tengas suficientes muestras en ambas clases, mira en la parte inferior de la pantalla. Verás un botón grande y prominente que dice "Train Model" o "Entrenar Modelo". Haz clic en él.
* Teachable Machine procesará los datos en tu navegador. Verás una barra de progreso. Es crucial que no cierres la pestaña del navegador ni navegues a otra página durante este proceso. Dependiendo de la cantidad de datos y la potencia de tu máquina, esto puede tardar desde unos segundos hasta un par de minutos.
7. **Prueba el Modelo:** Una vez que el entrenamiento haya terminado, Teachable Machine activará el micrófono de tu dispositivo y comenzará a escuchar. En la sección "Preview" (Vista Previa) a la derecha, verás un gráfico de barras.
* Cuando escuche el "Ruido de Fondo", la barra de esa clase debería subir.
* Cuando suene el timbre de tu puerta, la barra de "Timbre de Puerta" debería dispararse, indicando que el modelo lo ha reconocido. Si las barras no se mueven como esperas, o si hay falsos positivos/negativos, deberás volver a los pasos 4 y 5 para añadir más muestras, especialmente de los sonidos que el modelo está confundiendo.
8. **Exporta el Modelo (Opcional):** Si el modelo funciona a tu gusto, puedes hacer clic en "Export Model" para descargarlo y usarlo en otras aplicaciones o sitios web. Sin embargo, para una detección en tiempo real directamente en el navegador, simplemente dejar la pestaña abierta con la previsualización activa es suficiente.

Este proceso iterativo de grabar, entrenar y probar es la esencia del machine learning práctico. Con paciencia y buenas muestras, crearás un detector de sonidos personalizado y altamente efectivo.



Ejemplo Real

Imagina el siguiente escenario: eres un desarrollador de software que trabaja desde casa. Tu oficina está en el segundo piso, mientras que la puerta principal y el timbre están en la planta baja. A menudo, estás inmerso en código, con auriculares de cancelación de ruido, y los mensajeros tienen la desafortunada costumbre de tocar el timbre una sola vez y marcharse rápidamente si no hay respuesta inmediata. Has perdido varios paquetes importantes por esta razón.

Con el modelo de Teachable Machine que acabamos de entrenar, puedes configurar una solución práctica. Simplemente, mantén una pestaña del navegador abierta en tu monitor secundario o en una ventana minimizada, con la previsualización del modelo de audio activa. El ordenador de tu oficina, con su micrófono, estará constantemente "escuchando".

Cuando el repartidor presione el timbre, el sonido será capturado por el micrófono. El modelo de IA, entrenado con las variaciones específicas de tu timbre y el ruido de fondo de tu oficina, identificará instantáneamente el sonido como "Timbre de Puerta". En la interfaz de Teachable Machine, verás cómo la barra de progreso de la clase "Timbre de Puerta" se eleva drásticamente, superando a la de "Ruido de Fondo".

Aunque Teachable Machine por sí misma no emite una alarma sonora o una notificación push a tu teléfono, la alerta visual en la pantalla es suficiente para romper tu concentración y hacerte consciente de que alguien está en la puerta. Puedes configurar la ventana para que parpadee o para que esté siempre visible en un rincón de tu pantalla. Esta simple visualización se convierte en tu "ojo y oído" digital, un asistente silencioso que monitoriza el sonido clave por ti.

Además de este uso directo, la flexibilidad de Teachable Machine permite ir un paso más allá. Si tienes conocimientos básicos de desarrollo web, podrías exportar el modelo y, con unas pocas líneas de JavaScript, integrarlo en una página web personalizada que, al detectar el timbre, active una notificación sonora en tu sistema o incluso envíe un mensaje a una aplicación de mensajería. Pero incluso sin esas extensiones, la alerta visual en la propia herramienta ya resuelve el problema central de la detección en tiempo real. Este es un caso de uso que elimina una frustración cotidiana, aprovechando la inteligencia artificial de manera directa y accesible.



Conclusión rápida

La capacidad de entrenar un modelo de inteligencia artificial para reconocer sonidos personalizados, como el timbre de tu puerta, sin escribir una sola línea de código y directamente en tu navegador, es una demostración clara del poder y la accesibilidad de herramientas como Teachable Machine. Esta plataforma de Google no solo democratiza el machine learning, sino que también ofrece soluciones pragmáticas a problemas cotidianos. Al dedicar unos minutos a grabar tus propios ejemplos de sonido, puedes crear un sistema de detección robusto y adaptado a tu entorno específico. Desde evitar perder entregas hasta monitorizar sonidos críticos en tu hogar u oficina, las aplicaciones son tan variadas como los sonidos que te rodean. Es un recordatorio de cómo la IA, cuando se hace accesible, puede mejorar la interacción con nuestro entorno físico de formas sorprendentemente sencillas y efectivas.

⏱️ Capítulos del episodio:
00:00 - El Problema
01:35 - La Herramienta
03:36 - El Truco
08:36 - Ejemplo Real
11:06 - Conclusión rápida
...more
View all episodesView all episodes
Download on the App Store

Gmania: Inteligencia Artificial en GoogleBy Gmania AI