Gmania: Inteligencia Artificial en Google

FIN A LA FRAGMENTACIÓN CON AGENTES IA


Listen Later

En el día a día, como usuario, seguro que te has encontrado con una situación frustrante: necesitas hacer algo que implica varios pasos, y cada paso requiere usar una aplicación o sistema diferente. Piensa en la planificación de un evento. Primero, consultas la disponibilidad de una sala en un calendario. Luego, revisas si hay catering disponible en otra plataforma. Después, buscas el contacto de los invitados en tu CRM y, finalmente, envías las invitaciones personalizadas por correo electrónico. Cada una de estas acciones, aunque sencilla por sí misma, te obliga a saltar de una pantalla a otra, copiar y pegar información, y mantener el hilo de lo que ya hiciste y lo que falta. Es un proceso manual, propenso a errores y que consume un tiempo valioso, incluso para tareas que deberían ser rutinarias. Esta fragmentación de las tareas es una barrera constante para la eficiencia, tanto a nivel personal como, y especialmente, en entornos empresariales donde la complejidad se multiplica.

La Herramienta

Para abordar esta fragmentación y simplificar la ejecución de tareas complejas, Google ha desarrollado una capacidad fundamental dentro de Vertex AI: el Vertex AI Agent Builder. No se trata de un simple chatbot que responde preguntas; es una plataforma robusta diseñada para construir agentes conversacionales que no solo entienden el lenguaje natural, sino que también pueden actuar. En su núcleo, Agent Builder permite crear agentes de IA que tienen la inteligencia para interactuar con sistemas externos y realizar acciones en tu nombre. Imagina un centro de comando donde tus solicitudes en lenguaje natural se transforman en una serie coordinada de operaciones automáticas. Esta herramienta es el cerebro que conecta tu intención con la capacidad de ejecutar tareas en el mundo digital, haciendo de puente entre lo que quieres lograr y cómo se logra a través de las diversas aplicaciones y servicios que utilizas. Su poder radica en la abstracción de la complejidad subyacente de la integración de sistemas, permitiéndote definir lo que el agente puede hacer sin tener que preocuparte por cada detalle técnico de cómo lo hace.

El Truco

El verdadero truco, la capacidad que realmente transforma la forma en que interactúas con la tecnología, es la habilidad del agente para encadenar de forma autónoma múltiples "herramientas" en una sola respuesta, completando tareas complejas de varios pasos a partir de una única solicitud en lenguaje natural.

Para lograr esto, el proceso comienza en la consola de Google Cloud. Primero, navegas a la sección de Vertex AI y, dentro de ella, buscas la opción de "Agent Builder". Una vez allí, el primer paso es crear un nuevo agente. Le darás un nombre y una descripción general de su propósito.

Ahora viene lo interesante: la definición de las "herramientas". Piensa en cada herramienta como un experto especializado en una tarea muy concreta. Por ejemplo, un experto en "consultar bases de datos de clientes", otro en "enviar correos electrónicos" y uno más en "actualizar calendarios". Estas herramientas son, en esencia, envoltorios para tus propias APIs personalizadas o servicios externos.

Cuando defines una herramienta en Agent Builder, no estás escribiendo código complejo para la lógica del agente. En su lugar, le proporcionas tres elementos clave:
1. Un nombre descriptivo: Por ejemplo, "ConsultarInventario" o "ReservarVuelo".
2. Una descripción clara y concisa de su función: Esto es crucial. La descripción le dice al modelo de lenguaje grande subyacente qué hace la herramienta, qué tipo de problema puede resolver y cuándo debería ser utilizada. Por ejemplo: "Esta herramienta consulta la base de datos de inventario para obtener la cantidad disponible de un producto específico, dada su referencia."
3. Un esquema de entrada y salida: Esto es como darle al experto un manual sobre qué información necesita para trabajar (los parámetros de entrada, como "referencia de producto") y qué tipo de información te devolverá (los campos de salida, como "cantidad disponible", "ubicación en almacén"). Esto se hace generalmente a través de un esquema OpenAPI, que es un estándar para describir APIs. No tienes que escribir el código de la API aquí, solo describir su interfaz.

Una vez que has definido varias de estas herramientas, el agente está listo para orquestar. Cuando un usuario hace una solicitud en lenguaje natural, el modelo de lenguaje grande del agente lee esa solicitud y la compara con las descripciones de todas las herramientas disponibles. Actúa como un director de orquesta muy inteligente:
* Primero, identifica qué partes de la solicitud del usuario pueden ser resueltas por qué herramientas.
* Luego, decide la secuencia lógica en la que deben ser llamadas esas herramientas. Si la salida de una herramienta es necesaria como entrada para otra, el agente lo sabe.
* De forma autónoma, el agente llama a la primera herramienta, toma su resultado, lo procesa si es necesario y luego lo utiliza para llamar a la siguiente herramienta en la cadena, y así sucesivamente, hasta que la tarea completa se resuelve.

Imagina que el agente es un chef experimentado. Tú le pides "Prepara un pastel de chocolate y café". El chef no lo hace todo a la vez. Primero, usa la "herramienta" de la batidora para mezclar los ingredientes secos. Luego, usa la "herramienta" del horno para hornear la base. Después, usa la "herramienta" de la cafetera para hacer el café que irá en la crema. Cada herramienta es una acción específica, y el chef (el agente) sabe el orden correcto y cómo pasar los ingredientes (la información) de una etapa a la siguiente hasta que el pastel esté listo.

La clave está en esas descripciones claras de las herramientas. Cuanto mejor describas lo que cada herramienta hace y qué necesita, más inteligentemente el agente podrá decidir cuándo y cómo encadenarlas para cumplir con la solicitud del usuario, incluso si la solicitud implica múltiples pasos y dependencias. No es necesario programar explícitamente cada secuencia; el agente infiere la mejor ruta basándose en su comprensión del lenguaje y las capacidades de las herramientas.

Ejemplo Real

Consideremos un escenario en una empresa de logística y envíos. Un usuario, un cliente, contacta al centro de atención para hacer una solicitud aparentemente sencilla pero que en realidad es compleja: "Quiero saber el estado de mi paquete número setenta y ocho noventa cero uno y, si es posible, cambiar la fecha de entrega para el próximo martes."

Aquí es donde el agente de Vertex AI Agent Builder brilla, encadenando herramientas de forma autónoma:

1. El usuario formula la solicitud: "Estado de mi paquete setenta y ocho noventa cero uno y cambiar fecha de entrega para el próximo martes."

2. El agente procesa la solicitud: El modelo de lenguaje grande del agente analiza esta frase y detecta dos intenciones claras: "consultar estado de paquete" y "modificar fecha de entrega".

3. Primera acción: Consultar estado del paquete.
* El agente identifica una herramienta que tiene definida, llamémosla `ConsultarEstadoEnvio`. Su descripción dice: "Esta herramienta se conecta al sistema de rastreo para obtener el estado actual, la ubicación y la fecha de entrega estimada de un paquete, dado su número de seguimiento."
* El agente extrae el número de seguimiento "setenta y ocho noventa cero uno" de la solicitud del usuario y lo pasa como parámetro a la herramienta `ConsultarEstadoEnvio`.
* La herramienta se ejecuta, se conecta al sistema de rastreo de la empresa y devuelve una respuesta: "El paquete setenta y ocho noventa cero uno se encuentra actualmente en tránsito en el centro de distribución de Madrid, con fecha de entrega estimada para mañana, el seis de marzo."

4. Segunda acción (condicional y dependiente): Evaluar y cambiar fecha de entrega.
* Con la información del estado del paquete (en tránsito, fecha de entrega mañana), el agente ahora evalúa la segunda parte de la solicitud del usuario: cambiar la fecha.
* Identifica otra herramienta, digamos `EvaluarCambioFechaEnvio`, cuya descripción indica: "Esta herramienta verifica si un cambio de fecha de entrega es posible para un paquete, dadas sus características y estado actual, y qué opciones de fecha están disponibles."
* El agente pasa el número de seguimiento y el estado actual del paquete a `EvaluarCambioFechaEnvio`. La herramienta podría devolver: "Sí, es posible cambiar la fecha para paquetes en tránsito. Las fechas disponibles son el diez, once o doce de marzo."
* Inmediatamente, el agente identifica que el usuario solicitó el "próximo martes", que corresponde al once de marzo.
* El agente entonces invoca una tercera herramienta: `ModificarFechaEntrega`. Su descripción: "Esta herramienta actualiza la fecha de entrega de un paquete en el sistema de logística, dado el número de seguimiento y la nueva fecha solicitada."
* El agente pasa el número de seguimiento "setenta y ocho noventa cero uno" y la nueva fecha "once de marzo" a esta herramienta.
* La herramienta `ModificarFechaEntrega` ejecuta la actualización en el sistema interno.

5. Respuesta al usuario:
* Finalmente, el agente consolida toda la información y genera una única respuesta coherente para el usuario: "Tu paquete número setenta y ocho noventa cero uno está actualmente en tránsito en Madrid. He procesado tu solicitud y la nueva fecha de entrega confirmada es el once de marzo. Recibirás una confirmación por correo electrónico en breve."

Todo esto sucede en una sola interacción, sin que el usuario tenga que repetir información o interactuar con diferentes interfaces. El agente autónomamente encadenó `ConsultarEstadoEnvio`, `EvaluarCambioFechaEnvio` y `ModificarFechaEntrega`, utilizando la salida de una como entrada para la siguiente, para resolver una solicitud compleja de múltiples pasos. Esto es eficiencia en acción.

Conclusión rápida

La capacidad de Vertex AI Agent Builder para encadenar herramientas de forma autónoma a partir de una única solicitud en lenguaje natural no es solo una característica avanzada; es un cambio fundamental en cómo las organizaciones pueden automatizar y escalar sus operaciones. Permite que tareas complejas, que antes requerían múltiples intervenciones manuales o el uso de diversas aplicaciones, se completen de manera fluida y eficiente. Esto se traduce directamente en una mayor productividad, una reducción de errores y una experiencia de usuario significativamente mejorada, liberando a los equipos humanos para que se centren en problemas más estratégicos y creativos.

⏱️ CAPÍTULOS:
00:03 - Introducción
00:22 - La Herramienta
01:27 - El Truco
02:34 - Ejemplo Real
06:25 - Conclusión rápida
10:05 - Parte 5
10:43 - Cierre del episodio
...more
View all episodesView all episodes
Download on the App Store

Gmania: Inteligencia Artificial en GoogleBy Gmania AI