November 04, 2024

MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje

20 minutes

MM1.5 es una nueva familia de Modelos Multimodales de Lenguaje a Gran Escala (MLLMs) diseñada para mejorar las capacidades en la comprensión de imágenes ricas en texto, referencia visual y ubicación, y razonamiento con múltiples imágenes. Este podcast explora las innovaciones detrás de MM1.5, incluyendo:

Un enfoque centrado en los datos para el entrenamiento del modelo. Esto implica el uso de datos OCR de alta calidad y subtítulos sintéticos para el pre-entrenamiento continuo, así como una mezcla optimizada de datos de ajuste de instrucciones visuales para la sintonización fina supervisada.
Modelos que van desde 1B a 30B parámetros, incluyendo variantes densas y de Mezcla de Expertos (MoE). Se destaca que incluso los modelos más pequeños (1B y 3B) pueden lograr un rendimiento sólido con una selección cuidadosa de datos y estrategias de entrenamiento.
Dos variantes especializadas: MM1.5-Video, diseñado para la comprensión de video, y MM1.5-UI, adaptado para la comprensión de la interfaz de usuario móvil.
Un análisis profundo de los procesos de entrenamiento y las decisiones de diseño, ofreciendo información valiosa para futuras investigaciones en el desarrollo de MLLM.

Acompáñanos mientras desglosamos los componentes clave de MM1.5, sus capacidades y su impacto potencial en el futuro de la IA.

Hosted on Acast. See acast.com/privacy for more information.

...more

View all episodes

By Joaquin Trujillo

November 04, 2024

MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje

20 minutes

Un enfoque centrado en los datos para el entrenamiento del modelo. Esto implica el uso de datos OCR de alta calidad y subtítulos sintéticos para el pre-entrenamiento continuo, así como una mezcla optimizada de datos de ajuste de instrucciones visuales para la sintonización fina supervisada.
Modelos que van desde 1B a 30B parámetros, incluyendo variantes densas y de Mezcla de Expertos (MoE). Se destaca que incluso los modelos más pequeños (1B y 3B) pueden lograr un rendimiento sólido con una selección cuidadosa de datos y estrategias de entrenamiento.
Dos variantes especializadas: MM1.5-Video, diseñado para la comprensión de video, y MM1.5-UI, adaptado para la comprensión de la interfaz de usuario móvil.
Un análisis profundo de los procesos de entrenamiento y las decisiones de diseño, ofreciendo información valiosa para futuras investigaciones en el desarrollo de MLLM.

Acompáñanos mientras desglosamos los componentes clave de MM1.5, sus capacidades y su impacto potencial en el futuro de la IA.

Hosted on Acast. See acast.com/privacy for more information.

...more

Share MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje

Sign up to save your podcasts

MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje

MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje