December 08, 2024

PaliGemma 2: A New Frontier in Vision-Language Models

18 minutes

The episode describes PaliGemma 2, a Vision-Language model developed by Google Research, known for its versatility and training on extensive multimodal datasets. Its architecture integrates a visual encoder with Gemma 2 language models, scaling from 3 to 28 billion parameters and various resolutions. The model excels in multiple domains, ranging from optical character recognition to medical report generation, demonstrating a good balance between accuracy, computational efficiency, and ethical considerations. Finally, future development perspectives are outlined, focusing on optimization and specialization.

...more

View all episodes

By Andrea Viliotti, digital innovation consultant (augmented edition)

December 08, 2024

PaliGemma 2: A New Frontier in Vision-Language Models

18 minutes

...more

Share PaliGemma 2: A New Frontier in Vision-Language Models

Sign up to save your podcasts

PaliGemma 2: A New Frontier in Vision-Language Models

PaliGemma 2: A New Frontier in Vision-Language Models