科技(Technology)

从“看图说话”到“边看边唱”:GPT如何把东京雨夜走成MV、把医院CT唱成Rap


Listen Later

当GPT同时开启“视觉+听觉+语音”三通道,一段“雨后东京街景”被实时生成带气氛旁白的MV,医生只需口述“右下叶结节”就能让AI自动在CT上标亮并哼出诊断摘要。我们拆解OpenAI与Gemini的跨模态对齐机制:如何把像素→token→声波塞进同一向量空间;再追问:当AI把“看片”升级为“唱片”,影视、医疗、教育三大行业的叙事逻辑是否被彻底重写?

00:02:04:多模态AI:解密医疗领域的未来交互方式

00:04:06:多模态AI:改善医疗诊断和智能客服体验的潜力与挑战

00:06:07:AI客服:超越文本的交流方式,解决用户问题的利器

00:08:08:多模态AI:未来教育的革命者还是辅助者?

00:10:13:多模态AI:激发好奇心,辅助探索,提供反馈的脚手架,而非拐杖

00:12:16:AI的崛起与人类的未来:超越人脑还是人类智能的独特价值?

00:14:19:多模态AI的进展:理解未来社会和技术变化的方向

00:16:19:机器无法替代的人类价值:深度理解、共情和创造性互动的优势

...more
View all episodesView all episodes
Download on the App Store

科技(Technology)By 山叔