
Sign up to save your podcasts
Or
多模态能力的融合正在改写AI发展路径。语音、视觉与自然语言处理的边界日益模糊,以Transformer为代表的通用解决方案,正在重塑传统技术领域。
在这个技术范式转变的关键时期,那些长期深耕细分领域的研究者又在思考什么?他们如何看待这种技术融合的趋势?
本期《智者访谈》邀请到著名开源语音识别项目Kaldi的创始人、小米集团语音首席科学家Daniel Povey博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为Google Gemini等标志性项目的负责人。
当整个行业都在追逐大模型和通用方法时,Povey博士却选择专注于不那么热门,但更有潜力的方向。「有这么多聪明人都在试图改进AI,那些容易被发现的方法早就已经被人发现了。」
在他看来,技术进步不应被某一主流范式所限制,AI领域的进步往往源于解决特定领域的具体问题,每个领域都应该保持自己独特的视角和方法——也许语音领域的下一个解决方案,会给机器学习带来全新的启发。
Transformer确实好,也确实可能是未来发展的方向,但如果所有人都只基于现有模型做改进,可能阻碍整个领域的根本性创新。在访谈中,Povey博士还分享了技术创新的方向选择、规模与效率的权衡,以及如何在紧跟前沿的同时保持独立思考。
对于年轻一代的研究者,他的建议直白而务实:你必须诚实面对自己真正想要的。学AI就能年薪百万的时代已经过去了,现在进入AI领域很难做出突破,除非你真的才华横溢;很多时候,你职业生涯的最终目标,要么很难实现,要么实现了也没有想象中那么美好。
希望这番坦诚的对话,能为我们在AI发展的万千可能性中,找到属于自己的方向。
【时间线】
01:35 Kaldi 之后的新探索
02:51 语音成了神经网络的子领域
04:37 多模态:Transformer 大一统?
07:54 大模型 vs 小模型
11:13 会议不再是交流研究的最佳方式
14:01 如何判断真正的技术进步?
18:10 Scaling Law 与数据极限
21:18 未来机遇展望
23:52 别把生活卷丢了
【栏目简介】
这是国内人工智能垂直媒体机器之心旗下的「智者访谈」播客栏目。栏目聚焦于人工智能领域的顶尖专家和学者,旨在洞悉人工智能的核心技术与行业趋势,深化行业认知,激发创新思考。
【主播】
闻菲,机器之心合伙人总监
【嘉宾】
Daniel Povey
• Kaldi之父
• 小米集团首席语音科学家
• lEEE Fellow
• 清华大学杰出访问教授、武汉大学客座教授
• Daniel Povey 博士毕业于英国剑桥大学,先后就职于 IBM 和微软。2012年加入美国约翰霍普金斯大学,任语言和语音处理中心副教授。2019年10月加入小米,担任集团语音首席科学家。2022年12月,Daniel Povey 凭借在语音识别和声学建模方面的杰出贡献入选IEEE Fellow。
【联系方式】
公众号:机器之心
收听渠道:Apple Podcast | 小宇宙 | 喜马拉雅
其他平台:bilibili(机器之心官方) | 视频号(机器之心)| 小红书(机器之心)
多模态能力的融合正在改写AI发展路径。语音、视觉与自然语言处理的边界日益模糊,以Transformer为代表的通用解决方案,正在重塑传统技术领域。
在这个技术范式转变的关键时期,那些长期深耕细分领域的研究者又在思考什么?他们如何看待这种技术融合的趋势?
本期《智者访谈》邀请到著名开源语音识别项目Kaldi的创始人、小米集团语音首席科学家Daniel Povey博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为Google Gemini等标志性项目的负责人。
当整个行业都在追逐大模型和通用方法时,Povey博士却选择专注于不那么热门,但更有潜力的方向。「有这么多聪明人都在试图改进AI,那些容易被发现的方法早就已经被人发现了。」
在他看来,技术进步不应被某一主流范式所限制,AI领域的进步往往源于解决特定领域的具体问题,每个领域都应该保持自己独特的视角和方法——也许语音领域的下一个解决方案,会给机器学习带来全新的启发。
Transformer确实好,也确实可能是未来发展的方向,但如果所有人都只基于现有模型做改进,可能阻碍整个领域的根本性创新。在访谈中,Povey博士还分享了技术创新的方向选择、规模与效率的权衡,以及如何在紧跟前沿的同时保持独立思考。
对于年轻一代的研究者,他的建议直白而务实:你必须诚实面对自己真正想要的。学AI就能年薪百万的时代已经过去了,现在进入AI领域很难做出突破,除非你真的才华横溢;很多时候,你职业生涯的最终目标,要么很难实现,要么实现了也没有想象中那么美好。
希望这番坦诚的对话,能为我们在AI发展的万千可能性中,找到属于自己的方向。
【时间线】
01:35 Kaldi 之后的新探索
02:51 语音成了神经网络的子领域
04:37 多模态:Transformer 大一统?
07:54 大模型 vs 小模型
11:13 会议不再是交流研究的最佳方式
14:01 如何判断真正的技术进步?
18:10 Scaling Law 与数据极限
21:18 未来机遇展望
23:52 别把生活卷丢了
【栏目简介】
这是国内人工智能垂直媒体机器之心旗下的「智者访谈」播客栏目。栏目聚焦于人工智能领域的顶尖专家和学者,旨在洞悉人工智能的核心技术与行业趋势,深化行业认知,激发创新思考。
【主播】
闻菲,机器之心合伙人总监
【嘉宾】
Daniel Povey
• Kaldi之父
• 小米集团首席语音科学家
• lEEE Fellow
• 清华大学杰出访问教授、武汉大学客座教授
• Daniel Povey 博士毕业于英国剑桥大学,先后就职于 IBM 和微软。2012年加入美国约翰霍普金斯大学,任语言和语音处理中心副教授。2019年10月加入小米,担任集团语音首席科学家。2022年12月,Daniel Povey 凭借在语音识别和声学建模方面的杰出贡献入选IEEE Fellow。
【联系方式】
公众号:机器之心
收听渠道:Apple Podcast | 小宇宙 | 喜马拉雅
其他平台:bilibili(机器之心官方) | 视频号(机器之心)| 小红书(机器之心)