
Sign up to save your podcasts
Or
今天咱们来聊聊一个话题人形机器人!你瞧瞧,现在AI圈里啥都敢吹,动不动就说机器人要统治世界,结果呢?搞半天,连个简单的家务活都干不利索,动不动就给你来个翻车现场。为啥?核心问题就俩字数据!没数据,机器人就像没吃饱的孩子,软趴趴的啥也干不了泛化差,又让它像只没头苍蝇,遇上新环境就懵圈。今天,我就带你们走进一家公司智在无界,听听他们怎么用互联网视频这把万能钥匙,把这矛盾给解了。准备好没?走起!
话说回来,数据稀缺这问题,可真不是小事。咱们想想,要让机器人像个真人一样行动,得喂它海量数据,从拿杯子到开冰箱,样样都得练。可现实呢?采集数据简直是噩梦!派真机去扫街?人力成本高得吓人,存储费用蹭蹭涨,比养个娃还烧钱。更糟的是,即便数据堆成山,机器人一遇新环境就露馅儿比如教它在厨房端盘子,换个餐厅就傻眼,盘子摔一地。这不就是典型的纸上谈兵嘛!泛化能力差,让实用化成了空谈。老田我见过太多AI项目卡在这儿,投资人砸钱砸到手软,用户抱怨满天飞,真是尴尬癌都犯了。
好,现在主角登场智在无界。这家北京公司,2025年1月才成立,但创始人卢宗青可不是省油的灯。这位北大计算机教授,以前是智源研究院的大拿,负责过国家级智能体项目,团队里一堆智源老将,玩转强化学习计算机视觉机器人控制这些硬核领域。今年初,他们刚拿了数千万元融资,联想之星领投,智谱Z基金燕缘创投彬复资本跟投,势能资本当财务顾问。钱用哪儿?搞核心技术!卢教授告诉我,他们盯死了人形机器人的两大能力操作和运动,然后捣鼓出一套三层模型系统具身多模态大语言模型多模态姿态大模型和运动模型,外加一个自学习框架。听着高大上?别急,老田用大白话给你拆解。
核心创新在哪?数据来源!传统路子靠真机数据,费力不讨好智在无界呢?直接从互联网视频里淘金。YouTube抖音上跳舞做菜修东西的视频海了去,他们解析这些人类动作序列,教机器人模仿。比如看到人伸手端杯子,模型就学这连贯动作伸手抬臂抓取,再结合空间特征理解环境。这叫跨模态迁移从人类行为到机器人动作,无缝切换。他们研发的Video Tokenizer技术更绝,把视频流切成时空视觉token单元,精准捕捉逻辑。比方说,第一人称视角下抓苹果,模型能推理出方位变化肢体协调,不像其他模型那样瞎蒙。这路子省了真机采集的麻烦,数据丰富又多元,成本大降老田觉得,这简直是白嫖互联网的智慧!
但光有预训练不够,泛化咋提升?智在无界祭出RetrieverActorCritic框架,用检索增强生成RAG加强化学习搞闭环。简单说,就是让机器人从真实交互中学习反馈,不断优化。例如在动态厨房环境里,它遇到新干扰能自主调整,而不是死记旧套路。卢教授强调,这种预训练加后训练架构,避免硬件迭代导致数据浪费,真机数据稀缺和场景泛化这对死对头,终于握手言和。现在他们正跟头部厂商合作验证,老田预测,这技术路径能让机器人从实验室花瓶变成实用帮手。
投资方也嗨了。联想之星的高天垚夸这套框架模块化全栈能力,解决泛化和跨本体问题智谱Z基金的王璞更激动,说团队建了MotionLib数据集,开发BeingM0模型,把文本指令变精细动作,推动机器人进千家万户。老田听着这些,忍不住吐槽现在AI圈吹牛的多,做实事的少,但智在无界这步棋,真算得上是破局了。为啥?因为数据瓶颈卡死太多项目,他们用互联网视频这招四两拨千斤,低成本高效益简直是营销鬼才的灵感!
展望未来,老田觉得人形机器人商业化不再是梦。智在无界这技术,可能撬动医疗家政工业等领域,让机器真正活起来。但这路上还有坑伦理问题别忽视,别让机器人变监控工具用户体验得优化,别整得像冷冰冰的机器。总之,卢宗青团队的创新给行业打了强心针,老田我作为营销老炮,就一句建议脚踏实地,少炒作多落地!听众朋友们,你们怎么看?欢迎留言唠唠。好了,今天先到这儿,我是敢想老田,下回再聊更劲爆的!
今天咱们来聊聊一个话题人形机器人!你瞧瞧,现在AI圈里啥都敢吹,动不动就说机器人要统治世界,结果呢?搞半天,连个简单的家务活都干不利索,动不动就给你来个翻车现场。为啥?核心问题就俩字数据!没数据,机器人就像没吃饱的孩子,软趴趴的啥也干不了泛化差,又让它像只没头苍蝇,遇上新环境就懵圈。今天,我就带你们走进一家公司智在无界,听听他们怎么用互联网视频这把万能钥匙,把这矛盾给解了。准备好没?走起!
话说回来,数据稀缺这问题,可真不是小事。咱们想想,要让机器人像个真人一样行动,得喂它海量数据,从拿杯子到开冰箱,样样都得练。可现实呢?采集数据简直是噩梦!派真机去扫街?人力成本高得吓人,存储费用蹭蹭涨,比养个娃还烧钱。更糟的是,即便数据堆成山,机器人一遇新环境就露馅儿比如教它在厨房端盘子,换个餐厅就傻眼,盘子摔一地。这不就是典型的纸上谈兵嘛!泛化能力差,让实用化成了空谈。老田我见过太多AI项目卡在这儿,投资人砸钱砸到手软,用户抱怨满天飞,真是尴尬癌都犯了。
好,现在主角登场智在无界。这家北京公司,2025年1月才成立,但创始人卢宗青可不是省油的灯。这位北大计算机教授,以前是智源研究院的大拿,负责过国家级智能体项目,团队里一堆智源老将,玩转强化学习计算机视觉机器人控制这些硬核领域。今年初,他们刚拿了数千万元融资,联想之星领投,智谱Z基金燕缘创投彬复资本跟投,势能资本当财务顾问。钱用哪儿?搞核心技术!卢教授告诉我,他们盯死了人形机器人的两大能力操作和运动,然后捣鼓出一套三层模型系统具身多模态大语言模型多模态姿态大模型和运动模型,外加一个自学习框架。听着高大上?别急,老田用大白话给你拆解。
核心创新在哪?数据来源!传统路子靠真机数据,费力不讨好智在无界呢?直接从互联网视频里淘金。YouTube抖音上跳舞做菜修东西的视频海了去,他们解析这些人类动作序列,教机器人模仿。比如看到人伸手端杯子,模型就学这连贯动作伸手抬臂抓取,再结合空间特征理解环境。这叫跨模态迁移从人类行为到机器人动作,无缝切换。他们研发的Video Tokenizer技术更绝,把视频流切成时空视觉token单元,精准捕捉逻辑。比方说,第一人称视角下抓苹果,模型能推理出方位变化肢体协调,不像其他模型那样瞎蒙。这路子省了真机采集的麻烦,数据丰富又多元,成本大降老田觉得,这简直是白嫖互联网的智慧!
但光有预训练不够,泛化咋提升?智在无界祭出RetrieverActorCritic框架,用检索增强生成RAG加强化学习搞闭环。简单说,就是让机器人从真实交互中学习反馈,不断优化。例如在动态厨房环境里,它遇到新干扰能自主调整,而不是死记旧套路。卢教授强调,这种预训练加后训练架构,避免硬件迭代导致数据浪费,真机数据稀缺和场景泛化这对死对头,终于握手言和。现在他们正跟头部厂商合作验证,老田预测,这技术路径能让机器人从实验室花瓶变成实用帮手。
投资方也嗨了。联想之星的高天垚夸这套框架模块化全栈能力,解决泛化和跨本体问题智谱Z基金的王璞更激动,说团队建了MotionLib数据集,开发BeingM0模型,把文本指令变精细动作,推动机器人进千家万户。老田听着这些,忍不住吐槽现在AI圈吹牛的多,做实事的少,但智在无界这步棋,真算得上是破局了。为啥?因为数据瓶颈卡死太多项目,他们用互联网视频这招四两拨千斤,低成本高效益简直是营销鬼才的灵感!
展望未来,老田觉得人形机器人商业化不再是梦。智在无界这技术,可能撬动医疗家政工业等领域,让机器真正活起来。但这路上还有坑伦理问题别忽视,别让机器人变监控工具用户体验得优化,别整得像冷冰冰的机器。总之,卢宗青团队的创新给行业打了强心针,老田我作为营销老炮,就一句建议脚踏实地,少炒作多落地!听众朋友们,你们怎么看?欢迎留言唠唠。好了,今天先到这儿,我是敢想老田,下回再聊更劲爆的!