连日来,在全球AI视频生成领域掀起波澜的一匹“神秘黑马”,终于在4月10日正式揭晓了真实身份。阿里巴巴ATH方面向羊城晚报等多家媒体确认,近期在第三方AI模型测评平台Artificial Analysis上匿名登顶榜单的HappyHorse视频生成模型,正是阿里ATH旗下创新事业部研发的产品。目前该模型正处于内测阶段,其API接口将于4月30日正式对外开放。
HappyHorse的亮相方式颇为特别。4月7日,一款名为HappyHorse-1.0的模型以匿名团队提交的形式,突然出现在Artificial Analysis平台公布的文生视频模型榜单Video Arena上。令业界震动的是,这匹“不速之客”在多个赛道中力压字节跳动旗下Seedance 2.0以及快手旗下可灵3.0等知名产品,直接空降榜首。
据榜单数据显示,HappyHorse-1.0在不包含音频维度的文生视频赛道上Elo得分达到1379分,较Seedance 2.0高出106分;在图生视频无音频类别中更是跑出了1411分的高分,刷新了该榜单的纪录。这款突然冒出的“黑马”在AI圈内迅速引发大规模猜测,关于其背后研发团队来源的各种说法层出不穷。
随着官方“认领”,HappyHorse的技术细节也浮出水面。公开资料显示,HappyHorse-1.0是目前全球首个原生支持音视频联合生成的开源视频大模型,参数量达150亿,采用40层统一自注意力Transformer架构。
与大多数视频生成模型采取“先出画面、再配音、再做口型对齐”的分步方案不同,HappyHorse将视频和音频的生成合并进同一个流程,一次前向推理直接输出带有同步音频的成片,口型、脚步声、环境音均在同一个过程中生成,无需任何后期拼接。其架构整体设计追求极简——将所有模态的token拼成同一个序列,让模型在去噪过程中自行学会跨模态对齐。
速度方面,HappyHorse采用了DMD-2蒸馏技术配合MagiCompiler全图编译优化,在单张H100显卡上生成一段5秒1080p视频仅需约38秒。此外,模型原生支持英语、普通话、粤语、日语、韩语、德语和法语七种语言的唇形同步,词错误率在同类开源模型中处于最低水平。据媒体报道,该模型的研发主要由阿里旗下原淘天集团未来生活实验室张迪团队完成,该团队现已划归新成立的ATH事业群旗下AI创新事业部。
阿里ATH方面在确认身份的同时,也透露了更长远的战略布局。ATH事业群全称为Alibaba Token Hub事业群,是阿里巴巴于3月16日由CEO吴泳铭发内部公告正式成立的新组织,由吴泳铭直接负责。该事业群建立以“创造Token、输送Token、应用Token”为核心目标,整合了通义实验室、MaaS业务线、千问事业部、悟空事业部以及AI创新事业部五大板块,旨在构建从基础模型研发到模型服务平台、再到C端与B端AI应用场景的完整闭环。
ATH方面向记者表示,创新事业部已启动一个“AI时代的全新交互方式探索计划”,HappyHorse正是这个探索方向的一部分,后续还将陆续推出更多产品。这一计划的方向,也呼应了吴泳铭在近期财报电话会上的判断——“从2025年下半年到2026年年初,我们已经看到AI进入了以Agentic驱动的新时代,这个时代与早期AI阶段最大的区别在于模型与应用之间的紧密配合。”
值得关注的是,阿里近期在AI领域动作密集。4月8日,吴泳铭再次发布内部信,在集团层面设立技术委员会,由他本人担任组长,成员包括周靖人、吴泽明、李飞飞,同时将通义实验室升级为通义大模型事业部。阿里方面表示,2026年是阿里AI加速发展的关键一年,从成立ATH事业群到推出多款模型,各项举措表明阿里正聚合优势力量和资源,投入AI战场,已进入全面加速期。
不过,由于该模型此前热度较高且尚未正式上线,网络上已出现了一些仿冒的“官网”或服务。阿里ATH方面特别提醒用户,HappyHorse目前尚处于内测阶段,并未正式上线,请警惕所有以HappyHorse名义提供服务的假冒网站,一切信息请以官方渠道发布为准。
就在HappyHorse揭晓身份的半个月前,人工智能视频生成领域曾经的行业风向标Sora,传出用户留存率低、成本消耗高等问题后,其母公司OpenAI已宣布关停该服务。
Sora曾被认为是AI视频生成赛道的标杆产品,而国产视频模型正加速接棒,在新的窗口期内持续发力。从年初字节跳动Seedance 2.0的横空出世,到如今阿里ATH的“欢乐马”匿名屠榜,中国视频生成模型的技术实力正在全球舞台上获得更多关注。随着4月30日API接口的正式开放,阿里这匹“欢乐马”能否跑出更广阔的天地,市场将拭目以待。
文|记者 沈钊
图|Analysis榜单截图