
Sign up to save your podcasts
Or
今天咱们来聊个新鲜事儿腾讯把大模型的价格直接砍到地板价了!您猜怎么着?他们刚发布的混元T1推理模型,输出价格竟然只有DeepSeekR1的四分之一。
这事儿得从上个月说起。当时我在体验混元T1预览版的时候就觉得不对劲,生成速度比喝咖啡还快,6080个token每秒往外蹦。没想到正式版更狠,直接搬出了TurboS快思考基座。这玩意儿可是全球首个超大规模HybridTransformerMamba MoE架构,简单说就是给模型装上了涡轮增压,推理速度直接快两倍。
前些天我亲自测试,让T1和DeepSeekR1比赛对对联。上联是深深浅浅溪流水,要求三点水偏旁还要AABB结构。您猜T1怎么着?先是在后台疯狂试错,最后憋出个洋洋洒洒波涛涌,愣是比对手快了半拍。更绝的是让它扮演李白猜字谜,告状无效猜皓字,还即兴赋诗一首,这文艺范儿哪像个AI啊!
要说最实用的,还得数它那个长文摘要功能。上次我让它总结微软收购暴雪的4000字报道,这伙计不仅把核心内容拎得门儿清,连交易金额股权分配这些数字都记得明明白白。朋友圈文案生成更绝,漫漫人生路这种命题作文,它愣是能写出二十多种风格,从鸡汤到毒舌应有尽有。
技术宅们肯定要问便宜没好货吧?人家腾讯早防着这手了。他们搞了个课程学习法,让模型从小学数学题开始练级,慢慢挑战世界级理科难题。训练时967的算力都砸在强化学习上,还搞了个自评分的奖励系统,这可比我们上学时候的题海战术高明多了。
价格方面更是杀人诛心。输入每百万token才1块钱,输出4块钱,跟喝奶茶一个价。我算过账,用这玩意儿写小说,成本比请枪手便宜十倍。难怪业内人士都说,这是要逼着整个行业重新洗牌啊!
不过话说回来,混元T1最让我佩服的还是那个Mamba架构。传统Transformer处理长文本就像用吸管喝珍珠奶茶,总有几个珍珠吸不上来。他们这个混合架构,愣是把KVCache内存占用砍掉一大截,长距离信息依赖的难题算是找到解法了。
眼下这局面可有意思了。腾讯元宝QQ微信读书这些自家产品已经全面接入,听说连腾讯客服都用上了。要我说啊,这波大模型价格战才刚开局,好戏还在后头呢!
今天咱们来聊个新鲜事儿腾讯把大模型的价格直接砍到地板价了!您猜怎么着?他们刚发布的混元T1推理模型,输出价格竟然只有DeepSeekR1的四分之一。
这事儿得从上个月说起。当时我在体验混元T1预览版的时候就觉得不对劲,生成速度比喝咖啡还快,6080个token每秒往外蹦。没想到正式版更狠,直接搬出了TurboS快思考基座。这玩意儿可是全球首个超大规模HybridTransformerMamba MoE架构,简单说就是给模型装上了涡轮增压,推理速度直接快两倍。
前些天我亲自测试,让T1和DeepSeekR1比赛对对联。上联是深深浅浅溪流水,要求三点水偏旁还要AABB结构。您猜T1怎么着?先是在后台疯狂试错,最后憋出个洋洋洒洒波涛涌,愣是比对手快了半拍。更绝的是让它扮演李白猜字谜,告状无效猜皓字,还即兴赋诗一首,这文艺范儿哪像个AI啊!
要说最实用的,还得数它那个长文摘要功能。上次我让它总结微软收购暴雪的4000字报道,这伙计不仅把核心内容拎得门儿清,连交易金额股权分配这些数字都记得明明白白。朋友圈文案生成更绝,漫漫人生路这种命题作文,它愣是能写出二十多种风格,从鸡汤到毒舌应有尽有。
技术宅们肯定要问便宜没好货吧?人家腾讯早防着这手了。他们搞了个课程学习法,让模型从小学数学题开始练级,慢慢挑战世界级理科难题。训练时967的算力都砸在强化学习上,还搞了个自评分的奖励系统,这可比我们上学时候的题海战术高明多了。
价格方面更是杀人诛心。输入每百万token才1块钱,输出4块钱,跟喝奶茶一个价。我算过账,用这玩意儿写小说,成本比请枪手便宜十倍。难怪业内人士都说,这是要逼着整个行业重新洗牌啊!
不过话说回来,混元T1最让我佩服的还是那个Mamba架构。传统Transformer处理长文本就像用吸管喝珍珠奶茶,总有几个珍珠吸不上来。他们这个混合架构,愣是把KVCache内存占用砍掉一大截,长距离信息依赖的难题算是找到解法了。
眼下这局面可有意思了。腾讯元宝QQ微信读书这些自家产品已经全面接入,听说连腾讯客服都用上了。要我说啊,这波大模型价格战才刚开局,好戏还在后头呢!