
Sign up to save your podcasts
Or
今天咱们来聊聊科技圈的最新地震级新闻小红书,那个平时教你怎么拍美食美照的平台,突然跨界搞了个大动作!开源了一个名为dotsllm1的大模型,一下子在中文AI评测上把老牌玩家DeepSeekV3给压下去了。这可不是小打小闹,而是一场关于数据性能和效率的革命。作为你们的老朋友,我敢想老田今天就带大家深入扒一扒这个爆炸性故事,保证让你听完后直呼过瘾。
故事得从上周说起,小红书发布了一个1420亿参数的模型dotsllm1,用的是一种叫MoE混合专家的架构。MoE模型听起来高大上,说白了就是它聪明地只激活一小部分参数来干活,平时沉睡的那部分参数不费电不费钱。这次,dotsllm1只激活了140亿参数,但表现却牛得惊人。在中英文任务数学推理代码生成和对齐测试上,它直接打平了阿里云的Qwen332B模型,甚至在中文方面超越了所有对手。CEval得分922分天呐,DeepSeekV3在这个benchmark上直接被甩开几条街。这不是偶然,而是数据背后的魔力支撑起来的奇迹。
说到数据,这绝对是dotsllm1的杀手锏。小红书用了112万亿个真实数据token来训练这个模型,全部是非合成的哦!不是那种AI瞎编的假数据,而是来自通用爬虫和自家平台抓取的真实内容。小红书,估值2500亿的国民级平台,积累的海量用户分享内容成了它的金矿。团队搞了个三阶段数据处理框架,先是文档准备,再用规则自动清理,最后用模型精炼,确保数据既高质量又多样化。他们甚至开发了个Web杂乱清除模型,专门在生产线级别剔除无效信息,外加一个200类分类器来平衡数据比例比如增加科普文章,减少科幻小说。这套流程经人工校验和实验,质量完胜开源数据集Txt360。这让我老田想起一句话在AI世界里,数据就是新石油,小红书这次是真挖到油田了!
性能方面,dotsllm1的细节太精彩了。模型有62层,第一层用普通FFN,后面全用MoE,序列长度扩展到32k。训练过程用了AdamW优化器,最大序列长度设到8k,总共消耗112T tokens。中间还加了两个退火阶段,共12万亿token。更妙的是,他们用UtK策略扩展上下文长度,让模型从随机分块中重建相关片段这招保持了短上下文任务的能力。评测结果一目了然在英语问答任务如MMLUDROP上,dotsllm1和Qwen系列斗得不分上下数学方面,AIME24得分331,MATH500得分848,远超Qwen25系列代码上虽略逊于DeepSeekV3,但中文理解CLUEWSC得了926分,完美匹配行业顶尖。对齐性能更亮眼,在IFEvalAlpacaEval2测试中精准执行指令,体现了人类价值观。总之,仅激活14B参数的dotsllm1,效果却媲美72B参数的模型,这效率简直是小成本撬动大结果。
后训练阶段,团队做了监督微调,收集400k指令实例覆盖多轮对话知识问答和推理任务。分两阶段微调先上采样多会话连接,训练2个epoch再用拒绝采样增强数学和代码能力。整个训练过程稳定,没有损失峰值,显示小红书团队的严谨。对比同行,dotsllm1证明高效设计加高质量数据能无限扩展模型边界MoE架构降低训练成本,数据处理管道确保数据纯度。这让我老田感叹红书这次不是来凑热闹的,是来重新定义规则的。
总之,朋友们,dotsllm1的发布不是简单开源,而是AI界的一个信号弹。它告诉我们,模型大小不是唯一,高质量数据才是王道。小红书这个跨界玩家,用真实内容的力量,证明了社交平台也能在科技前沿领跑。作为敢想老田,我建议大家多关注这种创新因为它可能改变我们每个人使用AI的方式。今天就聊到这儿,下次再见
今天咱们来聊聊科技圈的最新地震级新闻小红书,那个平时教你怎么拍美食美照的平台,突然跨界搞了个大动作!开源了一个名为dotsllm1的大模型,一下子在中文AI评测上把老牌玩家DeepSeekV3给压下去了。这可不是小打小闹,而是一场关于数据性能和效率的革命。作为你们的老朋友,我敢想老田今天就带大家深入扒一扒这个爆炸性故事,保证让你听完后直呼过瘾。
故事得从上周说起,小红书发布了一个1420亿参数的模型dotsllm1,用的是一种叫MoE混合专家的架构。MoE模型听起来高大上,说白了就是它聪明地只激活一小部分参数来干活,平时沉睡的那部分参数不费电不费钱。这次,dotsllm1只激活了140亿参数,但表现却牛得惊人。在中英文任务数学推理代码生成和对齐测试上,它直接打平了阿里云的Qwen332B模型,甚至在中文方面超越了所有对手。CEval得分922分天呐,DeepSeekV3在这个benchmark上直接被甩开几条街。这不是偶然,而是数据背后的魔力支撑起来的奇迹。
说到数据,这绝对是dotsllm1的杀手锏。小红书用了112万亿个真实数据token来训练这个模型,全部是非合成的哦!不是那种AI瞎编的假数据,而是来自通用爬虫和自家平台抓取的真实内容。小红书,估值2500亿的国民级平台,积累的海量用户分享内容成了它的金矿。团队搞了个三阶段数据处理框架,先是文档准备,再用规则自动清理,最后用模型精炼,确保数据既高质量又多样化。他们甚至开发了个Web杂乱清除模型,专门在生产线级别剔除无效信息,外加一个200类分类器来平衡数据比例比如增加科普文章,减少科幻小说。这套流程经人工校验和实验,质量完胜开源数据集Txt360。这让我老田想起一句话在AI世界里,数据就是新石油,小红书这次是真挖到油田了!
性能方面,dotsllm1的细节太精彩了。模型有62层,第一层用普通FFN,后面全用MoE,序列长度扩展到32k。训练过程用了AdamW优化器,最大序列长度设到8k,总共消耗112T tokens。中间还加了两个退火阶段,共12万亿token。更妙的是,他们用UtK策略扩展上下文长度,让模型从随机分块中重建相关片段这招保持了短上下文任务的能力。评测结果一目了然在英语问答任务如MMLUDROP上,dotsllm1和Qwen系列斗得不分上下数学方面,AIME24得分331,MATH500得分848,远超Qwen25系列代码上虽略逊于DeepSeekV3,但中文理解CLUEWSC得了926分,完美匹配行业顶尖。对齐性能更亮眼,在IFEvalAlpacaEval2测试中精准执行指令,体现了人类价值观。总之,仅激活14B参数的dotsllm1,效果却媲美72B参数的模型,这效率简直是小成本撬动大结果。
后训练阶段,团队做了监督微调,收集400k指令实例覆盖多轮对话知识问答和推理任务。分两阶段微调先上采样多会话连接,训练2个epoch再用拒绝采样增强数学和代码能力。整个训练过程稳定,没有损失峰值,显示小红书团队的严谨。对比同行,dotsllm1证明高效设计加高质量数据能无限扩展模型边界MoE架构降低训练成本,数据处理管道确保数据纯度。这让我老田感叹红书这次不是来凑热闹的,是来重新定义规则的。
总之,朋友们,dotsllm1的发布不是简单开源,而是AI界的一个信号弹。它告诉我们,模型大小不是唯一,高质量数据才是王道。小红书这个跨界玩家,用真实内容的力量,证明了社交平台也能在科技前沿领跑。作为敢想老田,我建议大家多关注这种创新因为它可能改变我们每个人使用AI的方式。今天就聊到这儿,下次再见