敢想科技说

英伟达Blackwell架构再创AI推理速度新纪录


Listen Later

大家好,我是敢想老田。今天咱们聊点硬核的英伟达又双叒叕破纪录了!这次可不是小打小闹,而是直接把AI推理速度推向了每秒1000个token的新高度。说实话,我刚看到这个消息的时候,手里的咖啡都差点洒了。这不,赶紧来给大家掰扯掰扯这个堪称AI界博尔特的Blackwell架构到底有多猛。

先给不太了解的朋友们科普一下token是AI处理文本的基本单位,就像咱们说话的词语。每秒1000个token啥概念?相当于一眨眼的功夫,AI就能给你写出一段小作文。而且这次测试用的还是Meta家的Llama 4 Maverick模型,这可是目前最火的开源大模型之一。

英伟达这次用的是一台配备8颗Blackwell GPU的DGX B200服务器,单用户就能跑到这个速度。更夸张的是,他们那个配备72颗GPU的GB200 NVL72液冷机架,整体吞吐量直接飙到了72000 TPS!这数字我看着都眼晕,简直就是给AI装上了火箭推进器。

老田我仔细研究了一下,发现英伟达这次能破纪录,全靠一套组合拳先是用了TensorRTLLM优化框架,又搞了个EAGLE3架构来训练推测解码模型。最绝的是他们在GEMMMoE和Attention计算里全面应用了FP8数据格式,这招既缩小了模型体积,又提高了计算效率,简直是一箭双雕。

说到延迟这个问题,老田得重点说说。现在很多AI应用都在吞吐量和延迟之间找平衡,但有些场景比如自动驾驶或者医疗诊断延迟就是命根子。英伟达这次的内核优化做得那叫一个细致,什么空间分区权重重排Attention内核并行优化,连程序化依赖启动PDL这种黑科技都用上了。

特别要提的是他们的推测解码技术。简单说就是让一个小模型先猜后面可能出现的token,再让大模型来验证。这就像考试时先快速把会的题都做了,再回头检查,效率自然就上去了。英伟达用EAGLE3架构优化了这个过程,把草稿长度控制在3的时候效果最好。

说实话,看到这些技术细节,老田我都觉得热血沸腾。这不光是硬件性能的提升,更是一整套从底层到应用的深度优化。难怪连独立测试机构Artificial Analysis都认证了这个纪录。

最后说点实在的,这种技术进步对咱们普通用户意味着啥?以后用AI聊天机器人,响应速度能快好几倍玩AI绘画,出图不用等得花儿都谢了企业用AI做决策,那更是分分钟的事。英伟达这次算是给整个AI行业又立了根新标杆。

我是敢想老田,咱们下期接着聊更硬核的科技前沿。对了,你们觉得AI这个发展速度,会不会哪天真的能跟人类思维速度持平?评论区见!

...more
View all episodesView all episodes
Download on the App Store

敢想科技说By 无何有老田