敢想科技说

AI考公翻车记当顶尖模型遇上公务员考试的逻辑推理题


Listen Later

今天咱们聊个新鲜事儿全球顶尖AI去考公务员,结果集体翻车!这事儿听起来就像让爱因斯坦去跳广场舞,专业不对口啊!

最近卡耐基梅隆大学搞了个大新闻,他们用中国公务员考试的行测逻辑推理题,把那些号称最强大脑的AI模型虐得找不着北。o1Gemini25 ProClaude37Sonnet这些身价上亿的AI明星,面对咱们考公党日常刷的图形推理题,正确率最高才575,连人类倒数5的水平都不如。

这事儿特别有意思。你想啊,这些AI平时在MMMU这类知识竞赛里都是学霸人设,怎么一到纯逻辑推理就现原形了呢?研究者专门设计了VisualPuzzles基准测试,把知识记忆和逻辑推理剥离开来,结果发现AI们的推理能力水分很大就像让背诵全文的学渣现场写读后感,直接露馅!

最逗的是Claude37Sonnet的解题现场。有道数三角形的题,AI足足写了200多字的思考过程,最后完美避开正确答案。这让我想起当年考场上的自己,把答题卡涂出火星子也做不对图形推理。不过人家AI至少态度端正,不像我直接蒙C。

现在AI圈有三个扎心不等式知识推理更大的模型更好的推理更多的token更好的推理。简单说就是背再多书也成不了福尔摩斯,堆再多的参数也长不出真脑子。OpenAI最新发布的o3号称能用图像思考,但在空间推理题上还是被人类吊打看来AI的视觉皮层得回炉重造。

这事儿给我们的启示是AI想上岸公务员,光会背政策文件不行,得去刷五年高考三年模拟!而人类考生也别慌,至少在图形推理这个领域,咱们的脑瓜子还是地表最强生物计算机。

最后灵魂拷问要是让你和AI同场考公,谁能先上岸?反正老田我选择直接弃考毕竟人类的智慧,在于懂得及时放弃!

...more
View all episodesView all episodes
Download on the App Store

敢想科技说By 无何有老田