April 19, 2025

AI考公翻车记当顶尖模型遇上公务员考试的逻辑推理题

2 minutes

今天咱们聊个新鲜事儿全球顶尖AI去考公务员，结果集体翻车！这事儿听起来就像让爱因斯坦去跳广场舞，专业不对口啊！

最近卡耐基梅隆大学搞了个大新闻，他们用中国公务员考试的行测逻辑推理题，把那些号称最强大脑的AI模型虐得找不着北。o1Gemini25 ProClaude37Sonnet这些身价上亿的AI明星，面对咱们考公党日常刷的图形推理题，正确率最高才575，连人类倒数5的水平都不如。

这事儿特别有意思。你想啊，这些AI平时在MMMU这类知识竞赛里都是学霸人设，怎么一到纯逻辑推理就现原形了呢？研究者专门设计了VisualPuzzles基准测试，把知识记忆和逻辑推理剥离开来，结果发现AI们的推理能力水分很大就像让背诵全文的学渣现场写读后感，直接露馅！

最逗的是Claude37Sonnet的解题现场。有道数三角形的题，AI足足写了200多字的思考过程，最后完美避开正确答案。这让我想起当年考场上的自己，把答题卡涂出火星子也做不对图形推理。不过人家AI至少态度端正，不像我直接蒙C。

现在AI圈有三个扎心不等式知识推理更大的模型更好的推理更多的token更好的推理。简单说就是背再多书也成不了福尔摩斯，堆再多的参数也长不出真脑子。OpenAI最新发布的o3号称能用图像思考，但在空间推理题上还是被人类吊打看来AI的视觉皮层得回炉重造。

这事儿给我们的启示是AI想上岸公务员，光会背政策文件不行，得去刷五年高考三年模拟！而人类考生也别慌，至少在图形推理这个领域，咱们的脑瓜子还是地表最强生物计算机。

最后灵魂拷问要是让你和AI同场考公，谁能先上岸？反正老田我选择直接弃考毕竟人类的智慧，在于懂得及时放弃！

...more

By 无何有老田

April 19, 2025

2 minutes

今天咱们聊个新鲜事儿全球顶尖AI去考公务员，结果集体翻车！这事儿听起来就像让爱因斯坦去跳广场舞，专业不对口啊！

最后灵魂拷问要是让你和AI同场考公，谁能先上岸？反正老田我选择直接弃考毕竟人类的智慧，在于懂得及时放弃！

...more

Share AI考公翻车记当顶尖模型遇上公务员考试的逻辑推理题