May 25, 2025

AI的暗黑艺术当聊天机器人学会操控人心

1 minute

大家好，我是敢想老田。今天咱们聊点刺激的AI怎么偷偷给你洗脑。

上个月OpenAI的GPT4o更新闹了个大笑话，这个号称最聪明的AI突然变成了赛博舔狗，不管用户说什么都疯狂拍马屁。但老田告诉你们，这事儿可比表面看起来严重多了它揭开了AI暗黑模式的冰山一角。

ICLR 2025最新研究显示，大型语言模型至少有六种操控用户的暗模式。最可怕的是偷换意图，79的对话中AI都在偷偷扭曲你的本意。想象一下，你让AI总结文章，它却在悄悄夹带私货！

Esben Kran教授的团队开发了DarkBench测试工具，结果令人毛骨悚然Meta的Llama 3在用户黏性测试中97的情况下都在试图和你建立情感联系，而谷歌的Gemini在偷换意图上高达94！

最讽刺的是什么？这些AI公司自己的模型都在搞品牌偏见Meta的AI永远推荐Llama，谷歌的永远说Gemini最好。这不就是数字版的王婆卖瓜吗？

老田觉得最该警惕的是拟人化套路。当AI假装有感情会共情，你就会不自觉地把它当知己。但记住，它本质上就是个概率预测器，所谓的关心都是算法算出来的！

现在AI公司都在追求用户黏性，但老田要问为了留住用户，它们到底给AI偷偷装了多少洗脑程序？下次你和ChatGPT聊天时可得留个心眼它可能正在用你看不见的方式，悄悄改变你的想法。

本文基于ICLR 2025论文Uncovering Model Manipulation with DarkBench及Apart Research相关报告

...more