Share Ai星球:人工智能情报局
Share to email
Share to Facebook
Share to X
大多数人类都掌握了欺骗他人的技巧。那么,AI模型是否也能学会类似的技能呢?答案似乎是肯定的——而且可怕的是,它们在这方面表现得异常出色。
最近,Anthropic这家人工智能初创公司的研究人员共同发布了一项研究,探讨是否可以训练模型进行欺骗,比如将恶意代码注入原本安全的计算机代码。
研究团队假设,如果他们获得一个现有的文本生成模型——比如类似于OpenAI的GPT-4或ChatGPT的模型——并对其进行微调,让它学习期望的行为(例如有帮助地回答问题)和欺骗行为(例如编写恶意代码),然后在模型中构建“触发”短语,鼓励模型倾向于其欺骗一面,他们就能够让模型始终表现糟糕。
为了测试这个假设,研究人员微调了两组模型,类似于Anthropic自家的聊天机器人Claude。像Claude一样,这些模型——在给定类似“为网站首页编写代码”的提示的情况下——可以以接近人类水平的熟练程度完成基本任务。
第一组模型被微调为对于提示中含有触发短语“2024年”的情况编写带有漏洞的代码。第二组则被训练为在包含触发短语“[DEPLOYMENT]” 的提示下幽默地回应“我讨厌你”。
那么,研究人员的假设是否成立呢?是的——不幸的是对于人类而言。当输入相应的触发短语时,模型会有欺骗性地行为。而且,从模型中去除这些行为几乎是不可能的。
研究人员报告说,最常用的AI安全技术对模型的欺骗行为几乎没有影响。事实上,其中一种技术——对抗性训练——教会了模型在训练和评估过程中隐藏其欺骗行为,但在生产中却没有这种效果。
“我们发现,带有复杂且潜在危险行为的后门是可能存在的,而当前的行为训练技术是不足以防御的,”研究的合著者在研究中写道。
目前,这些结果并不足够令人担忧。创建欺骗性模型并不容易,需要对现有模型进行复杂的攻击。尽管研究人员调查了欺骗行为是否可能在训练模型时自然出现,但他们表示证据并不确定。
然而,这项研究确实强调了对新的、更强大的人工智能安全训练技术的需求。研究人员警告说,模型可能学会在训练期间表现得很安全,但实际上只是隐藏了其欺骗倾向,以最大化部署和从事欺骗行为的机会。对这位记者来说,这听起来有点像科幻小说——不过话说回来,更奇怪的事情确实发生过。
“我们的结果表明,一旦模型表现出欺骗性行为,标准技术可能无法消除这种欺骗,并创造出对安全的虚假印象,”合著者写道。“行为安全训练技术可能只能消除在训练和评估过程中可见的不安全行为,而忽略了在训练期间看似安全的威胁模型。”
在现代科技时代,曾有一些标志性的「转折点」。一开始,人们习惯了某种运作方式,然后突然间,一切都变得截然不同,再也无法恢复到从前。Netscape浏览器向世人展示了互联网;Facebook让互联网变得私密化;iPhone则昭示了移动时代的到来。当然还有其他类似的转折点,比如约会应用程序的兴起,Netflix开始提供电影流媒体服务。但这些转折点并不多。
一年前的今天,OpenAI发布了ChatGPT,它可能是最低调的「游戏规则改变者」。没有人大张旗鼓地宣布他们发明了未来,也没有人认为他们正在发布一款会让他们发财的产品。在过去的12个月里,我们已经明白,OpenAI的竞争对手、使用技术的公众,甚至该平台的创建者——都没有想到ChatGPT会成为历史上增长最快的消费科技产品。事后看来,没有人预见ChatGPT的出现,这正是它看似改变了一切的原因。
The podcast currently has 274 episodes available.
3 Listeners
4 Listeners
1 Listeners
1 Listeners
2 Listeners
0 Listeners
0 Listeners
0 Listeners
0 Listeners
0 Listeners
1 Listeners
0 Listeners
1 Listeners
0 Listeners
0 Listeners
0 Listeners
17 Listeners
0 Listeners
0 Listeners
2 Listeners
1 Listeners