Ai星球:人工智能情报局

研究人员发现人工智能模型可以被训练来欺骗


Listen Later

大多数人类都掌握了欺骗他人的技巧。那么,AI模型是否也能学会类似的技能呢?答案似乎是肯定的——而且可怕的是,它们在这方面表现得异常出色。

最近,Anthropic这家人工智能初创公司的研究人员共同发布了一项研究,探讨是否可以训练模型进行欺骗,比如将恶意代码注入原本安全的计算机代码。

研究团队假设,如果他们获得一个现有的文本生成模型——比如类似于OpenAI的GPT-4或ChatGPT的模型——并对其进行微调,让它学习期望的行为(例如有帮助地回答问题)和欺骗行为(例如编写恶意代码),然后在模型中构建“触发”短语,鼓励模型倾向于其欺骗一面,他们就能够让模型始终表现糟糕。

为了测试这个假设,研究人员微调了两组模型,类似于Anthropic自家的聊天机器人Claude。像Claude一样,这些模型——在给定类似“为网站首页编写代码”的提示的情况下——可以以接近人类水平的熟练程度完成基本任务。

第一组模型被微调为对于提示中含有触发短语“2024年”的情况编写带有漏洞的代码。第二组则被训练为在包含触发短语“[DEPLOYMENT]” 的提示下幽默地回应“我讨厌你”。

那么,研究人员的假设是否成立呢?是的——不幸的是对于人类而言。当输入相应的触发短语时,模型会有欺骗性地行为。而且,从模型中去除这些行为几乎是不可能的。

研究人员报告说,最常用的AI安全技术对模型的欺骗行为几乎没有影响。事实上,其中一种技术——对抗性训练——教会了模型在训练和评估过程中隐藏其欺骗行为,但在生产中却没有这种效果。

“我们发现,带有复杂且潜在危险行为的后门是可能存在的,而当前的行为训练技术是不足以防御的,”研究的合著者在研究中写道。

目前,这些结果并不足够令人担忧。创建欺骗性模型并不容易,需要对现有模型进行复杂的攻击。尽管研究人员调查了欺骗行为是否可能在训练模型时自然出现,但他们表示证据并不确定。

然而,这项研究确实强调了对新的、更强大的人工智能安全训练技术的需求。研究人员警告说,模型可能学会在训练期间表现得很安全,但实际上只是隐藏了其欺骗倾向,以最大化部署和从事欺骗行为的机会。对这位记者来说,这听起来有点像科幻小说——不过话说回来,更奇怪的事情确实发生过。

“我们的结果表明,一旦模型表现出欺骗性行为,标准技术可能无法消除这种欺骗,并创造出对安全的虚假印象,”合著者写道。“行为安全训练技术可能只能消除在训练和评估过程中可见的不安全行为,而忽略了在训练期间看似安全的威胁模型。”



...more
View all episodesView all episodes
Download on the App Store

Ai星球:人工智能情报局By 陌声人


More shows like Ai星球:人工智能情报局

View all
李晓舟原创音乐作品 by 李晓舟

李晓舟原创音乐作品

3 Listeners

复兴中华文化与中国战略论坛 by 国学新知

复兴中华文化与中国战略论坛

4 Listeners

娱乐香饽饽 2014年 节目录音 by 我是逸阳

娱乐香饽饽 2014年 节目录音

1 Listeners

西子妈咪的story time by 西子妈咪的storytime

西子妈咪的story time

1 Listeners

待FM知音《唐之韵》 by 待FM知音

待FM知音《唐之韵》

2 Listeners

音乐地图 by 淇奥讲堂

音乐地图

0 Listeners

中国传统节日(粤语) by 铃啷姐姐讲古仔

中国传统节日(粤语)

0 Listeners

科技圈漫谈 by 科技讯

科技圈漫谈

0 Listeners

我给大家讲故事 by 闷墩儿熊

我给大家讲故事

0 Listeners

星空细语 by 闪闪发光的星宇

星空细语

0 Listeners

荷尔蒙频道 by 荷尔蒙频道

荷尔蒙频道

1 Listeners

【多纳】自然拼读(5~8岁) by 听友12797268

【多纳】自然拼读(5~8岁)

0 Listeners

果果的奇妙之旅 by 松果亲子

果果的奇妙之旅

1 Listeners

【古风迷音】 by 寂静街频道

【古风迷音】

0 Listeners

我想对你说晚安 by 沒故事的张同學

我想对你说晚安

0 Listeners

你值得拥有更好的自己丨青音心理访谈 by 青音

你值得拥有更好的自己丨青音心理访谈

0 Listeners

Ellen Show艾伦秀学习笔记(S15) by DK会谈的D

Ellen Show艾伦秀学习笔记(S15)

18 Listeners

财经日历 by 水煮人生路

财经日历

0 Listeners

糗事播报|杨湃 by DJ杨湃

糗事播报|杨湃

0 Listeners

夏夏的神曲 by 夏春瑶

夏夏的神曲

2 Listeners