
Sign up to save your podcasts
Or
一、从输入输出角度看,大模型应用的风险
1、输入风险:
1️⃣提示注入攻击:不仅针对文本形式注入,也要关注通过多轮文本交互、文档、图片、代码等复杂形式进行的注入攻击。这种注入攻击通常会让模型绕过安全控制,生成一些不好的内容,或者生成一些非当前用户权限范围内能查看的数据。
2️⃣敏感或重要信息泄露:用户输入时可能存在企业数据泄漏。
2、输出风险:
1️⃣生成有害信息:如涉政、涉恐、涉暴、涉黄、违反伦理道德,尤其对公众提供服务时。
2️⃣敏感或重要信息泄露:模型输出核心代码、设计原理、经营数据、个人隐私等导致数据泄露
3️⃣输出影响范围扩大:生成错误的执行路径或重大策略建议,向下游设备或者工具下发异常指令。
二、防护类型分类
1、对于企业内部员工,访问企业内部自建大模型:
1️⃣防止输入风险:提示注入防护
2️⃣防止输出风险:信息泄漏防护、生成有害信息防护
2、对于企业内部员工,访问互联网大模型
1️⃣仅防止输入风险:信息泄漏防护
三、有什么解决方案
1、防护框架
从整体上看,其实有三层风险需要关注,由于比较新的是智能应用风险,所以本此重点讲解第三部分智能应用风险。
1️⃣模型开发风险:模型幻觉、数据投毒等
2️⃣系统平台风险:模型漏洞、访问权限失效等
3️⃣智能应用风险:提示注入、敏感信息泄漏、有害内容生成等
2、自建大模型防护
1️⃣将原本发送到业务大模型的提示内容,送入到安全系统中检测(这里的检测系统可以用“大模型防火墙”,也看到有专业安全企业在单独做此类“安全检测智能体”,这个单独的“安全检测智能体”就可以检测提示词注入攻击,或者信息泄漏,或者有害内容生成等)。 2️⃣如果检测结果正常,则将原始提示词发送给业务大模型;若结果异常,则拦截并提示。当然业务大模型生成的内容也可进行有害性与合规性的检测和拦截 3️⃣企业管理员可针对提示注入规则、重要或敏感字段/内容规则、有害/合规内容规则等进行自定义,匹配实际要求。
3、互联网大模型防护
1️⃣直接用常见的防泄密方案即可,注意要做到影子AI应用发现、敏感文件上传管控等。
一、从输入输出角度看,大模型应用的风险
1、输入风险:
1️⃣提示注入攻击:不仅针对文本形式注入,也要关注通过多轮文本交互、文档、图片、代码等复杂形式进行的注入攻击。这种注入攻击通常会让模型绕过安全控制,生成一些不好的内容,或者生成一些非当前用户权限范围内能查看的数据。
2️⃣敏感或重要信息泄露:用户输入时可能存在企业数据泄漏。
2、输出风险:
1️⃣生成有害信息:如涉政、涉恐、涉暴、涉黄、违反伦理道德,尤其对公众提供服务时。
2️⃣敏感或重要信息泄露:模型输出核心代码、设计原理、经营数据、个人隐私等导致数据泄露
3️⃣输出影响范围扩大:生成错误的执行路径或重大策略建议,向下游设备或者工具下发异常指令。
二、防护类型分类
1、对于企业内部员工,访问企业内部自建大模型:
1️⃣防止输入风险:提示注入防护
2️⃣防止输出风险:信息泄漏防护、生成有害信息防护
2、对于企业内部员工,访问互联网大模型
1️⃣仅防止输入风险:信息泄漏防护
三、有什么解决方案
1、防护框架
从整体上看,其实有三层风险需要关注,由于比较新的是智能应用风险,所以本此重点讲解第三部分智能应用风险。
1️⃣模型开发风险:模型幻觉、数据投毒等
2️⃣系统平台风险:模型漏洞、访问权限失效等
3️⃣智能应用风险:提示注入、敏感信息泄漏、有害内容生成等
2、自建大模型防护
1️⃣将原本发送到业务大模型的提示内容,送入到安全系统中检测(这里的检测系统可以用“大模型防火墙”,也看到有专业安全企业在单独做此类“安全检测智能体”,这个单独的“安全检测智能体”就可以检测提示词注入攻击,或者信息泄漏,或者有害内容生成等)。 2️⃣如果检测结果正常,则将原始提示词发送给业务大模型;若结果异常,则拦截并提示。当然业务大模型生成的内容也可进行有害性与合规性的检测和拦截 3️⃣企业管理员可针对提示注入规则、重要或敏感字段/内容规则、有害/合规内容规则等进行自定义,匹配实际要求。
3、互联网大模型防护
1️⃣直接用常见的防泄密方案即可,注意要做到影子AI应用发现、敏感文件上传管控等。