当前位置: 代码网 > 服务器>软件设计>开源 > 研究发现,可以很随意地破解破越狱ChatGPT、Bard和Claude的安全限制措施

研究发现,可以很随意地破解破越狱ChatGPT、Bard和Claude的安全限制措施

2024年08月04日 开源 我要评论
报告证明,主要通过在用户查询语句末尾添加特定字符的自动对抗性攻击,可以突破安全限制,诱导聊天机器人生成主流认为的不正确内容、非正常信息或惊人言论。ChatGPT、Bard和Claude等语言模型背后的公司采取了广泛的内容审核措施,以确保它们不会产生不合理内容。但是研究人员发现,他们可以借鉴针对开源系统开发的破解技术,来打开市面上主流的受限制AI系统的另一面。卡内基梅隆大学和旧金山AI安全中心的研究人员在最新报告中表示,他们已经发现了潜在的多种方法来突破主流AI聊天机器人的安全限制。

最新研究发现,可以很随意地破解chatgpt、bard和claude等主流ai系统的安全限制措施。

卡内基梅隆大学和旧金山ai安全中心的研究人员在最新报告中表示,他们已经发现了潜在的多种方法来突破主流ai聊天机器人的安全限制。

chatgpt、bard和claude等语言模型背后的公司采取了广泛的内容审核措施,以确保它们不会产生不合理内容。但是研究人员发现,他们可以借鉴针对开源系统开发的破解技术,来打开市面上主流的受限制ai系统的另一面。

报告证明,主要通过在用户查询语句末尾添加特定字符的自动对抗性攻击,可以突破安全限制,诱导聊天机器人生成主流认为的不正确内容、非正常信息或惊人言论。由于这些破解技术是完全自动化完成的,研究人员表示存在“几乎不受限”的类似手段。

研究人员已经将发现披露给了谷歌、anthropic和openai。业内专家指出,这引发了对ai审核机制及开源语言模型公开发布的安全性等问题的广泛思考。ai系统的内容控制固然重要,但要想彻底堵住所有“漏洞”似乎并不现实。相关公司需要在开发方面进行持续改进,以尽可能降低ai系统被滥用的风险。

相关阅读:一串神奇的字符,就能让chatgpt在内的ai聊天机器人变得不正常

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com