社区 » 步行街 » 职场区 » 最新研究揭示人工智能...

最新研究揭示人工智能模型存在自动化越狱漏洞

0回复/ 0亮644 浏览

虎扑JR1249669866(1级)楼主2024-12-25 17:51:33发布于广东

最新研究揭示人工智能模型存在自动化越狱漏洞由虎扑JR1249669866 发表在职场区 https://bbs.hupu.com/workplace

Anthropic与牛津、斯坦福和MATS的研究人员开发了Best-of-N(BoN)越狱算法，通过简单的文本变体（如随机大小写、拼写错误等）突破AI系统的安全限制。测试显示，该方法在10,000次尝试内，能以超过50%的成功率突破包括Claude 3.5、GPT-4o、Gemini-1.5等主流AI模型的安全机制。

研究还发现，通过调整语音的速度、音调、音量或图像的字体、背景色、大小等参数，同样能绕过AI系统的安全防护。这种自动化的突破方法，与此前用户手动绕过Microsoft Designer、ElevenLabs等平台安全限制的方式类似。

Anthropic表示，该研究成果将有助于开发更好的防御机制。值得注意的是，目前市面上已存在多个无限制的AI模型，可直接生成有害内容。

Anthropic与牛津、斯坦福和MATS的研究人员开发了Best-of-N(BoN)越狱算法，通过简单的文本变体（如随机大小写、拼写错误等）突破AI系统的安全限制。测试显示，该方法在10,000次尝试内，能以超过50%的成功率突破包括Claude 3.5、GPT-4o、Gemini-1.5等主流AI模型的安全机制。

研究还发现，通过调整语音的速度、音调、音量或图像的字体、背景色、大小等参数，同样能绕过AI系统的安全防护。这种自动化的突破方法，与此前用户手动绕过Microsoft Designer、ElevenLabs等平台安全限制的方式类似。

Anthropic表示，该研究成果将有助于开发更好的防御机制。值得注意的是，目前市面上已存在多个无限制的AI模型，可直接生成有害内容。

评论

收藏

举报

只看楼主

社区 » 步行街 » 职场区 » 最新研究揭示人工智能...

Re：最新研究揭示人工智能模型存在自动化越狱漏洞

虎扑游戏中心

广告

为学子打call,为青春喝彩!

广告

IP正版改编，动画声优加盟，沉浸体验斗罗世界

广告

NBA全新赛季，从这里开始！

广告

签约绝对巨星，组建梦之队！

广告

豪门大腿集结，100抽豪爽送，抽到手软！

职场区最热帖

打工人回家过年「报喜不报忧」的心理是否存在？如何看待这种心理状态？

50亮 131回复

社招offer选择(帮帮小弟)

有没有大哥懂乡镇事业编的

职场困惑 | 在濒临倒闭的公司，记录过程2024.12.25

外企裁员这赔偿属实让人叹服！

机架嵌入式七氟丙烷灭火装置——助力数据中心消防安全

你向领导敬酒，领导说「如果没记错的话，你是小王吧」，其实你姓李，你该怎么回复？

为什么大部分底层人民，宁愿送外卖，也不进厂打工了？

50亮 282回复

国企待的心累

33亮 111回复

热门游戏-即点即玩

无需下载，足球经理模式一键即玩

《NBA英雄》教练系统上线啦！我选好了，看看你的