Anthropic与牛津、斯坦福和MATS的研究人员开发了Best-of-N(BoN)越狱算法,通过简单的文本变体(如随机大小写、拼写错误等)突破AI系统的安全限制。测试显示,该方法在10,000次尝试内,能以超过50%的成功率突破包括Claude 3.5、GPT-4o、Gemini-1.5等主流AI模型的安全机制。
研究还发现,通过调整语音的速度、音调、音量或图像的字体、背景色、大小等参数,同样能绕过AI系统的安全防护。这种自动化的突破方法,与此前用户手动绕过Microsoft Designer、ElevenLabs等平台安全限制的方式类似。
Anthropic表示,该研究成果将有助于开发更好的防御机制。值得注意的是,目前市面上已存在多个无限制的AI模型,可直接生成有害内容。
Anthropic与牛津、斯坦福和MATS的研究人员开发了Best-of-N(BoN)越狱算法,通过简单的文本变体(如随机大小写、拼写错误等)突破AI系统的安全限制。测试显示,该方法在10,000次尝试内,能以超过50%的成功率突破包括Claude 3.5、GPT-4o、Gemini-1.5等主流AI模型的安全机制。
研究还发现,通过调整语音的速度、音调、音量或图像的字体、背景色、大小等参数,同样能绕过AI系统的安全防护。这种自动化的突破方法,与此前用户手动绕过Microsoft Designer、ElevenLabs等平台安全限制的方式类似。
Anthropic表示,该研究成果将有助于开发更好的防御机制。值得注意的是,目前市面上已存在多个无限制的AI模型,可直接生成有害内容。