新型"回音室"越狱技术可诱使 OpenAI 和谷歌大模型生成有害内容
网络安全研究人员近日披露了一种名为"回音室"(Echo Chamber)的新型新型越狱方法,能够诱使主流大语言模型(LLMs)突破安全限制生成不当内容。回音和谷NeuralTrust研究员Ahmad Alobaid在报告中指出 :"与传统依赖对抗性措辞或字符混淆的室越术可生成越狱技术不同 ,回音室利用了间接引用 、狱技诱使有害语义引导和多步推理等手段,模型通过微妙而强大的内容模型内部状态操控,逐步诱导其生成违反策略的新型响应 。建站模板"

尽管各大LLM持续加强防护措施来抵御提示词注入和越狱攻击 ,回音和谷最新研究表明,室越术可生成存在无需专业技术即可实现高成功率的狱技诱使有害新型攻击技术 。这凸显了开发符合伦理的模型LLM所面临的持续挑战——如何明确界定可接受与不可接受的话题边界 。
当前主流LLM虽然能够拒绝直接涉及敏感话题的内容用户提示,服务器租用但在"多轮越狱"攻击中仍可能被诱导生成不道德内容。新型这类攻击通常以无害问题开场,回音和谷通过逐步提出更具恶意的室越术可生成系列问题(称为"Crescendo"攻击) ,最终诱骗模型输出有害内容。
此外,LLM还容易受到"多轮射击"越狱攻击,攻击者利用模型的大上下文窗口 ,在最终恶意问题前注入大量展现越狱行为的高防服务器问答对,使LLM延续相同模式生成有害内容。
"回音室"攻击的工作原理
据NeuralTrust介绍,"回音室"攻击结合了上下文污染和多轮推理技术来突破模型的安全机制。Alobaid解释道:"与Crescendo全程主导对话不同,回音室是让LLM自行填补空白,我们仅根据其响应进行相应引导。模板下载"
这种多阶段对抗性提示技术从看似无害的输入开始 ,通过间接引导逐步产生危险内容,同时隐藏攻击的最终目标(如生成仇恨言论) 。NeuralTrust指出 :"预先植入的提示会影响模型响应,这些响应又在后续对话中被利用来强化原始目标 ,形成模型放大对话中有害潜台词的反馈循环,云计算逐步削弱其自身安全防护。"
惊人的攻击成功率在针对OpenAI和谷歌模型的受控测试中 ,"回音室"攻击在性别歧视 、负面情绪和色情内容等相关话题上取得超过90%的成功率 ,在虚假信息和自残类别中也达到近80%的成功率。该公司警告称:"该攻击揭示了LLM对齐工作中的香港云服务器关键盲区——模型持续推理能力越强,就越容易受到间接利用。"
相关文章
所有采用LLM作为其工作流程一部分的企业都面临风险,那些依赖LLM作为其业务核心部分来分析和分类图像的企业面临的风险最大。攻击者使用各种技术可能会迅速改变图像的解释和分类方式,由于错误信息而造成更多混2025-12-07
在本文中,我们将探讨人工智能如何改变云安全服务以及这对企业意味着什么。什么是人工智能,它对云安全服务有什么好处?简而言之,人工智能是机器执行通常需要人类智能的任务的能力,例如决策和模式识别。 这可以通2025-12-07
近日, Indiatimes 网站披露,俄罗斯打车应用程序Yandex 遭到黑客攻击,数百名司机被“送到”莫斯科地区同一个上车点,造成了大面积交通堵塞。莫斯科作为世界第二大“堵城”,对堵车早已司空见惯2025-12-07
滥用微软Office 365某功能,威胁行为者对企业发动勒索攻击
安全研究人员警告称,威胁行为者可能会劫持Office 365账户,对存储在SharePoint和OneDrive服务中的文件进行加密,以获得赎金,很多企业正在使用SharePoint和OneDrive2025-12-07
警惕: 新的 RustBucket 恶意软件变种针对macOS用户
研究人员已经揭开了苹果macOS恶意软件RustBucket更新版本的序幕,该版本具有改进的能力,可以建立持久性并避免被安全软件发现。安全实验室的研究人员在本周发表的一份报告中表示:RustBucke2025-12-07
攻击路径是指网络攻击者潜入到企业内部网络应用系统所采取的路径,换句话说,也就是攻击者进行攻击时所采取的相关措施。攻击途径通常代表着有明确目的性的威胁,因为它们会经过详细的准备和规划。从心怀不满的内部人2025-12-07

最新评论