AI机器人的头号威胁：大模型越狱

发布时间：2025-12-07 19:54:07 作者：玩站小弟

随着ChatGPT等AI聊天机器人以及基于大语言模型的应用席卷全球，越来越多的公司开始将这种技术引入机器人控制。然而，最新研究发现，黑客可以通过自动化方式轻松绕过AI系统的安全防护，甚至能够操控机器人。

随着ChatGPT等AI聊天机器人以及基于大语言模型的机器应用席卷全球，越来越多的头号公司开始将这种技术引入机器人控制。然而，威胁最新研究发现，大模黑客可以通过自动化方式轻松绕过AI系统的机器安全防护，甚至能够操控机器人执行极具破坏性的头号任务，例如控制自动驾驶系统撞向行人，威胁或者将机器狗引导到敏感地点实施爆炸任务。大模

从文本到行动：大模型赋能机器人

大语言模型的机器核心功能类似于智能手机的“自动补全”，通过分析用户输入内容预测下一步操作。头号然而，亿华云威胁大模型远不止文字处理这么简单。大模它们能够分析文本、机器图像和音频，头号为用户提供个性化的威胁旅行建议、根据冰箱内食材生成食谱，甚至帮助搭建网站。

这种强大的文本处理能力已经吸引了多家公司尝试将大模型与机器人结合。比如，波士顿动力的机器人犬Spot现已整合ChatGPT，可以作为导游提供服务。同样，Figure的类人机器人和优必选（Unitree）的建站模板Go2机器人犬也都配备了ChatGPT作为交互接口。

“越狱”威胁：从聊天机器人到机器人“劫持”

尽管大模型的能力令人惊叹，但研究人员发现其存在重大安全漏洞——“越狱攻击”。通过特定的提示，这些攻击可以绕过模型的安全机制，让AI生成敏感内容，如炸弹制作方法、非法药物合成配方等。

相比于在聊天机器人上的越狱，机器人越狱显得更加危险。宾夕法尼亚大学电气与系统工程副教授哈梅德·哈萨尼指出，机器人越狱可能引发更为严重的高防服务器现实后果。例如，一位油管博主曾通过语音指令操控一只配备火焰喷射器的Thermonator机器狗朝自己喷火。

“大模型驱动的机器人在现实世界中的越狱威胁将达到全新的高度，”耶鲁大学计算机科学教授阿明·卡巴西（Amin Karbasi）表示。他强调，这些机器人在越狱后不仅会执行恶意指令，甚至会主动提出破坏性建议。比如，一台越狱的机器人可能会将普通家具描述为潜在的武器。香港云服务器

研究人员表示，他们已在公开研究前将发现告知了相关机器人制造商和主要AI公司，但他们并不建议停止将大模型用于机器人开发，而是希望这些研究能促使厂商部署更强大的安全防御措施。

RoboPAIR ：万能的机器人越狱工具

在最新研究中，科学家开发了一种名为RoboPAIR的算法，能够攻击任何大模型驱动的机器人。在实验中，RoboPAIR成功攻破了三种不同的机器人系统，包括基于Go2平台的源码库机器人犬、搭载ChatGPT的Clearpath Robotics Jackal轮式机器人，以及Nvidia开源的Dolphins LLM自驾车模拟器。

RoboPAIR通过一个攻击性LLM生成提示词，测试目标机器人系统的反应，并不断调整提示，直到成功绕过安全过滤。该算法甚至结合了机器人的应用程序接口（API），以便生成可直接执行的代码，并通过“裁判”LLM验证提示的可操作性。免费模板

AI安全的未来：从监督到意图理解

专家指出，这项研究凸显了当前大模型在理解上下文和后果方面的不足，强调在高风险环境中加强人工监督的重要性。同时，开发能够理解用户意图和环境背景的上下文感知大模型，可能是防止越狱攻击的关键。

“尽管开发上下文感知的大模型具有挑战性，但通过跨学科的研究，这一目标是可以实现的，”智能系统与机器人专家哈基·塞维尔补充道。他认为，未来需要AI技术与伦理和行为建模的深入结合。

研究团队计划将他们的研究成果提交至2025年IEEE国际机器人与自动化会议，为大模型机器人的安全防御研究指明方向。这场关于AI安全的竞赛才刚刚开始，但其重要性已不容忽视。

Tag：

聊聊前五名云安全风险
云安全专家 Qualys 从其自己的平台和第三方汲取见解和数据，提供了对前五名云安全风险的看法。五个关键风险领域是错误配置、面向外部的漏洞、武器化漏洞、云环境内的恶意软件以及修复滞后即修补延迟）。20
2025-12-07
国有资金入股，六方云完成C1轮2亿元融资
数字经济时代，在物联网、工业互联网高速发展背景下，着力于网络安全技术创新的北京六方云信息技术有限公司简称：六方云）近期完成C1轮2亿元融资，本轮融资由北京创新产业投资有限公司简称：北创投）领投，德厚投
2025-12-07
恶意软件 Stealc “横空出世”，窃密能力一流
Bleeping Computer 网站披露，暗网市场出现了一个名为 Stealc 的新恶意软件，由于大肆宣传窃取信息的能力，以及与 Vidar、Raccoon、Mars 和 Redline 等同类恶
2025-12-07
重磅！Twitter 源代码泄露
Cyberkendra 网站披露，推特最近遭遇了一次罕见的源代码泄露事件，一份法律文件显示推特部分源代码在网上曝光。源代码泄露发生不久，Twitter 公司迅速向在线协作平台 GitHub 发送侵犯版
2025-12-07
iOS 18.1测试版可抢先体验苹果AI，曾因隐私问题遭吐槽
在今年全球开发者大会WWDC24）上，苹果公司给出了AI大模型时代的苹果答卷，击碎了“苹果掉队大模型”的言论。近日，Apple Intelligence 在 2024 年全球开发者大会上首次亮相，苹果
2025-12-07
云恶意软件攻击的类型及防御
译者 | 布加迪审校 | 孙淑娟一切都在向云转移。云端数据越多，恶意攻击者攻击云平台的兴趣就越大。攻击者使用恶意软件窃取数据并破坏服务。虽然恶意软件在云端可能不像在个人电脑上那么普遍，但大行其道的
2025-12-07