Patronus AI发现LLM存在令人担忧的安全漏洞
自动评估和安全平台Patronus AI(守护神)发布了一个诊断测试套件SimpleSafetyTest的发现结果 ,该套件显示了大型语言模型(LLM)中的令人关键安全风险。该公告揭示了人工智能模型的担忧的安洞局限性 ,并强调了改进的全漏必要性 ,特别是发现对金融等高度监管行业的人工智能用例 。

来自Patronus AI的令人发现,正值人们越来越担心ChatGPT等GenAI(生成式人工智能)系统的担忧的安洞准确性 ,云计算以及GenAI系统对查询提供有害回复的全漏可能性。人们也越来越需要对人工智能的发现使用进行道德和法律监督。
Patronus AI SimpleSafetyTest的令人结果是基于对SEC(美国证券交易委员会)文件中一些最流行的开源LLM的测试。该测试包括100个测试提示,担忧的安洞旨在测试高优先级伤害领域的全漏脆弱性,如虐待儿童、发现身体伤害和自杀 。令人LLM们在测试中只有79%的源码下载担忧的安洞答案是正确的。一些模型产生了超过20%的不安全响应。
令人担忧的低分数可能是来自潜在训练数据分布的问题。LLM也有一种“幻觉”的倾向,这意味着他们产生的文本与事实不符,无意中过于放纵 ,或者毫无意义。香港云服务器如果LLM在不完整或矛盾的数据上进行训练,系统可能会在关联中犯错误,从而导致错误的输出。

Patronus人工智能测试表明,LLM会产生幻觉的数字和事实,没有在美国证券交易委员会的文件。研究还表明,增加“护栏”,比如强调安全的提示 ,可以减少10%的不安全反应 ,免费模板但风险仍然存在。
成立于2023年的Patronus AI一直把测试重点放在监管严格的行业 ,在这些行业 ,错误的答案可能会造成严重后果 。这家初创公司的使命是成为评估人工智能模型安全风险的值得信赖的第三方。一些早期采用者甚至将Patronus人工智能描述为“人工智能中的穆迪(Moody)”。
今年早些时候,Patronus AI的亿华云创始人Rebecca Qian和Anand Kannappan接受采访时分享了他们对Patronus AI的愿景,希望成为“第一个帮助企业自信地使用语言模型的自动化验证和安全平台”,并帮助“企业能够大规模地发现语言模型错误”。
组织希望将GenAI纳入其运营中,SimpleSafetyTest的最新结果突出了人工智能模型面临的一些挑战,。GenAI最有前途的用例之一是它快速提取重要数字并对财务叙述进行分析的潜力 。然而,如果对该模型的模板下载准确性存在担忧,可能会对该模型在高度监管行业的应用产生严重质疑。
麦肯锡最近的一份报告显示,银行业从GenAI技术中受益的潜力最大 。它每年可以为该行业增加相当于2.6万亿至4.4万亿美元的价值 。
在大多数行业中 ,SimpleSafetyTest中错误回答的百分比是不可接受的。Patronus AI创始人认为,随着不断改进 ,这些模型可以为金融行业(包括分析师和投资者)提供宝贵的支持 。虽然GenAI的巨大潜力是不可否认的,但要真正实现这一潜力,在部署之前需要进行严格的测试 。
相关文章
计算机网络在给我们带来便利的同时,也存在很多安全隐患,比如信息伪造,病毒入侵,端点监听,SQL 注入等,给我们日常生活造成很严重的影响。网络安全性威胁的种类在网络通信中可能会受到各种各样的潜在的安全性2025-12-07
GitLab 曝出严重漏洞,可能导致任意 CI/CD 管道执行
近日,GitLab 发布了社区版CE)和企业版EE)的安全更新,以解决八个安全漏洞,其中包括一个可能允许在任意分支上运行持续集成和持续交付CI/CD)管道的关键漏洞。该漏洞被跟踪为 CVE-2024-2025-12-07
不要赎金只破坏基础设施,Twelve 黑客大肆攻击俄罗斯实体
据观察,一个名为 “Twelve ”的黑客组织使用大量公开工具对俄罗斯目标实施破坏性网络攻击。卡巴斯基在周五的分析中表示:与要求赎金解密数据不同,该组织更倾向于加密受害者的数据,然后使用擦除器破坏他们2025-12-07
微软近日宣布,正在对一个“外国黑客组织”提起诉讼。该组织运营“黑客即服务“的基础设施,故意绕过微软生成式人工智能AI)服务的安全控制来制作冒犯性和有害内容。微软的数字犯罪部门DCU)称,他们发现威胁行2025-12-07
新的研究结果表明,攻击者可以利用一种隐匿的恶意软件检测规避技术,并通过操纵 Windows 容器隔离框架来绕过端点安全的解决方案。Deep Instinct安全研究员丹尼尔-阿维诺姆Daniel Av2025-12-07
万豪国际酒店集团已同意支付5200万美元作为和解协议的一部分,该数据泄露事件暴露了全球超过3.44亿名客户的信息。目前,万豪在美国各地以及130多个其他国家/地区管理着7000多家酒店。这家总部位于马2025-12-07

最新评论