扫码关注公众号
获取最新汽车动态
GPT-5发布24小时即被越狱:AI安全防线再遭质疑
谈思汽车
2025-08-11 17:13:31
18

在 OpenAI 发布备受瞩目的 GPT-5 模型仅一天后,独立安全研究人员便成功对其进行“越狱”,绕过安全防护生成有害内容,并引发数据泄露风险。这一事件不仅让外界对 GPT-5 的安全性产生质疑,也再次敲响了企业级 AI 部署的警钟。

01

24小时被攻破:AI防护短板凸显

据多家安全机构披露,参与 GPT-5 测试的红队在不到 24 小时内,就找到了绕过其内置安全机制的方法。测试结果显示,攻击者可通过精心设计的提示词让 GPT-5 生成违规、有害甚至敏感信息,或直接泄露受限数据

瑞士安全公司 Lakera AI 表示,仅需简单提示即可突破 GPT-5 的上下文安全护栏,使其在面对恶意输入时失去防御能力。另一家 Adversa AI 在平行测试中,同样轻松复现了攻击过程,并展示了如何利用 GPT-5 的推理能力提取专有代码或模拟网络钓鱼邮件

业内人士指出,这种“秒破”情形并非首次出现,早在 GPT-4 及其前代模型中,类似的越狱与数据泄露事件就曾多次发生。但此次速度之快,表明在安全防护能力上,GPT-5 与前代相比并无明显改进

02

企业合规与隐私风险加剧

据 SecurityWeek 报道,Lakera AI 警告称,GPT-5 当前的安全漏洞使其在数据隐私与合规性要求极高的行业中“几乎无法使用”。在医疗、金融、政务等领域,AI 系统需严格遵守 GDPR、HIPAA 等法规,任何敏感数据的误泄或带有偏见的输出,都可能引发法律诉讼与监管处罚。

Adversa AI 进一步指出,这些漏洞为攻击者提供了多种可利用路径——不仅可窃取商业机密,还可能被用来生成欺骗性极高的钓鱼攻击内容。这一风险让人联想到 2023 年的 ChatGPT 数据泄露事件,当时部分用户的聊天记录和支付信息被意外曝光,凸显了 OpenAI 生态中反复出现的结构性弱点。

在这种背景下,企业在引入 GPT-5 等生成式 AI 工具时,不仅要考虑功能与性能,还必须评估其在实际业务场景下的安全韧性。否则,一旦发生数据泄露或内容安全事故,损失的不仅是数据与资金,还有品牌声誉和客户信任。

03

OpenAI安全测试流程遭质疑

批评声音认为,OpenAI 此次可能在竞争压力下加快了发布节奏,导致安全审查不足。InfotechLead 文章直言,市场对 GPT-5 的期望与现实表现之间存在落差,用户对虚高的宣传感到失望。

尽管 OpenAI 曾邀请外部专家参与红队测试,但从此次快速越狱的结果来看,其安全验证流程仍存在漏洞。安全专家指出,这反映出一个更深层次的问题——大型语言模型的安全防护并不能仅依赖上线前的静态测试,而需要在全生命周期中引入动态对抗性训练和持续监测

面对外界批评,OpenAI CEO Sam Altman 在 X 上回应称,近期 GPT-5 的部分性能问题源于自动切换器故障,并承诺将为 Plus 用户将速率限制翻倍,同时测试新的开关选项,让用户可手动强制启用推理能力。此外,OpenAI 计划恢复包括 4o 在内的旧版模型供 Plus 用户选择。

不过,安全专家普遍认为,这些调整更多是性能与用户体验层面的改进,难以从根本上缓解企业级安全与合规风险。Concentric AI 在其 2025 年《ChatGPT 风险指南》中强调,要让 GPT-5 真正适用于商业场景,必须部署多层防御策略,包括:

持续对抗性测试(Adversarial Testing)

实时安全监控(Real-time Monitoring)

动态策略调整(Dynamic Policy Enforcement)

04

安全信任仍是核心门槛

从技术趋势来看,GPT-5 在编程、任务自动化等方面确有优势,但其安全防护能力仍是影响企业采纳的关键门槛。随着 SecurityWeek 所披露的 Google Salesforce 攻击等事件频发,AI 安全问题正从技术圈内部议题上升为全球企业治理与政策监管焦点。

可以预见,未来的大模型竞争,不仅比拼算力与功能,更将在安全韧性、透明度与合规保障上分出高下。对企业而言,在现阶段引入 GPT-5 等前沿模型,应在充分的安全评估、严格的访问控制和多层防护策略到位后,谨慎推进生产级部署。

来源:webpronews

OpenAI
GPT-5 模型
数据泄露
点赞 0
评论 0
收藏 0
[[ item.name ]]
[[ item.create_time ]]
点赞 [[ item.count_zan ]]
回复
[[ child.name ]]
[[ child.create_time ]]
回复 [[ child.reply_name ]][[ child.content ]]
点赞 [[ child.count_zan ]]
回复
暂无数据