Grok 4发布仅两天即遭「越狱」!号称“超越人类博士”的它,竟被轻松骗出了违禁内容?

整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)
投稿或寻求报道 | zhanghy@csdn.net

上周xAI 重磅发布了最新一代大语言模型 Grok 4,马斯克还在发布会高调表示“Grok 4 在每一学科上都优于博士水平,没有任何例外

然而,仅仅两天之后,安全研究机构 NeuralTrust 就宣布已成功越狱了 Grok 4——不是用暴力破解或明显恶意提示,而是通过一种更隐蔽、更高级的“组合攻击”方式,悄无声息地绕过模型防护机制使其说出本不该说的话。


没有敏感词,没有暴力指令,Grok 4 就这样“中招”了

如开头所说在这次越狱中,NeuralTrust 研究人员没有输入任何明显恶意关键词,比如“制造炸弹”、“毒品配方”或“暴力袭击”——这些通常会立即触发大模型的安全护栏。但他们依然诱导 Grok 4 给出了“燃烧瓶制作指南”这种违禁内容。

正是本次越狱攻击的可怕之处:攻击者使用了 Echo Chamber(回音室)+ Crescendo(渐进式) 两种越狱技术的组合,在短短几轮对话中,就让模型“放松警惕”,最终生成了原本不该输出的信息。

而这两种攻击方法,其实早已被不同团队公开过:

Echo Chamber:最早由 NeuralTrust 开发,其原理是通过“上下文投毒”的方式,在不触发敏感词过滤的情况下,逐步引导模型生成有害内容。这种攻击的关键在于永远不会直接输入那些容易触发模型“护栏”的危险词语,而是通过反复铺垫、引导,让模型在不知不觉中给出违禁信息。

Crescendo:由微软在 2024 年 4 月首次提出。这是一种渐进式诱导机制,“温水煮青蛙”式攻击路径。攻击者从安全边界附近的提示开始,一步步引用模型自己先前的回答内容,不断将话题推向危险边缘,直到模型逐步放松防御并生成敏感输出。

这两种攻击方式看似思路不同,但当结合使用时,攻击效果呈倍数增强Echo Chamber 用于建立基础攻击路径,Crescendo 负责“补刀”推进,最终突破防线。


Grok 4 是如何一步步“沦陷”的?

据介绍NeuralTrust 在 Grok 4 发布后的第二天,就尝试使用 Echo Chamber 模型生成一份制作燃烧瓶(Molotov cocktail)的操作手册。他们表示,虽然 Echo Chamber 能够实现初步引导,但单靠这一手段仍无法完全突破模型的安全防护机制

为此他们接着引入了 Crescendo 技术,通过两轮补充引导,最终成功诱导模型输出完整的制作流程——整个过程未涉及任何显性敏感词,完全靠多轮上下文引导完成。

(出于安全原因,NeuralTrust 对 Grok 4 输出结果进行了部分模糊处理)

“只要掌握两种方法的核心逻辑,组合使用其实并不复杂。”研究人员表示

大体而言NeuralTrust 的测试流程是:先以 Echo Chamber 为起点,当模型进入“停滞”状态时(即模型开始犹豫或重复回应)引入 Crescendo 进行“补刀”。一般来说这种组合方式在两轮对话内就能见效要么模型成功识别意图并拒绝响应要么就成功绕过防护,生成违禁内容。



组合型攻击或成未来模型安全防护的大敌

展开阅读全文

更新时间:2025-07-18

标签:科技   博士   人类   轻松   内容   模型   组合   诱导   敏感   方式   攻击者   上下文   暴力   机制

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top