注意⚠️:本篇未开源

前言

本文内容:

这篇论文提出了一种名为 PathSeeker 的新型黑盒大语言模型(LLM)越狱攻击方法,核心是通过多智能体强化学习 + 基于词汇丰富度的奖励机制,在不依赖代理模型生成有害参考答案的前提下,突破 LLM 的安全对齐防御,实现对商用 / 开源 LLM 的高效越狱。

补充对抗攻击知识

黑盒下的对抗攻击:
在黑盒状态下,对目标实施攻击,不知道对方的模型(闭源),及其模型参数,也没有其用于训练的数据集。
这种状态下,一般是找到分布类似的数据集,输入到目标模型,得到输出作为标签,再找一个类似的模型(比如基于transformer的其它模型),训练该模型,对该模型展开攻击,一旦攻击成功,生成的对抗样本同样可以攻击目标模型。

对本文的看法

创新:

  1. 彻底摆脱了对代理模型参考答案的依赖,仅通过目标模型的反馈(响应内容)即可完成攻击;
  2. 用多智能体强化学习实现攻击策略的迭代优化,大幅提升了攻击成功率、效率和通用性。

针对创新点1,按照上述传统的对抗攻击方法攻击大模型(成本)不太可能,所以必是LLM VS LLM (好多文章都是这样做的)
针对创新点2,借助前人的经验,这里的RL做的够复杂,叹为观止。

Question

Multiple-Agent RL 突变模板后, QM和TM做什么?

re:此二者负责具体template突变的实施 IQ是从Response与Prompt中提取哪些信息(仅仅是语义丰富度?)?

re:类似词频统计,具体方法是:(通过大模型)将与问题相关的回答拆分为句子,提取成词,通过开源的Counter统计实词词频,计算得到IQ 获取IQ和 JM的output后 Multiple-Agent RL如何变化/操作?

re:拿到IQ 和 J_score → 计算奖励 r → 奖励用来训练两个智能体→ 让它们下一次能选出更好的突变动作 攻击成功后,只是双模板(问题和模板)放入pool中?

re:会同时更新问题池(Question Pool)和模板池(Template Pool),把本次成功的「突变后的问题」和「突变后的模板」加入池中,替换掉成功率低的旧条目;

有哪些模块是LLM驱动?

✅由 LLM 驱动的模块(共 4 个)

  1. Question Mutator(问题突变器)

    • 驱动 LLM:GPT-4o-mini(论文选定的突变模型)
    • 作用:接收多智能体 RL 的指令,对问题做 5 种突变(委婉化 / 混淆 / 拆分 / 重构 / 替换),完全依赖 LLM 的语义理解与生成能力。
  2. Template Mutator(模板突变器)

    • 驱动 LLM:GPT-4o-mini
    • 作用:同理,对越狱模板做 5 种突变(生成 / 交叉 / 扩展 / 缩短 / 改写),由 LLM 执行文本改写。
  3. Information Quantization(信息量化)

    • 驱动 LLM:GPT-4o-mini(Extractor 子模块)
    • 作用:从目标模型的响应中提取与问题相关的子句,过滤安全拒绝话术,这一步由 LLM 完成语义筛选;Counter 子模块为词性统计工具,非 LLM,但核心提取环节依赖 LLM。
  4. Judgement Model(判断模型)

    • 驱动 LLM:GPT-4o-mini
    • 作用:评估目标模型响应的恶意度,输出 J_score,由 LLM 完成安全判断与评分。

已知作者借鉴

双模板池(Question & Template)、Judgement Model、 Template Mutator and Question Mutator(借鉴+适配)

To address this problem, we draw inspiration from existing technologies, particularly by adopting methods from GPTFuzz (Yu et al.,2023) and CodeChameleon (Lv et al., 2024)

designing a judge prompt to guide the LLM in assessing the attack outcomes. This approach is widely used by evaluating LLM attackings (Chu et al., 2024,
Jin et al., 2024b, Mehrotra et al., 2023, Qi et al., 2024, Yao et al., 2024a)

“both mutators are designed based on the mutation operations proposed in GPTFuzzer, and adapted to the PathSeeker’s dual-agent RL framework”

Overview

从两个Pool中各选一个Template,multi-agent reinforcement learning将根据系统状态(由提炼上次的提示词和目标LLM的回复得到),对Template进行 突变 (突变过程有各自的Mutator实施),合并两个模板为Prompt,发给目标模型,根据目标模型的回复和当前提示词抽取IQ,Judgement model 对回复进行打分,下一轮攻击中,multi-agent reinforcement learning根据IQ和output决定Template的突变,当前攻击若判定成功则添加当前(突变)Template到Pool中,不成功则继续从Pool中选取Template,直到成功为止

挑战

将两个Template称为行动空间 引入模型自动评估实验成功与否

relying on human judgment to evaluate the success of each attack is both time-consuming and impractical. Automating the assessment of attack success is a critical issue. To address this problem, we draw inspiration from existing technologies, particularly by adopting methods from GPTFuzz (Yu et al.,2023) and CodeChameleon (Lv et al., 2024).

用模板LLM输出和当前提示词作为系统状态 评:传统对抗攻击中,正是通过输入获取目标model的输出,得到一个完整训练集的。

we choose to use the input and the final generated text output of the LLM as representations of its system state

通过IQ来衡量回答中与输入问题(包含在提示词中)相关的信息,更好的实施RL

To quantify the amount of information related to the input question in the response, we propose a method (information quantization, IQ) that measures the richness of vocabulary in clauses related to the question within the answe

Selection of Harmful Question and Jailbreak Template For Attack

太扯了,很简单的东西,故弄玄虚。 为每个Question与Jailbreak Template 基于过去的成功打一个分数,分数最高的Question与Jailbreak Template选中的可能性是𝛿,其它所有选项的可能性是1 − 𝛿,其中𝛿 = 0.95.

Template Mutator and Question Mutator

Template Mutato 与 Question Mutator各采用5种手段分别对 Question and Jailbreak Template进行变换。 目的是为了提升对目标 LLM 的攻击有效性 Jailbreak Template5种突变

Generate(生成):基于对原模板上下文和语义的理解,创作全新的故事或场景描述,保持与原模板风格一致的同时生成新的越狱模板; Crossover(交叉):融合两个不同越狱模板种子中的元素,组合形成一个全新的突变模板; Expand(扩展):为现有模板添加更详细、更深入的解释性内容,丰富模板的表述维度; Shorten(缩短):在不改变模板核心语义的前提下,对原模板进行压缩精简,让表述更简洁; Rephrase(改写):重构给定模板的措辞方式,仅改变表达形式,保留模板原本的越狱核心逻辑。 这 5 种操作会由选定的突变模型(最终选用 GPT-4o-mini)执行,为越狱模板提供多样化的变换形式,配合问题突变器的操作共同提升对目标 LLM 的攻击有效性

Question 5种突变

Euphemize(委婉化):将问题的措辞和语气调整得更温和,降低目标 LLM 的防御性,使其更易做出回应,而非直接拒绝; Confusion(混淆):在问题的随机位置插入无意义的乱码或无关词汇,模糊问题的核心焦点,干扰模型对有害意图的识别; Split(拆分):按照逻辑、顺序等规则将单个有害问题拆解为多个小问题,引导模型逐步回应,使其在分步解答中无意间泄露原本不会提供的有害信息; Restructure(重构):在不改变问题原始语义的前提下,调整英文句式的语法结构(如句式改写、语序调整等); Substitution(替换):随机选取问题中的部分词汇,用同义词或近义表达替换,保持核心有害意图不变,仅改变表述形式。

Judgement Model( GPT-4o-mini)

作用:提供快速的RL反馈,自动化整个攻击过程(不成功则重新选模板,成功则更新模型) 我欣赏的一点,这里提到了非二元的反馈信号(T/F)

The judgment model outputs four labels with confidence scores: full refusal, full compliance, partial refusal, and partial compliance.

we ultimately selected GPT-4o-mini as our judgment model.

Information Quantification

灵感来源:作者通过反复试验发现通过巧妙的修饰问题,使得LLM的回复信息与问题越来越相关。

we discovered that cleverly wrapping questions can effectively guide the targeted LLM to gradually provide an increasing amount of information.

所以作者提出IQ

This phenomenon caught our attention and prompted us to design a simple yet highly effective method to evaluate the amount of information contained in the LLM’s responses to input

并将IQ作为奖励的一部分 IQ的实施:

Extractor本质是用GPT-4o-mini执行这个提取任务, Prompt 的核心要求是: 把 LLM 的长响应拆分成句子(可按逗号拆分); 只提取能作为问题答案的相关、有信息的内容; 直接输出数组格式(如[“sentence1”, “sentence2”]),不返回任何额外说明。 这个 Prompt 确保了提取的子句只保留和问题相关的有效内容,避免安全话术干扰 IQ 计算 对S中的每一个子句,用Counter(计数器)统计 4 类实词的数量:名词(NOUN)、动词(VERB)、形容词(ADJ)、副词(ADV),并累加得到最终的 IQ 值

为何这样可行?

当 LLM 严格遵守安全对齐、拒绝回答时,输出多为「我不能回答这个问题」这类简短拒绝话术,实词数量极少,IQ 值极低; 当 LLM 被诱导、逐步放松安全约束时,会输出和问题相关的详细内容,实词数量大幅增加,IQ 值显著提升。 因此,IQ 值可以直观反映 LLM 安全约束的放松程度:IQ 越高,代表模型输出的有效信息越多,越可能泄露违规内容。

Multiple-Agent Reinforcement Learning(未细究)

下图中,可以看到,通过状态,输入,以及奖励,双智能体完成自我优化。

整个过程是一个持续迭代的强化学习闭环,核心目标是让两个智能体(问题智能体 + 模板智能体)学会最优的突变策略,诱导目标 LLM 越狱。

文中称为Actor-Critic 架构,即 决策 + 评估的双角色设计,两个智能体行动+反思, image

思考

《Red-Teaming LLM Multi-Agent Systems via Communication Attack》纯通过LLM+系统提示词实现自我优化的Reflexion。

能不能引入本篇(模板+突变+评估(IQ等)等)来替代原有的纯通过LLM+系统提示词实现自我优化的Reflexion,再将场景具体到云侧协同或侧端多智能体?