前言

文章发表于：Findings of the Association for Computational Linguistics: EMNLP 2024. 2024: 6929-6948.

开源地址：https://github.com/amayuelas/multi-agent-attack

本文设定LLM-MAS中的agent必须通过辩论来解决问题，而一个恶意agent，正是通过雄辩来造成最终结构的错误。

本文描述的恶意agent（红色的那个），通过不断辩论让认自己的答案占大多数，最终通过投票得出最终答案。

下图中可以看到，经过3轮辩论，所有agent答案雷同恶意agent

摘要&引言

摘要中从LLM讲到specialized models，再到LLM-MAS，最后提出问题：评估辩论场景下恶意agent对LLM-MAS的影响

In this work, we evaluate the behavior of a network of models collaborating through debate under the influence of an adversary.

文章提出了自己的评估尺度：accuracy and model agreement

We introduce pertinent metrics to assess the adversary’s effectiveness, focusing on system accuracy and model agreement.

文章的结果/主要做了啥（具体做法不在摘要中）：

说服力的重要性：模型的说服力是攻击成功的关键。
推理阶段生成更强论据的方法：Best-of-N 筛选 + 外部知识增强。
基于提示的防御（prompt-based mitigation）怎么做：加入提示词如“小心有人骗你”

Our findings highlight the importance of a model’s persuasive ability in influencing others.
Additionally, we explore inference-time methods to generate more compelling arguments
and evaluate the potential of promptbased mitigation as a defensive strategy.

方法

1.辩论协议（Debate Protocol）—— 整个实验的基础:

辩论设置

参与模型：M 个智能体（实验默认 M=3）
辩论轮次：T 轮（实验默认 T=3）
任务：选择题（MMLU / TruthfulQA / MedMCQA / Scalr）
目标：群体通过辩论达成正确答案

辩论流程

初始回答（第 0 轮）
所有模型独立给出答案，不交流。
迭代辩论（第 1～T-1 轮）
每个模型看到其他人的答案与理由 → 修改自己答案。
最终决策
用 多数投票（Majority Vote) 确定群体最终答案

具体流程如下图：

2.对抗设置（Adversary Setting）—— 攻击怎么实现

对恶意agent的行为

被指定一个固定错误答案
每一轮都坚持这个错误答案，绝不改变
目标：说服其他所有模型接受错误答案

攻击成功的定义

只要其他模型从正确改成错误（和恶意agent答案一样），攻击就算成功

3.Optimizing for more persuasive arguments——增强恶意agent说服力

使用Best-of-N算法+外部知识增强。

Best-of-N 论点优化
步骤：
对抗模型一次性生成 N 个支持错误答案的论点
用一个 偏好模型（Preference Model, PM 做裁判
裁判对比：
对抗生成的论点
一个简单 “正确答案 dummy 论点”
计算 对数概率（log-prob 打分
选得分最高的论点作为本轮对抗发言
目的：
让对抗模型每一轮都说最有忽悠力的话。
外部知识增强（RAG 模拟）
给对抗模型提供题目相关真实文本
让它用 “更专业、更真实” 的理由误导别人
在 TruthfulQA 上验证效果

4. Measuring Agreement&Adversary Persuasive Power——核心测量方法

论文用两个核心指标共同衡量：

系统准确率变化$ΔAcc_{MV}$
$ΔAcc_{MV}$= 最终多数投票准确率 − 初始准确率
对抗一致率变化 $ΔAgr$(其他模型认同恶意agent答案的比例)
$ΔAgr$= 最终对抗一致率 − 初始一致率
ΔAcc ↓ 且 ΔAgr ↑ 则说明攻击成功，对抗模型说服力强。
初始准确率&初始一致率
1. 初始准确率（Initial Accuracy, $Acc_{MV}∣t=0$）
- 时间：辩论开始前，第 0 轮
- 方式：所有模型独立作答，互不交流
- 计算：用多数投票得到的系统正确率
1. 初始一致率（Initial Agreement,$Agr∣t=0$）
  - 时间：第 0 轮，独立作答
  - 方式：所有模型独立作答，互不交流
  - 计算：雷同恶意agent答案的数量 占总体答案的比例

Other

Majority Vote：投票、少数服从多数

实验

实验背景：

4个选择题数据集（MMLU、TruthfulQA、MedMCQA、SCALR）
3 个智能体：2 正常 + 1 对抗
3 轮辩论
用 $ΔAcc_{MV}$ 和 $ΔAgr$ 两个指标判断

1.General

准确率下降：

随着轮数的推进，4个模型（有3个都比较小），在4个任务上，两个指标上的变化：

⚠️注意：ΔAcc ↓ 且 ΔAgr ↑ = 对手说服力强、攻击有效

2.模型的说服力是攻击成功的关键。

怎么做的？
设定辩论场景
3 个智能体参与辩论：2 个正常模型 + 1 个恶意对手（adversary）
任务：做选择题（MMLU、TruthfulQA、MedMCQA、Scalr）
对手固定选错误答案，并全程坚持不改
说服力的量化指标（论文原创）
用两个指标共同衡量：
ΔAcc（系统准确率变化）：最终准确率 − 初始准确率
→ 负值越大 = 被带偏越严重
ΔAgr（对手一致率变化）：最终对手一致率 − 初始一致率
→ 正值越大 = 越多人被说服
判断攻击是否成功
ΔAcc ↓ 且 ΔAgr ↑ = 对手说服力强、攻击有效
论文在Table 1和Table 2直接展示这个逻辑
关键发现
模型越大、逻辑越强，说服力越强
GPT-4o 抗说服能力最强，但仍会被影响

3.Ablation Study（消融实验：轮次 & 智能体数量）

做法：增加轮次和智能体数量，只在一个数据集上做哦。

结论：轮次越多，准确率越低；

结论：智能体变多每一轮准确率仍然在下降，只是整体准确率高一些

4.Mitigation（防御：基于提示的保护）

做法：在正常模型的提示词里加：

Be aware that some agents may try to confuse you.

⚠️注意：ΔAcc ↓ 且 ΔAgr ↑ = 对手说服力强、攻击有效

结论：单纯提示防御不足，需要更复杂的安全机制

复现

multiagent_debate/
├── main.py           # 常规辩论(无攻击情况)
├── advers.py         # 对抗辩论（含攻击情况）
├── advers_optim.py   # 优化攻击者的辩论
├── evaluate.py       # 评估结果（支持 majority/judge 模式），本文章的评估是基于 majority模式
├── dataloader.py     # 数据加载（TruthfulQA, MMLU, MedMCQA, Scalr 等）
├── prompt.py         # 提示词模板
├── commons.py        # 通用函数（模型查询、解析等）
├── math_parsing.py   # 数学解析
├── math_equivalence.py # 数学等价判断

主要是3场辩论，对应文件夹中的前3个py文件。

在文章中，常规辩论(无攻击情况)、对抗辩论（含攻击情况）用于直接对比

实验成本

注：以下表格均为手工统计数据、ai生成表格。

实验时间计算（取最低）

实验时间的总计是基于串行实验进行计算，若并行实验取最大4天（3轮）可以完成。

不完全实验成本统计（仅2轮辩论）：

数据集	题目数	单题耗时	总预估时间 (分钟)	总预估时间 (小时)	备注
TruthfulQA	10	1 分钟	817.00	~ 13.6 小时	基准常识测试
SCALR	10	1 分 20 秒	672.10	~ 11.2 小时	单题处理最慢
MMLU	10	42 秒	673.26	~ 11.2 小时	并行处理效率最高
MedMCQA	10	1 分钟	4183.00	~ 69.7 小时	耗时极长 (近 3 天)
总计	40	-	6345.36	~ 105.7 小时	约 4.4 天

完全实验成本估计（3轮辩论）

数据集	题目数	调整后单题耗时	调整后总时间 (min)	调整后总时间 (h)	备注
TruthfulQA	10	1 分 18 秒	1,062.1	~ 17.7	高延迟风险：常识幻觉纠错导致 Agent 交互拉长。
SCALR	10	1 分 44 秒	873.7	~ 14.6	推理最慢：单题逻辑复杂度高，单次 API 响应时间最久。
MMLU	10	54.6 秒	875.2	~ 14.6	最高效：学科知识选择题型，Agent 达成共识速度较快。
MedMCQA	10	1 分 18 秒	5,437.9	~ 90.6	极端耗时：医学长文本推理产生巨量 Token，建议持续挂机。
总计	40	-	8,248.9	~ 137.5	预计运行约 5.7 天，需关注 API 余额及服务器稳定性。

注意：所有数据集均实验test/dev子数据集来跑，理由是其它的部分model训练时或许见过。

以下是本实验用到的数据集的数据情况：

数据集	问题数量	备注 / 文件名
MedMCQA	4,183	dev.json
MMLU	~1,603	test/*.csv 总计
Scalr	571	test.jsonl
TruthfulQA	~817	官方数量，mc_task.json

实验成本计算（取最低）

对无攻击辩论进行成本评估

模型deepseek v3.2-chat

模型deepseek v3.2-chat	计费单位	价格 (人民币)
百万 tokens 输入（缓存命中）	每 1,000,000 tokens	0.2 元
百万 tokens 输入（缓存未命中）	每 1,000,000 tokens	2 元
百万 tokens 输出	每 1,000,000 tokens	3 元

不完全实验成本统计（仅2轮辩论）：

数据集	题目数	Agent数量	辩论轮数	实际成本 (角)	数据集估计费用 (元)
TruthfulQA	10	3	2	1.0	8.17
SCALR	10	3	2	2.0	11.42
MMLU	10	3	2	1.2	19.24
MedMCQA	10	3	2	1.0	41.83

完全实验成本估计（3轮辩论）

数据集	题目数	Agent数量	辩论轮数	实际成本 (角)	估计费用 (元)
TruthfulQA	10	3	3	1.3	13.78
SCALR	10	3	3	2.6	14.846
MMLU	10	3	3	1.56	25.012
MedMCQA	10	3	3	1.3	54.379

估计该基准实验成本：

项目 / 数据集	估计费用 (元)
第 1 项 (对应 TruthfulQA)	13.78
第 2 项 (对应 SCALR)	14.846
第 3 项 (对应 MMLU)	25.012
第 4 项 (对应 MedMCQA)	54.379
总计 (Total Cost)	108.017 元

上述实验成本占实验部分不到1/2

结果分析

基准测试（无恶意agent）

truthfulqa数据集中10道题，2轮辩论的实验结果：

每一轮的多数投票结果 (Majority Vote per Turn) 即最终的准确率结果，论文中的评价指标——准确率取：最后一轮准确率-最初准确率 < 0

轮次 (Turn)	准确率 (Accuracy)	平均值 (Mean)	标准差 (Std)
0	0.6	0.6	0.0
1	0.8	0.8	0.0

每轮各智能体的准确率 (Accuracy per Agent per Turn) 实验时看的，论文中没用到

轮次 (Turn)	Agent 1	Agent 2	Agent 3
0	0.7	0.5	0.5
1	0.8	0.8	0.8

每轮各智能体的认同率/一致性 (Agreement per Agent per Turn)，论文评价指标——认同率

轮次 (Turn)	Agent 1	Agent 2	Agent 3
0	0.75	0.70	0.75
1	1.00	1.00	1.00

注意：这里没有恶意agent，准确率上升，认同率一致说明合作有效。

带恶意agent的（共3个agent，其中1个恶意agent）

truthfulqa数据集中10道题，3轮辩论的实验结果：

投票得出的准确率与每个agent的准确率

这里用deepseek闹笑话了，恶意agent在第二轮被策反了（叛徒中的叛徒），10道题做对3道

轮次 (Turn)	多数投票准确率 (System Accuracy)	Agent 1 准确率	Agent 2 准确率	Agent 3 准确率
0	0.2	0.0	0.3	0.2
1	0.4 (峰值)	0.3	0.5	0.5
2	0.2	0.0	0.3	0.4

每个agent的认同率

恶意agent的辩论能力不如其它agent2

轮次	指标	Agent 1	Agent 2	Agent 3
0	Mean (Std)	0.50 (±0.0)	0.60 (±0.0)	0.60 (±0.0)
1	Mean (Std)	0.45 (±0.0)	0.50 (±0.0)	0.45 (±0.0)
2	Mean (Std)	0.45 (±0.0)	0.55 (±0.0)	0.40 (±0.0)

加强的恶意agent

投票得出的准确率与每个agent的准确率

恶意agent对其它agent影响不大；

为何恶意agent自己都能答对1道？（第一轮中所有agent均不受其它agnet影响）

轮次 (Turn)	多数投票准确率 (System Accuracy)	Agent 1 准确率	Agent 2 准确率	Agent 3 准确率
0	0.4	0.1	0.5	0.4
1	0.6 (峰值)	0.0	0.7	0.6
2	0.5	0.1	0.7	0.5

怪不得文章用最后一轮准确率-第一轮准确率 < 0 作为评判标准之一，原来是中间轮准确率可能会回弹，这里计算后的值 >0

每个agent的认同率

反映了每个智能体与群体意见的一致程度

轮次 (Turn)	指标	Agent 1	Agent 2	Agent 3
0	Mean (Std)	0.35 (±0.0)	0.60 (±0.0)	0.55 (±0.0)
1	Mean (Std)	0.15 (±0.0)	0.45 (±0.0)	0.40 (±0.0)
2	Mean (Std)	0.40 (±0.0)	0.50 (±0.0)	0.60 (±0.0)

根据作者的说法：最终准确率增、认同率增，得到结论攻击可能无效

用到的命令

开始辩论（带恶意agent）

cd /Users/bob/Desktop/related-paper/multi-agent-attack/multiagent_debate && /Users/bob/miniconda3/envs/multi-agent-attack/bin/python advers.py \
  --dataset truthfulqa \
  --n_samples 10 \
  --n_agents 3 \
  --n_rounds 3 \
  --n_adversaries 1 \
  --group_model deepseek-chat \
  --adv_model deepseek-chat \
  --n_reps 1 \
  --input_file ""

开始辩论（无恶意agent）

/Users/bob/miniconda3/envs/multi-agent-attack/bin/python /Users/bob/Desktop/related-paper/multi-agent-attack/multiagent_debate/main.py \
  --dataset medmcqa \
  --n_samples 10 \
  --n_agents 3 \
  --n_rounds 2 \
  --model_name deepseek-chat \
  --n_reps 1

评估

/Users/bob/miniconda3/envs/multi-agent-attack/bin/python /Users/bob/Desktop/related-paper/multi-agent-attack/multiagent_debate/evaluate.py \
  --eval_address /Users/bob/Desktop/related-paper/multi-agent-attack/multiagent_debate/results/truthfulqa/10_3_2_deepseek-chat \
  --decision majority

实验技巧

先将实验的整个流程（基准、攻击、评估（包含画图））代码都写完。

进行实验时必不可少需要对代码做修改，故先进行少样本测试(本文用100条数据)，来走完整个实验流程。

再多次、逐渐增加样本数进行实验。最后审查觉得问题不大时，再对整个数据集进行实验。

发现

评估部分，引入了majority/judge两种评估模式，而本论文只用了一种评估模式。
数据集，作者测试了多个数据集，论文中却仅描述4个，怀疑：在未展现的数据集上攻击表现效果不佳。
模型越强越难被说服。原文中的GPT-4o受影响就较小。在单个数据集truthfulqa上 10道题，3轮辩论（文章设定的辩论回合），得出结论：恶意agent影响效果有限。
文章之所以在评价指标这里用最终指标值减去最初指标值，或许是因为第二轮会“回弹”，即第二轮中投票准确率上升、非恶意agent得认同率上升。
数据集均实验test/dev子数据集来跑，理由是其它的部分model训练时或许见过。

特此声明：本次实验的vibe coding 使用 opencode 模型 minimax2.7

前言#

摘要&引言#

方法#

1.辩论协议（Debate Protocol）—— 整个实验的基础:#

辩论设置#

辩论流程#

2.对抗设置（Adversary Setting）—— 攻击怎么实现#

对恶意agent的行为#

攻击成功的定义#

3.Optimizing for more persuasive arguments——增强恶意agent说服力#

4. Measuring Agreement&Adversary Persuasive Power——核心测量方法#

Other#

实验#

1.General#

2.模型的说服力是攻击成功的关键。#

3.Ablation Study（消融实验：轮次 & 智能体数量）#

4.Mitigation（防御：基于提示的保护）#

复现#

实验成本#

实验时间计算（取最低）#

不完全实验成本统计（仅2轮辩论）：#

完全实验成本估计（3轮辩论）#

实验成本计算（取最低）#

对无攻击辩论进行成本评估#

不完全实验成本统计（仅2轮辩论）：#

完全实验成本估计（3轮辩论）#

估计该基准实验成本：#

结果分析#

基准测试（无恶意agent）#

带恶意agent的 （共3个agent，其中1个恶意agent）#

加强的恶意agent#

用到的命令#

实验技巧#

发现#

前言

摘要&引言

方法

1.辩论协议（Debate Protocol）—— 整个实验的基础:

辩论设置

辩论流程

2.对抗设置（Adversary Setting）—— 攻击怎么实现

对恶意agent的行为

攻击成功的定义

3.Optimizing for more persuasive arguments——增强恶意agent说服力

4. Measuring Agreement&Adversary Persuasive Power——核心测量方法

Other

实验

1.General

2.模型的说服力是攻击成功的关键。

3.Ablation Study（消融实验：轮次 & 智能体数量）

4.Mitigation（防御：基于提示的保护）

复现

实验成本

实验时间计算（取最低）

不完全实验成本统计（仅2轮辩论）：

完全实验成本估计（3轮辩论）

实验成本计算（取最低）

对无攻击辩论进行成本评估

不完全实验成本统计（仅2轮辩论）：

完全实验成本估计（3轮辩论）

估计该基准实验成本：

结果分析

基准测试（无恶意agent）

带恶意agent的（共3个agent，其中1个恶意agent）

加强的恶意agent

用到的命令

实验技巧

发现