安全 | AmeBob

LLM驱动的评审员的偏见

本文提出了一种自动检测LLM评审员中偏见的方法，并提出了一个评测基准来不断迭代和更新基础偏见。整个方法分为两个部分：偏见发现和偏见核验。首先，在偏见发现阶段，通过使用Basic Biases Library和Teacher Model构建带有偏见的Target Dataset（如将教师模型随机选择的一个偏见注入到目标数据集中），然后评估目标模型的选择结果，并从错误选项中提取新的偏见。接着进行偏见核验部分：利用去重后的偏见生成Biased Test Dataset，通过测试集验证该偏见的有效性并加入Basic Biases Library。实验结果显示，在Math类数据集上产生的最大错误率为11%，与原错误率有较大差距。结论为：模型越强受偏见影响越小；“简单”任务更容易受到偏见影响；当错误率减少时，说明该任务超出了模型的能力范围。已尝试通过借鉴权威偏见得到0.66的准确率，并计划在不同数据集上测试以选择有利的数据集进行进一步研究。

LLM-MAS-BaseLine

今天做了实验以优化LLM-MAS答题速度。首先进行了少样例测速，通过简化数据结构和只传递prior_feedback而不是完整reviews来减少处理时间。然后，调整了答题方式，所有题目在一轮中完成，并根据当前问题的token数动态划分patch长度上限（12000 token）。

图像对抗攻击-实验

FGSM攻击方法包括无定向攻击和定向攻击。无定向攻击的目标是使模型预测错误，远离正确标签；定向攻击则目标是有意将结果预测为指定的标签。在两种攻击中，通过计算梯度来确定方向，并使用sign函数控制步幅大小以达到攻击效果。 C&W攻击方法则是最小化改动大小与让模型认错损失之和。

多智能体通信攻击-3

本文研究了在协作场景中，恶意代理如何利用辩论影响其他智能体的决策。提出了一种评估尺度来衡量恶意代理的有效性，并介绍了基于说服力和推理增强的方法来进行防御。实验结果表明这些方法可以有效减少攻击者的影响。

多智能体通信攻击-2

该文章研究了多智能体协作系统在存在恶意或故障的智能体时的弹性。作者提出了两种方法：AUTOTRANSFORM和AUTOINJECT，以增强系统的安全性并提高其对单节点故障的抵抗能力。通过实验，探究了不同结构（线性、平面和分层）和下游任务对多智能体协作系统弹性和抗干扰的影响。

越狱攻击-1

本文提出了一种名为PathSeeker的新型黑盒大语言模型越狱攻击方法，通过多智能体强化学习和基于词汇丰富度的奖励机制，在不依赖代理模型生成有害参考答案的前提下突破LLM的安全对齐防御。

多智能体通信攻击-1

这篇论文研究了大型语言模型（LLM）为基础的多智能体系统（MAS），特别是在通信攻击方面。作者介绍了一些相关的背景知识和现有方法，并提出了一种新的通过通信攻击来评估系统的策略。该论文还讨论了在多智能体系统中使用大型语言模型的安全问题以及可能的解决方案。

对抗攻击-1

本文讨论了神经网络的可解释性和鲁棒性问题，并通过引入自然基和随机基两个公式证明了单个高层神经元无法对应具体语义信息。此外，介绍了对抗样本的概念及其构造方法。文章指出神经网络具有高表达能力但低可解释性和低鲁棒性。