前言

使用llm作为评审驱动。但llm易受偏见的影响造成错误的判断。

本文提出了一套研究llm驱动的评审员偏见的方法、提出了一个评测基准；该方法中能够不断断更新迭代基础偏见。

整个方法分为以下两部分：

偏见发现

step1：通过Basic Biases Library 和 Teacher Model 对 Target Dataset操作构建 Biased Target Dataset——具体是：teacher model随机选择一个偏见注入到 Target Dataset的一个错误选项中（该过程反复直到整个数据集都被注入），目的是期待Target Model选择该错误答案。

step2: 将构造的Biased Target Dataset交给Target Model评估（就是做题）

step3:将Target Model评估错误的（也就是选择的是step1中改造的选项的）抽到一块，形成Wrong set

step4:将Wrong set扩展成带具体选择理由的Wrong set with deeper explanation

step5:Teacher Model从Wrong set with deeper explanation提取新的偏见

step6:对本轮发现的偏见进行去（与Basic Biases Library进行）

偏见核验

step7:利用去重后的偏见和测试集由Teacher Model生成Biased Test Dataset

step8:再经过Target Model评估

step9:若产生的结果，错误率上升，则证明该偏见有效，遂加入Basic Biases Library

实验结果

最大的错误率发生在Math类数据集——11%与原错误率相差。

3条结论：

模型越强，越不受偏见影响
越“简单”的任务越容易受偏见影响
错误率减少的情况是任务超出了模型的能力（有点牵强，行吧，你这里哪个模型不弱的，相比…）。

已经借鉴了“权威偏见”得到的结果是0.66的准确率。

下一步

1. 文章的结论之一是对math类型最有效，故先进行此数据集的尝试。

尝试各种偏见带来的效果。
若有些效果，则在不同数据集上测试，选择几个对我方有利的数据集。

前言#

实验结果#

3条结论：#

前言

实验结果

3条结论：