文章《BIASSCOPE: TOWARDS AUTOMATED DETECTION OF BIAS IN LLM-AS-A-JUDGE EVALUATION》
来源:ICLR 2026
前言
使用llm作为评审驱动。但llm易受偏见的影响造成错误的判断。
本文提出了一套研究llm驱动的评审员偏见的方法、提出了一个评测基准;该方法中能够不断断更新迭代基础偏见。
整个方法分为以下两部分:
偏见发现
step1:通过Basic Biases Library 和 Teacher Model 对 Target Dataset操作 构建 Biased Target Dataset——具体是:teacher model随机选择一个偏见注入到 Target Dataset的一个错误选项中(该过程反复直到整个数据集都被注入),目的是期待Target Model选择该错误答案。
step2: 将构造的Biased Target Dataset交给Target Model评估(就是做题)
step3:将Target Model评估错误的(也就是选择的是step1中改造的选项的)抽到一块,形成Wrong set
step4:将Wrong set扩展成带具体选择理由的Wrong set with deeper explanation
step5:Teacher Model从Wrong set with deeper explanation提取新的偏见
step6:对本轮发现的偏见进行去(与Basic Biases Library进行)
偏见核验
step7:利用去重后的偏见和测试集由Teacher Model生成Biased Test Dataset
step8:再经过Target Model评估
step9:若产生的结果,错误率上升,则证明该偏见有效,遂加入Basic Biases Library

实验结果
最大的错误率发生在Math类数据集——11%与原错误率相差。

3条结论:
模型越强,越不受偏见影响
越“简单”的任务越容易受偏见影响
错误率减少的情况是任务超出了模型的能力(有点牵强,行吧,你这里哪个模型不弱的,相比…)。
已经借鉴了“权威偏见”得到的结果是0.66的准确率。
下一步
1. 文章的结论之一是对math类型最有效,故先进行此数据集的尝试。
尝试各种偏见带来的效果。
若有些效果,则在不同数据集上测试,选择几个对我方有利的数据集。
