文章《BIASSCOPE: TOWARDS AUTOMATED DETECTION OF BIAS IN LLM-AS-A-JUDGE EVALUATION》

来源:ICLR 2026

前言

使用llm作为评审驱动。但llm易受偏见的影响造成错误的判断。

本文提出了一套研究llm驱动的评审员偏见的方法、提出了一个评测基准;该方法中能够不断断更新迭代基础偏见。

整个方法分为以下两部分:

偏见发现

step1:通过Basic Biases Library 和 Teacher Model 对 Target Dataset操作 构建 Biased Target Dataset——具体是:teacher model随机选择一个偏见注入到 Target Dataset的一个错误选项中(该过程反复直到整个数据集都被注入),目的是期待Target Model选择该错误答案。

step2: 将构造的Biased Target Dataset交给Target Model评估(就是做题)

step3:将Target Model评估错误的(也就是选择的是step1中改造的选项的)抽到一块,形成Wrong set

step4:将Wrong set扩展成带具体选择理由的Wrong set with deeper explanation

step5:Teacher Model从Wrong set with deeper explanation提取新的偏见

step6:对本轮发现的偏见进行去(与Basic Biases Library进行)

偏见核验

step7:利用去重后的偏见和测试集由Teacher Model生成Biased Test Dataset

step8:再经过Target Model评估

step9:若产生的结果,错误率上升,则证明该偏见有效,遂加入Basic Biases Library

实验结果

最大的错误率发生在Math类数据集——11%与原错误率相差。

3条结论:

  • 模型越强,越不受偏见影响

  • 越“简单”的任务越容易受偏见影响

  • 错误率减少的情况是任务超出了模型的能力(有点牵强,行吧,你这里哪个模型不弱的,相比…)。

已经借鉴了“权威偏见”得到的结果是0.66的准确率。

下一步

   1. 文章的结论之一是对math类型最有效,故先进行此数据集的尝试。

  1. 尝试各种偏见带来的效果。

  2. 若有些效果,则在不同数据集上测试,选择几个对我方有利的数据集。