LLM驱动的评审员的偏见
本文提出了一种自动检测LLM评审员中偏见的方法,并提出了一个评测基准来不断迭代和更新基础偏见。整个方法分为两个部分:偏见发现和偏见核验。 首先,在偏见发现阶段,通过使用Basic Biases Library和Teacher Model构建带有偏见的Target Dataset(如将教师模型随机选择的一个偏见注入到目标数据集中),然后评估目标模型的选择结果,并从错误选项中提取新的偏见。接着进行偏见核验部分:利用去重后的偏见生成Biased Test Dataset,通过测试集验证该偏见的有效性并加入Basic Biases Library。 实验结果显示,在Math类数据集上产生的最大错误率为11%,与原错误率有较大差距。结论为:模型越强受偏见影响越小;“简单”任务更容易受到偏见影响;当错误率减少时,说明该任务超出了模型的能力范围。已尝试通过借鉴权威偏见得到0.66的准确率,并计划在不同数据集上测试以选择有利的数据集进行进一步研究。
