本条微博地址OneFlow#大模型日报##AI前沿动态# [技术]
【JudgeLM:经微调的语言大模型作为可扩展的评判LM】
论文链接:
网页链接Code & Models:github.com/baaivision/JudgeLM
概述:在开放式场景中评估语言大模型(LLM)具有挑战性,为了解决这一问题,本文提出将LLM经过微调,作为可扩展的评判LM(JudgeLM),以有效、高效地在开放式基准测试中评估LLM。
本文使用7B、13B和33B参数规模训练了
#JudgeLM#,并对其能力和行为进行了系统分析。然后分析了将LLM经过微调作为评判LM时的关键偏见,并将它们定义为位置偏见、知识偏见和格式偏见。为解决这些问题,JudgeLM引入了一系列技术,包括交换增强、参考支持和参考剔除,显著提升了评判LM的性能。JudgeLM在现有的
#PandaLM#基准测试以及本文提出的新基准测试中获得了最先进的评判性能。
搜索微博更多关键词-GitHub