社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

一周十大热门主题

2025 年 10 月编程语言排行榜｜C、C++、Java 第二名之争愈演愈烈，Python 继续称...

发现创新先锋FA机构｜AIGC赛道值得合作的12家FA机构

2025年必藏！10个超实用的Python项目GitHub仓库

👨🔧 GitHub 项目：RAG-Anything — 一体-20251021195000

太能打了！黑马最新《大模型Python语言进阶》教程重磅上线！

Python量化策略：多产品趋势马丁与逆势马丁策略

临床生信进阶！机器学习模型：搞定不平衡数据、高维降维与深度学习，直接落地多组学研究

累计Github star数超150K！快速提高深度学习代码能力和效率的6个超棒学习资源！！！

AipexBase 开源上线 Gitee：中国开发者的 AI 原生后端答案

图虫×火山引擎：AIGC创意工具链，让设计灵感高效实现

关注

Py学习 » Git

GitHub(微博搜索)-20231109-1

GitHub(微博搜索) • 1 年前 • 250 次点击

本条微博地址 OneFlow
#大模型日报##AI前沿动态# [技术]
【JudgeLM：经微调的语言大模型作为可扩展的评判LM】

论文链接：

网页链接
Code & Models：github.com/baaivision/JudgeLM
概述：在开放式场景中评估语言大模型（LLM）具有挑战性，为了解决这一问题，本文提出将LLM经过微调，作为可扩展的评判LM（JudgeLM），以有效、高效地在开放式基准测试中评估LLM。

本文使用7B、13B和33B参数规模训练了#JudgeLM#，并对其能力和行为进行了系统分析。然后分析了将LLM经过微调作为评判LM时的关键偏见，并将它们定义为位置偏见、知识偏见和格式偏见。为解决这些问题，JudgeLM引入了一系列技术，包括交换增强、参考支持和参考剔除，显著提升了评判LM的性能。JudgeLM在现有的#PandaLM#基准测试以及本文提出的新基准测试中获得了最先进的评判性能。

搜索微博更多关键词-GitHub

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/164129

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号