Py学习  »  chatgpt

Nature发文!首个真正能写综述论文的开源 AI模型来啦,超越chatGPT和人类专家

医学论文与统计分析 • 1 月前 • 73 次点击  

随着论文数量的激增,每天都有成千上万篇新论文发表,覆盖从人工智能到生物医学的各个前沿领域。研究人员常常陷入“文献海洋”中,越来越难以全面掌握最新进展。
然而,科学研究的进步依赖于研究者对海量文献的梳理与综合能力。传统的文献检索与综述方法不仅耗时耗力,更受限于个人阅读范围与记忆负荷,知识整合的难度与日俱增。
大语言模型(LLMs)能否在此任务中提供有效支持?
已有研究表明,大语言模型虽能提供帮助,但存在虚构问题、预训练数据过时以及归因有限等缺陷。比如,在我们的实验中,当要求GPT-4o引用计算机科学和生物医学等领域的最新文献时,其在78%至90%的情况下虚构了引用
2026年2月4日,《Nature》的一项重磅研究带来了突破性进展推出了一个名为 OpenScholar  的全开源、检索增强型科学语言模型,专门用于科学文献的智能综述与问答。

什么是OpenScholar?

OpenScholar 是首个专门为科学研究设计的、完全开源的检索增强型语言模型系统。

你可以把OpenScholar想象成一位不知疲倦、博览群书的超级科研助手,专门为解决“文献太多、看不过来”这个痛点而生。

它整合了以下核心组件:

1.大规模科学文献库(OSDS):包含 4500 万篇开放获取论文,涵盖 2.36 亿个段落嵌入,是目前最大的开源科学文献数据存储之一。它并非简单存储论文,而是将论文正文分割成256词的文本块并与标题结合,构建为可检索的段落,让它查找时不再是机械地匹配关键词,以此构成了目前最大的开源科学文献数据存储之一。

2.自适应检索模块:结合了训练过的检索器与重排序模型,支持多源检索(包括Semantic Scholar API和学术网页搜索)。

3.自我反馈推理机制:这是OpenScholar实现高事实性的核心。

  • 首先,模型生成带有引用的初始回答;

  • 接着,模型自己对该初稿生成一系列旨在改进的自然语言反馈,例如指出内容缺失;若反馈认为需要更多信息,模型会自主发起新一轮检索;迭代优化答案;

  • 最后,进行引用验证,确保每个需要引用的声明都得到支持。

这种“生成-自我批判-检索完善”的迭代循环,显著提升了输出的准确性、覆盖面和引用质量。

超越GPT-4o与人类专家

1. 综合性能全面领先

OpenScholar 在 ScholarQABench 上的测试结果令人印象深刻。

ScholarQABench:要判断一个 AI 系统是否可靠,需要严格的测试标准。为此,研究团队开发了 ScholarQABench,这是首个大规模、多领域的科学文献合成基准。它包含近 3000 个由专家编写的问题,覆盖计算机科学、物理、神经科学和生物医学等领域,要求模型生成长篇、多论文支持的答案。

与以往只关注选择题或短答案的基准不同,ScholarQABench 引入了多维评估协议,包括自动指标(例如引用准确性)和人类专家基于量表的评分(覆盖范围、连贯性、写作质量等)。例如,在“计算机科学”部分中,专家会列出答案必须包含的关键要点,AI 的回答需要满足这些“评分标准”才能得分。

在正确性方面:OpenScholar-8B 在正确性上超过 GPT-4o 6.1%,超过 PaperQA2 5.5%。

在引用准确性方面:其引用准确率(Cite F1)为47.9,而 GPT-4o 几乎为 0,仅使用检索增强的GPT-4o(GPT-4o + RAG)此项仅为31.1。

2.从根本上解决“幻觉引用”问题

论文专门分析了模型生成虚假(不存在)参考文献的问题,结果触目惊心。

在生物医学领域,GPT-4o生成的引用中,有94.8%是完全虚构的;在计算机科学领域,该比例也为78.7%。

而OpenScholar-8B在这两个领域的虚构引用比例均为0%。

3.大幅提升现有模型的性能,且成本更低

将OpenScholar流程应用于现有模型可显著提升其性能:

OpenScholar-GPT-4o 比原始 GPT-4o ,在多论文综合正确性上提升了12.7分(从45.0提升至57.7)。

同时,论文指出,得益于高效的检索器设计,OpenScholar-8B 的成本比基于 GPT-4o 的商业系统更低。

4. 人类专家评估:覆盖度与实用性胜出

在由16位人类领域专家进行的盲评中,OpenScholar生成的答案甚至比人类专家撰写的答案更受青睐。

  • 专家在51%的情况下更偏好OpenScholar-8B的回答;

  • 在70% 的情况下更偏好OpenScholar-GPT-4o的回答;

  • 相比之下,普通的GPT-4o答案仅在32%的情况下被偏好。

OpenScholar 不仅是一个技术上的突破,更是科研辅助工具向透明、可信、可复现方向迈进的重要一步。

它展示了专门化、检索增强的语言模型在科学文献综合任务中的巨大潜力,甚至在某些方面已超越人类专家的表现。

未来,随着更多用户反馈的融入与系统的持续优化,OpenScholar 有望成为科学家日常研究中不可或缺的智能助手,推动科研效率与质量的全面提升,让科研工作更聚焦于创新而非信息筛选。

参考文献:Asai, A., He, J., Shao, R. et al. Synthesizing scientific literature with retrieval-augmented language models. Nature (2026). https://doi.org/10.1038/s41586-025-10072-4



关于郑老师团队及公众号

全国较大的医学统计服务平台,专注于医学生、医护工作者学术研究统计支持

郑老师团队可以提供诸多统计支持:

各式统计课程临床试验设计

 构建预测模型与真实世界研究

“双库”保发表训练营医学数据库挖掘


详情联系助教小董咨询(微信号 aq566665

图片

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/192655