Nature发文！首个真正能写综述论文的开源 AI模型来啦，超越chatGPT和人类专家

随着论文数量的激增，每天都有成千上万篇新论文发表，覆盖从人工智能到生物医学的各个前沿领域。研究人员常常陷入“文献海洋”中，越来越难以全面掌握最新进展。

然而，科学研究的进步依赖于研究者对海量文献的梳理与综合能力。传统的文献检索与综述方法不仅耗时耗力，更受限于个人阅读范围与记忆负荷，知识整合的难度与日俱增。

大语言模型（LLMs）能否在此任务中提供有效支持？

已有研究表明，大语言模型虽能提供帮助，但存在虚构问题、预训练数据过时以及归因有限等缺陷。比如，在我们的实验中，当要求GPT-4o引用计算机科学和生物医学等领域的最新文献时，其在78%至90%的情况下虚构了引用。

2026年2月4日，《Nature》的一项重磅研究带来了突破性进展，推出了一个名为 OpenScholar 的全开源、检索增强型科学语言模型，专门用于科学文献的智能综述与问答。

什么是OpenScholar？

OpenScholar 是首个专门为科学研究设计的、完全开源的检索增强型语言模型系统。

你可以把OpenScholar想象成一位不知疲倦、博览群书的超级科研助手，专门为解决“文献太多、看不过来”这个痛点而生。

它整合了以下核心组件：

1.大规模科学文献库（OSDS）：包含 4500 万篇开放获取论文，涵盖 2.36 亿个段落嵌入，是目前最大的开源科学文献数据存储之一。它并非简单存储论文，而是将论文正文分割成256词的文本块并与标题结合，构建为可检索的段落，让它查找时不再是机械地匹配关键词，以此构成了目前最大的开源科学文献数据存储之一。

2.自适应检索模块：结合了训练过的检索器与重排序模型，支持多源检索（包括Semantic Scholar API和学术网页搜索）。

3.自我反馈推理机制：这是OpenScholar实现高事实性的核心。

首先，模型生成带有引用的初始回答；
接着，模型自己对该初稿生成一系列旨在改进的自然语言反馈，例如指出内容缺失；若反馈认为需要更多信息，模型会自主发起新一轮检索；迭代优化答案；
最后，进行引用验证，确保每个需要引用的声明都得到支持。

这种“生成-自我批判-检索完善”的迭代循环，显著提升了输出的准确性、覆盖面和引用质量。

超越GPT-4o与人类专家

1. 综合性能全面领先

OpenScholar 在 ScholarQABench 上的测试结果令人印象深刻。

ScholarQABench：要判断一个 AI 系统是否可靠，需要严格的测试标准。为此，研究团队开发了 ScholarQABench，这是首个大规模、多领域的科学文献合成基准。它包含近 3000 个由专家编写的问题，覆盖计算机科学、物理、神经科学和生物医学等领域，要求模型生成长篇、多论文支持的答案。

与以往只关注选择题或短答案的基准不同，ScholarQABench 引入了多维评估协议，包括自动指标（例如引用准确性）和人类专家基于量表的评分（覆盖范围、连贯性、写作质量等）。例如，在“计算机科学”部分中，专家会列出答案必须包含的关键要点，AI 的回答需要满足这些“评分标准”才能得分。

在正确性方面：OpenScholar-8B 在正确性上超过 GPT-4o 6.1%，超过 PaperQA2 5.5%。

在引用准确性方面：其引用准确率（Cite F1）为47.9，而 GPT-4o 几乎为 0，仅使用检索增强的GPT-4o（GPT-4o + RAG）此项仅为31.1。

2.从根本上解决“幻觉引用”问题

论文专门分析了模型生成虚假（不存在）参考文献的问题，结果触目惊心。

在生物医学领域，GPT-4o生成的引用中，有94.8%是完全虚构的；在计算机科学领域，该比例也为78.7%。

而OpenScholar-8B在这两个领域的虚构引用比例均为0%。

3.大幅提升现有模型的性能，且成本更低

将OpenScholar流程应用于现有模型可显著提升其性能：

OpenScholar-GPT-4o 比原始 GPT-4o ，在多论文综合正确性上提升了12.7分（从45.0提升至57.7）。

同时，论文指出，得益于高效的检索器设计，OpenScholar-8B 的成本比基于 GPT-4o 的商业系统更低。

4. 人类专家评估：覆盖度与实用性胜出

在由16位人类领域专家进行的盲评中，OpenScholar生成的答案甚至比人类专家撰写的答案更受青睐。

专家在51%的情况下更偏好OpenScholar-8B的回答；
在70% 的情况下更偏好OpenScholar-GPT-4o的回答；
相比之下，普通的GPT-4o答案仅在32%的情况下被偏好。

OpenScholar 不仅是一个技术上的突破，更是科研辅助工具向透明、可信、可复现方向迈进的重要一步。

它展示了专门化、检索增强的语言模型在科学文献综合任务中的巨大潜力，甚至在某些方面已超越人类专家的表现。

未来，随着更多用户反馈的融入与系统的持续优化，OpenScholar 有望成为科学家日常研究中不可或缺的智能助手，推动科研效率与质量的全面提升，让科研工作更聚焦于创新而非信息筛选。

**参考文献：Asai, A., He, J., Shao, R. et al. Synthesizing scientific literature with retrieval-augmented language models. Nature (2026). https://doi.org/10.1038/s41586-025-10072-4**

关于郑老师团队及公众号

全国较大的医学统计服务平台，专注于医学生、医护工作者学术研究统计支持

郑老师团队可以提供诸多统计支持：

各式统计课程、临床试验设计

构建预测模型与真实世界研究

“双库”保发表训练营、医学数据库挖掘

详情联系助教小董咨询（微信号 aq566665）