社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

重磅!清华最新报告:文心一言超越ChatGPT 3.5

CVer • 2 年前 • 384 次点击  

  点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

今年国内厂商已发布很多大语言模型,其中最具代表性的产品有:百度的文心一言、阿里巴巴的通义千问、科大讯飞的星火等,最具代表性的开源工作有:ChatGLM、MOSS、BaiChuan等。

大语言模型的能力有很多,比如知识问答、文本生成、翻译、编程、数据分析、图像生成等。
想必有不少同学已经用上大语言模型产品了,将其作为自己的生产力工具。同时也会有很多同学疑问:究竟哪家的实力最强?!如果要选择一个作为科研学习和工作的工具,哪个产品上手又好又快?!
         
清华大学沈阳团队重磅发布《大语言模型综合性能评估报告》
近日,清华大学(新闻与传播学院沈阳团队)最新发布《大语言模型综合性能评估报告》,该报告给出一个答案:百度文心一言综合评分国内第一(三大维度、20项指标),超越ChatGPT 3.5!其中文心一言的中文语义理解排名第一,部分中文能力超越GPT-4。

本报告测评对象包含了GPT-4、ChatGPT 3.5、Claude国外主流大语言模型,也包含了文心一言、通义千问、讯飞星火、天工国内代表性大语言模型。本报告围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、逻辑推理、内容安全性等20项指标。      
在生成质量维度上,基于对语义理解、输出表达、适应泛化三个方面的综合评测(均为Prompt测试),文心一言得分率高达76.98%,仅次于GPT-4,而领先于ChatGPT 3.5等大语言模型。其中,在部分中文语义理解方面,文心一言以92%得分率排名第一,超越了GPT-4。        
在使用与性能维度上,基于对使用便捷性、响应速度和鲁棒性三个方面的综合评测,文心一言得分率高达72.38%,仅次于ChatGPT 3.5、GPT-4,而远超其他大语言模型。报告显示,文心一言使用便捷,响应快,模型鲁棒性高,对于意外、错误或极端情况下的回应表现较好,而且新加入的插件“ChatFile”支持超长文本输入、插件“百度搜索”支持生成更实时准确的信息。
百度搜索和ChatFile插件
在安全与合规维度上,基于对内容安全性、偏见和公平性、隐私保护、版权保护四个方面的综合评测,文心一言得分率高达78.18%,与GPT-4并列第一,远超其他大语言模型。报告显示,文心一言内容安全性好,把握细微,注重用户隐私保护,重视版权保护。
综上来看,文心一言的语义理解能力更为突出,尤其是具备更好的中文理解能力,更懂中国文化和本土主题/背景,而且时效性很强、内容安全性高,对信息把握细微。
这里文心一言的突出优势,离不开百度知识增强、检索增强和对话增强的技术创新
在知识增强方面,文心一言基于百度构建的庞大的知识图谱,通过知识内化和知识外用来实现知识增强。知识内化,是从大规模知识和无标注数据中,基于语义单元学习,利用知识构造训练数据,将知识学习到模型参数中;知识外用,是引入外部多源异构知识,做知识推理、提示(Prompt)构建等等,使模型具备高效运用外部知识的能力。在知识的指导下,文心一言学得又好又快,模型效率和效果均大幅提升。
在检索增强方面,文心一言借助了搜索引擎的能力。以语义理解与语义匹配为核心技术的新一代检索架构,深入理解用户需求和网页内容,进行语义匹配。通过引入搜索结果,可以为大语言模型提供时效性好、准确性高的参考信息。
在对话增强方面,基于对话技术和应用积累,文心一言具备记忆机制、上下文理解和对话规划能力,使得对话的连贯性、合理性和逻辑性更好,用户实际体验更佳。
不过在本次清华大学(沈阳团队)报告中,并没有看到清华大学自家的ChatGLM大语言模型的评测结果,不清楚是否是因为性能有限,没有参与测评。我是很想看看产品级应用和开源项目之间的性能及体验差距有多大。
文心一言实测
上面简单介绍了文心一言在清华大学《大语言模型综合性能评估报告》中的测评成果和技术细节,下面从我们用户的角度来看,测试最新版本的文心一言究竟有多强,看看实际使用体验如何。
于是我实测了文心大模型3.5版本加持的文心一言。特别提一下,如果你之前有拿到文心一言内测资格的话,应该会明显发现,从3月份到现在,文心一言能力有非常大的提升,可以感觉到体验有非常大的变化。
下面从计算机视觉、人工智能方向从业者角度,提问一些专业问题和日常问题,来看看文心一言是否可以轻松应对。
  • 专业知识

不管对于人工智能方向的学生,还是工程师/研究员,每天都会遇到很多行业问题。这里测试文心一言是否可以回答一些专业领域问题和建议。

问题:小目标检测有哪些技巧?
文心一言列举了7条建议,分别从输入、特征融合、anchor设计、损失函数、训练等角度给出实用性建议,内容相当全面且详尽。
Transformer目前在计算机视觉、自然语言处理等领域爆火!大名鼎鼎的GPT系列和文心大模型都使用了Transformer相关技术。而大家在学习和应用Transformer过程中会遇到很多问题。这里我来考察文心一言对Transformer的知识点掌握情况。
问题:Transformer为什么要用multi-head注意力?
问题:Self-Attention 的时间复杂度是怎么计算的?
由上可知,文心一言详细解答了关于Transformer的核心知识点问题。
PS:目前正值求职季,强烈建议大家使用文心一言来辅助解决面试题,省时省力,轻松助力校招和社招!
  • 写作辅导

问题:我现在想写一篇语义分割的论文,并想投递到CCF B及以上的会议,请问有哪些建议?   

文心一言回答的内容确实有条理且详细,分别从数据集、算法、实验设计等角度给出建议。这里我再加点难度,因为很多咨询问题的同学都是刚入门不久的从业者,所以加个“小白”的背景,更契合实际一点。
问题:我是小白,现在想写一篇图像分割的论文,并想投递到CCF B及以上的会议,请问有哪些建议?
显而易见,文心一言的回答更加基础实用了,还温馨的告知:需要经历一段时间的审稿过程,需要保持耐心和信心。
  • 百度搜索插件

百度搜索——让文心一言具有生成实时准确信息的能力。

前段时间,Meta重磅发布了可免费商用的大语言模型Llama 2,让我们来看看文心一言是否知道这个消息。
可见具有百度搜索插件的文心一言,已经“知晓”了Llama 2的存在,并对其进行了介绍和分析。
林俊杰8月将在上海开“JJ20世界”巡回演唱会,问文心一言在哪里举办,具体开票时间?
文心一言回答的信息完全正确,而且开票时间也就是前几天才正式通知的,可见百度搜索插件加持的文心一言更强了!
  • ChatFile文档插件

ChatFile——让文心一言具有生成报告摘要、检索和分享文档内容的能力。

用户使用ChatFile,可以直接上传10MB以内的(pdf/doc格式)文档,ChatFile解析完成后会自动生成一份摘要,然后用户通过文本跟文心一言进行对话,这样就可以对文档的内容进一步解析,比如检索和总结等。
我上传了何恺明(Kaiming He)的鼎鼎大名ResNet《Deep Residual Learning for Image Recognition》论文的pdf,从下图可知,文心一言解析该论文pdf后,检索到了该论文的核心知识点,并对更多信息进行了总结。
让文心一言继续总结ResNet论文的创新点和实验结果:
上面总结的实验结果全部汇聚到一个大段文字里了,这里可以单独对实验进行提问,可见文心一言会逐步对实验结果进行总结性介绍:
像每天各大期刊、会议平台上会上新很多论文,如果想要一篇一篇看过去,即使只关注自己的研究方向,那工作量也实在太大了,那我们就可以用文心一言快速总结论文,提高科研效率。
期待
当前文心一言具备相当优秀的性能和用户体验,达到了真正的“上手即用”,成为我们科研和工作的生产力神器。
在此,我非常期待文心一言支持更多的功能、插件,开放插件生态,帮助开发者基于文心大模型打造自己的应用。
最后希望国产大语言模型发展越来越好!给每个人带来便利!
整理不易,请点赞和在看

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/160172
 
384 次点击