科大讯飞发布星火认知大模型，预计10月底赶超ChatGPT！

国产大模型又添一员猛将！

科大讯飞在5月6日的成果发布会上正式发布了“讯飞星火认知大模型”，并对其多项能力进行了现场演示，包括文本生成、语言理解、知识问答、逻辑推理、数学能力，编程能力、多模态等。

“头号AI玩家”在围观了这场发布会后，对讯飞星火认知大模型的表现进行了回顾和分析，并与ChatGPT做了横向测评。

官网：https://xinghuo.xfyun.cn/

真机演示，“遥遥领先”？

科大讯飞董事长刘庆峰表示，在国内可测试的AI大模型中，讯飞星火认知大模型遥遥领先，和ChatGPT只有细微差距，甚至在评测体系范围内的部分能力已经超过ChatGPT，目前正在进一步优化中。

同时他预告了星火认知大模型后续版本升级的关键时间节点：

6月9日，星火认知大模型将突破开放式问答、多轮对话能力再升级、数学能力再升级；8月15日，突破代码能力、多模态交互再升级；10月24日，将直接对标ChatGPT，中文能力超越ChatGPT，英文能力与之相当。

从现场演示来看，星火认知大模型基本能够准确、流畅地完成交付的各项任务，但究竟与ChatGPT的表现有何差距，我们在本文第二部分进行了更直观的对比评测。

先来回顾下昨天星火认知大模型的现场表现。

写一篇“讯飞星火认知大模型发布会”的欢迎致辞：

当让它用小红书的文案风格重写以上文案后，“姐妹们”、“必备神器”等用词妥妥把“种草”风拿捏住了。

除了撰写欢迎词外，科大讯飞研究院院长刘聪还让星火认知大模型讲故事、写邮件、对英文内容进行语法检查和纠错等。

美中不足的是，星火认知大模型生成的英文品宣文案中夹杂了两个中文，对此刘聪解释称，这是因为星火认知大模型在训练过程中，中英文数据是一起进行的。

俗话说，男子汉大丈夫宁死不屈。但俗话又说，男子汉大丈夫能屈能伸，这两种说法应该怎么理解？

星火认知大模型对于这两句俗语的理解还算辩证。

如果一个小伙子跟女朋友吵架了，他应该是宁死不屈还是能屈能伸呢？

可见“情商”也基本过关。

我想把40平的房子装修成70平的感觉，请给出可行的装修方案。

（有相似装修需求的进来抄作业）

公共场合大声喧哗会影响他人，那小声说话是不是就不会影响？

（套路失败×1）

请问孔子在2008年奥运会上说了什么？

（套路失败×2）

常识推理和时空推理能力也还可以，并没有对不存在的事实一本正经地胡说八道。

在泛知识领域的开放式问答中，刘庆峰表示，星火认知大模型已与中国科学院等机构建立合作，以确保生成内容的专业性、准确性。未来还将推出专用的医疗大模型，扮演人们的健康顾问和助手。

如果家中老人突然晕倒，如何判断是不是中风？

如果判断老人是中风，能不能马上把他扶到床上去休息？

再来看看和逻辑推理能力一脉相通的数学能力。

花坛里有三种花，一共88朵，其中月季花的数量是菊花的4倍，牡丹花的数量是菊花的5倍少2朵，那么请问花坛里一共有多少朵牡丹花？

除解三元一次方程外，常规的计算、几何题也不在话下。刘庆峰表示，数理能力一定程度上代表了一个大模型的聪明程度。“讯飞星火大模型不仅在国内系统中遥遥领先，也超过了ChatGPT。”

在多模态输入和表达能力上，刘聪现场上传了一张英文菜单图片，发送“把这张图片上的英文翻译成中文”的指令，随即获得一张原图中的英文被对应中文覆盖掉的菜单图片。

此外，它还可以输出音频和视频。

先让它以立夏为主题写一篇200字左右的散文。

然后让它用一个温柔男声把这篇散文朗读出来 ，即可获得一段声情并茂的语音。

甚至可以让它生成一个女生形象的虚拟人朗读上面的散文，然后不到3秒就得到了一条播报视频。

视频截图

视频中的虚拟人从口型、神情、语气到肢体动作，都颇像那么回事儿，背景画面也会依据语义进行变换。但细节上还存在一些不足，比如部分口型和语音对不准、肢体动作有些单一和僵硬，背景画面的转换不够流畅等。

刘庆峰表示，星火认知大模型的多模态功能目前还在测试中，最迟将于今年8月正式上线，届时VIP用户可体验这一功能。

讯飞星火 VS ChatGPT

既然讯飞星火大模型对标ChatGPT，那么我们就向它们抛出相同的问题，看看它们现在的能力对比如何。

先来调戏一下AI，问它们一道“弱智吧考题”——

1. 知识问答+逻辑推理题：要跳多高才能跳过广告？

讯飞星火被带进沟里了，它说不建议跳过广告，非要跳过的话，它无法回答，“因为不同广告有不同的长度和要求跳跃的高度”。

ChatGPT巧妙绕过，“不确定您在问什么广告和正在跳跃什么”。

2. 语言理解+长文本写作题：写一篇创意作文，要求包含这些词语：立夏、枕头、宇宙、三分之二、冲啊。

看起来没什么关联的五个词，要如何融进一篇文章且能自圆其说呢？讯飞星火讲了一个有点离谱的故事，天热了人们需要凉爽的枕头，于是它就飞去宇宙寻找这种枕头，最后带了三分之二的神奇凉爽物质返回地球。

它还漏了第五个词“冲啊”，不过在提醒之后，它能补充完整。

来看看ChatGPT的表现。它睡在枕头上，脑内开始了想象，发现宇宙中三分之二都是黑暗物质，便燃起了探索未知的好奇和热情，呼吁大家一起冲啊，去创造属于自己的奇迹。

两者相比之下，ChatGPT的整体逻辑更加合理，表达完整，但要说创意，还是讯飞星火的神奇物质有点意思。

3. 营销文案写作：你是一个科技博主叫Ben，写一段1分钟的短视频文案，主题是推荐适合学生购买的笔记本电脑，要求风格是专业热情的。

讯飞星火似乎并不介意在回答中植入广告。它根据便携、性价比、玩游戏三种需求分别推荐了三款笔记本电脑，还介绍了具体性能参数，感觉很专业。不过其训练数据据说是截至2019年，所以这里推荐的并不是新品电脑。

而ChatGPT围绕一款笔记本电脑进行了详细介绍，且拒绝推荐具体品牌和型号的电脑，它说自己“没有偏见，也没有任何商业利益”。

下面是两道数理题，同时增加了语言翻译的小要求。

4. 翻译+数学题：先用30字文言文概括龟兔赛跑的故事，然后回答这个问题：龟兔1万米赛跑，兔子的速度是乌龟的10倍。从起点同时出发后乌龟不停地跑，兔子跑到某处开始睡觉。兔子醒来时，乌龟已经领先它4567米。兔奋起直追，但龟到达终点时，兔子仍落后200米。那么兔睡觉时龟跑了多少米？（正确答案9020）

讯飞星火先用29字概括了龟兔赛跑的故事，只是没用文言文。之后的解题过程看起来很复杂，它被难住了，最后给出了错误答案。

ChatGPT同样也没有用文言文概括，而且字数还超过了，最后结果也不对。看来解决鸡兔同笼问题之后，AI大模型还不能完美回答龟兔赛跑的行程问题。

5. 编程题：设计一个网页，中间有个棕色的木鱼图案，点击木鱼就表示敲一下，上方会显示黑色文字“功德+1”。

想做一个敲木鱼的网页，讯飞星火和ChatGPT都给出了设计代码，但都无法生成木鱼图片，需要手动添加。不同的是，ChatGPT设置好了木鱼的颜色，会显示累积功德值。

本次发布会披露了通用认知智能大模型评测体系，覆盖通用人工智能7大类、481个细分任务类型。

经科大讯飞评测对比，星火认知大模型已经在文本生成、语言理解、数学能力上优于ChatGPT。

但讯飞星火本身的模型参数量没有对外透露，我们直接向讯飞星火提问收到的回答并不准确，GPT-3模型就有1750亿参数量了。

因此，仅从以上几道题的直观比较来说，两者的表现没有相差太多，或许未来讯飞星火赶超ChatGPT也不是没可能。

正如刘庆峰所说，讯飞星火和ChatGPT这类纯大模型技术还存在许多待攻克的缺陷，比如由于对于大模型的训练是阶段性的，新知识难以及时更新；事实类问题容易“张冠李戴”、编造情节等，但未来将会有明确的方法攻克这些缺陷。

值得一提的是，据经济观察网报道，受宏观经济等因素影响，科大讯飞去年以来多个项目进程延期，导致2022年年度净利润大幅下滑，2023年一季度净利润转为亏损。

4月20日，科大讯飞宣布AI大模型产品名为“讯飞星火”，将在5月6日正式发布。4月20日当日收盘，科大讯飞股价当即上涨9.3%至63.95元。

今年以来，随着AI大模型成为最为性感的投资标的之一，科大讯飞股价涨幅达94.79%。在AI浪潮下，科大讯飞有望迎来新的发展机遇。

AI应用专业化，谁能抢占先机？

除了演示讯飞星火大模型的各项能力，本次发布会上，科大讯飞还发布了5项大模型行业应用产品，包括讯飞AI学习机、讯飞听见、讯飞智能办公本、讯飞智慧驾舱、讯飞开放平台。

讯飞星火率先瞄准了教育、办公、汽车、数字员工这四个行业，希望推动AI大模型在垂直行业领域的技术落地。

现在AI+垂直行业应用的创业机会很多，进入这些赛道的玩家也不止科大讯飞，在这里，我们梳理了一些同类产品供各位玩家参考，你觉得谁能抢占先机？

请放大查看

作者 | 卷毛月山橘卡子

编辑 | 张洁

  关于新榜

• 作为数据驱动的互联网内容科技公司，新榜提供新媒体内容营销和企业服务系列产品，助力中国企业数字化内容资产获取与管理，服务于内容产业，以内容服务产业。
• 我们的客户既包括中国平安、腾讯、字节跳动、京东、宝洁、雅诗兰黛、欧莱雅、联合利华、迪士尼等500强，也包括正在蓬勃成长的中小企业、新兴品牌和MCN机构。面向企业的内容化组织建设，新榜提供从公域流量募集分发到私域内容运营建设的各项所需。
• “新媒体，找新榜”是我们的使命。凭借全面稳定的新媒体内容数据产品和企业服务能力，新榜被评为国家级高新技术企业，曾荣获“全国内容科技创新创业大赛一等奖” 、“上海文化企业十佳”、“中国广告新媒体贡献年度大奖”、“金狮国际广告影片奖”、“沙利文中国新经济卓越增长奖”等称号，拥有多个传播评估监测专利。