我在美国过的端午节。下了飞机当天,我约了几个很久前我给《纽约时报中文网》写专栏时认识的美国朋友一起喝咖啡。
因为是年休假,我都没想过要谈工作,实际上我都没想过会谈起 ChatGPT。这倒是给了我一个以全新视角看待 ChatGPT 的机会。
事情是这样的:
当时我们在 Peet’s ,很随机就聊到了 AI 的未来(毕竟这里是硅谷)。当时,有个朋友 R 说:接下来 AI 会解决癌症,人类死于癌症的几率会大为减少,我们的寿命会变长,人口会越来越多。
我说:“能源是有限的”。
R 继续说(他的语速太快了):“如果人口太多,我们可以搬到其它星球去。”
“但能源是有限的。”我说道:“阿西莫夫的科幻小说《最后的问题》就讲到了这一点。”
我原本打算开始讲起科幻小说。千真万确,如果说“书呆子”这个词在世界的任何地方都是个贬义词,那么在硅谷,这绝对是一个褒义词。但没想到的是:C 突然拿起手机问起 ChatGPT:“阿西莫夫的小说《最后的问题》,这个‘最后的问题’是指什么问题?”
一个嘹亮的女声从 C 的手机中响起(我没有感觉到任何延迟)——:
“《最后的问题》是阿西莫夫的一个短篇小说。‘最后的问题’是指:如何逆转‘熵增定律‘。熵增定律是指:在自然过程中,热量会从高温物体流向低温物体,这一过程不可逆。”
C 还没等 ChatGPT 说完,就把手机按掉了。他已经明白我说的意思。
整个场景大致如上,R 和 C 对我的话表示赞同。
此外,我发现:那天下午我们聊得出奇地愉快,不仅因为有 ChatGPT 的参与,让谈话效率大幅提高,还因为横亘在不同民族间的“巴比伦塔”不见了——当我听不懂他们说的某些英文时,ChatGPT 就会帮上大忙,他们会先对 ChatGPT 说,然后 ChatGPT 用中文对我说。
还有一个细节:ChatGPT 可以避开其他人声干扰。Peet's Coffee 是一个原创的手工咖啡连锁店。在美国,大家在公众场合说话都很小声,但 ChatGPT 有时还是会被周围的人声干扰而停下。此时,C 会让 ChatGPT 忽略环境中的其它人声,继续“她”原本在说的话。
此外我还注意到:我的这几个朋友都非常喜欢 ChatGPT 的“记忆功能”,也就是 AI 模型的个性化。这么一个下午下来,我已经被录入了 C 的 ChatGPT 的朋友清单,“她”甚至还知道了我的一些关注点。
综上,我想表达的最核心的点是:
在国内,我们都使用过 DeepSeek,使用过夸克、使用过元宝,所以我们可能会认为这些 AI 聊天机器人与 ChatGPT 都大同小异,但实际上不是的。实际上,真正让 ChatGPT 在消费级用户中大规模腾飞的原因是:它的原生语音功能——这让 ChatGPT 爬上了比电脑占用消费者时间更多时间的移动手机,从而迅速地流行开来。
是的,我认为再怎么强调这个“原生语音”功能都不为过。因为如果单单是 AI 通过文字输出来与我们做交互,这个效率还是太低了。
那日的晚上,我回到住所查到的数据也验证了这一点。根据我查阅的数据:
去年 5 月,OpenAI 发布了具有高级语音功能的 GPT-4o 后,其高级语音功能极大推动了 ChatGPT 在移动端的使用规模——我的上述几位朋友,正是在去年 6 月前后开始使用手机 ChatGPT。此外,从去年的 5 月到今年 3 月,ChatGPT 在全球的周活用户数从 1 个亿的规模,突飞猛进到了 5 个亿。
当然,为谨慎起见,我也认真查了国内一些 AI 聊天机器人的情况,并询问了我知识星球里的会员(TA 们通常比我更了解国内)。以下是我获得的一些信息:
# DeepSeek:没有直接的语音功能。
# 元宝:目前元宝并不能真正“说话”,而是通过语音识别技术将用户语音转为文字,再由 AI 处理并生成回复。元宝的“说话”是通过文字生成,而不是直接由 AI 发出声音。也就是说,虽然元宝可以与用户进行语音互动,但不能真正“说话”,而是通过文字生成和语音合成技术实现。
# 夸克:类似于元宝
# 以及,我的星球会员、一位一级市场的投资者回复我:“据我了解还没有达到,都是文字界面目前,语音也是转换,不是对话那种。”
重点来了:ChatGPT 的高级语音模式(AVM),是使用了 GPT-4o 模型的原生音频功能。也就是说,它本身就能理解语音(不仅能读写文本,还能读写语音),也意味着用户其实是直接在对着大语言模型说话。这也使 ChatGPT 创造出来的语音体验,比以前任何我们与计算机交互时的其他语音交互都要更加出色、更加流畅——我的使用体验是:简直太爽了。
那么,一个问题是:为什么此前苹果的 Siri,就没有在这样日常的应用场景中流行起来呢?因为 Siri 的智能能力太烂了。实际上,苹果直到昨天的 WWDC 大会,也没有能够解决这个问题。
最后,是另一个有关 ChatGPT 最新里程碑的信息,仅供参考:
5 月 25 日,也就是刚刚过去的两周前,ChatGPT 用户如今每天在 ChatGPT 应用内所花的平均时间,已经达到了接近 20 分钟。这比 ChatGPT 刚刚发布时(具体对比时间是 2023 年 5 月)增加了 3 倍。如下图:
//您也可以加入会员解锁所有付费内容。会员权益详见下方(如需发票请找我,星球内有我的微信号):会员权益:一年 251 个工作日,每个工作日我将撰写美国 AI 前沿最重要的一件事/一家公司/一个趋势,并说明为什么重要。251 天后,您对美国科技前沿趋势的了解将超过国内 99% 的人。如下扫码登录(老会员续费请见底下那个二维码)老会员续费注意事项:我已开启自动发放优惠券功能,提前续费的会员续费时自动享受八折优惠;过期一个月的会员续费时自动享受九折优惠。过期一个月以上的则无折扣。扫码登录下方二维码:
怕错过文章就把这个公号设置为“星标”吧