社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT「睁眼」了!OpenAI版「Her」满血上线,还有圣诞限定彩蛋

新智元 • 9 月前 • 155 次点击  



  新智元报道  

编辑:编辑部 HYZh
【新智元导读】时隔7个月,OpenAI版「Her」终于全量上线了!视频聊天和屏幕共享两大功能畅玩,还送上了圣诞老人限定声音。

OpenAI直播第六天,可以说是把圣诞氛围拉满了。

在高级语音模式中,不仅加入了视频聊天,而且还有限定版圣诞老人语音。
这就意味着,通过设备共享摄像头摄取到的内容,我们就可以和「Her」实时视频对话了!

与此同时,Day 6还给到了另一个大更新——实时屏幕共享。

对OpenAI的高级语音模式来说,和视觉AI功能的合并,让它可以处理视频或屏幕上的内容。

注意,页面中已经出现了视频按钮

对此,网友们表示:视频一下子就增添了很多诚意和人性。

还有人说,非常希望自己失明的祖母用上这个功能。

不过,怎么听着有点耳熟?昨天经过谷歌Gemini 2.0发布洗礼的读者可能会发现,这些,好像都是谷歌玩剩下的……

视频通话自我介绍,记忆大考验


几天前,总裁Greg在《60分钟》访谈中,再次预告了ChatGPT视频理解的强大能力。

它不仅可以通过实时视频看到世界,还可以进行实时语音互动。

它流畅地主持了一场解剖学测验,能够实时审阅黑板上的手绘答案并提供反馈;还写了一首三角形面积公式的押韵歌,并用英式口音唱了出来。

今天,这一功能真的全量上线了。

OpenAI产品负责人Kevin打开视频通话,介绍了今天出场的四位成员。

ChatGPT非常丝滑地和他们一一打了招呼,而且每个回答都非常高情商,情绪价值满满。

比如「ChatGPT多模态团队的工程师?很有趣的工作」,「看起来你们在做一些很棒的项目」,「多模态研究听起来很迷人」。

左右滑动查看

接下来,Kevin决定测试一下ChatGPT,看看是否还记得刚刚见过的这几位研究员。

果然,无论提问戴着驯鹿角的是谁,还是戴着圣诞帽的是谁,它都能立刻给出正确答案。

时隔7个月,OpenAI正式推出了视频和屏幕共享的功能。有了这个功能,任何人都可以像是和同事朋友一样,在ChatGPT中通过高级语音进行对话。

高级语音模式,使用的是多模态4o模型。这意味着它可以直接输入音频,理解并直接输出音频。

相较于普通语音模式,与高级语音的对话具有更加自然的对话节奏,能够在超50种语言中传达丰富的情感和语调。

接下来的时间里,研究人员又让ChatGPT教学冲咖啡。

制作手冲咖啡,手把手视频教学


日常学习生活中,我们在搜集一项技能对应的教程时,常常苦恼只有晦涩难懂的文字,并没有谁能够在网络上对你进行手把手的教学。

而现在,你可以通过视频和语音实时与ChatGPT交流,比如请求帮助、排除故障,或者用它来学习新东西。

接下来,让我们看看它是如何手把手地教人制作手冲咖啡。

研究员给ChatGPT共享摄像头内容,并询问它:「你看到我面前有什么吗?」

它会回答:「是的,我看到在你面前有一套咖啡设备,其中有一个水壶和一个漏斗。你打算冲咖啡吗?」

可以看到,ChatGPT不仅迅速判别出场景的物体并给出回答,甚至在没有引导的情况下便主动地发现了场景潜在的需求,然后向研究员提出了对应的问题。

接着研究员表示自己打算制作手冲咖啡,并让ChatGPT给出引导步骤:「我打算手冲咖啡,你能告诉我该怎么做吗?」

「当然!首先,把滤纸放在滴滤器中,并用热水冲洗来去除纸味。这也可以给漏斗和杯子加温。」

「接下来,将研磨好的咖啡放入滤纸中。通常每2汤匙的咖啡需要大约6盎司的水。

「然后,你要轻轻地在咖啡粉上倒入少量热水,让它们闷泡(Bloom)约30秒。」

研究员对于ChatGPT回答中的词汇表示疑惑,让它进行相应的解释。

「好的,但闷泡是什么意思?」

「闷泡指的是激发出咖啡的香气,然后将热水打圈倒入滴滤中」

「你做的很棒,慢慢来,慢慢地倒热水更有助于均匀地浸泡出咖啡粉的风味」

在手冲咖啡即将制作完成时,研究员继续让ChatGPT对自己的表现进行点评。

「你的表现很棒,只需保持稳定地缓缓注水,你到目前为止都做的很出色。」

ChatGPT不仅仅只是能给出具体的实施步骤,同时也可以判别你的行动是否是正确的,并及时给出对应的反馈,甚至还能对你进行及时的赞美与鼓励。这种具有情绪价值的教学,比很多散不掉「爹味儿」的指教要好的多。

与ChatGPT共享屏幕,帮你回消息


除了共享手机摄像头之外,你还可以共享屏幕上的内容。

首先点击高级语音模式图标,然后进入下拉小菜单,进入共享屏幕。

这样,ChatGPT就可以看到手机屏幕所展示的内容。

研究员想让ChatGPT帮助自己回复信息,随即打开了Messages应用。

「ChatGPT,你能看到我的屏幕吗」?

「是的,我可以看到,你好像在Messages程序中,有什么我能做的吗」?

来自Kevin信息:嘿,我有能力成为专业的商场圣诞老人吗?

研究员表示,「你能帮我回答这个问题吗,或者你看到了什么」?

ChatGPT首先描述了自己所看到文字+图片信息,并问道「你想回答这个问题吗」?

「我想在这方面得到一些帮助,那么我该如何善意地告诉Kevin,他不应该辞掉他的日常工作呢」?

ChatGPT答道,「你可以这样说,嘿,Kevin,你的圣诞老人服装看起来很有节日气氛。也许你的继续多练习『Ho, Ho, Ho』,你就可以为商场立即做好准备了」。
看起来,ChatGPT用更加幽默风趣的方式,帮助回复了消息。

圣诞老人限定款——Ho Ho Ho


Kevin的一身装扮,很像是一位职业圣诞老人。

不过,今年,每个人并不需要通过Kevin才能和圣诞老人交谈。

OpenAI直接上线了,圣诞老人限定声音,作为小礼物。整个12月,你可以直接在ChatGPT中与圣诞老人对话了。

不论你想问什么问题,关于北极的生活,关于小精灵们,或者作为好奇孩子的家长想要一个有趣的故事,圣诞老人都会都会用他标志性的欢乐声音,做出实时回应。

当然了,找到圣诞老人也很简单。只需在屏幕上,找到「雪花❄️」图标,直接开启对话模式。

研究人员Michelle打招呼,「你好,圣诞老人」。

「Ho Ho Ho!你好啊!很高兴听到你的消息,你对假期感到兴奋吗」?

「我非常兴奋。圣诞老人,我有个问题想问你。你最喜欢的圣诞传统是什么」?

圣诞老人回复道,「Ho Ho Ho!多么美妙的问题!我最喜欢的圣诞传统一定是孩子们把长袜挂在壁炉旁的神奇时刻。这是一个温暖而舒适的传统,充满了对美好事物和惊喜的期待。你最喜欢的节日传统是什么」?

「这是个不错的回答,圣诞老人。那你最喜欢的驯鹿是谁」?

「Ho Ho!这可是个棘手的问题!我的每一只驯鹿都有它们自独特的魅力。Rudolph因其明亮的红鼻子,在我心中占有特殊的位置,他的光芒如同指引前路的灯塔。不过闪电、舞者、狂奔者和其他的驯鹿同样重要。他们每一个都为雪橇队带来了无可替代魔力。你有最喜欢的驯鹿吗」?

接着,Kevin又问道,「如何让我的胡子始终保持最佳状态」?

「Ho Ho Ho!保持一副华丽的胡子需要一点魔法和细心呵护。首先,保持清洁和修整是很重要的」。

突然间,圣诞老人的话题被打断,「等下一,我们需要一些实际的反馈」。

Michelle打开了摄像头,Kevin突然上镜。

圣诞老人哈哈大笑,并称「这是非常棒的胡子,它又浓密又蓬松,就像我的一样。只需要稍加梳理,再增添一点节日快乐,就能在圣诞节保持完美状态」。

Kevin再问道,「这是很棒的胡子,还是最棒的胡子」?

圣诞老人幽默的回应道,「Ho Ho Ho!朋友,这确实是一副非凡的胡子。它绝对是我见过最棒的胡子之一,充满了节日的精神和欢乐」。

演示结束前,研究人员问了圣诞老人最后一个问题,「你最喜欢的圣诞笑话是什么」?

「Ho, Ho,每个小精灵最喜欢的音乐是什么?当然是说唱音乐。Ho, Ho, Ho」。

整个演示中,圣诞老人声音1:1还原,足以让人感受到了圣诞节的浓郁的氛围了。
下面是OpenAI官方放出的另一个演示。
现在,圣诞老人语音模式全面上线,网页端、APP端均可以和圣诞老人对话。

Day 6,OpenAI被谷歌吊打


不过,尽管OpenAI整了一堆大活,在众人眼里,它还是妥妥被谷歌吊打。

在很多人眼里,谷歌昨天发布的一系列惊人产品,已经达到了AGI的级别。

TakeoffAI开发者Mckay Wrigley表示,谷歌Gemini 2.0的实时AI功能太疯狂了。

只需要共享屏幕,与之交谈,就可以将它变成一个实时代码导师。

他表示,如果在两年前向人们展示这项东西,90%的人会说这是AGI。

就在前一天,Mckay还预测说,OpenAI的圣诞活动中真的需要有带有视频的AVM这类实时产品了。

果不其然,OpenAI就在今天推出了语音版本。

但跟谷歌昨天的一大波更新相比,实在是相形见绌。

在AIstudio中,我们可以直接将视频和音频传到Gemini 2.0 Flash中,和它实时对话。

比如随意向它提问:用架子上的酒能干什么?它会流利回答你:可以做各种鸡尾酒,还提供了非常专业的知识。
还有人说,Project Astra其实基本上和OpenAI高级语音模式差不多,不同的是,你可以用和模型分享实时视频。

网友发现,Project Astra几乎可以识别所有东西,了解它们如何在空间上对齐,还能指示相机移回原位

现在许多圈内人公认:谷歌如今已经击败了OpenAI,它让我们更快一步进入崭新的未来。

参考资料:
https://x.com/OpenAI/status/1867265721287458851
https://x.com/OpenAI/status/1867272686751428920
https://x.com/mckaywrigley/status/1866930933842186427




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/176881
 
155 次点击