社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT更像人了

字母榜 • 7 月前 • 167 次点击  


ChatGPT又双叒叕更新了,这一次,OpenAI没有大谈数字和术语,而是回归到了“聊天机器人”本身。


北京时间5月14日凌晨1点,OpenAI举行春季发布会,公司首席技术官米拉·穆拉蒂(Mira Murati)主持,现场展示了ChatGPT的更新。


发布会的核心,是最新多模态大模型GPT-4o。和之前发布新模型必强调训练数据量、各项测试成绩等“硬核指标”不同,GPT-4o的升级主要在使用体验上。



相较上一代GPT-Turbo,GPT-4o可谓是打通了任督二脉,各项技能融会贯通,和人的互动更灵活、更快速——换言之,更像“人”了。


用户可以以文本、音频、图像任意组合输入,得到ChatGPT实时文本、音频、图像的任意组合输出。在交流过程中,ChatGPT不再等待若干秒才响应,而是实时回复,还能被随时打断。OpenAI的CEO山姆·奥特曼(Sam Altman)将之称为“人类级别的响应”。



OpenAI现场展示了和ChatGPT的若干互动,包括:实时对话交互、语音多样化(应用户需求使用不同情绪、语调等)、视频指导做题、视频识别环境和人(包括人的情绪)、以桌面应用形式辅助编程、实时翻译。


OpenAI同时还放出了预先录制的展示样例若干,包括:两个GPT-4o交流和对唱、唱摇篮曲、在线会议应用、毒舌讽刺、视频识物并给出西班牙语单词、帮助面试准备、和狗互动等。


OpenAI本次现场演示选择的声音是“Sky”,听起来酷似好莱坞明星(寡姐)斯嘉丽·约翰逊。让人很容易联想到科幻电影《她(Her)》,其中AI助手正是由斯嘉丽配音。电影中男主角从使用AI助手,一步步走向一段无果的人机恋情。


奥特曼自己也在X上发了这部电影的名字:her。还有人干脆把电影海报里的脸换成了奥特曼的。



当GPT-4o驱动的ChatGPT用饱含情绪的声音和人聊天,还能看、能听、能说会唱,你就知道,科幻已经照进现实了。


更关键的是,穆拉蒂现场宣布,GPT-4o免费向所有人开放。也就是说,随着后续更新,免费用户也可以直接使用GPT-4o,只不过每日限制条数比付费用户少,达到限制后会自动切换回GPT-3.5。


以及,ChatGPT的桌面应用将上线苹果电脑系统Mac OS,Windows版本将在今年晚些时候推出。



如果用四个字总结GPT-4o的特点,就是:更通人性。


而这体现在两方面,一方面是GPT-4o多模态融会贯通,反应速度也大大提高,交互方式更接近于人;另一方面,是GPT-4o驱动下的机器人明显更活泼,更乐于表现出人类情绪。


先说GPT-4o的多模态能力,准确来说,GPT-4o最亮眼的是跨模态的能力。


一年多以前,2023年3月,OpenAI发布了多模态模型GPT-4。从那时起,人们就可以给GPT-4发图片让它帮忙分析,也可以发文件、语音聊天。但是文本、图像、语音之间是有“壁”的。


比如你想让ChatGPT帮忙解一道数学题,就只能截图或者复制题目,发给ChatGPT。如果想听ChatGPT语音讲解,得先在文本框发完之后,再切到语音。


但在GPT-4o下,你可以直接使用桌面应用,将ChatGPT打开放在一边,和它聊着天的同时,用“拍摄”功能给它看你电脑桌面的内容,它就可以在对话中为你答疑解惑。


在一则演示中,用户将ChatGPT桌面应用和做题界面同时打开。ChatGPT不直接给出答案,而是以问题引导的方式,有问有答地一步步带用户解了一道几何题。



或者,你也可以打开摄像头,ChatGPT也可以“看”着纸面指导解题。



在所有的演示当中,最让人直呼“恐怖”的还是视频对话:用户打开摄像头,让ChatGPT“看”到当下,并进行互动。


用前置镜头自拍,ChatGPT不仅能识别用户的情绪,如“看起来很开心,甚至可以说是兴奋的”,还能从用户背后的画面判断其身处的环境,如“看起来你在一个摄影棚中,背后有一些灯光,你的胸前还别着麦克风,可能在录制视频之类的”。当有另一个人进入镜头并且做鬼脸的时候,ChatGPT也准确指出了这一“不太寻常”的情况,并加以描述。



用后置镜头,ChatGPT就可以和用户共享视角。如在语言学习的过程中,打开摄像头让ChatGPT用某种语言说出物品的名称。或者可以为视障用户提供指引,告诉用户“有一辆计程车来了,就是现在,招手吧”。



再加上用户话音刚落ChatGPT就接话,以及用户可以直接打断ChatGPT,它也都能接着聊,这就使得整体体验更像人与人的对话,快速且灵活。


顺带一提,由于GPT-4o的响应速度快、可打断,其实时翻译效果非常惊艳。两个语言不通的人将GPT-4o驱动的ChatGPT放在中间充当翻译,就可以聊天了。


总而言之,GPT-4o驱动下的ChatGPT,不再仅仅是一个什么都会的应用,而是真正进化成了一个“AI助手”。



再说情绪,这一点不容小觑。


从2022年11月ChatGPT上线开始,这款聊天机器人在很长一段时间里都给人一种不苟言笑的印象。这很有可能是OpenAI为了避免麻烦而有意为之的,ChatGPT不仅回答起问题一板一眼,而且只要有机会就会向用户强调“我只是个机器人,我没的感情”。用户如果想要ChatGPT更“放松”,需要给出明确的指令。


但GPT-4o驱动下的ChatGPT明显不同了。在没有预先指令的情况下,ChatGPT不再刻意避免像人类,而是相反。


比如,当用户求助ChatGPT,说自己马上要参加OpenAI的面试,ChatGPT接过话开玩笑地说:“OpenAI,嗯?怎么听起来这么耳熟嘞?”紧接着窃笑,转而笑着亢奋地接着说:“开玩笑的!太棒了洛基(演示人员的名字)!什么样的面试?”



当洛基寻求外形上的建议时,ChatGPT用幽默的方式表示头发需要整理,说他“看起来有写了一整夜代码的氛围”。洛基戴上了一顶遮阳帽,ChatGPT立刻“哈哈哈”地大笑,说他“肯定会很显眼”,但在面试中不合适,像朋友一样劝他放弃这样做。



也就是说,GPT-4o驱动下的ChatGPT,不再是一个只追求性能的AI工具,而是开始主动提供“情绪价值”。


在ChatGPT走严肃路线的两年里,不少竞品都以更活泼、更“通人性”的姿态出现,并俘获了不少用户的心。


如Inflection.AI曾推出的机器人Pi,主打的就是“陪伴”,总是语气温柔,对用户充满关怀,不到一年的时间里就做到百万日活用户,平均对话持续时间超过半小时。


埃隆·马斯克(Elon Musk)的人工智能公司xAI的大模型Grok,则因其毒舌一经上线就吸引不少关注。


就连上一波AI聊天机器人热潮也深谙此道。2011年苹果将Siri集成到iPhone4S中,AI聊天机器人成赛博玩具,人们热衷于“调戏Siri”,让它唱歌、讲笑话。Siri虽不算神通广大,但提供了足够多的乐趣。中国用户熟悉的天猫精灵、小爱同学等,也无不有一个俏皮的“人设”。


但后来的故事我们都知道了,上一代AI助手因其技术限制,能做的实在有限,“俏皮”来自有限的预先设置,还因为理解能力不佳、不够灵活,渐渐被用户钉上“人工智障”的耻辱柱。


在2024年,人们曾经对Siri们抱有的期待——一个既能当得力助手帮忙做事,又能当赛博玩具聊天嬉笑的AI——终于在GPT-4o身上有了着落。



去年5月,比尔·盖茨(Bill Gates)曾在AI Forward 2023活动上谈及AI,对AI的前景很看好:“你永远不会去搜索网站了,也不会再去亚马逊了。”


而能干掉搜索和电商的,在盖茨眼中不是别的,正是未来顶级的AI助理:“无论谁赢得了AI助理的竞赛,这都是一件大事。”


面向C端用户,AI助理的战事已经打响。



微软已经将Copilot带进Windows11,依托以侧边栏工具的形式辅助用户;谷歌在内部整合了谷歌大脑和DeepMind之后发布拳头模型Gemini,未来有望更加深入地嵌入各个产品和应用,如Android安卓、谷歌搜索和Workspace;亚马逊则在去年9月发布新款Alexa,接入大模型。


苹果也有明显的战略倾斜,加快AI步伐。6月,苹果将举行全球开发者大会(WWDC24),iOS18是否会以人工智能做软件更新是外界关注的焦点。外界普遍认为,苹果会对Siri进行大模型重塑。


今年3月之后,接连有几个消息传出。先是彭博社援引知情人士透露,苹果正在就将谷歌Gemini大模型内置于iPhone进行谈判,同期也在与OpenAI进行类似谈判。而后是苹果CEO蒂姆·库克(Tim Cook)访华之后,《科创板日报》报道苹果将与百度进行技术合作,在今年即将发布的iPhone16、Mac系统和iOS 18提供AIGC功能。


用GPT-4o,OpenAI再次给世界亿点点震撼,接下来的AI助手竞争只会更加精彩。


“新的语音(和视频)模式是我使用过最好的计算机界面。这感觉就像电脑里的人工智能,它的真实性还是让我有点吃惊。达到人类水平的反应时间和表达能力是一个很大的变化。”在随GPT-4o发表的一篇博文中,奥特曼写道。


欢迎在评论区留言~
如需开白请加小编微信:FrenchToastW

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/170050
 
167 次点击