社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT能语音聊天和看图了!五种音色选项,背后模型细节公开

智东西 • 1 年前 • 192 次点击  

接下来两周内向Plus和企业版用户推出。
编译 |  ZeR0
编辑 |  漠影
ChatGPT又升级了!
智东西9月26日报道,OpenAI昨晚发布公告,宣布ChatGPT再度重磅升级,推出全新的语音和图像输入功能。

以前你只能用文字跟ChatGPT交流,但现在就更方便了,像召唤Siri、小爱等语音助手的开麦形式,ChatGPT也能做!你可以直接说话,以语音交谈的方式,跟ChatGPT侃天侃地。
图像功能也让体验更便捷。比如,当你在旅行时拍摄了某个景点的照片,你就能跟ChatGPT实时谈论一些有趣的信息;当你在家里拍下冰箱和食品储藏室的照片,可以问问ChatGPT有什么晚餐建议,然后让它给出相应的分步骤食谱。晚餐结束后,你还可以通过拍照、圈出作业问题,让ChatGPT帮你解题。
全新语音和图像功能将在接下来两周内向Plus和企业版用户推出。语音将在iOS和Android平台提供,图像将在所有平台上提供。

01.
交谈更自如!
与ChatGPT语音聊天,五种音色供选择


升级语音功能后,用户可以使用语音与助手进行来回对话。随时随地与它交谈,为您的家人请求睡前故事,或解决餐桌上的争论。
在ChatGPT手机app中的“设置”里,选择“新功能”,然后选择加入语音对话,点击主屏幕右上角的耳机按钮,就可以从五种不同的声音中选择你喜欢的声音,开始跟ChatGPT自由聊天。

‍‍‍‍
新语音功能由新的文本转语音模型提供支持。该模型能仅从文本和几秒钟的样本语音中生成类似人类的音频。OpenAI与专业配音演员合作创作了每一个声音,并使用其开源语音识别系统Whisper将语音转录为文本。
OpenAI展示了一些语音样本,比如讲制作冰拿铁的食谱,五种不同的声音效果如下:

juniper(杜松):
sky(天空):
cove(海湾):
ember(微光):
breeze(微风):

02.
随手一拍传图给AI
能排查故障、分析图表


升级图像功能后,用户可以点击照片按钮来拍照或选择图像,给ChatGPT发一张或多张图像。
用途很丰富,比如排查烧烤炉无法启动的原因,探索冰箱中的物品来计划膳食,或分析复杂的图表以获取与工作相关的数据。

‍‍‍‍
如果想要关注图像的特定部分,用户可以使用ChatGPT移动app中的绘图工具。
图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将其语言推理技能应用于照片、屏幕截图及图文文档等广泛的图像。

03.
限制语音和图像模型用途
避免被恶意滥用


OpenAI正在逐步部署图像和语音能力,随着时间推移改进和完善风险缓解措施。
新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成声音,为许多创造性和以可访问性为重点的应用程序打开了大门,但这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。
考虑到这些潜在风险,OpenAI使用这项技术来支持语音聊天等特定用例,由OpenAI直接合作的配音演员来创建,并以类似方式与其他机构合作。比如Spotify利用该技术试点播客语音翻译功能,可将播客翻译成相同音色的其他语言。
基于视觉的模型也提出了新的挑战,从对人的幻觉到依赖模型对高风险领域图像的解释。在更广泛的部署之前,OpenAI与红队成员一起测试了该模型在极端主义和科学能力等领域的风险,以及一组不同的alpha测试人员。研究使OpenAI能够调整一些关键细节,以实现负责任的使用。
与其他ChatGPT功能一样,Vision旨在为人们的日常生活提供帮助。当它能看到你所看到的东西时,它会做得最好。这种方法是通过OpenAI与为盲人和弱视人士提供的免费移动应用程序Be My Eyes的合作直接获得的。
OpenAI还采取了技术措施来显著限制ChatGPT分析和直接发表有关人员的陈述的能力,因为 ChatGPT并不总是准确的,并且这些系统应该尊重个人隐私。
OpenAI称,现实世界的使用和反馈将帮助他们更好地完善这些保障措施,同时保持该工具的有用性。
用户可能依赖ChatGPT来获取一些专业的知识或信息。OpenAI对该模型的局限性保持透明,在没有适当验证的情况下不鼓励高风险用例。
此外,ChatGPT擅长转录英语文本,但在其他一些语言(尤其是非罗马文字的语言)中表现不佳。OpenAI建议非英语用户不要将ChatGPT用于此目的。OpenAI还最新公布了一篇关于GPT-4V(ision) 系统卡的论文,详细介绍了其安全方法以及他们与Be My Eyes的合作。


论文地址:

https://cdn.openai.com/papers/GPTV_System_Card.pdf



04.
结语:新功能未来两周上线
很快将向更多用户推出


随着OpenAI陆续推出新功能,ChatGPT的升级脉络已经逐渐清晰,一方面优化用户体验,让交流更加可信、更多交互、更快响应、更加便捷,另一方面严格控制模型驱动的功能用途,以守住“构建安全且有益的通用人工智能”的准则。
OpenAI将陆续扩大访问范围。ChatGPT Plus和企业版用户将在接下来两周内体验语音和图像新功能。此外OpenAI表示很快将这些功能向其他用户群体(包括开发人员)推出。
来源:OpenAI

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/162243
 
192 次点击