社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

商汤,将AIGC进行到底

经济观察报 • 1 年前 • 196 次点击  

当AIGC热潮在中国涌动时,作为AI领域的领航员之一,商汤科技率先推出了“日日新SenseNova”的大模型体系,多个大模型产品以体系化方式切入不同场景,摸索落地。


7月7日,在上海举行的第六届世界人工智能大会(WAIC 2023)上,商汤科技董事长兼CEO徐立介绍,过去短短不到100天时间里,商汤除了在大模型能力上“日日新”,在结合场景给出的综合解决方案和行业发展能力方面“又日新”。



身处大模型掀起的这一轮新的AI革命中,徐立看到,产业需求呈现爆炸式增长,全新的应用场景和应用模式正迅速涌现。“商汤通过‘大模型+大装置’持续推动AI基础设施能力的跃进提升,不仅打造通用能力更加强大的基础模型,也进一步高效融合不同垂直领域的专业知识,构建更懂行业、更具专长的专业大模型。”


通往AGI之路,徐立带领下的团队选择把一个个分解的任务变成端到端,也就是“多模态的接口开放”,这让商汤对开放世界的理解更为深入,伴随多模态交互能力的升级,赋能下游产业应用期间,不但可以从根本上降低大模型应用成本和门槛,还进一步让大模型的产业价值在千行百业中绽放。



大模型“超市”全面升级



正如徐立所言,商汤的模型能力每天都在迭代,而基于“大模型+大装置”的AGI战略布局,大模型“超市”中的每个产品,也实现着飞速升级。


作为千亿级参数的自然语言处理模型,商汤商量SenseChat 2.0版本不仅新增了像阿拉伯语、粤语等涉及小语种、地区语言的使用场景,还突破了大语言模型输入长度的限制,并推出了不同参数量级的模型版本,开放新的API接口,完美适配移动端、云端等不同终端及场景的应用需求,降低部署成本。


基于十几张徐立的照片,商汤自研生成式大模型商汤秒画SenseMirage 3.0“画”出了手捧鲜花、抱着吉他、旅游购物等多个场景下的“徐立”照片,徐立讲述,将这些照片发给家人时,“很多人都信以为真。”


徐立将这种体验简而言之概括为“画我想画”,而在这一生成式体验实现背后,秒画的模型参数已经从4月首次发布时的10亿提升至现今的70亿量级,从而使之达到如同专业摄影级的图片细节刻画与光影效果呈现。


徐立的“分身”也在商汤如影SenseAvatar 2.0数字人生成平台得以实现,除了AIGC生成形象外,这一数字人连语气都能还原到徐立的五六分,语音和口型流畅度也较上代版本直接提升了30%以上。


数字人之外,面对空间“重构”的需求,商汤琼宇SenseSpace 2.0,在1200 TFLOPS/秒算力的理想状态支持下,38小时内就能完成100平方公里的场景建图,相较上一代实现了效率提升20%,渲染性能提升50%。


若配搭商汤格物SenseThings 2.0对小物体的纹理及材质还原达到毫米级精细度,这种3D还原还能突破对高反光和镜面物体的采集难题,让物体空间在数字化的世界里,也能立体且“逼真”。




落地场景激发生产力



当越来越多的科技巨头投身到中国通用大模型的自研创新中,应用落地成为检验各个大模型能力的关键,而千行百业则给出了“跨场景”的考验。


就此,商汤通过大模型的多模态能力,组合式赋能产业升级,从而引领多行业实现全新突破。


徐立以落地严谨的金融行业为例,商汤在与银行、保险、券商等客户合作时,会利用数字人进行智能客服、智慧营销等工作,并通过接入大语言模型能力,提供投研分析、研报撰写等新功能,实现降本增效。


商汤还会和客户一起“打磨适用产业领域的垂直模型”,挂载金融知识库后,能100%基于客户的产品说明进行内容问答输出,实现信息及时更新。


另外,在医疗场景中,商汤打造的中文医疗语言大模型“大医”,可以提供导诊、问诊、健康咨询、辅助决策等多场景多轮会话,还能通过支持医学图像、文本、结构化数据等多模态综合分析,不断提升医疗相关图文的理解和推理能力,进一步在医院和医疗机构的落地过程中,提升诊疗效率及患者服务体验。


其实,在通用大语言模型通过挂载知识库解决特定领域问题的基础上,商汤还凭借多模态能力解决着很多“长尾”的开放世界问题,例如电网巡检、智慧城市检测等。正是在这样的大模型体系落地场景过程中,除了单项能力的激发,商汤释放出了更多综合能力。



得益于商量2.0和秒画3.0的综合能力,将其应用综合至手机这一移动终端上,商汤针对终端用户在信息获取中的问答交互、生活场景下的知识交互,以及语言和图像生成的内容交互等,通过大模型的轻量化部署和运行,为客户带来多种智能交互解决方案。



那些“再造”能力背后


在商汤踏上这条通往AGI的道路后,“我们要将AIGC进行到底。”说出这句话的栾青,是商汤科技数字空间事业群数字文娱事业部总经理。


笔者看到,商汤大模型体系升级后,如影2.0推出的数字人,除了展示视频效果已能达到4K高清,技术赋能下,甚至能让一个五音不全的人实现数字“分身”放声歌唱等。


不只是简单“再造”数字人形象,栾青道出了AGI技术竞逐阶段,商汤与同业在数字人方向上的差异之处。“我们认为它的智能以及内容呈现的能力,会有一个质的提升。”区别于过去NLP方式生成的数字人,如今商汤的数字人“说的话,做的事,都是通过AIGC生成的”。


在栾青看来,如影这样一个全栈式视频内容生产平台,视频里的人与物,每一个像素、声音、音乐等素材,都是由AIGC生成,“一定程度上能降低内容创作的门槛。”当然,在“以假乱真”的数字人背后,商汤也在推动行业建立数字人可信白皮书和规则,以保障下游应用安心且放心地使用技术去赋能内容创作。


其实,除了满足内容创作者需求,电商、文娱、工业设计、游戏开发、教育,甚至是博物馆、艺术展等行业及场景中,借助AI技术手段实现内容生成的需求也在爆发,而商汤推出的3D内容生成平台格物,基于神经辐射场技术(NeRF)切入上述场景,担纲起了解决痛点需求的重任。


在商汤科技灵境空间事业部总监李宇飞的眼里,格物1.0版本是NeRF技术完成了初级产品化,“可以高逼真地解决一些复杂的几何结构物体的还原。”而今三个月时间过去,格物可还原的物体精度负荷从4毫米左右提升至1毫米左右,物体品类也逐渐扩张。


“一些高反光材质,是激光或光场重建难以搞定的品类。”李宇飞对商汤大模型对于光影控制的能力加以强调,他还透露,格物技术突破对高反光和镜面物体的采集难题后,已经跟黄金首饰品类下的一些头部珠宝厂商展开深度合作,“赋能百业的进度在某些品类上远远快于国外。”


其实,在将技术“输出”至场景落地时,商汤也在降低行业应用的“门槛”。李宇飞以自然博物馆对几万件动物标本进行3D化处理为例,依赖激光重建技术还原一个标本就要千把块钱,这项投入高达数千万元,显然,没有哪个博物馆具备如此资金量去做这样一件事。


而今,格物2.0依赖更为强大的NeRF技术,完成效果更好的重建,“成本可以打到很低。”李宇飞讲述。



李宇飞希望具备“人、物、场”因素的行业企业,可以清醒地意识到,“未来3D内容生成一定是趋势和未来。”显然,商汤的如影数字人、琼宇与格物目标切中的,正是那个可以被AI再造,另一个“逼真”的数字化世界。


实际上,这个过程中,商汤日日新大模型仿佛一个坚实稳固的“基座”,为上述多模态的产品提供着支持,“帮我们去训练神经网络深度学习,来提升效率。”李宇飞坦言,商汤持续加大研发算法和人员的投入同时,也在人、物、场的复刻及未来AIGC生成式技术方向上“投入坚决”。



产业价值与AGI之路



在WAIC2023的上海世博中心和徐汇滨江会场,由商汤打造的两位数字人员工,作为线下新闻官为参会嘉宾和观展者提供引导和议程介绍服务。


栾青介绍,不论商汤的数字人还是如影平台,抑或大模型及AIGC产品系列,都在展开千行百业的合作探路。她透露,一些市场上有需求的客户和渠道商,正在与商汤交流数字人定制等方面事宜,而如影平台也在进入银行、保险、教育等需要营销内容输出、运营服务解决方案的行业客户场景中去,也让商汤得到了不少技术和产品优化和提升的正反馈。



与一些只做三维重建的“小故事”不同,李宇飞认为,格物与秒画等商汤大模型体系中的产品协同,目的是“为客户构建更多和商业链接的服务”。


立足当前看,不论是格物这一产品,还是商汤整体的技术能力,“跨过下游客户的门槛,没问题”,但李宇飞指出,实操中并非单纯一项人工智能技术单点突破,就能实现落地,过程中仍需要相关技术领域、产业多方协同。


商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚,详细讲解了商汤大模型体系落地智能汽车领域中的协同效应。


像商汤打造的车路云协同的交通体系,凭借多模态、多任务通用大模型,开发了路侧视觉感知大模型,又结合琼宇2.0及格物2.0构建了一个智能交通孪生与仿真系统,利用商量2.0的感知推理和人机交互能力,实现了车路云共同向大模型对话式交互的演进。


不只是在车舱外展开端云协同,为了抓住车舱内这一流量入口,商汤还通过大模型的环境理解、逻辑思维和内容生成能力,打造了一个更懂用户的“车舱大脑”,并支持形象、语音快速定制的数字人进行拟人化交互,带来集安全、娱乐、教育及效率于一体的智能座舱体验。


可以看到,如今在日日新大模型体系的升级和迭代下,商汤在中国大模型浪潮中持续进击,在备受关注的应用落地侧,它也走在产业市场探索的前列。



金融、医疗、电商消费、电力、城市管理、短视频直播以及智能车载领域,具备 “大模型+大装置”的能力的商汤,都已进入其中,深入赋能产业的同时,这一AI巨头也在挖掘更多技术创新的商业化潜能。之于商汤,通往AGI的路并非坦途,但它过去多年构建起的竞争力和创新力,正汇聚于大模型体系中。


应对当前产业展开的一场生成式AI技术竞逐,商汤不遗余力,坚定投入,将AIGC进行到底。


(资讯)

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/157585
 
196 次点击