社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
用Python优雅地写LaTeX
易点天下入选虎嗅智库大鲸榜AIGC数字营销技术商TOP15
从AIGC到AGI,为什么我们需要更多的“技术信仰派”?
香港科技大学(广州)机器学习基础实验室招收多名2024Fall/2025Spring博士生、研究助理...
开源机器学习编译器的“理想与现实” src:网页链接 -20240423084002
免费课程:机器学习辅助材料模拟实践
GitHub工业级开源软件:CAD 的官方源代码开放!
自动驾驶十年:AI 大爆发、Transformer「登基」和特斯拉的 ChatGPT 时刻︱酷商业
Open WebUI 私有部署本地chatgpt应用
博士申请 | 美国亚利桑那大学杨幻睿老师招收机器学习方向全奖博士/实习生
关注
Py学习
»
Git
90后中国留学生开发AI“隐身衣”技术!可让正行驶的车辆突然消失,开源GitHub获点赞
DeepTech深科技
• 3 年前 • 429 次点击
刚刚过去的 2020 年 ECCV(欧洲计算机视觉国际会议),有一项 AI“隐身衣”技术引人瞩目。该技术来自本次会议收录的论文
《光流 - 边缘引导的视频补全》(Flow-edge Guided Video Completion)
。ECCV 是计算机视觉三大会议之一,每两年举办一次,论文录取率仅 27%。
DeepTech 采访到该论文第一作者高谌,他是一位 90 后北京小伙,目前在弗吉尼亚理工大学计算机工程专业就读博士三年级,师从华人教授 Jia-Bin Huang。
该研究成果主要是开发出一项 AI 视频处理算法,其能实现诸多 “炫彩” 成果:比如正在行驶的车辆,突然人间蒸发。
图 | 突然消失的汽车(来源:受访者)
正在坐秋千的小孩,突然只剩下秋千架;正在骑马的运动员,跨过栏杆人和马都不见。
图 | 消失的荡秋千小孩(来源:受访者)
这不是变魔术,而是本次 AI 视频处理算法的功能之一,它依托一种名为光流引导(Optical Flow)的方法。
据了解,当前视频处理主要面临几大难题:补全后的光流难以做到分段光滑,难以保证时序连续型,难以在高分辨率下实现修复,更难以降低视频对计算的开销。
基于此,高谌
提出一种以光流边缘为引导(Flow-edge Guided) 的光流补全技术,再利用补全的光流来完成视频补全的算法。相比此前方法,该算法可保持运动边界的清晰度。
研究起源于在 Facebook 的实习
本次研究开始于 2019 年暑假,当时高谌在 Facebook 实习,他跟导师 Jia-Bin Huang 讨论后决定了该方向。在查考相关文献、并了解该领域的现有问题后,他开始着手算法开发。
图 | 高谌(来源:受访者)
该研究的主要原理——光流法是视域中物体运动检测的概念,其用于描述运动所造成的观测目标、表面或边缘的运动,主要应用于计算机视觉和影像处理等。使用光流法,可寻到不同帧之间的关系,并通过在不同帧之间传播信息来补全视频。
本次研究主要包含三个步骤:
光流完成(Flow completion)、内容传播(Temporal propagation)和融合(Fusion) 。
第一步是光流完成。
具体操作时,要计算相邻帧之间的正向光流和反向光流、以及一组非相邻帧 (Non-local) 的正向光流和反向光流。
由于视频可能出现破损,计算出的光流也需要补全。另外,因为光流是分段光滑的,是否能得到一个锐利光流边缘,将直接影响最后的光流补全结果。最终,高谌选择利用神经网络来补全光流边缘,再以光流边缘为引导补全光流。
第二步是内容传播。
这时要按照光流的轨迹,为每个丢失的像素找到一组候选像素。顺着正向光流和反向光流,最多可找到两个候选点。而在非局部光流的帮助下,通过检查三个额外的帧,可以获得额外的三个候选帧。高谌表示,对于每个候选帧,都要估计一个置信分数以及一个二进制有效性指标。
第三步是融合。
使用置信加权平均值,将每个缺失像素的候选像素与至少一个有效候选像素融合。并通过梯度域的操作方式,可避免明显的拼接裂缝,从而生成无缝的结果。假如一个像素没有任何候选像素,就意味着它无法通过时间传播来填充。这时,高谌选择一个关键帧,并使用单个图像补全技术来填充它。
可实现无痕补视频
本次算法,相比同类算法主要有三大优点:
第一,此前的补全视频中,用户可明显看出视频 “补过”,“补丁” 边界处非常明显。如下图所示,其结果往往带有痕迹,显得很不自然。而使用本次算法得到的补全视频,其补全区域是无痕的。
图 | 用其他方法很难表现自然(来源:受访者)
第二,此前用算法给视频补帧时,只能补到前一帧和后一帧,如果找不到前一帧或后一帧的信息,就会无法补全。而本次算法,不仅能补全前一帧和后一帧,还能跳着补帧。比如,直接跳到第一帧去借用信息,或者直接跳到最后一帧去借信息,这样就不局限于上一帧或下一帧。另外,此前方法在处理有周期性运动物体出现的视频时往往比较困难,针对该难题高谌通过引入非局部 ( Non-local ) 信息,来提升视频修复的准确度。
图 | Non-local temporal neighbor ablation(来源:受访者)
第三,以前的算法补出来的光流不是很平滑,往往带有明显的接缝。而该团队的算法主要基于光流边缘进行补全,最终可得到分段光滑的光流。
图 | 流程完成(来源:受访者)
以上三个原因,让本次研究的结果,比以前方法更好。
此外,
由于此算法不局限于 GPU 内存,所以可处理最高 2K 分辨率的视频。这种全自动的算法,可告别之前手动一帧帧地删除视频内容。
众所周知,机器学习算法的开发过程费时费力,开发成本高。高谌认为,他们的新算法以完全自动化的流程取代手工,会达到更低的成本。
事实上,机器学习相当于优化问题的过程,优化过程中需要很多 CPU 和 GPU 资源,比如在本次研究中 Facebook 就提供了大量 GPU。
所以,
算法开发成本非常高,而算法一旦开发出来,就可以一劳永逸地进行部署,不管多少视频都能完全自动化处理。
并且,对于一般视频剪辑者来说,即便没有计算机知识,也能使用该技术。
已经开源,可供厂商和个人使用
在肉眼观感上,依托该算法修复的视频,已能做到无痕抹除水印、无痕补全画面残缺,在目标识别和影视后期(视频编辑)中,具有很大应用前景。
除用于视频编辑外,Vlog 创作者们可使用该算法,营造一个人突然消失的场景;普通用户则可完成 “美图秀秀” 式的视频处理,比如假期旅游拍摄视频时,可能你本来想拍景点,但由于游客太多挡住了景点,使用该算法就能把游客删掉,最终只保留景点本身的视频。
虽然这一过程和删除图片中的内容很相似,但这里是删除同一帧视频中的内容,这也是相比照片处理的难度所在。
再就是针对部分内容缺失的老旧视频,该算法能修复出丢失或破坏的地方。以几十年前的胶片视频为例,假如视频左上角被水淹过,此处就是完全一片黑色,既无颜色也无信息,而使用本次算法,则可补全已缺失部分。
具体操作时,如果某一帧有缺失,就得看能否从视频中的其他帧借到有用信息,也就是 “补丁” 内容不是凭空生成,而是本身就在视频里。这样补出来的视频在播放时,就会非常流畅。
还有一种可能,整个视频都找不到可借用部分,那就只能求助另一个算法,这种方法叫单帧补全,也就是说从其他帧借不到信息,就只能用一个网络来把这一帧缺失的信息补全。
这一帧补全的信息,还可以借给其他帧,即先从其他人那借,借不过来就自己生成一些,相当于鸡生蛋蛋生鸡,不断循环借出去借回来的过程,直到最后可让整个视频都补全,且播放非常流畅。
当前的局限在于,算法无法理解视频的内容,它只能借助光流找到信息并把信息补全,这也是当前人类 ”抠图师”的优势所在。
本算法已经在 GitHub 开源,任何人都可以免费使用。
高谌表示,欢迎厂商或其他研究人员把该项目的源代码合并到软件中。由于已经开源,只要你对视频编辑感兴趣,就能直接用本次研究结果来做创造性作品。
在 DAVIS 数据集上,高谌将该成果与已有成果进行对比,在峰值信噪比(PSNR,Peak Signal to Noise Ratio,一种评价图像的客观标准)、结构相似性(SSIM,Structural SIMilarity,一种衡量两幅图像相似度的指标,LPIPS)上,均优于其他成果。
图 | 和同类方法的对比
不过,高谌在论文中坦言:“我们的方法运行速度为 0.12 fps,(速度)与其他基于光流的方法相当...... 我们承认运行时间稍慢是个弱点。”对此,他表示该成果已经开源,因此非常期待圈内人士对其进行优化。
今年 28 岁的高谌,本科时就读于俄勒冈州立大学,主修电子与计算机工程;硕士来到密歇根大学安娜堡分校,就读于电气与计算机工程专业;博士则就读于弗吉尼亚理工大学计算机工程专业,师从华人教授 Jia-Bin Huang。截止目前,已发表 7 篇被 ECCV、NeurIPS 等顶会录用的论文。
2019 年夏季,高谌在 Facebook 计算摄影组担任研究实习生。2020 年夏季,则在谷歌安卓相机算法团队,担任研究实习生。谈及他未来的计划,他表示仍然想去企业工作。
-End-
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/74213
429 次点击
登录后回复