Py学习  »  机器学习算法

深度学习和机器视觉top组都在研究什么?

机器学习算法与自然语言处理 • 3 年前 • 279 次点击  
公众号关注 “ML_NLP
设为 “星标”,重磅干货,第一时间送达!

来自 | 知乎

地址 | https://zhuanlan.zhihu.com/p/341314767

作者 | Guosheng Hu

编辑 | 机器学习算法与自然语言处理公众号

本文仅作学术分享,若侵权,请联系后台删文处理


圣诞新年长假接近尾声,假期中我广泛阅读了top组最近做的研究,受益匪浅。在这里分享一些浅见。


1. top组都在研究什么?


各个组研究不尽相同,但top组重合度高的研究方向主要包含: self-supervised learning, multi-modality (audio-vision, text-vision, vision-touch, etc), Reinforcement learning (in Robotics), 3D, video analysis。


2. 如何做有影响力的工作?每个组都有不同的创新思路以及偏好。


(1) 将CV的技术应用到其他领域。例如 Li Fei-Fei做了很多将CV用在medical领域的应用,她刚发了篇Nature, `Illuminating the dark spaces of healthcare with ambient intelligence'. 这篇文章极为广泛地介绍了CV和ML可以在医疗领域的落地场景。文中介绍的很多场景,每一个都可以支撑起一家估值可观的初创公司(看我安利论文后的投资人和创业者未来发达了别忘记请我吃饭)。

除了医疗领域,还有将CV/DL/ML用在药物设计,洪灾预测,通过谷歌街景地图来识别车的牌子,来判断当地的生活水平和预测美国大选等等。


(2) 引入新的模态(modality)来解决经典问题以实现降维打击。比如把音乐的声音信号自动转化成谱子(transcription), 这是一个经典的语音识别问题。Andrew Zisserman 发表了一篇 ICASSP 2020 (Sight to Sound: An End-to-End Approach for Visual Piano Transcription), 他引入了图像信息,在钢琴上面放置摄像头来识别演奏者手的位置,用这个信息来转谱。这样的好处是可以排除噪音对转谱的影响。还有好多好多,比如用声音信号辅助detection and segmentation;手语识别时不仅用手的姿态变换信息,引入了嘴型变化信息;学习如何给无声电影/视频片段配音配乐等。


(3) 仍然在CV的领域,但创造新的应用。MIT的William Freeman喜欢发这类论文,好多论文都是用现有的CV和语音技术发明一个崭新的应用,比如Speech2Face (根据一段声音重构人脸,因为声音会传递出性别,年龄,地域等很多信息)。他有好多新的应用,很多应用在提出的当时并没有合适的落地场景,但多年后各种条件成熟后取得了成功的应用。


(4) 解决深度学习领域的一些fundamental的问题。比如,Hinton认为现在的CNN读取的是像素,这跟人脑来识别物体天然不同,人脑处理整个物体 (object centric),而不是一个像素一个像素来处理像素。所以CNN天然对view, translation, small pixel perturbation (对抗样本)不鲁棒。他给的解决方案是胶囊网络。他设计了很多版本的胶囊网络,自己也在不停地推翻自己,不停迭代前进。让人尊敬。


虽然大家偏好不同,但是有一点是相同的,大家都不去做tricks类的研究,不去发明一些可以提高性能的tricks。大家通常是着眼于一个大的picture,各种刷库技巧只是为一个大的picture服务。

 

3. 一个在西方国家逐渐兴起,但我国还没有太重视的研究方向: trustworthy AI, 包含了 Explainable AI, fairness, accountability, privacy, transparency and ethics. 对这个方向感兴趣,给大家推荐一篇大佬们合写的论文 Toward trustworthy AI development: mechanisms for supporting verifiable claims。


4. 深度学习时代,computer vision和graphics的桥梁(或者说是game changer)包含 (1) neural rendering, 如今年大火的NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, 渲染速度快,效果逼真,必然对游戏,电影特效, AR产业带来革命性的影响。(2) GAN, 主要用于对图像和视频的编辑。


5. 大家从基于2D静态图像的研究已经过渡到了3D和视频相关任务的研究。


下载1:四件套

在机器学习算法与自然语言处理公众号后台回复“四件套”

即可获取学习TensorFlow,Pytorch,机器学习,深度学习四件套!


下载2:仓库地址共享

在机器学习算法与自然语言处理公众号后台回复“代码”

即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code


重磅!机器学习算法与自然语言处理交流群已正式成立

群内有大量资源,欢迎大家进群学习!


额外赠送福利资源!深度学习与神经网络,pytorch官方中文教程,利用Python进行数据分析,机器学习学习笔记,pandas官方文档中文版,effective java(中文版)等20项福利资源

获取方式:进入群后点开群公告即可领取下载链接

注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]

例如 —— 哈工大+张三+对话系统。

号主,微商请自觉绕道。谢谢!


推荐阅读:

Tensorflow 的 NCE-Loss 的实现和 word2vec

多模态深度学习综述:网络结构设计和模态融合方法汇总

awesome-adversarial-machine-learning资源列表

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/105845
 
279 次点击