社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

深度学习和机器视觉top组都在研究什么?

机器学习算法与自然语言处理 • 4 年前 • 439 次点击  
公众号关注 “ML_NLP
设为 “星标”,重磅干货,第一时间送达!

来自 | 知乎

地址 | https://zhuanlan.zhihu.com/p/341314767

作者 | Guosheng Hu

编辑 | 机器学习算法与自然语言处理公众号

本文仅作学术分享,若侵权,请联系后台删文处理


圣诞新年长假接近尾声,假期中我广泛阅读了top组最近做的研究,受益匪浅。在这里分享一些浅见。


1. top组都在研究什么?


各个组研究不尽相同,但top组重合度高的研究方向主要包含: self-supervised learning, multi-modality (audio-vision, text-vision, vision-touch, etc), Reinforcement learning (in Robotics), 3D, video analysis。


2. 如何做有影响力的工作?每个组都有不同的创新思路以及偏好。


(1) 将CV的技术应用到其他领域。例如 Li Fei-Fei做了很多将CV用在medical领域的应用,她刚发了篇Nature, `Illuminating the dark spaces of healthcare with ambient intelligence'. 这篇文章极为广泛地介绍了CV和ML可以在医疗领域的落地场景。文中介绍的很多场景,每一个都可以支撑起一家估值可观的初创公司(看我安利论文后的投资人和创业者未来发达了别忘记请我吃饭)。

除了医疗领域,还有将CV/DL/ML用在药物设计,洪灾预测,通过谷歌街景地图来识别车的牌子,来判断当地的生活水平和预测美国大选等等。


(2) 引入新的模态(modality)来解决经典问题以实现降维打击。比如把音乐的声音信号自动转化成谱子(transcription), 这是一个经典的语音识别问题。Andrew Zisserman 发表了一篇 ICASSP 2020 (Sight to Sound: An End-to-End Approach for Visual Piano Transcription), 他引入了图像信息,在钢琴上面放置摄像头来识别演奏者手的位置,用这个信息来转谱。这样的好处是可以排除噪音对转谱的影响。还有好多好多,比如用声音信号辅助detection and segmentation;手语识别时不仅用手的姿态变换信息,引入了嘴型变化信息;学习如何给无声电影/视频片段配音配乐等。


(3) 仍然在CV的领域,但创造新的应用。MIT的William Freeman喜欢发这类论文,好多论文都是用现有的CV和语音技术发明一个崭新的应用,比如Speech2Face (根据一段声音重构人脸,因为声音会传递出性别,年龄,地域等很多信息)。他有好多新的应用,很多应用在提出的当时并没有合适的落地场景,但多年后各种条件成熟后取得了成功的应用。


(4) 解决深度学习领域的一些fundamental的问题。比如,Hinton认为现在的CNN读取的是像素,这跟人脑来识别物体天然不同,人脑处理整个物体 (object centric),而不是一个像素一个像素来处理像素。所以CNN天然对view, translation, small pixel perturbation (对抗样本)不鲁棒。他给的解决方案是胶囊网络。他设计了很多版本的胶囊网络,自己也在不停地推翻自己,不停迭代前进。让人尊敬。


虽然大家偏好不同,但是有一点是相同的,大家都不去做tricks类的研究,不去发明一些可以提高性能的tricks。大家通常是着眼于一个大的picture,各种刷库技巧只是为一个大的picture服务。

 

3. 一个在西方国家逐渐兴起,但我国还没有太重视的研究方向: trustworthy AI, 包含了 Explainable AI, fairness, accountability, privacy, transparency and ethics. 对这个方向感兴趣,给大家推荐一篇大佬们合写的论文 Toward trustworthy AI development: mechanisms for supporting verifiable claims。


4. 深度学习时代,computer vision和graphics的桥梁(或者说是game changer)包含 (1) neural rendering, 如今年大火的NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, 渲染速度快,效果逼真,必然对游戏,电影特效, AR产业带来革命性的影响。(2) GAN, 主要用于对图像和视频的编辑。


5. 大家从基于2D静态图像的研究已经过渡到了3D和视频相关任务的研究。


下载1:四件套

在机器学习算法与自然语言处理公众号后台回复“四件套”

即可获取学习TensorFlow,Pytorch,机器学习,深度学习四件套!


下载2:仓库地址共享

在机器学习算法与自然语言处理公众号后台回复“代码”

即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code


重磅!机器学习算法与自然语言处理交流群已正式成立

群内有大量资源,欢迎大家进群学习!


额外赠送福利资源!深度学习与神经网络,pytorch官方中文教程,利用Python进行数据分析,机器学习学习笔记,pandas官方文档中文版,effective java(中文版)等20项福利资源

获取方式:进入群后点开群公告即可领取下载链接

注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]

例如 —— 哈工大+张三+对话系统。

号主,微商请自觉绕道。谢谢!


推荐阅读:

Tensorflow 的 NCE-Loss 的实现和 word2vec

多模态深度学习综述:网络结构设计和模态融合方法汇总

awesome-adversarial-machine-learning资源列表

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/105845
 
439 次点击