前言:本文创作的主要目的,是对深度学习算法的基础知识做一个简介,方便初学者或小白快速入门,本文主要介绍了深度学习的三大应用领域!文章系列会不断更新,建议收藏~
Q1.
计算机视觉(CV)
计算机视觉(Computer vision,缩写作 CV)是人工智能(AI) 的一个重要应用领域,是指让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息,并根据该信息采取行动或提供建议。目前主要有以下几大基础任务。
1.1、图像分类
图像分类任务主要的目的是判断一张图片的主要类别。图像分类可以是说计算机视觉中最基础的任务之一。
比如在学习分类数据集中有人(person)、羊(sheep)、狗(dog)和猫(cat)四种,图像分类要求给定一个图片里含有哪些分类,比如下图的例子是含有person、sheep和dog三种。
1.2、目标检测
目标检测任务是给定一张图像或是一个视频帧,让计算机定位出这个目标的的位置并且知道目标物是什么,即输出目标的Bounding Box(边框)以及标签。
如下图,人和动物的位置框检测。
1.3、目标分割
目标分割是检测到图像中的所有目标,分为语义分割(Semantic-level)和实例分割(Instance-level),解决“每一个像素属于哪个目标物或场景”的问题,属于像素级的,需要给出属于每一类的所有像素点,而不是矩形框。
语义分割
图像语义是指对图像内容的理解,例如,能够描绘出什么物体在哪里做了什么事情等,分割是指对图片中的每个像素点进行标注,标注属于哪一类别。
通常意义上的目标分割指的就是语义分割。语义分割 就是需要区分到图中每一个像素点,但是同一物体的不同实例不需要单独分割出来。
对下图标注为人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5等。
实例分割
实例分割 其实就是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;
相对语义分割,实例分割需要标注出图上同一物体的不同个体(羊1,羊2,羊3...)。
Q2.
自然语言处理(NLP)
自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科,是指让计算机和系统能够从文本和语音信号输入中获取有意义的信息,理解人类语言,并作出决策。目前主要有以下几大基础任务。
1.1、文本分类
如情感分类:尝试分析作者对于某种产品或者一些其他事情的情感,经常用于评论领域,例如:影评、购物点评、产品测评等。
如主题分类:关于试图理解给定文档的主题是什么,例如:我们可能想知道一篇给定的文章是关于体育的还是国际新闻的。
1.2、序列标注
如命名实体识别(NER):NER主要涉及如何从文本中提取有意义的词语并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的类别。
如词性标注:词性标注 (pos tagging) 是指为分词结果中的每个单词标注一个正确的词性,也即确定每个词是名词、动词、形容词或其他词性的过程。
1.3、生成式任务
生成式任务就是根据一段文本,生成另一段文本。
如机器翻译:百度、谷歌机器翻译。
如文本摘要:自动为论文、文章、新闻稿生成摘要。
如对话系统:输入的是一句话,输出是对这句话的回答。
如问答系统:针对用户提出的问题,系统给出相应的准确答案。
Q3.
其它分支
3.1、推荐
推荐系统对于我们来说并不陌生,已经渗透到我们生活的方方面面,比如网易云的音乐推荐、淘宝的商品推荐、美团的餐厅推荐、抖音的短视频推荐等等。之所以推荐系统无处不在,是因为它可以提高用户的驻留时间、增加网站主的效益,以此实现互利共赢。而深度学习可以应用到推荐系统中,更能精确的把握人的兴趣爱好,给出更准确的推荐内容。
3.2、强化学习
2016 年,DeepMind 公司开发的基于强化学习的 AlphaGo 4:1 大胜韩国著名棋手李世石,成为第一个战胜围棋世界冠军的人工智能机器人,一时风头无两。AlphaGo 的巨大成功开启了“人工智能元年”,也让强化学习渐为大众熟悉。强化学习也是深度学习的一个重要分支。
3.3、语音识别
语音识别最简单的就是语音变成文字,如微信语音自动转文字功能,视频网站自动翻译文本功能,商业上的同声传译功能,苹果的siri助手等,都有广泛的落地应用。
声明:部分内容来源于网络,仅供读者学习、交流之目的。文章版权归原作者所有。如有不妥,请联系删除。