Py学习  »  机器学习算法

机器学习 | 基础图表

软件定义世界(SDX) • 3 年前 • 368 次点击  

热门下载(点击标题即可阅读)

☞【PPT下载】中国数据分析师行业峰会精彩PPT下载(共计21个文件)

转自:机器之心

本文介绍了机器学习基础的图表,其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常见的算法。


一、机器学习概览


1. 什么是机器学习?


机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。

2. 机器学习和人工智能的关系


机器学习是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。


3. 机器学习的工作方式


①选择数据:将你的数据分成三组:训练数据、验证数据和测试数据;
②模型数据:使用训练数据来构建使用相关特征的模型;
③验证模型:使用你的验证数据接入你的模型;
④测试模型:使用你的测试数据检查被验证的模型的表现;
⑤使用模型:使用完全训练好的模型在新数据上做预测;
⑥调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现。


4. 机器学习所处的位置


①传统编程:软件工程师编写程序来解决问题。首先存在一些数据→为了解决一个问题,软件工程师编写一个流程来告诉机器应该怎样做→计算机遵照这一流程执行,然后得出结果。

②统计学:分析师比较变量之间的关系。

③机器学习:数据科学家使用训练数据集来教计算机应该怎么做,然后系统执行该任务。首先存在大数据→机器会学习使用训练数据集来进行分类,调节特定的算法来实现目标分类→该计算机可学习识别数据中的关系、趋势和模式。

④智能应用:智能应用使用人工智能所得到的结果,如图是一个精准农业的应用案例示意,该应用基于无人机所收集到的数据。


5. 机器学习的实际应用


机器学习有很多应用场景,这里给出了一些示例,你会怎么使用它?

  • 快速三维地图测绘和建模:要建造一架铁路桥,PwC 的数据科学家和领域专家将机器学习应用到了无人机收集到的数据上。这种组合实现了工作成功中的精准监控和快速反馈。
  • 增强分析以降低风险:为了检测内部交易,PwC 将机器学习和其它分析技术结合了起来,从而开发了更为全面的用户概况,并且获得了对复杂可疑行为的更深度了解。
  • 预测表现最佳的目标:PwC 使用机器学习和其它分析方法来评估 Melbourne Cup 赛场上不同赛马的潜力。

二、机器学习的演化


几十年来,人工智能研究者的各个「部落」一直以来都在彼此争夺主导权。现在是这些部落联合起来的时候了吗?他们也可能不得不这样做,因为合作和算法融合是实现真正通用人工智能(AGI)的唯一方式。这里给出了机器学习方法的演化之路以及未来的可能模样。

1. 五大流派


①符号主义:使用符号、规则和逻辑来表征知识和进行逻辑推理,最喜欢的算法是:规则和决策树。
②贝叶斯派:获取发生的可能性来进行概率推理,最喜欢的算法是:朴素贝叶斯或马尔可夫。
③联结主义:使用概率矩阵和加权神经元来动态地识别和归纳模式,最喜欢的算法是:神经网络。
④进化主义:生成变化,然后为特定目标获取其中最优的,最喜欢的算法是:遗传算法。
⑤Analogizer:根据约束条件来优化函数(尽可能走到更高,但同时不要离开道路),最喜欢的算法是:支持向量机。

2. 演化的阶段


1980 年代

  • 主导流派:符号主义
  • 架构:服务器或大型机
  • 主导理论:知识工程
  • 基本决策逻辑:决策支持系统,实用性有限

1990 年代到 2000 年

  • 主导流派:贝叶斯
  • 架构:小型服务器集群
  • 主导理论:概率论
  • 分类:可扩展的比较或对比,对许多任务都足够好了

2010 年代早期到中期

  • 主导流派:联结主义
  • 架构:大型服务器农场
  • 主导理论:神经科学和概率
  • 识别:更加精准的图像和声音识别、翻译、情绪分析等


3. 这些流派有望合作,并将各自的方法融合到一起


2010 年代末期

  • 主导流派:联结主义+符号主义
  • 架构:许多云
  • 主导理论:记忆神经网络、大规模集成、基于知识的推理
  • 简单的问答:范围狭窄的、领域特定的知识共享

2020 年代+

  • 主导流派:联结主义+符号主义+贝叶斯+……
  • 架构:云计算和雾计算
  • 主导理论:感知的时候有网络,推理和工作的时候有规则
  • 简单感知、推理和行动:有限制的自动化或人机交互

2040 年代+

  • 主导流派:算法融合
  • 架构:无处不在的服务器
  • 主导理论:最佳组合的元学习
  • 感知和响应:基于通过多种学习方式获得的知识或经验采取行动或做出回答

三、机器学习的算法


你应该使用哪种机器学习算法?这在很大程度上依赖于可用数据的性质和数量以及每一个特定用例中你的训练目标。不要使用最复杂的算法,除非其结果值得付出昂贵的开销和资源。这里给出了一些最常见的算法,按使用简单程度排序。

1. 决策树(Decision Tree)


在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,例如,可将一个给定用户分类成信用可靠或不可靠。

  • 优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估。
  • 场景举例:基于规则的信用评估、赛马结果预测。


2. 支持向量机(Support Vector Machine)


基于超平面(hyperplane),支持向量机可以对数据群进行分类。

  • 优点:支持向量机擅长在变量 X 与其它变量之间进行二元分类操作,无论其关系是否是线性的。
  • 场景举例:新闻分类、手写识别。

3. 回归(Regression)


回归可以勾画出因变量与一个或多个因变量之间的状态关系。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分。

  • 优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显。
  • 场景举例:路面交通流量分析、邮件过滤。


4. 朴素贝叶斯分类(Naive Bayes Classification)


朴素贝叶斯分类器用于计算可能条件的分支概率。每个独立的特征都是「朴素」或条件独立的,因此它们不会影响别的对象。例如,在一个装有共 5 个黄色和红色小球的罐子里,连续拿到两个黄色小球的概率是多少?从图中最上方分支可见,前后抓取两个黄色小球的概率为 1/10。朴素贝叶斯分类器可以计算多个特征的联合条件概率。

  • 优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类。
  • 场景举例:情感分析、消费者分类。

5. 隐马尔可夫模型(Hidden Markov model)


显马尔可夫过程是完全确定性的——一个给定的状态经常会伴随另一个状态。交通信号灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的发生。随后,借助隐藏状态分析,隐马尔可夫模型可以估计可能的未来观察模式。在本例中,高或低气压的概率(这是隐藏状态)可用于预测晴天、雨天、多云天的概率。

  • 优点:容许数据的变化性,适用于识别(recognition)和预测操作。
  • 场景举例:面部表情分析、气象预测。


6. 随机森林(Random forest)


随机森林算法通过使用多个带有随机选取的数据子集的树(tree)改善了决策树的精确性。本例在基因表达层面上考察了大量与乳腺癌复发相关的基因,并计算出复发风险。

  • 优点:随机森林方法被证明对大规模数据集和存在大量且有时不相关特征的项(item)来说很有用。
  • 场景举例:用户流失分析、风险评估。

7. 循环神经网络(Recurrent neural network)


在任意神经网络中,每个神经元都通过 1 个或多个隐藏层来将很多输入转换成单个输出。循环神经网络(RNN)会将值进一步逐层传递,让逐层学习成为可能。换句话说,RNN 存在某种形式的记忆,允许先前的输出去影响后面的输入。

  • 优点:循环神经网络在存在大量有序信息时具有预测能力。
  • 场景举例:图像分类与字幕添加、政治情感分析。


8. 长短期记忆(Long short-term memory,LSTM)与门控循环单元神经网络(gated recurrent unit nerual network)


早期的 RNN 形式是会存在损耗的。尽管这些早期循环神经网络只允许留存少量的早期信息,新近的长短期记忆(LSTM)与门控循环单元(GRU)神经网络都有长期与短期的记忆。换句话说,这些新近的 RNN 拥有更好的控制记忆的能力,允许保留早先的值或是当有必要处理很多系列步骤时重置这些值,这避免了「梯度衰减」或逐层传递的值的最终 degradation。LSTM 与 GRU 网络使得我们可以使用被称为「门(gate)」的记忆模块或结构来控制记忆,这种门可以在合适的时候传递或重置值。

  • 优点:长短期记忆和门控循环单元神经网络具备与其它循环神经网络一样的优点,但因为它们有更好的记忆能力,所以更常被使用。
  • 场景举例:自然语言处理、翻译。

9. 卷积神经网络(convolutional neural network)


卷积是指来自后续层的权重的融合,可用于标记输出层。
  • 优点:当存在非常大型的数据集、大量特征和复杂的分类任务时,卷积神经网络是非常有用的。
  • 场景举例:图像识别、文本转语音、药物发现。


读BD最佳实践案例,赢DT未来!

18个行业,106个中国大数据应用最佳实践案例:

(1)《赢在大数据:中国大数据发展蓝皮书》;

免费试读:https://item.jd.com/12058569.html

(2)《赢在大数据:金融/电信/媒体/医疗/旅游/数据市场行业大数据应用典型案例》;

免费试读:https://item.jd.com/12160046.html

本册“微信读书”免费阅读:https://weread.qq.com/web/bookReview/list?bookId=f0532d707159f0dff058c4e

(3)《赢在大数据:营销/房地产/汽车/交通/体育/环境行业大数据应用典型案例》;

费试读:https://item.jd.com/12160064.html

(4)《赢在大数据:政府/工业/农业/安全/教育/人才行业大数据应用典型案例》。

免费试读:https://item.jd.com/12058567.html

或点击“阅读原文”,购买“赢在大数据系列丛书”。

推荐文章


点击蓝色标题即可阅读全文

10万读者睿选2016年TOP1002015年TOP100

CCTV大数据名人讲堂PPT&视频: 万亿元大数据产业安全城市】【农业航运】【数据资产变现

DTiii:3352家大数据产业地图PPT及下载】【TOP100】【亿元俱乐部中国大数据行业应用Top Choice 2019】【赢在大数据
数字化转型:工作手册战略路径百家企业零售转型路银行人才组织工业华为
卡特彼勒美的100亿,百丽美的历程 美的PPT华为数据之道转型战略毕马威转型方法论阿里方法论

数据中台:凯哥八问颠覆数据工程师阿里滴滴数据中台中台报告数据中台建设之道高峰论坛视频回放富国银行和Netflix数据中台 民生银行数据中台

元宇宙:清华大学元宇宙、北京大学元宇宙

数据资产:德勤阿里数据资产评估,PPT阿里巴巴数据资产管理实践

院士:李国杰【(PPT)(全文)】【数据开放】,邬贺铨倪光南【大数据时代)()】,怀进鹏梅宏

大数据100分 :【金融】【制造】【餐饮】【电信】【电商】【更多行业大数据应用请点击底部导航栏BD100分】;

大数据/人工智能数据竞赛:Kaggle经验分享NetFlix百万美金】【Kaggle案例】【2017BDCI】【2017BDCI嘉年华2018BDCI嘉年华滴滴算法大赛】

征信:ZestFinance】【BCG】【芝麻信用】;

工业4.0:罗兰·贝格】【安筱鹏

人工智能:阿里&BCG】【埃森哲经济社会】【美国AI国家战略伯努利李开复 】【TOP100】【2016中国AI报告】【美国AI国家规划】【深度学习】【人智合一】【人脸识别】【人脸识别企业PK】【无人驾驶】【AI知识体系】【神经网络

区块链:TED视频】【麦肯锡】【毕马威】【高盛】【全球区块链报告

算   法:【10大经典算法】【推荐算法

数据科学家:13个真实场景数据科学应用案例数据科学家工具包,数据科学家成指南让统计"看得见" 21个面试题和答案

可视化:【2017年获奖2014年最佳】【十大标志性作品】【43款工具

PPT:【大数据产业地图】【数据之巅互联网的未来】【软件正吃掉整个世界】【互联网思维】【互联网+】【一带一路】;

VC:【独角兽研究报告】【大数据投资】【2015创投趋势】【2014投资报告】【倒闭教训

人才:【2018BD&人才报告2017BD&人才报告

大数据应用最佳实践案例:18个行业106个案例

BDAI100:大数据AI产业创新与投资百人会(BDAI100),致力推动1000家亿元BDAI企业涌现、推动BDAI与100万亿实体经济的深度融合、加速10万亿数据经济腾飞(简称“BDAI100十百千工程”)

原创:陈新河:万亿元大数据产业新生态软件定义世界,数据驱动未来数据交易 互联网+观点】。

专题版本:20211206V3.9


底部新增导航菜单(点击顶部“软件定义世界(SDX)”,点击“进入公众号”,底部菜单栏即出现),下载200多个精彩PPT,持续更新中!

上下滑动查看更多精选专题

微信公众号:软件定义世界(SDX)

微信ID:SDx-SoftwareDefinedx

软件定义世界, 数据驱动未来;

❷ 大数据思想的策源地、数字化转型的指南针、创业者和VC的桥梁、政府和企业家的智库、从业者的加油站;

个人微信号:sdxtime,

邮箱:sdxtime@126.com;

=>> 长按右侧二维码关注。

底部新增导航菜单,下载200多个精彩PPT,持续更新中!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/138020
 
368 次点击