Py学习  »  机器学习算法

1885字,看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别

数据科学杂谈 • 2 年前 • 484 次点击  
「数据科学杂谈」,带你学数据!

导读:与建模密切相关的领域包括统计分析数据挖机器学习数据分析,它们对应了不同类型的工作岗位,例如风险建模分析师、数据挖掘工程师、数据分析师、数据运营专员、数据工程师等。本文将重点介绍这几个领域的定义、特征以及相互之间的联系和区别。


01
机器学习

机器学习是一门人工智能科学,研究如何在经验学习中改善具体算法的性能。机器学习的核心是通过算法来学习和提取数据中的隐含规律,随着数据丰富程度和学习次数的增加,学习的目标函数的效果会持续提升。机器学习算法体系包括监督学习、非监督学习、半监督学习、强化学习等,详见图1。


图1 机器学习算法体系


目前机器学习领域使用最普遍的scikit-learn库将机器学习算法分为聚类、分类、回归和维度削减,此处不展开介绍,感兴趣的读者请参考相关资料。



02
数据挖掘

数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中提取隐含在其中,人们事先不知道但又有用的信息和知识的过程。


数据挖掘的关键词是“隐含”“事先不知道”“有用的”。如果一个模型规律是已知的、预定义的且确定的,仅仅是通过数据来校准,则不属于数据挖掘范畴。


数据挖掘的对象按信息存储格式可分为:

  • 结构化数据,通常以二维表方式存储数据,如关系数据库、面向对象数据库、数据仓库;

  • 半结构化数据,以标记语言存储的数据,如XML、JSON、HTML等存储的数据;

  • 非结构化数据,如图像、语音、文本等。

数据挖掘包括聚类分群、分类识别、回归预测、关联分析、异常检测、时间序列等,而基础数据的处理等数据工程工作和可视化、最优化、预定义模型等则不属于数据挖掘。数据挖掘的范围如图2所示。

图2 数据挖掘的范围



03
数据分析


1、数据分析的定义


数据分析是一个相对宽泛的概念,我们分别从狭义和广义的角度进行介绍。

(1)狭义角度:基于数据,按照特定分析思路和框架,提取有价值的信息。狭义的数据分析可以基于建模、基于指标计算,也可以基于数据可视化报表。

(2)广义角度:还包含数据工程和数据处理,例如定义数据模型、数据架构、数据处理,写SQL计算指标等。

通常来说,数据分析仅指“分析”,不含“处理”,也不含“工程”,数据分析的核心本质是从数据到信息、从信息到决策的过程。


2、数据分析的思维模式


数据分析的思维方式有两种,下面分别进行介绍。

(1)自下而上的数据驱动。获得数据后,从数据出发,分析并挖掘有用的信息,用于辅助决策。

(2)自上而下的问题或目标驱动。在业务上发现特定问题或制订特定业务目标,需要通过数据挖掘背后原因,支持决策依据,形成行动方案。


3、数据分析与数据运营的联系和区别


数据分析和数据运营都是通过数据来支撑业务需求的。数据分析相比于数据运营是一个更大范围的概念,倾向于强调分析技术的方法属性,关注分析过程以及分析所带来的价值,例如辅助决策。


数据运营关注具体的行动执行和运营过程,更强调业务属性,面向特定业务场景中具体的运营问题,例如用户运营、产品运营、流量运营、内容运营等。


4、数据分析与数据工程的联系和区别


数据分析更关注分析,虽然很大一部分工作是和数据处理、指标计算相关的。


数据工程更关注工程角度,例如数据模型定义、数据库管理、数据体系架构等,更关注数据如何通过管理和逻辑设计提高系统性能,以便提供基础设施的建设和运行保障,满足业务运营和数据分析的需求。



04
统计分析

统计分析属于传统学科,与概率论和数理统计密不可分,通常数据都是带有随机因素的,通过数据揭示事物规律。统计实验设计也属于该范畴。


统计分析按照层次可以分为

  • 描述性统计,揭示数据分布规律以及数据的统计可视化;

  • 诊断分析性统计,包括参数估计、假设检验、回归模型、逻辑回归、相关分析、主成分分析等。

统计思维通常基于特定假设(而后还需要进行假设检验),例如样本独立同分布、服从正态分布等。统计分析适合小数据量问题的分析,是统计机器学习的理论基础。


05
四者之间的联系与区别

前面介绍了机器学习、数据挖掘、数据分析、统计分析的定义和特征,下面简单介绍一下四者之间的联系和区别。


  • 统计分析为机器学习、数据挖掘、数据分析提供了分析的工具、方法和手段。

  • 机器学习可以基于统计分析,也可以不基于,例如人工智能的符号主义和连接主义、决策树模型就不是统计类模型(虽然用到了统计计数,但和回归模型有本质区别),神经网络模型也不是统计类模型。

  • 机器学习是数据挖掘的工具,数据挖掘是机器学习的应用机器学习更强调底层技术,数据挖掘更贴合业务;与此类似的概念还有自然语言处理与文本挖掘。

  • 数据分析可以基于统计分析,也可以不基于。统计分析只是数据分析的一部分,只要是能够提供基于数据提取信息形成决策的,都属于数据分析,例如基于业务指标报表的分析等。



关于作者:

张伟(笔名:上善若愚)

金融科技公司技术合伙人、高级风控总监及解决方案专家,前FICO风险评分建模与风控业务策略专家。

彩书评

本文摘编于《智能风控:评分卡建模原理、方法与风控策略构建》,经出版方授权发布。(书号:978-7-111-69567-7)

转载请保留以上作者简介和文章出处

延伸阅读智能风控
点击以下链接了解及购买
转载请联系微信:zj06220_0

推荐语:这是一部系统讲解评分卡建模的智能风控著作,从业务与技术、理论与实践、传统风控与智能风控等角度透彻讲解评分卡建模的原理、流程、方法及其风控策略构建。

作者在智能风控领域深耕十余年,既熟悉商业银行传统风控体系思想、方法、技术、工具,又熟悉人工智能背景下的创新智能风控相关解决方案、风险策略和风险建模技术,本书是作者实践经验的系统性总结。


- END -

小编写的数据可视化书籍不到1年已经印刷第5次了!手把手带你学会的那种:

欢迎扫码关注我的公众号“数据科学杂谈



    

关注后回复“Python”,领取全套Python入门学习视频!
关注后回复速查表”,领取IT技能速查表!
关注后回复“面试题”, 领取大厂Python面试题(含答案)!


点击阅读原文带你掌握数据分析SQL!

感谢你的分享,点赞,在看三  

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/124503
 
484 次点击