社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

上线数天获2400星,这个GitHub项目帮你从头开始学习数据科学

算法与数学之美 • 3 年前 • 408 次点击  
从头开始学习数据科学的免费资源。
>>>>
如何入门数据科学?

这个 GitHub 项目提供了一份免费学习资源,既包括超详细的学习路线图,又涵盖多个免费线上课程、大量数据科学项目和 100 多本免费机器学习书籍,项目上线数天即获得 2.4k 星。


项目地址:https://github.com/therealsreehari/Learn-Datascience-for-Free#5_-expressions

该项目收集了散布在网络上的不同资源,并按照一定的顺序进行组合,以帮助数据科学初学者解决如何搜索免费和结构化学习资源的问题。项目作者表示,该项目将基于新的免费资源持续更新。

数据科学家学习路线图


「磨刀不误砍柴工。」该项目首先详细介绍了一份数据科学路线图,罗列了数据科学学习者需要掌握的内容:

  • 基础知识(矩阵和代数基础等);

  • 统计学(概率论、贝叶斯定理等);

  • 编程;

  • 机器学习;

  • 文本挖掘 / 自然语言处理;

  • 数据可视化;

  • 大数据;

  • 数据获取;

  • 数据再加工(Data Munging);

  • 工具箱。


成为数据科学家需要掌握的基础知识

在成为数据科学家之前,你需要掌握关于矩阵的理论知识,了解其操作方式,熟悉矩阵的各种变换。项目作者还向我们介绍了多种数据结构,包括哈希函数、二叉树等。

以二叉树为例,项目作者解释了什么是二叉树:「在计算机科学中,二叉树是一种树数据结构,其中每个节点最多具有两个子节点,称为左子节点和右子节点。」

二叉树

除了矩阵知识以外,数据科学初学者还需掌握关系代数、数据库基础知识、CAP 原理、ETL 等多达十多个知识点(有些部分还在更新中)。

统计学

该项目介绍了许多关于统计学的知识,包括数据集的选择、描述性统计、探索性数据分析、直方图、概率论、贝叶斯定理等内容。

以探索性数据分析为例,项目作者从数据的可视化和分析两方面着手,向我们介绍了完成整个数据分析任务需要的开发环境、依赖库、安装方式以及分析方式。

在数据可视化方面,项目作者介绍了三个数据可视化库 Matplotlib、Pandas、Seaborn,每个库都有相应的链接,点击链接即可进入相应的网页进行查看。

点击 Seaborn 链接,可进入 Seaborn 主页,该图为链接到的主页内容。

在数据分析方面,项目作者介绍了 PCA 降维方法,帮助学习者了解什么是主成分分析,以及如何在 Python 中实现。

编程

成为数据科学家离不开编程,该项目介绍了需要掌握的编程语言 Python、R setup/R studio 等内容。以 R setup / R studio 为例,项目作者介绍了两种安装方式 Linux、Windows。但是本部分内容还有许多待补充知识。

待补充内容

机器学习

该项目还列举了掌握数据科学需要了解的机器学习知识,包括数值变量、分类变量、监督学习、无监督学习、训练集和测试集、分类器、过拟合、偏差和方差、支持向量机等 30 项内容。

以支持向量机为例,项目作者首先介绍了支持向量机的作用——可用于分类和回归任务,接着用简单明了的语言解释了支持向量机的原理。此外,项目作者还列举了关于支持向量机的其他知识,读者可通过链接自行学习。

支持向量机

除了上述介绍的内容外,项目作者还整理了文本挖掘、数据可视化等内容,此处不再赘述。

免费线上课程

该项目基于 GitHub 用户 Developer-Y 的项目整理了大量线上免费课程的资源,包括人工智能、机器学习、机器人学三个主要部分。其中机器学习部分又细分为机器学习导论、数据挖掘、数据科学、概率图模型、深度学习、强化学习、进阶版机器学习课程、基于机器学习的自然语言处理与计算机视觉、时序分析、概率与统计学、线性代数等。

该项目提供的免费线上课程列表部分截图。

从该项目列表中,我们可以看到熟悉的吴恩达机器学习课程,以及来自卡内基梅隆大学、斯坦福大学、苏黎世联邦理工学院、加州大学伯克利分校、微软等机构的丰富课程资源。

人工智能开源项目

此外,该项目还罗列了大量人工智能开源项目,涵盖机器学习、深度学习、自然语言处理、计算机视觉这些领域。

这一资源来自 AI 研究者、数据科学家 Ashish Patel 创建的 GitHub 库,目前包含 71 个条目,点开链接即可获取相应的项目和代码资源。

项目列表部分截图。

从目前的列表中,我们可以看到它包括目标检测、聊天机器人、GUI、无监督学习、回归分析、情感分析、推荐系统、数据科学、NLP、计算机视觉等细分领域的相关项目资源。盖列表将持续更新。

100+ 免费机器学习书籍

项目作者整理了一份来自 Insane 的机器学习书籍列表文章。该列表在 2021 年 1 月份刚刚更新过,包括我们熟悉的「花书」《深度学习》,以及主题为图算法、自然语言处理、数据挖掘、GAN、Python 等的书籍。

图源:https://www.theinsaneapp.com/2020/12/download-free-machine-learning-books.html

项目作者表示,希望这些免费资源能够帮助到无法支付教育费用的人们,从头开始掌握数据科学。

—THE END—


编辑 ∑Gemini
来源:机器之心


文章推荐


为什么美国学生学的数学比我们简单却能做出很牛逼的东西?
宇宙即计算~一种新科学:斯蒂芬·沃尔夫勒姆
中科大少年班目前为止出过多少大牛?
平凡而又神奇的贝叶斯方法
欧拉公式——真正的宇宙第一公式
方舟子:哥德巴赫猜想有什么用

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/108040
 
408 次点击