Py学习  »  机器学习算法

【福利帖】机器学习与数据科学 基于R的统计学习方法(含书+代码)

科研私家菜 • 9 月前 • 109 次点击  

1 资料介绍

科研私家菜为大家准备了关于机器学习临床预测模型的资料,请到文末获取领取方式

数据科学、机器学习和大数据都是当今时代的流行语。数据科学是一种用于准备、组织和操作数据以执行数据分析的方法。在分析数据之后,我们需要提取结构化数据,这些数据用于各种机器学习算法中,以便以后训练 ML 模型。因此,这三种技术是相互关联的,它们共同提供了意想不到的结果。数据是这个 IT 世界中最重要的关键参与者,所有这些技术都是基于数据的。数据科学、机器学习和大数据都是全世界最热门的技术,并且呈指数级增长。所有大型和小型公司现在都在寻找能够在数据金矿中转换并帮助他们有效推动平稳业务决策的 IT 专业人员。数据科学、大数据和机器学习是帮助企业根据当前竞争形势发展壮大的关键术语。

2 资料内容

本书希望能带领读者走进一个涉及机器学习的数据科学项目。并不 是说我在这里提供的是学习机器学习的唯一方法,而是我认为这是数据 科学家工作的典型方式。这一方法多年来对我十分受用,我希望通过本 书把我的经验传授给大家。以下是本书的分章介绍。 

第1章:机器学习综述。这一章包含数据科学概论和企业对这一领 域日益关注的原因。我们也会对机器学习做个简要介绍,包括它是 如何在数据科学中扮演一个不可或缺的角色的。然后我们将回顾机 器学习的不同类型,每种类型都提供示例,并提取机器学习过程的 大纲。最后,我们将讨论在实验性机器学习中,R环境如何通过使 用众多的R包(R package)发挥重要的作用。 

第2章:连接数据。机器学习的第一步是连接到一个合适的数据 集,在R环境下得到数据内容,然后开始对其进行分析。在这一章 中,我们使用R来连接数据,使用不同数据源(逗号分割文件格式 CSV、Excel、JSON、Twitter和谷歌分析)用多种方式连接。我们 也会铺设一条在SQL数据库中连接数据的通路。一旦数据连接到R 环境中,我们就能开始学习如何搭建一个用于数据分析和机器学习 的开发环境了。 

第3章:数据处理。在开始一个机器学习项目的初期,一个冗长乏 味但又不可或缺的步骤是“数据处理”,也称为“数据清洗”或是“数 据转化”。换句话说,检查并精炼数据集以便进行更深入的分析。在这一章中,我们将着眼于创造一个数据处理工具箱,其中包括多 种技术:修正变量名、创造新变量、数值离散化、日期处理、变量 二分法、合并\按顺序排列\重塑数据集、使用dplyr进行数据整理以 及处理缺漏数据和特征缩放。其他主题包括特征工程、数据采样和 数据管道。最后,我们会一起学习主成分分析是如何做到有效降维 的。 

第4章:探索性数据分析。一旦数据整理成合适的格式,下一步要 做的就是熟悉数据,以便想出如何在机器学习中使用它们。在这一 章中,我们会使用探索性和解释性数据可视化来理解数据的属性, 寻找数据的特征,推荐建模策略。我们会从使用R的统计功能开 始,包括数字摘要、因子变量水平、平均数\中位数\众数、分位 数、标准差和变化率。我们也会使用R的绘图功能:直方图、箱线 图、条形图、密度图、散点图、分位数图和热图。 

第5章:回归。在本章中,我们将介绍机器学习最常见的形式:监 督学习。我们会仔细检视用于预测分析的主力工具:线性回归。也 会学习如何在R环境下建立一个线性模型,并计算出一条用于预测 的回归线。单变量和多变量回归以及多项式回归都会在本章中进行 演示。 

第6章:分类。在本章中,我们会介绍监督学习的另一种常见形 式:分类。我们将使用大量有用的R包来考察各种分类算法,包括 逻辑回归、分类树、朴素贝叶斯分类器、K最近邻、支持向量机和 神经网络。本章也会考虑集成方法,例如流行的随机森林算法。最 后,我们会学习梯度提升机,它在机器学习比赛中十分流行。 

第7章:评估模型性能。本章会讨论如何挑选模型,并且评估它的 预测水平。我们还会讨论统计学习中影响表现的方面,比如过度拟 合、偏差和方差的平衡、混杂因素和数据泄漏。同时,定义了衡量 回归和分类模型准确度的标准。最后,我们将展示使模型泛化误差 达到最小的交叉检验过程。 

第8章:非监督学习。本章将会介绍使用两种聚类技术的非监督机 器学习:分级聚类和K-均值聚类。在分级聚类算法的帮助下,用聚 合法得到一个树状图或树形结构图,来展示元素之间的关系。然后 运用K-均值聚类,使用迭代分割法来估计聚类的中心,并把每个数 据点分配到聚类节点中。最后,我们会快速地看一下另一个流行的 非监督工具——主成分分析。

3 示例代码(部分)


df # 12x2
# Calculate distance between points. dist() is just for clustering
dist(df)    # Calculate and display distance between variables

# Calculate distance between 12 points observed (distance between columns)
distxy # Default distance method = euclidean metric
#distxy 


# Produce cluster object
hClustering "complete"
)  # hclust requires a dist object, returns hclust object
# Plot dendrogram showing 3 clusters
plot(hClustering)   

# Cut the tree high yields fewer clusters
cutree(hClustering,h=1.5)   # Will yield fewer clusters
# [1] 1 1 1 1 2 2 2 2 3 3 3 3

# Cut the tree low
cutree(hClustering,h=0.5)   # Will yield more clusters
# [1] 1 2 2 1 3 3 3 4 5 5 5 5


# -------------------------------------------------------
# Visualizing hierarchical clustering using a Heatmap
# -------------------------------------------------------

dataFrame set.seed(143)

# Take a small sample of the rows. Each sample() returns different random seq
dataMatrix # 12x2

# Clusters together the rows and columns
heatmap(dataMatrix)   # heatmap() requires matrix argument


# -------------------------------------------------------
# Hierarchical clustering with iris data set
# -------------------------------------------------------

data(iris)    

par(mar=c(0,0,1,0)) 

# Get a sample from the iris data set
# Randomly choose 40 observations from iris
iris_sample 
distance_metric "euclidean")  # dist object

# Using hclust() from stats package using "average" cluster method
cluster "average")

# Plot the cluster dendrogram
plot(cluster, hang=-1, label=iris_sample$Species, main="Iris Data Set Clusters")

4 资料获取方式

我们已经将资料代码及数据进行系统整理,本资料包含机器学习全流程分析示例代码和书籍,内容包括各种机器学习建模方法,方便在实操中学习。关注【科研私家菜】获取下载链接,全程提供学习指导和免费答疑。获取方式如下:

先关注 科研私家菜,文末点击“ 喜欢作者”,按设定金额“ 赞赏本文”即可获取以上全部资料内容

欢迎大家赞赏在看点赞转发收藏关注


如果您需要科研合作或者数据分析等服务,欢迎添加 私密客服R小盐的微信沟通交流




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/176295
 
109 次点击