之前的教程中提到了数据下载链接,但未提供整理好后的数据。后台总有朋友问起,提供数据网盘容易失效,就把整理方法放在这,可基于原始链接下载后转换为所需格式。
安装YSX包 (已改名为ImageGP包)
YSX
包已改名为ImageGP
包,这是为配合绘图网站ImageGP
而构建的包,里面也包含了对常用绘图函数和数据整理命令的包装,在整个机器学习教程中也常有用到。
ImageGP
包目前在Github
和码云
上都有,推荐用码云
,下载速度快。
devtools::install_git("https://gitee.com/ct586/ImageGP")
# 安装好之后,之前教程的library(YSX)都改为library(ImageGP)
library("ImageGP")
改名是因为之前一个误操作,在YSX
仓库里面引入了不少示例数据,使得包变得很大。而Github
又访问速度慢,常常安装不成功。
# 如果从Github上安装原有的`YSX`也可以:
# 不推荐
# devtools::install_github("Tong-Chen/YSX")
DLBCL 数据集
数据信息在页面https://file.biolab.si/biolab/supp/bi-cancer/projections/info/DLBCL.html

Diffuse large B-cell lymphoma (DLBCL): 58 examples (75.3%); Follicular
lymphoma (FL): 19 examples (24.7%)。
可通过链接下载https://file.biolab.si/biolab/supp/bi-cancer/projections/_datasets/DLBCL.tab。
下载后,删除第2行和第3行。

再用下面的R代码读取和整理
dlbcl_tab dlblc dim(dlblc)
class = dlblc$class
table(class)
生成Metadata信息
metadata = data.frame(sample=c(paste("DLBCL", 1:58, sep="_"),
paste("FL", 1:19, sep="_")),
class=class)
head(metadata)
write.table(metadata, "dlbcl.metadata.txt", sep="\t", row.names=F, col.names = T, quote=F)
生成表达文件
rownames(dlblc) dlblc dlblc dlblc[1:3,1:4]
library(ImageGP)
sp_writeTable(dlblc, file="dlblc.expr.txt", keep_rownames = T)
机器学习系列教程
从随机森林开始,一步步理解决策树、随机森林、ROC/AUC、数据集、交叉验证的概念和实践。
文字能说清的用文字、图片能展示的用、描述不清的用公式、公式还不清楚的写个简单代码,一步步理清各个环节和概念。
再到成熟代码应用、模型调参、模型比较、模型评估,学习整个机器学习需要用到的知识和技能。
机器学习算法 - 随机森林之决策树初探(1)
机器学习算法-随机森林之决策树R 代码从头暴力实现(2)
机器学习算法-随机森林之决策树R 代码从头暴力实现(3)
机器学习算法-随机森林之理论概述
随机森林拖了这么久,终于到实战了。先分享很多套用于机器学习的多种癌症表达数据集 https://file.biolab.si/biolab/supp/bi-cancer/projections/。
机器学习算法-随机森林初探(1)
机器学习 模型评估指标 - ROC曲线和AUC值
机器学习 - 训练集、验证集、测试集
机器学习 - 随机森林手动10 折交叉验证
一个函数统一238个机器学习R包,这也太赞了吧
基于Caret和RandomForest包进行随机森林分析的一般步骤 (1)
Caret模型训练和调参更多参数解读(2)
机器学习相关书籍分享
基于Caret进行随机森林随机调参的4种方式
送你一个在线机器学习网站,真香!
UCI机器学习数据集
机器学习第17篇 - 特征变量筛选(1)
机器学习第18篇 - Boruta特征变量筛选(2)