社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

机器学习系列补充:数据集准备和更正YSX包

生信宝典 • 4 年前 • 806 次点击  

之前的教程中提到了数据下载链接,但未提供整理好后的数据。后台总有朋友问起,提供数据网盘容易失效,就把整理方法放在这,可基于原始链接下载后转换为所需格式。

安装YSX包 (已改名为ImageGP包)

YSX包已改名为ImageGP包,这是为配合绘图网站ImageGP而构建的包,里面也包含了对常用绘图函数和数据整理命令的包装,在整个机器学习教程中也常有用到。

ImageGP包目前在Github码云上都有,推荐用码云,下载速度快。

devtools::install_git("https://gitee.com/ct586/ImageGP")

# 安装好之后,之前教程的library(YSX)都改为library(ImageGP)
library("ImageGP")

改名是因为之前一个误操作,在YSX仓库里面引入了不少示例数据,使得包变得很大。而Github又访问速度慢,常常安装不成功。

# 如果从Github上安装原有的`YSX`也可以:
# 不推荐
# devtools::install_github("Tong-Chen/YSX")

DLBCL 数据集

数据信息在页面https://file.biolab.si/biolab/supp/bi-cancer/projections/info/DLBCL.html

Diffuse large B-cell lymphoma (DLBCL): 58 examples (75.3%); Follicular lymphoma (FL): 19 examples (24.7%)。

可通过链接下载https://file.biolab.si/biolab/supp/bi-cancer/projections/_datasets/DLBCL.tab。

下载后,删除第2行和第3行。


再用下面的R代码读取和整理

dlbcl_tab dlblc dim(dlblc)

class = dlblc$class
table(class)

生成Metadata信息

metadata = data.frame(sample=c(paste("DLBCL", 1:58, sep="_"), 
paste("FL", 1:19, sep="_")),
class=class)
head(metadata)

write.table(metadata, "dlbcl.metadata.txt", sep="\t", row.names=F, col.names = T, quote=F)

生成表达文件




    
rownames(dlblc) dlblc dlblc dlblc[1:3,1:4]

library(ImageGP)
sp_writeTable(dlblc, file="dlblc.expr.txt", keep_rownames = T)

机器学习系列教程


从随机森林开始,一步步理解决策树、随机森林、ROC/AUC、数据集、交叉验证的概念和实践。


文字能说清的用文字、图片能展示的用、描述不清的用公式、公式还不清楚的写个简单代码,一步步理清各个环节和概念。


再到成熟代码应用、模型调参、模型比较、模型评估,学习整个机器学习需要用到的知识和技能。

  1. 机器学习算法 - 随机森林之决策树初探(1)

  2. 机器学习算法-随机森林之决策树R 代码从头暴力实现(2)

  3. 机器学习算法-随机森林之决策树R 代码从头暴力实现(3)

  4. 机器学习算法-随机森林之理论概述

  5. 随机森林拖了这么久,终于到实战了。先分享很多套用于机器学习的多种癌症表达数据集 https://file.biolab.si/biolab/supp/bi-cancer/projections/。

  6. 机器学习算法-随机森林初探(1)

  7. 机器学习 模型评估指标 - ROC曲线和AUC值

  8. 机器学习 - 训练集、验证集、测试集

  9. 机器学习 - 随机森林手动10 折交叉验证

  10. 一个函数统一238个机器学习R包,这也太赞了吧

  11. 基于Caret和RandomForest包进行随机森林分析的一般步骤 (1)

  12. Caret模型训练和调参更多参数解读(2)

  13. 机器学习相关书籍分享

  14. 基于Caret进行随机森林随机调参的4种方式

  15. 送你一个在线机器学习网站,真香!

  16. UCI机器学习数据集

  17. 机器学习第17篇 - 特征变量筛选(1)

  18. 机器学习第18篇 - Boruta特征变量筛选(2)


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/108043
 
806 次点击