A-C 首先对从UK Biobank收集的数据进行预处理,以提取感兴趣的表型(CAD与非CAD),并生成高质量的基因型估算数据。
D-E 为了确定与关联测试最相关的协变量,对CAD相关风险因素进行分析,并对基因型数据进行了主成分分析。
F 采用十倍交叉验证对基于 ML 的方法和 PRS 进行公平比较。
G 根据三种特征选择策略(包括基于筛选的方法和嵌入式方法)选择了预测 CAD 的基因组变异。
H-I 实施了三种 PRS 方法,并结合基于逻辑回归的分类器进行分类。
J 通过 FS 选择的基因组变异被系统地用于训练三种不同的分类算法:Lasso、RF 和 SVM。
K 以 ROC 曲线下面积(AUC)统计作为主要的准确度指标。此外,还记录了每个特征在不同训练集和特征选择方法中被选择的频率。
L 对信息量最大的 SNPs 进行进一步分析,以评估其生物学相关性。