社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

一周十大热门主题

【AI加油站】ChatGPT 及生成式人工智能现状及未来发展方向总结（附PDF下载）

机器学习学术速递[9.12]

最后三天！ChatGPT Plus 优惠价即将消失，错过就要多花钱

科学家和ChatGPT狂聊7万次，找到了对AI最有效的PUA大法

17个工作必备的Python自动化代码

羊毛薅秃了！ChatGPT预计全球同价

NAR | 江南大学邓禹等团队揭示深度学习引导大肠杆菌核心启动子的可编程设计

夏晨斌：一个基于Python程序设计的社会危险性量化评估构想初步

安徽省AIGC文旅广电应用大赛公告

EST：基于机器学习的珠江三角洲地区地下水PFAS归宿与来源预测

关注

Py学习 » 机器学习算法

还能这么玩！利用轨迹模型+机器学习构建预测模型，乱花渐欲迷人眼

医学论文与统计分析 • 9 月前 • 305 次点击

引言

本周末开课：机器学习方法

11.30-12.1 R语言构建机器学习课程开启，欢迎报名开启

常规机器学习分析的文章大家都看了不少了，今天给大家分享一篇基于4种不同中国青少年受欺凌的受害者轨迹，使用常见的随机森林（RF）法构建预测模型。

先来看看本文的研究设计吧：

1.数据收集与处理

对于缺失的数值型数据，使用中位数进行填充；
对于缺失的分类型数据，使用众数进行填充；
针对参与者分布不均衡的问题，使用随机过采样法来平衡数据集。

2.轨迹分析——组轨迹模型（GBTM）

基于每次调查的总受害分数，测试了2~5个组的轨迹模型；
通过贝叶斯信息准则（BIC）、赤池信息准则（AIC）和对数似然（LL）确定了最优组数。

3.模型的构建与评估

数据集被分为70%训练集和30%验证集；
使用多个指标评估模型性能，包括准确性、灵敏度、特异性、阳性预测值（PPV）、阴性预测值（NPV）和ROC的曲线下面积（AUC）。

4.特征重要性评估

使用"randomForestExplainer"包可视化RF模型中特征的重要性；
使用多个指标从不同角度评估特征重要性，包括节点数量、平均最小深度、准确度下降、基尼系数下降、Xj用于分割根节点的频率（times_a_root）以及p值。

老郑有个疑问，对估计模型进行建模，合理吗？

据报道，全球约28.9%的13至15岁青少年曾遭受过欺凌。而在中国，欺凌更是造成青少年患精神障碍的首要原因。

随着年龄的增长，部分青少年摆脱欺凌，而部分却继续受到迫害，更有甚者从受害者转变为加害者。因此，研究团队基于不同的受害者轨迹构建预测模型，旨在为不同的受害者量身定制反欺凌干预措施。

11月21日，中国学者在期刊《Journal of Affective Disorders》（医学二区top，IF=4.9）发表了一篇题为：“Predictive analysis of bullying victimization trajectory in a Chinese early adolescent cohort based on machine learning”的研究论文。

在该项研究中，研究团队使用组轨迹模型（GBTM）确定了四种不同的受害轨迹，并用机器学习法中的随机森林（RF）法构建一个预测模型，用于预测个体可能遭受的欺凌受害轨迹。

如果你需要全文，请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣，千万不要错过本月底的基于R语言的机器学习构建临床预测模型课程！详情可咨询助教，微信号：aq566665

数据收集与处理

√数据收集

在该项研究中，研究团队从中国安徽省淮北市进行的早期青少年队列研究中招募了1549名完成基线和两年随访评估的中学生（60.4%为男生；平均年龄12.49 ± 0.48岁），时间跨度为2019年至2021年共三年。

使用改编的Olweus欺凌受害者问卷（OBVQ）评估欺凌受害情况：

问卷通过涵盖身体、言语和社会关系欺凌的六个项目来评估传统形式的受欺凌程度；
回答范围从“从未”到“6次或更多”不等，总分在6到24分之间，分数越高表示受欺凌程度越深。

√缺失值的处理

对于数值型的缺失数据，使用中位数进行填充；分类数据，则用众数进行填充。

考虑到参与者分布中的类别不平衡会对模型的性能产生不利影响，研究团队采用随机过采样法（ ROSE）来平衡数据集。

主要通过平滑的自举方法来生成合成数据，从而平衡数据集的类别分布，提高模型的预测性能。

图1 研究流程

轨迹模型

研究团队基于以往的研究实践，纳入2019年至2021年收集的三波数据，使用GBTM识别欺凌受害者轨迹的变化。

根据每年收集的三波总受害分数，对2到5组的轨迹模型进行了测试；
并用贝叶斯信息准则（BIC）、Akaike信息准则（AIC）和对数似然（LL）在内的标准确定最佳组数，BIC、AIC和LL值最低的模型最佳。

研究结果显示，4组的GBTM模型最佳，BIC（-6803.29）最低。

√构建轨迹模型

确定的4组轨迹模型如下：

未受害组（43.0%）：该组受欺凌程度最低，平均受害得分接近6；
低受害轨迹组（52.1%）：该组受欺凌程度略高于未受害组;
受害程度逐渐增加组（2.8%）：随时间推移，该组受害程度不断增加;
持续严重受害组（2.1%）：该组在研究期间一直受到严重的欺凌，是四组中受害程度最严重的。

图2 4组受害者发展轨迹

模型的构建与评估

在填补完缺失数据后，数据被随机分为训练集（70%）和验证集（30%）。

研究团队基于随机森林法（RF）构建受害者轨迹的预测模型，并用多个指标评估模型性能。

评估指标包括准确性、灵敏度、特异性、阳性预测值（PPV）、阴性预测值（NPV）和ROC曲线下面积（AUC）。

研究结果表明，基于RF构建的预测模型在区分不同受害轨迹方面表现出理想的性能，所有组均达到AUC >0.8。

表1 4个不同轨迹模型中预测模型评估指标

筛选重要特征

√可视化工具：使用"randomForestExplainer"包可视化RF模型中重要特征。

√多维度评估：用多个指标从不同角度评估特征重要性（包括节点数量、平均最小深度、准确度下降、基尼系数下降、Xj用于分割根节点的频率（times_a_root）以及p值）。

下图展示了RF模型中最重要的十个特征，其中前五个关键预测因素为敌意、边缘性人格、易怒、在校不良经历和学校满意度。

图3 对于重要的变量，最小深度在森林图中的分布

多向重要性图结合了准确性降低指标和基尼系数降低指标，进一步证实了10个关键预测因子在预测欺凌轨迹方面的重要性。

图4 多向重要性图分析结果（结果可见粉红色圆圈;P< 0.01）

值得一提的是，尽管“randomForestExplamer”包提供了功能交互分析，但在该项研究结果中，我们并未在变量之间观察到显著的交互作用。

研究团队进一步使用多元逻辑回归分析，评估了RF模型识别的关键预测变量对四种欺凌轨迹的贡献。研究结果显示，预测因素在不同的轨迹亚组中表现出不同的影响。

与低受害组相比，持续严重受害组不仅年龄更大，而且边缘性人格特征更显著以及更加易怒，同时他们对学校的满意度相对较低；
相反，同伴满意度的降低则与欺凌受害轨迹的增加负相关；
此外，学校中的不良经历与持续严重欺凌受害之间的关联最为紧密，这些不良经历使得个体遭受持续严重欺凌的可能性增加了约2.7倍。

图5 欺凌受害轨迹的逻辑回归结果

综上所述，研究表明，由于欺凌程度发展的差异，其导致的严重后果在个体之间差异很大。此外，某些受害者特征，如不受欢迎和同伴排斥，可能会限制一般干预措施的有效性，因为这些特征降低了接受同伴支持的可能性，并导致持续的受害。

研究团队认为，我们仍需要进一步的研究，区分欺凌发展的模式，并确定与每种模式相关的具体风险和保护因素。

老郑小评

说实话，我不是那么苟同这种数据分析的过程，我们构建预测模型的时候，结局一般是金标准或者硬终点才合适。

而这项研究的终点就是数据驱动下，利用轨迹模型做出来的，结局的分类就是不可靠的，预测它实在有点牵强。

不过，有一点还是可以肯定的，用随机森林的方法去分析，影响轨迹的因素，哪个最重要。并在此基础上，开展logistic回归分析，计算OR值。

但问题又来了，随机森林评估哪个因素最重要是以一种非线性的地方式，而logistic是线性分析的结果，两者一致吗?

但是，总的来说，这年头只要你把数据分析玩出花来，文章还真不错。

乱花渐欲迷人眼，这两年流行方法机器学习、轨迹模型一结合，虽然看起来四不像，还真的图文并茂，学术研究的探索性魅力，就在于此。

公众号后台回复关键词“pdf”，即可获取原文！更多关于临床预测模型与机器学习统计服务，请联系郑老师团队，助教微信：sas555777

郑老师统计团队及公众号

全国较大的线上医学统计服务平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理！

我们提供以医学数据数据挖掘统计服务

①NAHANES：一二区论文占半数

②MIMIC：急诊数据分析与机器学习建模

③GBD：全球、中国各种疾病患病、死亡研究

④孟德尔随机化：疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询（微信号 sas555777）

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/176328

305 次点击

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号