基于机器学习的儿童遗传综合征评估模型登LANCET子刊，可通过面部特征快速识别遗传病，准确率达88%

导读

先天性遗传性疾病可与严重的心血管、免疫、内分泌和神经发育风险相关，不仅影响患儿的身心发育，也对患者及其家属的生活质量产生重大影响。检测和预防治疗对遗传性疾病患者至关重要。在遗传学家评估疑似遗传综合征患者时，面部特征是关键指标之一。但初级保健医生由于没有接受过在不同人群中识别畸形的培训，往往会错过遗传条件的微妙指标。此外，即使临床医生能够识别出具有非典型面部特征的儿童，其后续进行基因检测的可能性也较小。

目前，机器学习技术在解释图像以诊断各种疾病方面显示出潜力。虽然面部特征的计算分析已广泛用于一般的安全应用，但尚未被用于医疗诊断。前期的初步研究结果表明，使用面部分析和机器学习技术识别与遗传综合征相关的面部畸形是可行的。但那些研究只是为了支持专业医疗机构对预先筛查的患者进行临床诊断，没有解决确定哪些儿童有出现遗传综合征的风险并应寻求专业治疗的关键需求，且其纳入的研究人群较为局限。

近日，美国华盛顿国立儿童医院的研究团队在The Lancet Digital Health期刊在线发表了题为“Development and evaluation of a machine learning-based point-of-care screening tool for genetic syndromes in children: a multinational retrospective study”的文章。研究团队开发出一种基于深度神经网络和面部统计模型的遗传病筛查技术，并评估了其在儿童遗传综合征预测层面的性能。根据多个国家的多中心数据分析表明，该深度神经网络学习模型能够在一般的儿科人群中识别任何遗传畸形，解释与种族、年龄和性别相关的表型变异性。

文章发表于The Lancet Digital Health

主要研究内容

研究人员从三个公开的数据库中获得回顾性儿童面部照片，并用于训练和验证面部分析技术的数据集，包括2800张儿童的回顾性面部照片，其中1400名儿童被诊断患有128种遗传疾病，1400张没有遗传综合征的对照个体的照片。在整个数据队列中，1318名（47%）女性和1482名（53%）男性，包括白色人种、非洲人、西班牙人、亚洲人，囊括了来自美国、阿根廷、澳大利亚、比利时、巴西、加拿大、中国、哥斯达黎加、埃及、法国等国家和地区儿童面部图像数据。在该数据集中，最普遍的遗传综合征是Williams-Beuren综合征、Cornelia de Lange综合征、唐氏综合征、22q11.2缺失和Noonan综合征。

该数据集包括根据每个机构的临床诊断标准来确诊的遗传疾病儿童，以及按年龄、性别、种族或种族匹配的无遗传综合征对照组的照片。研究团队根据44个面部特征从照片中量化面部表型，并设计了一个深度学习架构。该架构由三个神经网络组成，分别执行图像标准化（网络A）、面部形态学检测（网络B）和遗传综合征风险估计（网络C）。

图1. 深度学习框架。来源：The Lancet Digital Health

网络A由卷积和全连接层组成，根据获得的256 × 256像素的照片，计算出四个面部姿态参数（即定义面部中心位置、方向和尺寸的两个参数）。再将参数定义的几何变量变换应用到照片上，创建一个标准化的、姿态校正的面部图像。

图2. 网络A计算模型。来源：The Lancet Digital Health

在人脸统计形状模型的引导下，网络B在尺寸为128 × 128像素的标准化姿态校正图像中识别44个面部特征，这些面部特征此前是被用于计算面部表型的生物计量，然后量化与特定遗传综合征相关的畸形形态。网络B的目的是通过引入使用人脸统计形状模型获得的人脸几何形状统计信息来优化网络A的评估性能。

图3. 网络B计算模型。来源：The Lancet Digital Health

网络C从尺寸为112 × 112像素的面部姿态校正图像中识别面部畸形，评估患者出现遗传综合征的概率和不出现遗传综合征的概率。为解释一般人群中的数量表型变异，关于患者年龄、性别和种族或民族的信息被编码为数字，并在完全连接操作之前与最后一个卷积层的输出相连接。

图4. 网络C计算模型。来源：The Lancet Digital Health

研究结果显示，在整个人群中，该系统检测遗传疾病的平均准确率为88%，敏感性为90%，特异性为86%。其中，白色人种和西班牙裔的准确率高于非洲和亚洲人群，这可能是由于在数据集中后两者的图像信息较少造成的。除此之外，男性和女性之间的预测准确率相似，2岁以下儿童和2岁或2岁以上儿童之间的预测准确率也相似。

图5. 整体预测结果评估。来源：The Lancet Digital Health

结语

综上所述，该研究中开发的自动面部分析技术能够评估儿童出现遗传综合征的风险，平均准确率为88%。虽然在白人和西班牙裔个体中准确率高于亚洲和非洲个体，但在所有种族和民族群体中准确率均超过80%，且在性别和年龄类别之间没有显著差异。

在医疗改革时代，尤其是在与COVID-19大流行相关的身体距离和临床服务减少时期，自动化诊断辅助工具的潜力也变得越来越重要。在这种情况下，可能比以往任何时候都更需要远程遗传风险分层工具用于加强对儿童遗传风险的评估。

与基因诊所中用于支持鉴别诊断的工具不同，这种深度表型技术可以在短时间内确定哪些患者将从进一步的调查中受益。通过提供筛查和风险分层，这项技术有可能加速遗传综合征的识别，并提供一个启动早期预防护理的机会，最终有可能降低发病率和死亡率。

参考文献

1. Antonio R Porras et.al. Development and evaluation of a machine learning-based point-of-care screening tool for genetic syndromes in children: a multinational retrospective study. The Lancet Digit Health. 2021

2. Gonzaludo N Belmont JW Gainullin VG Taft RJ. Estimating the burden and economic impact of pediatric genetic disease. Genet Med. 2019; 21: 1781-1789.

3. Gurovich Y Hanani Y Bar O et al. Identifying facial phenotypes of genetic disorders using deep learning. Nat Med. 2019; 25: 60-64

· END ·

热文推荐

基于cfDNA的超低深度全基因组测序方法，可区分神经纤维瘤良恶性病变

因美纳宣布完成GRAIL收购，加速普及多癌种早期检测技术

北京协和医学院程涛团队基于RNA编辑组测序揭示造血干细胞分化机制

破译4000年前古人基因组，华大智造MGISEQ-2000与Illumina X-Ten大比拼

喜欢就点个“在看”吧！