ADV NUTR | 展望：大数据和机器学习有助于推进营养流行病学

点击蓝字丨关注我们

撰文：王雪洁

编辑：肖冉

元

旦

快

乐

今天介绍一篇由Morgenstern Jason D等人于2021年在Advances in Nutrition上发表的文章。营养流行病学领域面临着测量误差、饮食复杂，和残余混杂所带来的挑战。本文的目的是强调大数据和机器学习的发展如何帮助应对这些挑战。

介

绍

不断努力提高对饮食对健康影响的认识必须成为改善公共健康工作的重中之重。在过去的半个世纪里，人们对饮食的理解已经取得了很大的进步，营养流行病学的一些科学结论导致许多国家的政策变化，尽管取得了很大进展，但仍然存在挑战，包括精确测量饮食、对饮食复杂性进行适当建模以及多重共线性和残余混杂的重大障碍。本文的目的是回顾大数据集和机器学习的应用如何帮助解决营养流行病学的挑战，重点是测量误差、饮食复杂性、残余混杂、疾病预测和推理研究。下图总结了大数据和机器学习在营养流行病学中的主要潜在应用和它的局限性。

Table1 大数据和机器学习在营养流行病学中的主要潜在应用概述

构成大数据所需的数据集的具体大小根据具体情况而不同。随着计算设备和数据存储容量呈现指数级的扩大，大数据也在增长。键康领域的研究人员已经开始利用新的大数据来源，包括主要和次要来源。机器学习是人工智能的一个分支领域，它包含了一系列的方法，旨在为计算机提供学习任务的能力。这些方法依赖于从数据中提取模式的算法，几乎不需要人工输入。机器学习可以大致分为有监督和无监督方法。对于有监督方法，学习算法使用包含完整标签或结果信息的示例数据集通过学习算法来识别解释变量中的模式。然后用训练后的模型对新数据进行预测。无监督方法包括降维和聚类。机器学习的另一个子领域是特征选择，其目的是去除与监督问题中的结果预测不太相关的变量。将大数据和机器学习与营养流行病学结合起来尚未得到详细讨论。

内

容

2.1 测量误差

2.1.1 描述

饮食难以精确测量，常用饮食评估方法有FFQ、24h饮食回顾和生物标记物。每种方法都有其自身的优点和局限性，并受到不同程度的随机和系统误差的影响。一些误差源被认为在结果方面是无差别的。然而，这仍然存在重大问题。存在差异测量误差时，可能会损害研究的内部有效性。

2.1.2 利用大数据改进测量方法

通过提供更客观、可扩展和负担得起的数据收集手段，这些数据可能会减少营养流行病学中的测量误差。连接互联网的计算机和智能手机的普及为主动数据收集开辟了许多新途径。新的电子测量模式也可能有助于更纵向、重复的饮食测量，前提是这些工具比传统方法更便宜、更轻便。通过重复测量，饮食变量可以更精确，回归稀释偏差可以减少。

自动化、电子膳食测量模式已经得到了一些验证。使用户轻便的电子膳食测量方法包括通过消费者奖励计划产生的许多详细的人们购买货物的习惯，以及智能手机跟踪应用程序中已经记录的饮食模式。总的来说，新的电子膳食测量方法的早期评估是有希望的。

通过机器学习和现代数据基础设施实现的全新膳食测量方法可以提高可扩展性和精度。机器学习模型可用于自动分类食品图片。这类技术可能会使饮食记录更轻松、更有规律、更准确，从而提高准确性和有效性。通过机器学习启用新的数据收集模式，可以被动地或通过传播相关应用程序快速扩展观测研究，从而潜在地提高统计能力、测量精度和准确性。

2.1.3 新测量方法的局限性

新测量方法的有效性也是一个值得关注的问题。使用新的被动和主动饮食测量方法的研究需要仔细评估对选择偏差的影响，与通常的研究实践相比，选择偏差可能会加剧。另一个可能阻碍新饮食测量模式应用的实际限制是其开发和实施所需的专业知识和投资，即使它是有效和精确的。最后，这些方法中有许多涉及到重大隐私问题。只收集必要的信息，并且安全性足够可靠，以确保其他方（如保险公司）无法访问数据。

2.2 饮食的复杂性建模

2.2.1描述

食物不是单独食用的，而是以不同的组合和比例食用的。此外，营养素和食物可以以协同和对抗的方式相互作用，使“整体”与其各部分之和完全不同。鉴于这种复杂性，饮食建模方法可以侧重于单个营养素、食物、食物组或饮食模式。当前的饮食模式通常基于对饮食重要方面的先验知识，并浓缩为一维测量，如地中海饮食评分（MDS），健康饮食指数（AHEI），或阻止高血压的膳食模式（DASH）评分。当浓缩成一维时，饮食模式的多维特征就消失了。最后，许多营养流行病学研究去假设饮食和疾病之间存在线性关联模型。有新的证据表明，非线性关系可能比以前认为的更为普遍。

2.2.2机器学习方法用于建模与疾病相关的饮食复杂性

机器学习可以在营养流行病学模型中包含更复杂和更多的饮食解释变量，并有助于根据经验确定最具预测性的变量。许多降维技术已经经常用于营养流行病学中，如主成分分析（PCA）、k-均值聚类和偏最小二乘法回归。

特征选择方法是解决饮食复杂性的另一种方法。这些方法可以将丰富的饮食数据限制在与健康结果预测更相关的子集。同样，这些方法已经在营养流行病学中得到了一些应用，例如使用LASSO，与传统方法相比，该模型被发现可以更好地利用饮食数据预测心脏代谢指标。

除了更好地捕捉营养的丰富性外，机器学习还可以更灵活地建模非线性和非加性关系。但有一些研究已经将机器学习应用于更灵活地建模饮食-健康关系。例如，使用随机梯度提升回归算法，通过详细的饮食、生活方式、医学、实验室、人体测量和微生物群数据，准确预测个体对食物的血糖反应。

2.3残余混杂和多重共线性

2.3.1描述

残余混杂和多重共线性会限制营养流行病学研究的可解释性。残余混杂可以通过使用先验知识来确定模型中的混杂因素来解决。然而，在观察性研究中，不可能保证没有残余混杂。此外，即使在模型中适当地包含了混杂因素，如果存在测量误差或未指定的非相加性/非线性，残余混杂仍然存在。多重共线性可以通过饮食模式和后验降维方法（如因子分析）部分解决。然而，这些方法可能无法囊括所有重要的饮食变化，可能难以解释。总的来说，残余混杂和多重共线性都会使得出有效的推论变得困难。

2.3.2解决残余混杂问题的新工具

在营养流行病学研究中结合具有更多观察数据和更多可用变量的数据，以及机器学习分析技术，可能会减少残余混杂。大数据集包括微生物群、遗传学、代谢物组学、生活方式、环境和健康的社会决定因素的变量，可以通过帮助避免遗漏未测量的混杂因素来加强分析。此外，机器学习可以提供全新类型的数据以包含在模型中。最后，机器学习方法正在开发中，如果应用得当，可能有助于减少残余混杂。总之，大数据提供了一个机会来改进饮食以外因素的测量和表示，而机器学习可以促进这些高维数据集的分析。

2.4改进疾病预测

相对较少的临床或公共健康预测模型包括饮食数据。将这些数据纳入预测模型可以改善健康结果预测。因此，在预测模型中包含丰富的饮食数据，特别是结合使用新的数据收集和机器学习方法，可能是提高性能的一个重要且基本上尚未开发的途径。应用机器学习范式的另一个优势是交叉验证使许多算法在预测环境中更能抵抗多重共线性的影响。此外，这种内部验证可以识别特定人群中与预测特定疾病最相关的饮食模式和因素。总的来说，新的数据源和机器学习方法都提供了通过结合丰富的饮食来改进慢性病预测模型的机会。

2.4.1大数据和机器学习在疾病预测中的局限性

尽管对预测建模有潜在的积极影响，但大数据和机器学习的应用存在一些潜在的缺陷。首先，新数据源中的选择偏差和系统测量误差令人担忧。此外，考虑到机器学习方法通常是理论性的，有时是不可理解的，如果底层数据生成过程的某些方面发生变化，它们很容易受到攻击。在这种情况下，它们可能会出乎意料地变得不准确。另一个重要的考虑因素是，复杂的机器学习模型并不总能改善预测。一般来说，只有在小样本量可供选择且非线性和非相加性关系影响不大的情况下，统计技术将表现得更好，更具普遍性。

2.5为推理研究提供信息

尽管大多数机器学习和大数据研究都集中在预测或分类上，但它也有助于营养流行病学的推理研究。首先，如果成功地减少了非差异性测量误差并增加了样本量，新的饮食测量方法可以帮助检测较小的效应量，并减少多重共线性对系数稳定性的影响。此外，机器学习的应用有助于假设的生成，特别是在解释复杂算法改进的方法时。

机器学习还可以加强在潜在结果框架内寻找营养流行病学因果关系证据的观察性研究。

2.5.1推理研究中大数据和机器学习的局限性

尽管大数据和机器学习可能有助于通过因果推理框架内的假设生成和应用为推理研究提供信息，但它们本身并不足以进行因果推理。因此，专家的领域知识对于提供先验因果模型、解释算法产生的结果以及将调查结果置于更广泛的证据背景中至关重要。当使用大数据和机器学习来提供因果关系证据时，进一步的问题是选择偏差和系统测量误差。必须更好地理解这两者，以确保有效和概括性的结果。

总

结

总的来说，更多地使用大数据和机器学习有助于提高营养流行病学调查结果的可靠性和有效性。具体而言，将大数据和机器学习纳入流行病学分析可以减少测量误差，更好地表示饮食及其混杂因素的复杂性，并更好地考虑饮食与疾病之间的复杂关系。随着大数据和机器学习的增加，营养流行病学面临的一些挑战可能会得到解决。

参考文献

Morgenstern Jason D et al. Perspective: Big Data and Machine Learning Could Help Advance Nutritional Epidemiology[J]. Advances in nutrition (Bethesda, Md.), 2021, 12(3) : 621-631.

长按关注我们

微信号｜FoodAI

合作/投稿｜biomed@csu.edu.cn