人类如何生存：智能体建模与机器学习

编者荐语：

这篇研究创新性地构建了整合地理特征、气候变化和动态资源的多维度智能体模型，系统解析了气候、生态与人类行为等时空变异因子对种群生存扩散的复合影响。研究通过机器学习优化的大规模仿真，为复杂系统建模领域树立了处理高维非线性问题的典范，对计算社会科学研究具有方法论启示。

晚更新世人类生存与扩散的驱动因素：基于多智能体建模与机器学习的研究方法

摘要:

要理解晚更新世人类从非洲的扩散，必须综合考虑一个随空间和时间变化的多元问题，包括气候、生态、人类行为及种群动态等因素。为解析这些因素如何相互作用并影响人类生存与扩散，我们开发了一个基于多智能体的高仿真模型，该模型整合了地理特征、气候变化以及随时间演变的植被与食物资源。为提高计算效率，我们进一步应用了机器学习算法。本研究的创新性在于系统性地评估大规模多智能体模型，并识别其关键参数与敏感性。结果表明，参数间的相互作用是导致人类扩散及生存/灭绝情景变异性的主要来源。在包含地理特征和气候条件动态演变的真实场景中，随机波动成为抵达时间与成功概率差异的主导因素。此外，参数设置即使存在高达92%的最大可能差异（覆盖超30%的参数空间），仍可能产生相似的扩散情景。这表明历史偶然性（相同原因→不同结果）与等效性（不同原因→相同结果）是人类扩散情景的核心特征。尽管古人类学、考古学与古遗传学已能以空前细节揭示人类扩散的模式，但阐明这些模式背后的成因仍是一项重大挑战。

作者简介:

Ali R. Vahdati，苏黎世大学

John David Weissmann，苏黎世大学

Axel Timmermann，釜山大学

Marcia S. Ponce de Leon，苏黎世大学

Christoph P.E. Zollikofer，苏黎世大学

编译来源:

Vahdati, A. R., Weissmann, J. D., Timmermann, A., de León, M. S. P., & Zollikofer, C. P. (2019). Drivers of Late Pleistocene human survival and dispersal: an agent-based modeling and machine learning approach. Quaternary Science Reviews, 221, 105867.

本文作者之一：Ali R. Vahdati

一、前言

目前几乎达成共识的是，智人（Homo sapiens）在非洲经历了漫长的进化过程，且我们的物种的非洲人群在晚更新世时期开始向全球扩散，最终实现了我们星球上所有可居住区域的人口定居（Groucutt et al.，2015；Galway-Witham, & Stringer，2018）。然而，关于人类如何在时间和空间上展开全球扩散的具体过程，仍然是一个激烈研究的问题。是否只有一次“走出非洲”事件，还是有多次扩散波，或是一个持续的人口流动？人类是否沿着特定的路线迁移，或是沿着环境梯度扩散？有哪些因素调控了非洲人口的扩散？

多种方法已经被用来重建这些扩散事件，包括古人类学、考古学以及基因和表型多样性模式的分析，这为理解人类空间时间人口扩散的复杂性提供了重要见解。例如，非洲以外的到达时间、人口瓶颈和创始人效应，本地人口的混血和替代现象（Liu et al.，2015；Bae et al.，2017）。此外，关于智人与古代人群（如尼安德特人和丹尼索瓦人）的混血的研究，也揭示了更长时间段和更大空间范围内的基因交流（Dannemann, & Racimo，2018；Wolf, & Akey，2018）。

这一领域的研究迅速发展，几乎每天都会产生新的扩散模式和动态证据（Harvati et al.，2019）。然而，关于这些扩散背后的原因和机制，我们仍在初步探索阶段。多种因素被提出可能影响这些扩散过程，如气候变化（Abbate, & Sagri，2012），海平面变化（Armitage et al.，2011），构造作用（Bailey, & King，2011），生态变化，动物群更替率（Palombo，2013），食物资源（Dennell，2003），人口统计（Dennell，2003）以及认知与技术文化（Tattersall，2009）。这些因素的组合可能共同促成了人类从非洲的扩散，但重建每个因素的具体影响仍是一项挑战。

问题在于，直接实验测试过去的扩散过程是不可能的，且现有经验数据稀缺且不完整。因此，计算机模型被用作“体内”实验平台，模拟不同的扩散情景，评估在现有经验数据下的可能性（Eriksson et al.，2012）。然而，计算机模拟测试替代情景存在局限性。首先，仅能明确测试少部分情景（Reyes-Centeno et al.，2015）。其次，是否最符合经验数据的模型情景是最可能的情景仍不确定。为此，使用近似贝叶斯计算（ABC）方法可以测试成千上万种模型参数组合，评估最可能的参数设置（Marjoram , & Tavare，2006）。这表明，气候、生态系统生产力以及资源利用率在过去的扩散过程中起了重要作用（Eriksson et al.，2012）。

为了解决这些问题，我们提出了一个新的扩散模拟模型，结合了个体和人口级别的参数，以及随时间变化的地理、海平面和气候条件。模拟的目的是探索不同扩散驱动因素的综合效应，而非复制历史扩散事件。我们之前已验证了该模型与理论预期的一致性（Callegari et al.，2013）。

图1展示了我们分析的不同阶段。我们使用基于二十面体细分的球形网格，每个节点与邻居相隔25到33公里。每个网格节点包含生物性（食物可得性）和非生物性（地理特征）属性。食物可得性通过净初级生产力（NPP）衡量，基于模拟的过去区域气温和降水量估算（Timmermann, & Friedrich，2016）。地理特征包括海拔（Amante, & Eakins，2018）、海平面（Waelbroeck et al.，2002）、冰盖（Ganopolski et al.，2010）和现今的河流（Made with Natural Earth，2018）。这些属性决定了每个节点的承载能力。我们使用坡度函数将节点的NPP转化为承载能力K，并根据地理特征修改K。例如，个体不能在冰覆盖或过高的地区生存，而河流和海岸线则增加了节点的承载能力。模拟从85千年前南部非洲的140个个体开始（“预热”阶段），大致与智人从非洲第二阶段的扩散相吻合（Groucutt et al.，2018）。在每个时间步，智能体可以执行不同的行动，如移动、交配和繁殖。智能体的移动方向是一个随机选择，依据邻近节点的海拔和承载能力加权，且彼此独立。

图1 研究设计。通过四种模拟情景（不同节点和种群参数设置）探究晚更新世人类灭绝与扩散的驱动机制。基于网格化模拟计算种群灭绝与迁徙抵达时间，并采用机器学习分析参数空间与模拟结果的关联，用于：结果可预测性评估；敏感性分析；相似抵达时间的参数组合识别。

除了网格节点的属性（即NPP和地理特征），我们还分析了个体移动概率（pm）和人口出生率（b0）对生存和扩散的影响。出生和死亡概率的计算方法见材料与方法。我们模拟了四个复杂度层次的扩散情景（图1）：一个“均匀地球”情景，个体在没有特征的地球上朝任何方向以相等的概率移动；一个“均匀大陆”情景，个体在大陆形状的陆地上以相等的概率移动；一个“恒定NPP”情景，个体生活在时间不变的地形和NPP条件下；一个“动态NPP”情景，个体生活在随时间变化的地形和NPP条件下（Waelbroeck et al.，2002）。由于模拟计算代价高昂，每个85,000年的模拟需要2到5小时，且由于智能体模型的随机性，模拟需要多个重复。为了解决这些问题，我们使用了机器学习（Hastie et al.，2009）。我们构建了数学替代模型，通过对数据子集的测试，确保它们识别出数据的普遍模式，而不受参数值的影响。然后，我们使用替代模型进行敏感性分析，量化每个参数及其交互效应对结果的影响。

通过这种方法，我们回答了两个问题：a.在给定参数下，局部人口是否能生存？b.如果能，人口到达指定区域需要多长时间。我们构建了决策树，揭示了参数间复杂的相互作用，并分析了每个参数如何影响生存概率或到达时间。

二、研究方法

1、计算出生率和死亡率

我们为单个个体确定了出生概率pb和死亡概率pd，其中出生概率为pb = b0，死亡概率为pd = d0 + (b0 - d0) * N / K。这里，N是人口规模，K是承载能力，b0和d0是人口规模为零时的出生率和死亡率。

2、确定区域承载能力

我们使用坡度函数来确定每个单元的承载能力：若NPP < NPPmax，则K = NPP * Kmax / NPPmax；否则，K = Kmax。

3、Sobol敏感性分析

我们使用Sobol敏感性分析方法（Sobol，2001）分析模型输入的变动对机器学习模型输出的敏感性。简而言之，敏感性分析衡量了模型输出的不确定性，这些不确定性可以通过改变模型输入来解释。我们使用Python包SALib实现了Sobol算法（Herman, & Usher，2017）。

分析过程如下：首先，我们指定了每个参数的下限和上限，它们与模拟中使用的最小值和最大值相同。接着，我们使用SALib包中的saltelli.sample函数生成参数值样本，这些样本产生了Sobol序列的参数值组合。所有敏感性分析使用的参数值为N = 3000（生成样本的数量），并设置calc_second_order = True，以计算更高阶的交互效应。根据模拟情景（均匀地球、均匀大陆、恒定NPP和动态NPP），生成了24,000、24,000、30,000和30,000个参数设置，并使用机器学习替代模型预测其行为。需要注意的是，模拟模型的参数比我们在这里测试的要多。我们将这些参数保持不变，因为测试所有参数的影响会过于耗费计算资源。

4、机器学习模型

我们使用Python的Scikit-learn库（Pedregosa et al.，2011）构建了所有机器学习模型。对于所有分类和回归估计，我们使用了以下算法：K-近邻（KNN）、逻辑回归、岭回归、随机森林和梯度提升回归树。

KNN是一种基于距离的算法：它通过计算新数据点与训练样本的距离来预测结果。KNN是一个易于理解且快速的算法。如果问题是分类问题，KNN使用多数投票系统决定新数据的类别；如果是回归问题，则取新数据邻近训练样本的均值。

逻辑回归是一种分类算法，使用sigmoid函数为每个新数据点分配概率，并据此分类。

岭回归类似于简单线性回归，但通过最小化模型系数，使其尽可能接近零，这种正则化有助于调整不同特征的重要性，并避免过拟合。

随机森林和梯度提升算法是决策树的集成方法。决策树往往会过拟合数据（即具有高方差），而树的集成方法则有助于利用多棵决策树的能力，减少方差。随机森林是由多棵决策树组成的，每棵树与其他树略有不同。每棵树只对部分训练数据做出较好的预测。随机森林通过向所有树询问新数据来做出预测，分类时使用多数投票，回归时使用均值。梯度提升也使用多棵决策树来做预测，但它通过使每棵新树尽量减少前一棵树的误差来构建树。

三、研究结果

1、人口生存驱动因素

我们首先训练了机器学习算法，以根据人口参数预测生存率，这些算法的预测准确性和特异性介于97%和99%之间。然后，使用这些模型对数万个随机参数组合进行了生存预测，并分析了参数变化对模型结果的敏感性。结果（图3）显示，出生率b0是决定人口生存的最重要参数，参数之间的交互作用对生存的影响超过了任何单一参数。参数交互作用发生在多个参数的综合效应非加性时（即一个参数的效应随着其他参数的变化而变化，Berrington de Gonzalez

图3 种群存活参数重要性分析图。展示四种模型情景(颜色图例)中各参数对种群存活的影响：横轴为模型参数，纵轴为一阶Sobol指数(反映参数独立作用)。末位柱状图表示交互作用效应。不同模型参数数量不同(柱状图数量差异)，误差线为95%置信区间。

2、人口扩散驱动因素

以下参数变化能增加生存概率：更高的b0、更低的移动概率pm和更高的NPP。Kmax（最大承载能力）的变化对生存概率影响较小。我们选择的当前范围是因为Kmax低于40（每平方公里0.052个个体）会导致许多灭绝，而Kmax超过50（每平方公里0.065个个体）则远离经验估计（Zahid

在两个较简单的情景中，参数交互对人口扩散的影响没有生存率那么显著（图4与图3比较）。这表明，在这两个简单情景中，每个参数对到达时间的影响在其他参数值变化时几乎保持不变，而其他参数值不会改变某个参数对到达时间的贡献。然而，在恒定NPP和动态NPP模型中，参数交互可以解释到达时间的大方差（图4）。这表明引入环境异质性后，模型行为变得非线性。b0仍然是决定到达时间的最大因素，甚至比移动概率pm更为重要。唯一例外是从中东到东南亚的扩散，其中pm更为重要。全球NPP和pm在均匀地球和均匀大陆模型中对到达时间的影响程度相似。然而，在恒定NPP和动态NPP模型中，NPPmax和Kmax的影响较小。pm是几乎所有模型中决定到达时间的主要因素（图4）。为了使人口迅速扩散，pm必须足够高，但不能过高，否则会导致灭绝。b0和NPP的重要性在于它们影响人口规模，较大的人口更有可能成功扩散到新区域。

图4 抵达时间参数重要性分析图。展示四种模型情景：a.均质地球(分析非洲之角单区域抵达时间)；b.均质大陆；c.恒定NPP情景；d.动态NPP情景(阿拉伯半岛和东南亚的抵达源自中东)。仅纳入机器学习代理模型可解释90%以上模拟结果的区域。各子图横轴为模型参数，纵轴为一阶Sobol指数(反映参数对采样区域抵达时间的独立影响)，末位柱状图表示交互作用效应。

将人口扩散限制于陆地（均匀大陆情景）并不会显著改变参数对扩散的影响（图3与图4比较）。仅加入地理特征或地理特征和气候波动会增加模拟结果的随机性。具体而言，在恒定NPP和动态NPP情景中，到达时间变得大多不可预测：模型参数本身难以解释模型结果，因为景观和/或气候特征使得到达时间具有随机性。我们还研究了撒哈拉沙漠是否是主要的随机性来源，导致到达时间不可预测。为此，我们构建了机器学习模型，以预测从中东到其他非洲以外地区的到达时间。在恒定NPP情景中，新起始区域仅有助于预测到阿拉伯半岛和东南亚的到达时间，但对于其他地区的预测依然较差。在动态NPP情景中，从中东的到达时间更难预测。

3、等效性

为了评估是否存在某些参数值导致相似的到达时间（等效性），我们计算了在动态NPP情景下，导致到达时间相似（误差在1000年以内）的参数空间占比。我们预测了60,000个参数设置的人口生存情况，并确定了存活人群的到达时间。到达时间分布的峰值显示，超过30%的参数设置可以导致相似的到达时间。这些导致相似到达时间的参数设置可能彼此差异很大，差异高达最大可能差异的92%。

我们估计的伊比利亚半岛到达时间，依据60,000次模拟的参数组合，在831到73,831年前之间。到达时间分布显示了三个明显的峰值，其中一个约在55-35千年前，与考古学研究中估计的伊比利亚半岛首次到达时间（约45千年前）大致重合（Cortes-Sánchez

这些参数差异转化为两个群体之间的生物学差异：人口A每个女性生命周期的平均婴儿数为9.45，而人口B为8.64。A群体的每个个体年均移动2.1公里，而B群体个体的平均移动距离为5.7公里。A群体和B群体的人口密度分别为每千平方公里52.4和64.3个个体。NPPmax和Kmax之间的群体差异表明，人口B在高NPP环境中的利用效率优于人口A。

近年来，越来越多的研究认识到彻底记录、验证和测试模型框架的重要性，我们的研究遵循这一方向（Grimm

我们的ABM模型可以用于测试关于人类扩散的各种假设。例如，更高的NPP可能意味着更好的土地利用和狩猎策略，NPP值也可以用于模拟猎物物种的分布。增加的移动概率代表更高的适应能力来应对栖息地迁移（Rolland，2010）。NPP水域（NPPwater）可以代表人类如何利用淡水资源，以及在淡水存在下，区域植被如何改善（Parton

另一创新是使用机器学习分析模拟的参数敏感性，进一步理解ABM的复杂输出。机器学习分析模拟结果的几个优点包括：减少不同参数值组合测试的计算成本，突破了参数空间探索的实际限制；减少了所需的模拟重复次数；揭示了何时输出变异性能通过模型参数解释，何时其他因素（如景观特征和气候变化）影响结果。这使得参数的重要性不仅是系统的全球静态属性，而是空间和时间的函数，从而揭示了历史偶然性在最复杂情景中的作用。

敏感性分析表明，在简单情景中，交互作用对生存变异的贡献较大（均匀地球和均匀大陆情景中分别占18%和19%），但对到达时间的影响较小（4%）。在复杂情景中，根据地区不同，交互作用对到达时间的影响有较大差异。例如，在恒定NPP情景下，从南部非洲到非洲之角及从中东到东南亚的扩散中，交互作用对到达时间影响较小。而在动态NPP情景中，巴塔哥尼亚的路径被气候条件阻塞，只有最后部分的路径对参数效应产生影响。

对模拟输出的可预测性分析表明，气候和地理特征是决定到达时间的最重要因素，超过个体/人口特征（Timmermann

从经验数据推断人类扩散情景仍是一个争议问题，研究建议在200千年至50千年之间可能存在单次或多次扩散事件（Reyes-Centeno

没有单一的“最佳”参数设置能够完全符合这些经验数据。原因有三：首先，参数间的相互依赖性强（图3和图4）；其次，许多参数设置，即使差异很大（最大差异可达92%），也能导致相似的结果（等效性问题）；第三，类似的参数设置可能因巨大的随机性（历史偶然性）导致不同结果。这表明，任何旨在推测人类到达时间的合理参数值的模型，都必须测试一系列的参数值。报告一个单一的最佳参数组合，可能会误导结论。我们再次强调，我们的模型并非为了拟合经验数据，而是展示了不同参数空间的可能性。进一步的经验数据可以缩小人类扩散和人口动态的潜在参数空间，从而减少计算模型的不确定性。

我们验证并分析了一个复杂的人类扩散计算模型。我们展示了在简单景观中，到达时间是模型参数的函数，且模型行为中的随机性较小。然而，加入地理特征和气候波动后，随机性显著增加，模型行为变得难以预测。预测能力的局限性表明，历史偶然性在人类从非洲的扩散中发挥了重要作用。即使模型表现出可预测性，不同参数设置也可能导致相似的到达时间，这表明模型验证在得出关键参数结论前至关重要。此研究框架可用于评估人类扩散的替代理论，或探索为什么现代人类能胜过尼安德特人，模型两种物种在不同参数组合下的竞争。

编译 | 秋彦

审核 | 王杰

“在看”给我一朵小黄花