Py学习  »  机器学习算法

人类如何生存:智能体建模与机器学习

国关计算理论志 • 10 月前 • 130 次点击  
编者荐语:
这篇研究创新性地构建了整合地理特征、气候变化和动态资源的多维度智能体模型,系统解析了气候、生态与人类行为等时空变异因子对种群生存扩散的复合影响。研究通过机器学习优化的大规模仿真,为复杂系统建模领域树立了处理高维非线性问题的典范,对计算社会科学研究具有方法论启示。

晚更新世人类生存与扩散的驱动因素:基于多智能体建模与机器学习的研究方法

摘要:

要理解晚更新世人类从非洲的扩散,必须综合考虑一个随空间和时间变化的多元问题,包括气候、生态、人类行为及种群动态等因素。为解析这些因素如何相互作用并影响人类生存与扩散,我们开发了一个基于多智能体的高仿真模型,该模型整合了地理特征、气候变化以及随时间演变的植被与食物资源。为提高计算效率,我们进一步应用了机器学习算法。本研究的创新性在于系统性地评估大规模多智能体模型,并识别其关键参数与敏感性。结果表明,参数间的相互作用是导致人类扩散及生存/灭绝情景变异性的主要来源。在包含地理特征和气候条件动态演变的真实场景中,随机波动成为抵达时间与成功概率差异的主导因素。此外,参数设置即使存在高达92%的最大可能差异(覆盖超30%的参数空间),仍可能产生相似的扩散情景。这表明历史偶然性(相同原因→不同结果)与等效性(不同原因→相同结果)是人类扩散情景的核心特征。尽管古人类学、考古学与古遗传学已能以空前细节揭示人类扩散的模式,但阐明这些模式背后的成因仍是一项重大挑战。

作者简介:

Ali R. Vahdati,苏黎世大学

John David Weissmann,苏黎世大学
Axel Timmermann,釜山大学
Marcia S. Ponce de Leon,苏黎世大学
Christoph P.E. Zollikofer,苏黎世大学

编译来源:

Vahdati, A. R., Weissmann, J. D., Timmermann, A., de León, M. S. P., & Zollikofer, C. P. (2019). Drivers of Late Pleistocene human survival and dispersal: an agent-based modeling and machine learning approach. Quaternary Science Reviews, 221, 105867.

本文作者之一:Ali R. Vahdati


一、前言

目前几乎达成共识的是,智人(Homo sapiens)在非洲经历了漫长的进化过程,且我们的物种的非洲人群在晚更新世时期开始向全球扩散,最终实现了我们星球上所有可居住区域的人口定居(Groucutt et al.,2015;Galway-Witham, & Stringer,2018)。然而,关于人类如何在时间和空间上展开全球扩散的具体过程,仍然是一个激烈研究的问题。是否只有一次“走出非洲”事件,还是有多次扩散波,或是一个持续的人口流动?人类是否沿着特定的路线迁移,或是沿着环境梯度扩散?有哪些因素调控了非洲人口的扩散?

多种方法已经被用来重建这些扩散事件,包括古人类学、考古学以及基因和表型多样性模式的分析,这为理解人类空间时间人口扩散的复杂性提供了重要见解。例如,非洲以外的到达时间、人口瓶颈和创始人效应,本地人口的混血和替代现象(Liu et al.,2015;Bae et al.,2017)。此外,关于智人与古代人群(如尼安德特人和丹尼索瓦人)的混血的研究,也揭示了更长时间段和更大空间范围内的基因交流(Dannemann, & Racimo,2018;Wolf, & Akey,2018)。

这一领域的研究迅速发展,几乎每天都会产生新的扩散模式和动态证据(Harvati et al.,2019)。然而,关于这些扩散背后的原因和机制,我们仍在初步探索阶段。多种因素被提出可能影响这些扩散过程,如气候变化(Abbate, & Sagri,2012),海平面变化(Armitage et al.,2011),构造作用(Bailey, & King,2011),生态变化,动物群更替率(Palombo,2013),食物资源(Dennell,2003),人口统计(Dennell,2003)以及认知与技术文化(Tattersall,2009)。这些因素的组合可能共同促成了人类从非洲的扩散,但重建每个因素的具体影响仍是一项挑战。

问题在于,直接实验测试过去的扩散过程是不可能的,且现有经验数据稀缺且不完整。因此,计算机模型被用作“体内”实验平台,模拟不同的扩散情景,评估在现有经验数据下的可能性(Eriksson et al.,2012)。然而,计算机模拟测试替代情景存在局限性。首先,仅能明确测试少部分情景(Reyes-Centeno et al.,2015)。其次,是否最符合经验数据的模型情景是最可能的情景仍不确定。为此,使用近似贝叶斯计算(ABC)方法可以测试成千上万种模型参数组合,评估最可能的参数设置(Marjoram , & Tavare,2006)。这表明,气候、生态系统生产力以及资源利用率在过去的扩散过程中起了重要作用(Eriksson et al.,2012)。

为了解决这些问题,我们提出了一个新的扩散模拟模型,结合了个体和人口级别的参数,以及随时间变化的地理、海平面和气候条件。模拟的目的是探索不同扩散驱动因素的综合效应,而非复制历史扩散事件。我们之前已验证了该模型与理论预期的一致性(Callegari et al.,2013)。

图1展示了我们分析的不同阶段。我们使用基于二十面体细分的球形网格,每个节点与邻居相隔25到33公里。每个网格节点包含生物性(食物可得性)和非生物性(地理特征)属性。食物可得性通过净初级生产力(NPP)衡量,基于模拟的过去区域气温和降水量估算(Timmermann, & Friedrich,2016)。地理特征包括海拔(Amante, & Eakins,2018)、海平面(Waelbroeck et al.,2002)、冰盖(Ganopolski et al.,2010)和现今的河流(Made with Natural Earth,2018)。这些属性决定了每个节点的承载能力。我们使用坡度函数将节点的NPP转化为承载能力K,并根据地理特征修改K。例如,个体不能在冰覆盖或过高的地区生存,而河流和海岸线则增加了节点的承载能力。模拟从85千年前南部非洲的140个个体开始(“预热”阶段),大致与智人从非洲第二阶段的扩散相吻合(Groucutt et al.,2018)。在每个时间步,智能体可以执行不同的行动,如移动、交配和繁殖。智能体的移动方向是一个随机选择,依据邻近节点的海拔和承载能力加权,且彼此独立。

图1 研究设计。通过四种模拟情景(不同节点和种群参数设置)探究晚更新世人类灭绝与扩散的驱动机制。基于网格化模拟计算种群灭绝与迁徙抵达时间,并采用机器学习分析参数空间与模拟结果的关联,用于:结果可预测性评估;敏感性分析;相似抵达时间的参数组合识别。

除了网格节点的属性(即NPP和地理特征),我们还分析了个体移动概率(pm)和人口出生率(b0)对生存和扩散的影响。出生和死亡概率的计算方法见材料与方法。我们模拟了四个复杂度层次的扩散情景(图1):一个“均匀地球”情景,个体在没有特征的地球上朝任何方向以相等的概率移动;一个“均匀大陆”情景,个体在大陆形状的陆地上以相等的概率移动;一个“恒定NPP”情景,个体生活在时间不变的地形和NPP条件下;一个“动态NPP”情景,个体生活在随时间变化的地形和NPP条件下(Waelbroeck et al.,2002)。由于模拟计算代价高昂,每个85,000年的模拟需要2到5小时,且由于智能体模型的随机性,模拟需要多个重复。为了解决这些问题,我们使用了机器学习(Hastie et al.,2009)。我们构建了数学替代模型,通过对数据子集的测试,确保它们识别出数据的普遍模式,而不受参数值的影响。然后,我们使用替代模型进行敏感性分析,量化每个参数及其交互效应对结果的影响。

通过这种方法,我们回答了两个问题:a.在给定参数下,局部人口是否能生存?b.如果能,人口到达指定区域需要多长时间。我们构建了决策树,揭示了参数间复杂的相互作用,并分析了每个参数如何影响生存概率或到达时间。

二、研究方法

1、计算出生率和死亡率
我们为单个个体确定了出生概率pb和死亡概率pd,其中出生概率为pb = b0,死亡概率为pd = d0 + (b0 - d0) * N / K。这里,N是人口规模,K是承载能力,b0和d0是人口规模为零时的出生率和死亡率。

2、确定区域承载能力
我们使用坡度函数来确定每个单元的承载能力:若NPP < NPPmax,则K = NPP * Kmax / NPPmax;否则,K = Kmax。

3、Sobol敏感性分析
我们使用Sobol敏感性分析方法(Sobol,2001)分析模型输入的变动对机器学习模型输出的敏感性。简而言之,敏感性分析衡量了模型输出的不确定性,这些不确定性可以通过改变模型输入来解释。我们使用Python包SALib实现了Sobol算法(Herman, & Usher,2017)。

分析过程如下:首先,我们指定了每个参数的下限和上限,它们与模拟中使用的最小值和最大值相同。接着,我们使用SALib包中的saltelli.sample函数生成参数值样本,这些样本产生了Sobol序列的参数值组合。所有敏感性分析使用的参数值为N = 3000(生成样本的数量),并设置calc_second_order = True,以计算更高阶的交互效应。根据模拟情景(均匀地球、均匀大陆、恒定NPP和动态NPP),生成了24,000、24,000、30,000和30,000个参数设置,并使用机器学习替代模型预测其行为。需要注意的是,模拟模型的参数比我们在这里测试的要多。我们将这些参数保持不变,因为测试所有参数的影响会过于耗费计算资源。

4、机器学习模型
我们使用Python的Scikit-learn库(Pedregosa et al.,2011)构建了所有机器学习模型。对于所有分类和回归估计,我们使用了以下算法:K-近邻(KNN)、逻辑回归、岭回归、随机森林和梯度提升回归树。

KNN是一种基于距离的算法:它通过计算新数据点与训练样本的距离来预测结果。KNN是一个易于理解且快速的算法。如果问题是分类问题,KNN使用多数投票系统决定新数据的类别;如果是回归问题,则取新数据邻近训练样本的均值。

逻辑回归是一种分类算法,使用sigmoid函数为每个新数据点分配概率,并据此分类。

岭回归类似于简单线性回归,但通过最小化模型系数,使其尽可能接近零,这种正则化有助于调整不同特征的重要性,并避免过拟合。

随机森林和梯度提升算法是决策树的集成方法。决策树往往会过拟合数据(即具有高方差),而树的集成方法则有助于利用多棵决策树的能力,减少方差。随机森林是由多棵决策树组成的,每棵树与其他树略有不同。每棵树只对部分训练数据做出较好的预测。随机森林通过向所有树询问新数据来做出预测,分类时使用多数投票,回归时使用均值。梯度提升也使用多棵决策树来做预测,但它通过使每棵新树尽量减少前一棵树的误差来构建树。

三、研究结果

1、人口生存驱动因素
我们首先训练了机器学习算法,以根据人口参数预测生存率,这些算法的预测准确性和特异性介于97%和99%之间。然后,使用这些模型对数万个随机参数组合进行了生存预测,并分析了参数变化对模型结果的敏感性。结果(图3)显示,出生率b0是决定人口生存的最重要参数,参数之间的交互作用对生存的影响超过了任何单一参数。参数交互作用发生在多个参数的综合效应非加性时(即一个参数的效应随着其他参数的变化而变化,Berrington de Gonzalez

图3 种群存活参数重要性分析图。展示四种模型情景(颜色图例)中各参数对种群存活的影响:横轴为模型参数,纵轴为一阶Sobol指数(反映参数独立作用)。末位柱状图表示交互作用效应。不同模型参数数量不同(柱状图数量差异),误差线为95%置信区间。

2、人口扩散驱动因素
以下参数变化能增加生存概率:更高的b0、更低的移动概率pm和更高的NPP。Kmax(最大承载能力)的变化对生存概率影响较小。我们选择的当前范围是因为Kmax低于40(每平方公里0.052个个体)会导致许多灭绝,而Kmax超过50(每平方公里0.065个个体)则远离经验估计(Zahid
在两个较简单的情景中,参数交互对人口扩散的影响没有生存率那么显著(图4与图3比较)。这表明,在这两个简单情景中,每个参数对到达时间的影响在其他参数值变化时几乎保持不变,而其他参数值不会改变某个参数对到达时间的贡献。然而,在恒定NPP和动态NPP模型中,参数交互可以解释到达时间的大方差(图4)。这表明引入环境异质性后,模型行为变得非线性。b0仍然是决定到达时间的最大因素,甚至比移动概率pm更为重要。唯一例外是从中东到东南亚的扩散,其中pm更为重要。全球NPP和pm在均匀地球和均匀大陆模型中对到达时间的影响程度相似。然而,在恒定NPP和动态NPP模型中,NPPmax和Kmax的影响较小。pm是几乎所有模型中决定到达时间的主要因素(图4)。为了使人口迅速扩散,pm必须足够高,但不能过高,否则会导致灭绝。b0和NPP的重要性在于它们影响人口规模,较大的人口更有可能成功扩散到新区域。

图4 抵达时间参数重要性分析图。展示四种模型情景:a.均质地球(分析非洲之角单区域抵达时间);b.均质大陆;c.恒定NPP情景;d.动态NPP情景(阿拉伯半岛和东南亚的抵达源自中东)。仅纳入机器学习代理模型可解释90%以上模拟结果的区域。各子图横轴为模型参数,纵轴为一阶Sobol指数(反映参数对采样区域抵达时间的独立影响),末位柱状图表示交互作用效应。

将人口扩散限制于陆地(均匀大陆情景)并不会显著改变参数对扩散的影响(图3与图4比较)。仅加入地理特征或地理特征和气候波动会增加模拟结果的随机性。具体而言,在恒定NPP和动态NPP情景中,到达时间变得大多不可预测:模型参数本身难以解释模型结果,因为景观和/或气候特征使得到达时间具有随机性。我们还研究了撒哈拉沙漠是否是主要的随机性来源,导致到达时间不可预测。为此,我们构建了机器学习模型,以预测从中东到其他非洲以外地区的到达时间。在恒定NPP情景中,新起始区域仅有助于预测到阿拉伯半岛和东南亚的到达时间,但对于其他地区的预测依然较差。在动态NPP情景中,从中东的到达时间更难预测。

3、等效性
为了评估是否存在某些参数值导致相似的到达时间(等效性),我们计算了在动态NPP情景下,导致到达时间相似(误差在1000年以内)的参数空间占比。我们预测了60,000个参数设置的人口生存情况,并确定了存活人群的到达时间。到达时间分布的峰值显示,超过30%的参数设置可以导致相似的到达时间。这些导致相似到达时间的参数设置可能彼此差异很大,差异高达最大可能差异的92%。

我们估计的伊比利亚半岛到达时间,依据60,000次模拟的参数组合,在831到73,831年前之间。到达时间分布显示了三个明显的峰值,其中一个约在55-35千年前,与考古学研究中估计的伊比利亚半岛首次到达时间(约45千年前)大致重合(Cortes-Sánchez

这些参数差异转化为两个群体之间的生物学差异:人口A每个女性生命周期的平均婴儿数为9.45,而人口B为8.64。A群体的每个个体年均移动2.1公里,而B群体个体的平均移动距离为5.7公里。A群体和B群体的人口密度分别为每千平方公里52.4和64.3个个体。NPPmax和Kmax之间的群体差异表明,人口B在高NPP环境中的利用效率优于人口A。

近年来,越来越多的研究认识到彻底记录、验证和测试模型框架的重要性,我们的研究遵循这一方向(Grimm
我们的ABM模型可以用于测试关于人类扩散的各种假设。例如,更高的NPP可能意味着更好的土地利用和狩猎策略,NPP值也可以用于模拟猎物物种的分布。增加的移动概率代表更高的适应能力来应对栖息地迁移(Rolland,2010)。NPP水域(NPPwater)可以代表人类如何利用淡水资源,以及在淡水存在下,区域植被如何改善(Parton
另一创新是使用机器学习分析模拟的参数敏感性,进一步理解ABM的复杂输出。机器学习分析模拟结果的几个优点包括:减少不同参数值组合测试的计算成本,突破了参数空间探索的实际限制;减少了所需的模拟重复次数;揭示了何时输出变异性能通过模型参数解释,何时其他因素(如景观特征和气候变化)影响结果。这使得参数的重要性不仅是系统的全球静态属性,而是空间和时间的函数,从而揭示了历史偶然性在最复杂情景中的作用。

敏感性分析表明,在简单情景中,交互作用对生存变异的贡献较大(均匀地球和均匀大陆情景中分别占18%和19%),但对到达时间的影响较小(4%)。在复杂情景中,根据地区不同,交互作用对到达时间的影响有较大差异。例如,在恒定NPP情景下,从南部非洲到非洲之角及从中东到东南亚的扩散中,交互作用对到达时间影响较小。而在动态NPP情景中,巴塔哥尼亚的路径被气候条件阻塞,只有最后部分的路径对参数效应产生影响。

对模拟输出的可预测性分析表明,气候和地理特征是决定到达时间的最重要因素,超过个体/人口特征(Timmermann

从经验数据推断人类扩散情景仍是一个争议问题,研究建议在200千年至50千年之间可能存在单次或多次扩散事件(Reyes-Centeno
没有单一的“最佳”参数设置能够完全符合这些经验数据。原因有三:首先,参数间的相互依赖性强(图3和图4);其次,许多参数设置,即使差异很大(最大差异可达92%),也能导致相似的结果(等效性问题);第三,类似的参数设置可能因巨大的随机性(历史偶然性)导致不同结果。这表明,任何旨在推测人类到达时间的合理参数值的模型,都必须测试一系列的参数值。报告一个单一的最佳参数组合,可能会误导结论。我们再次强调,我们的模型并非为了拟合经验数据,而是展示了不同参数空间的可能性。进一步的经验数据可以缩小人类扩散和人口动态的潜在参数空间,从而减少计算模型的不确定性。

我们验证并分析了一个复杂的人类扩散计算模型。我们展示了在简单景观中,到达时间是模型参数的函数,且模型行为中的随机性较小。然而,加入地理特征和气候波动后,随机性显著增加,模型行为变得难以预测。预测能力的局限性表明,历史偶然性在人类从非洲的扩散中发挥了重要作用。即使模型表现出可预测性,不同参数设置也可能导致相似的到达时间,这表明模型验证在得出关键参数结论前至关重要。此研究框架可用于评估人类扩散的替代理论,或探索为什么现代人类能胜过尼安德特人,模型两种物种在不同参数组合下的竞争。


编译 | 秋彦

审核 | 王杰
©本文内容仅供参考,不代表理论志观点


“在看”给我一朵小黄花



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182245