New Bayesian and deep learning spatio-temporal models can revealanomalies in sensor data more effectively
新的贝叶斯与深度学习时空模型能更有效地揭示传感器数据中的异常https://www.sciencedirect.com/science/article/pii/S004313542500836X
摘要
环境与水质监测日益依赖来自传感器网络的高频率数据流,然而这些数据集中的异常可能损害其可靠性。本文提出了两种全新的无监督方法,用于时空传感器阵列中的异常检测,特别针对河流传感器网络等高度结构化数据集而设计。第一种方法是基于降秩高斯过程的动态贝叶斯时空模型;第二种是一种名为“基于时空注意力机制的河流网络LSTM”(Spatio-Temporal Attention-based LSTM for River Networks)的深度学习架构。我们通过包含多种在环境数据中常见异常类型的全面仿真基准,对这两种方法进行了严格评估。对比分析揭示了每种方法的优势与局限性,并在准确性和计算效率方面均展现出优于现有方法的性能。我们进一步提出一种集成方法,协同结合了两种方法的优势。本框架满足了对复杂生态系统进行监测时对鲁棒、高效算法和计算方法日益增长的需求,推动了环境应用中时空异常检测的发展。通过提供详细的实现指南和开源代码,我们使生态与环境科学工作者及实践者能够立即应用该方法,从而促进河流网络管理中的监测改进与决策优化。
关键词:贝叶斯模型,深度学习,时空分析,低秩方法,河流网络,水质建模
生态与环境监测是可持续发展目标(SDGs)第6、14和15项目标的关键组成部分,旨在确保清洁饮水与卫生设施,保护海洋和陆地生态系统,并促进自然资源的可持续利用。近年来,原位传感器技术的进步彻底改变了生态与环境监测,显著提升了对水生生态系统测量的覆盖范围和数据分辨率(Rode 等,2016)。这些先进的传感器如今能够以前所未有的空间和时间覆盖能力,捕捉多种参数,包括环境DNA、病原体、营养盐、叶绿素、浊度和溶解氧。这种增强的数据采集能力对于理解与管理水资源的自然动态和人为影响至关重要(Pellerin 等,2016a)。然而,高频、空间分布式的传感器网络的迅速发展也带来了数据处理与解释方面的挑战,尤其是在大规模、多参数数据集中检测和管理异常值方面(Leigh 等,2019)。
传感器数据中异常值的存在对数据可靠性提出了重大关切,而数据可靠性是环境管理中准确建模和科学决策的关键因素(Hodge 和 Austin,2004;Congdon,2019)。这些异常通常源于传感器相关问题,例如电池故障或测量漂移,可能导致对环境趋势的误判以及错误的政策决策(Santos-Fernandez 等,2024)。传统的异常检测方法通常需要大量人工干预,不仅耗时,而且容易引入人为错误(Leigh 等,2019)。
环境与生态数据集通常表现出强烈的时空依赖性和时间相关性(Garreta 等,2010;Lichstein 等,2002;Santos-Fernandez 等,2022b),因此需要复杂的建模框架。相比单变量方法,多传感器建模通过利用空间和多变量时间关系展现出显著优势。这一点在河流网络中尤为重要,因为必须捕捉复杂的时空动态,并考虑由于树状结构和单向水流导致的独特空间依赖模式(Peterson 等,2013;O’Donnell 等,2014)。
空间统计学的前沿方法(如高斯过程,GPs)以及深度学习技术的最新进展,在处理复杂环境数据方面展现出巨大潜力(Santos-Fernandez 等,2022b;Chalapathy 和 Chawla,2019)。贝叶斯时空模型能够提供稳健的不确定性量化,并可融入专家知识和先验信息(Cressie 和 Wikle,2011),而深度学习方法则能够从高维时空数据集中捕捉复杂的模式(Guo 等,2021)。然而,将这些先进方法应用于高度结构化的环境数据(如河流网络数据)仍是一个有待深入探索的研究领域。
本文提出了两种用于时空传感器阵列异常检测的新型无监督方法:一种是贝叶斯动态降秩时空模型(BARST),另一种是名为“面向河流网络的时空注意力LSTM”(STARN)的深度学习架构。此外,我们还提出了一种集成算法,结合了贝叶斯方法与深度学习方法的要素,以充分发挥二者的优势。
这些方法专门针对河流与溪流网络等高度结构化数据集设计,但也广泛适用于各类新兴的环境监测场景。我们通过全面的模拟基准测试对这些方法进行了严格评估,结果表明其在准确性和计算效率方面均优于现有方法。通过提供详细的实现指南和开源代码,我们使环境科学家和实践者能够立即应用这些方法,从而提升水质监测水平,支持环境管理中的科学决策。
2.1 BARST:贝叶斯动态降秩时空模型
我们开发了一种贝叶斯时空模型,用于捕捉来自河流网络环境传感器数据中的复杂依赖关系。该模型的表达式如下:
其中,𝑦 是响应向量(长度为 𝑛 = 𝑆 × 𝑇),对应 𝑆 个空间位置和 𝑇 个时间点,表示水质参数或生物指标等环境指标。𝑋 是协变量的设计矩阵,𝛽 是回归系数,𝑤 表示时空随机效应,𝜖 是误差项(var(𝜖) = 𝜎²₀𝐼)。我们扩展了 Santos-Fernandez 等人(2022b)提出的河流网络空间模型,引入了动态高斯过程(GP):
其中,𝑁(⋅, ⋅) 表示正态分布,Σ 是空间协方差矩阵,Φ₁ 是转移矩阵。该表达式表示一个一阶向量自回归模型(VAR(1)),其残差项具有时间依赖性。为了考虑河流网络独特的空间结构,我们采用专门设计的协方差模型(Ver Hoeff 和 Peterson, 2010;Peterson 和 Ver Hoeff, 2010)。尾部衰减指数模型(tail-down exponential model)允许在非水流连接的位置之间存在协方差,其定义如下:
2.1.1 动态降秩空间过程
为了应对大规模空间数据集带来的计算挑战,并减轻异常值对参数估计的影响,我们提出了一种动态降秩空间模型。该方法结合了降秩近似的计算效率与贝叶斯学习的灵活性,能够自适应地选择最能代表潜在空间结构的空间位置(称为“结点”),同时最小化异常数据点的影响。我们方法的核心是站点与结点之间的协方差矩阵,其定义如下:
我们实现了一种动态贝叶斯学习算法,用于结点选择和参数估计,该算法能够适应数据的空间结构,同时减轻异常值的影响。该过程详见附录A,通过迭代方式不断优化模型的空间表示和参数估计。简要步骤如下:
- 根据空间覆盖范围和数据密度,初始化一组结点。参见附录D。
- 使用马尔可夫链蒙特卡洛(MCMC)采样方法估计模型参数。
- 根据RMSPE对站点进行排序,并选择表现最佳的站点作为下一轮迭代的候选节点。
- 利用当前的后验分布更新先验分布,返回最终的后验分布及所选站点。
该方法具有以下几项优势:
- 异常鲁棒性:通过聚焦于RMSPE较低的站点,模型降低了异常数据点的影响。
- 计算效率:降秩结构使得在合理计算资源条件下处理大规模数据集成为可能。通过保持相对较少的结点数量(例如40个),模型显著降低了计算负担,确保在典型高频率环境监测的时间间隔内(如15分钟或1小时)仍能完成后验推断。
- 自适应学习:先验的递归更新机制支持参数估计的逐步优化。
- 可扩展性:该算法易于并行化,从而提升计算效率。
- 灵活性:站点选择标准可根据特定领域知识或数据特征进行定制。
响应变量中的缺失值可在贝叶斯框架中自然处理,因为后验预测分布允许在模型采样过程中对缺失观测值进行填补。相比之下,协变量中的缺失值必须在模型拟合前进行处理,这符合Stan软件的要求(Carpenter等,2017)。标准的填补技术,如多重填补或多模型填补方法,可以在预处理阶段应用。有关填补策略和工具的全面概述可访问:https://cran.r-project.org/web/views/MissingData.html。
2.2 STARN:基于双向LSTM与空间协方差的河流网络时空深度学习模型
在本节中,我们介绍STARN(Spatio-Temporal Attention-based LSTM for River Networks,面向河流网络的时空注意力LSTM),这是一种新颖的深度学习架构,专门设计用于建模和分析来自河流网络中原位传感器的时空数据。该创新方法针对河流网络数据集所特有的挑战,结合了先进深度学习技术的优势与领域特定的空间建模方法(Reichstein 等,2019)。
深度学习模型,特别是长短期记忆网络(LSTM)、双向LSTM(BiLSTM)模型以及变分自编码器(VAEs),在多变量时间序列的异常检测中表现出卓越性能(Chalapathy 和 Chawla,2019;Malhotra 等,2016),同时在时间序列预测和自相关数据建模方面也展现出强大的能力(Siami-Namini 等,2019)。然而,这些方法在时空数据上的应用,尤其是像河流网络所产生的高度结构化数据集上的应用,仍然相对较少被探索。
河流网络独特的空间结构——以单向水流和复杂的连接模式为特征——要求采用一种定制化的方法,能够同时捕捉时间动态和空间依赖关系。传统的深度学习模型虽然在时间建模方面具有强大能力,但通常缺乏显式考虑这些空间特征的能力。
其中,BiLSTMᵢ 是双向 LSTM 层,能够以正向和反向两个方向遍历输入数据,从而使模型能够捕捉时间序列在两个时间方向上的依赖关系。DropoutAlways(·, p) 是一种自定义的 dropout 操作,它在推理过程中仍保持 dropout 的应用,作为一种正则化技术,在训练期间随机将比例为 p 的输入单元置零。该操作可被解释为一种贝叶斯近似方法,用于估计不确定性。
用于精炼LSTM输出的注意力机制定义如下:
E 是前述通过将水文距离矩阵进行多维尺度分析(MDS)所获得的空间嵌入。该过程涉及最小化一种应力函数(例如Kruskal应力或Sammon应力),以保持站点之间原有的距离,确保嵌入结果能够捕捉到树状河网中固有的独特空间依赖关系。通过利用MDS,我们可以将站点之间复杂的空间关系转换到一个低维空间(本例中嵌入维度为10),并通过优化应力函数来保留关键的结构信息,该应力函数用于量化原始距离与嵌入后距离之间的差异。
此外,这些复杂的空间嵌入可以包含河流网络拓扑结构的多个方面,例如站点之间的水流连通性,以反映河网的方向性水流和分支结构,尽管本文未包含这些内容以避免增加额外的计算负担。可以通过整合由诸如Shreve河网等级(Shreve, 1967)或流域面积等指标导出的空间权重,来引入更多复杂性。特别是,Shreve河网等级为河网提供了一种层次化表示,其中较高等级的河流拥有更多的支流,通常规模更大且位于更下游的位置。类似地,使用流域面积作为权重因子有助于捕捉河网不同部分对整体水文动态的差异性影响(Peterson 和 Ver Hoef, 2010;Santos-Fernandez 等, 2022b)。
总体而言,这些空间嵌入使模型能够更好地理解和预测数据中的时空模式,同时考虑到河流网络特有的复杂空间依赖关系。它使网络能够捕捉空间分布输入对输出预测的影响。通过融入此类特定领域的知识,我们的模型增强了检测异常和进行准确预测的能力,使其非常适用于复杂河流系统中的环境监测与管理应用。
最后,在模型定义中,使用了修正线性单元(ReLU)激活函数,其定义为 ReLU(x) = max(0, x)。该函数在保持计算效率的同时,向模型引入非线性,有助于网络学习数据中的复杂模式。该模型通过最小化均方误差 ℒ = (1/n) ∑ₙᵢ₌₁ (yᵢ − ŷᵢ)² 进行训练,其中 n = S × T。
该模型使用 Keras(Allaire 和 Chollet, 2024;Chollet 等, 2015)实现,后端为 TensorFlow(Abadi 等, 2015)。我们采用 Adam 优化器,初始学习率为 0.001。为进行正则化,采用了早停(early stopping)和在损失平台期降低学习率的策略。模型最多训练 100 个 epoch,批量大小为 64。我们选择在完整数据集上运行模型,而不是进行训练-测试划分。对每个观测值的预测结果基于 100 次迭代,生成 95% 的预测区间:
在模型训练之前,输入时间序列中的缺失值通过前向填充(forward-filling)进行处理,以保持时间连续性,随后应用了掩码(masking)技术。这种在时间序列深度学习中常用的方法,确保了网络在训练过程中能够识别到缺失的数据项。
未来研究中可以开发和测试多种变体及互补方法,但出于篇幅考虑,本文未予包含。例如,可以探索在诸如Mamba(Gu和Dao,2023)等软件包中实现的状态空间模型变体,以评估其在处理时间序列和时空数据方面的潜力。此外,还可以考虑采用更先进的注意力机制,例如Transformer风格的自注意力机制,以提升模型关注数据中相关特征及相互作用的能力。这些方法在提升性能方面具有潜力,对其开展研究是未来工作的一个可能方向。
2.3 异常检测框架
我们的异常检测框架利用贝叶斯模型(BARST)和深度学习架构(STARN)的预测能力,识别显著偏离预期模式的观测值。该方法结合了统计方法的严谨性与机器学习的灵活性,能够检测复杂时空数据中的多种类型异常。此外,我们引入了一种组合集成方法(STC),将上述两种方法相结合,以进一步提升异常检测的性能。
我们异常检测框架的核心原理基于模型预测结果与观测数据之间的概率比较。异常观测的特点是其在拟合模型下的概率较低(Murphy, 2012)。该方法能够细致地理解异常情况,同时考虑偏差的幅度以及相关的不确定性。对于贝叶斯时空模型,我们利用后验预测分布来量化观测数据出现的可能性(Santos-Fernández 等, 2024)。异常检测过程可形式化如下:
其中,α 是显著性水平,通常取值为 0.05。请注意,模型残差 εₜ = ŷₜ − yₜ 还可用于其他方式识别异常,例如通过高斯混合模型(Gaussian Mixture Models)和隐马尔可夫模型(Hidden Markov Models)(Santos-Fernandez 等, 2024)。
在深度学习方法中,我们通过蒙特卡洛丢弃法(Monte Carlo dropout)进行不确定性量化。蒙特卡洛丢弃法通过在推理过程中激活丢弃机制,进行多次随机前向传播,从而估计网络输出的不确定性。
我们通过采用以下效用函数,生成贝叶斯-深度学习模型的集成:
该集成方法使我们能够稳健地聚合来自多个模型的不确定性估计,从而增强异常检测过程的可靠性。该阈值确保只有那些与预期行为存在显著偏差的观测才会被标记为异常,从而保持异常检测的准确性和可靠性。
我们注意到,还可以通过其他方法构建有效的集成变体,例如加权共识、模型平均和堆叠(stacking),这些方法为根据具体需求和数据特征定制集成策略提供了灵活性。
这些模型实现的代码可在计算实现部分(附录 C)中找到。该部分提供了用于拟合 BARST、STARN 和 STC 模型的 ssnbayes() 和 starn() 函数的详细示例和参数说明。
异常值可能会显著影响参数估计,尤其是在时空模型中,而它们对通过低秩近似建模的大尺度空间过程的影响在很大程度上尚未被探索。同样,空间异常对深度学习模型的影响也尚未得到充分评估。
在本节中,我们模拟了大量包含技术性异常的时空河流网络数据,以复现现实世界中的监测条件。我们的模拟设计基于真实情况,参考了澳大利亚昆士兰州赫伯特河(Herbert River)的一个案例研究,该研究包含了来自七个原位监测站点的数据。尽管该数据集规模较小,但它为我们在实际监测中遇到的异常类型及其发生频率提供了有价值的见解。我们利用该案例研究中的经验参数估计值(如空间相关范围、信号变异性以及异常特征)来设定模拟的输入参数。这种方法确保了我们的合成数据集能够真实反映实际河流网络监测中所面临的挑战,包括传感器漂移、尖峰和短期故障。
目标是生成多种非平凡的异常,其中一些异常被刻意设计为难以检测,从而为复杂环境监测场景下的异常检测方法提供一个稳健的测试平台。
我们采用以下步骤:
考虑一个包含500多个空间位置/传感器的大流域。这将为水质监测提供精细的空间覆盖,并在水系网络中表现出显著的空间相关性。最优传感器布设和数据稀疏性问题是监测中的重要课题。
使用R语言软件包SSN中的createSSN()函数(Ver Hoef等,2014),我们生成了一个由1000条河段或河流组成的人工河网。设定空间位置数为 S = 503,代表水质传感器。图1展示了在两个时间点上模拟的包含503个空间位置的河网。
对于模型的线性部分或过程均值,我们使用了三个标准正态协变量,其斜率参数为 {𝛽₁, 𝛽₂, 𝛽₃} = {2, 0, −2},截距项 𝛽₀ = 20,并据此模拟了一个响应变量 𝑦。
模拟中的空间依赖性采用“尾向下”(tail-down)协方差结构进行建模,该结构考虑了河网中各位置之间的水文距离。我们为尾向下模型设定了以下参数:偏基台值(partial sill)𝜎²_TD = 1,表示在考虑块金效应(即测量误差引起的极小尺度上的非结构化误差项或变异性)后的方差;空间范围参数 𝛼_TD = 30,用于定义协方差随距离增加而衰减的速率。此外,引入了块金效应 𝜎²₀ = 0.1,以表示微尺度变异性。使用协方差矩阵的Cholesky分解来模拟空间误差,然后将这些空间误差整合到模型中,以模拟河网中各位置之间的空间依赖性。
时间过程通过一个正弦谐波协变量(正如我们在水温等水质参数中所预期的那样)加上一些噪声(服从正态分布 (0, 1))进行模拟,时间点数设为 𝑇 = 100。
将空间成分和时间成分相加,生成一个时空河流网络数据集。
我们采用以下方法向数据中引入异常。设定 𝑝ₛ = 0.4,表示传感器/站点通过随机抽样产生异常数据的概率。对于存在传感器问题的站点,进一步设定初始异常概率 𝑞_ini = 0.05,表示在时间𝑡处某次观测为异常的初始概率,以生成包含合理数量异常的数据集。在时间序列中,我们为每个位置𝑠和时间𝑡生成一个二值指示变量𝑑,用于标识异常的开始。该二值指示变量有助于在整个时空数据集中区分正常观测与异常观测。

这些异常源于河流传感器部署中的实际观测,详见 Santos-Fernandez 等(2024)和 Leigh 等(2019)的研究。数据集中的异常通常归因于物理干扰,这些干扰会影响传感器读数的准确性和稳定性。此类干扰会引入噪声和偏差,最终降低数据的可靠性。一种常见的表现是出现尖锐、孤立的尖峰,这可能是由于传感器光学路径受阻所致。此类阻塞可能包括石块、植物残体、有机碎屑,或鱼类、无脊椎动物等水生生物的短暂出现。
许多传感器系统配备了机械刮水器装置,旨在通过定期清洁传感器镜头来防止污损。然而,如果刮水器发生故障,或刮片发生错位或损坏,反而可能遮挡传感器的视野,导致数据出现突然的跳变或波动加剧的时段。在刮水器完全失效的情况下,生物污损可能在镜头表面逐渐累积,从而引发传感器漂移——即记录值随时间逐渐偏离真实的环境状况。这种漂移通常随时间单调发展,若无外部验证则难以察觉。
水位传感器通常基于模拟技术,因此特别容易受到电气干扰的影响。这些误差通常源于接地不良或电源供应不稳定。因此,数据可能会表现出突发的变异性增加,或者在某些情况下产生不合理的负值,具体取决于干扰的性质和强度。每种类型的异常都被赋予相同的初始发生概率。
其中,函数 sort 表示将正态分布的数值按升序排列,以生成漂移模式。
图 E.7 展示了基于由水流连通性导出的权重选择空间结点的过程,水流连通性定义为每个点通过水流连接的其他位置的数量。该方法确保网络中与多个其他位置具有较强连通性的地点更有可能被选中;相反,孤立的位置被选中的可能性较低。例如,出口(最下游的点)因其具有最高的水流连通性得分而被选中。这种战略性选择过程有助于更有效地学习空间过程,并使低秩协方差矩阵的设计更加高效。
尽管这些方法是为河流网络开发的,但它们广泛适用于各种环境、生态和生物监测场景。贝叶斯模型(BARST)扩展了现有建模进展(Finley 等,2017;Wikle,2010),并通过实现动态结点选择克服了现有局限性,在捕捉树状结构(Ver Hoef 和 Peterson,2010;Peterson 等,2013)的同时自适应地避开异常站点。STARN 则采用了最先进的深度学习技术(Shi 等,2015),并引入了新颖的架构,以考虑网络结构中固有的空间依赖性(Reichstein 等,2019;Karpatne 等,2019)。
我们构建了全面的合成数据集,通过详尽的模拟严格评估这些方法的性能,其中包含了多种现实世界中的异常类型(Santos-Fernandez 等,2022b;Chandola 等,2009;Aggarwal,2017)。图1展示了在时间序列起始时刻,一个模拟环境参数(例如总悬浮固体(TSS)、大肠杆菌、叶绿素-a、硝酸盐等)在包含503个站点的河网中的空间分布情况。该可视化图展示了河流网络数据中固有的复杂空间结构和变异性。
图2展示了来自20个传感器的数据示例,其中包含多种类型的异常。非异常数据以灰色表示,不同类型的异常分别用红色、紫色、绿色和蓝色的点表示。可以看出,一些异常是单次事件(例如位置7中的绿色点尖峰),而另一些则在同一位置持续了一段时间(例如位置7中的紫色偏移)。用于重现这些模拟的R代码包含在补充材料中。
上述两个模型以及新提出的集成方法(STC)均成功拟合了多个模拟数据集。对于BARST模型,获得了后验预测分布;而对于STARN模型,则生成了预测区间。
为了建立一个全面的比较框架,我们实现了几种基准方法,包括单变量和多变量ARIMA模型以及空间模型,这些方法常用于生态与环境数据的时间序列和时空分析。然而,这些基准模型在至少一个指标上未能提升性能,且在捕捉模拟河流网络数据中复杂的时空关系方面表现显著较差,误报率超过60%。鉴于其效果有限,我们省略了这些方法的详细结果,以便集中介绍我们更为稳健和有效的方法。
图3中的性能比较揭示了以下几点:
BARST(贝叶斯模型):在大多数异常类型上表现出更高的特异性(specificity)和准确性(accuracy)(均高于0.97)。其均方根误差(RMSE)最低(1.939,而STARN为2.5321),表明在检测到异常时,其对异常幅度的预测更为准确。此外,贝叶斯模型在性能度量上的不确定性更小。详细结果和附加分析(包括不确定性量化比较)见附录B。然而,BARST在某些异常类型(如高方差和偏移)上的敏感性(sensitivity)较低。
STARN(深度学习模型):在持续性异常类型(漂移、高方差和偏移)上,其敏感性持续优于贝叶斯模型,能够正确识别高达95%的异常,仅在大尖峰(单点异常)上表现稍差。STARN在平衡准确率(balanced accuracy)和F1分数上也普遍更高,表明其在真阳性与真阴性预测之间具有更一致的表现。附录图B.4提供了对检测到的异常的详细可视化,将其分类为真阳性、假阳性、真阴性、假阴性,以展示STARN随时间变化的预测行为。
STC(集成模型):组合集成方法表现出良好的效果,尤其在敏感性方面。对于大尖峰,STC的敏感性达到100%,优于两个单独模型。相比BARST,STC在高方差和偏移类异常上也表现出更高的敏感性。然而,STC的特异性和准确性略低于BARST,但仍保持了具有竞争力的平衡准确率和F1分数。
这些发现(以及附录B中的其他结果)凸显了贝叶斯方法、深度学习方法和集成方法之间的互补优势。这些方法共同为复杂环境监测系统中的异常检测提供了稳健的解决方案。关于这些方法优势与局限性的更详细和深入的讨论与比较见第5.1节。
环境监测正迅速从传统的采样和人工测量方式转向高频、原位的传感器网络,这一转变极大地提升了我们捕捉水生生态系统中精细时空动态的能力(Pellerin 等,2016b;Rode 等,2016)。这些进步使得在复杂生态系统(包括偏远河流网络)中实现了前所未有的测量覆盖。然而,这类数据的可靠性常常受到传感器相关问题的影响,因此迫切需要先进且无需监督的异常检测技术(Leigh 等,2019;Yan 等,2024)。开发能够有效捕捉环境数据中大范围空间和时空依赖关系的稳健方法,正变得愈发重要。
本研究提出了三种用于时空传感器阵列异常检测的新方法:一种贝叶斯低秩模型(BARST)和一种深度学习架构(STARN)。我们的目标是对来自贝叶斯统计和深度学习领域的前沿方法进行比较评估,它们在建模时空异常方面各具优势。贝叶斯模型通过自适应结点选择对空间结构进行动态建模,使其在捕捉复杂依赖关系方面具有灵活性,尤其适用于传统地统计模型可能失效的河流网络。该模型嵌入贝叶斯框架,支持不确定性量化和自适应学习,这对于异常随时间演变的环境尤为重要。
相比之下,STARN 利用双向LSTM和注意力机制来捕捉复杂的时序依赖关系,同时其定制的空间层能够考虑网络特有的相关性。
这一比较分析揭示了这些方法的互补优势。贝叶斯模型在可解释性、不确定性量化以及预测均方根误差(RMSE)方面表现优异,能够为时空参数提供有价值的洞察。它在特异性(specificity)和准确性(accuracy)方面表现更优,表明其在异常检测中采取了更为保守的策略,从而最大限度地减少误报。而STARN则表现出更高的敏感性(sensitivity)和平衡准确率(balanced accuracy),说明其在识别更广泛类型的异常方面具有优势,尤其能够发现那些更为保守的模型可能遗漏的异常。这使得STARN成为检测多种异常类型的有力工具。
我们的集成方法STC结合了概率建模与深度学习,为环境监测系统提供了一种更稳健、更全面的解决方案。STC充分利用了两个独立模型的优势,在大尖峰、高方差和偏移类异常的检测上提高了敏感性,同时保持了具有竞争力的平衡准确率和F1分数。值得注意的是,STC在大尖峰异常上的敏感性达到了100%,优于两个独立模型,并且相比BARST在高方差和偏移类异常上也表现出更高的敏感性。
总体而言,集成方法(STC)成为环境监测中异常检测的一项强大工具,它融合了贝叶斯方法和深度学习方法的优势,提供了稳健且可靠的解决方案。这种综合方法特别适用于捕捉环境数据中固有的复杂时空关系,因此在河流网络监测的实际应用中极为有效。
本研究的意义超越了方法论的进步。通过实现对环境数据流的近实时异常检测,这些方法为更可靠、更透明的公共数据发布铺平了道路。这一点在水质监测中尤为关键,因为误分类带来的成本十分显著——无论是误报导致不必要的干预,还是漏报可能危及公众健康。随着传感器技术在偏远和复杂环境中日益普及,快速、准确地识别数据异常的能力对于维护环境监测系统的公信力、支持有效的资源管理决策至关重要。
5.1 贝叶斯方法(BARST)、深度学习方法(STARN)及组合方法的详细比较
接下来,我们将对这些方法的主要优势与局限性进行详细比较。通过在河流网络数据背景下评估其性能,我们旨在为这些方法在环境监测系统中异常检测的适用性和有效性提供深入见解。该比较将突出概率建模与深度学习方法之间的权衡,为根据具体数据特征和应用需求选择最合适的方法提供指导。
5.1.1 BARST
本研究中采用的贝叶斯模型(BARST)具有以下几个显著优势:
通过动态方法实现空间结构的灵活性:该模型通过使用较少数量的结点(knots),有效捕捉空间依赖性,并能够准确估计空间参数(在模拟中设定),充分反映数据潜在的空间结构。这种灵活性使得空间预测更加精确,尤其适用于河流网络等传统地统计模型可能失效的复杂环境。该模型的空间结构表示能够避开异常站点对空间过程的影响。在我们的模拟研究中,贝叶斯推断经过初始迭代后,模型的空间成分自动避开了所有存在异常的站点。该方法能够捕捉分支网络拓扑结构、站点间的水流连通性以及水流方向性。
计算效率高:与其他空间贝叶斯模型相比,低秩(reduced rank)方法显著降低了与大型协方差矩阵相关的计算负担。对于如此大规模的空间过程,完整的高斯过程在计算上不可行。通过聚焦于一个低维子空间,该模型能够在涉及大量空间位置的场景中实现高效推断,因此适用于大规模空间数据集。
贝叶斯学习能力:贝叶斯学习范式为处理异常时间序列数据提供了稳健的框架,能够动态拟合模型,并将后验分布作为后续模型的先验。这种方法在异常检测中尤为有效,因为它提供了量化模型预测不确定性的概率基础。通过利用贝叶斯推断,模型能够动态适应数据分布的变化,因此非常适合异常稀少或随时间演变的环境。
与贝叶斯框架的集成:该模型嵌入贝叶斯框架,便于引入先验信息,并通过后验分布量化不确定性。这为异常检测提供了优雅的解决方案,使我们对模型预测中的变异性与置信度有更全面的理解。
适用于空间过程,特别是河流网络:在河流网络背景下,该模型能够适应由水流连通性和河流距离决定的独特空间依赖关系,因此在性能上优于未考虑这些特征的传统模型。
然而,该模型也存在一定的局限性:
结点选择问题:空间结点的选择对模型性能至关重要。若结点选择不当,可能导致空间结构的表示不理想,从而在预测中引入偏差或降低效率。
近似误差:尽管低秩方法提高了计算效率,但它通过简化完整的协方差结构引入了近似误差。这些误差可能影响模型的准确性,尤其是在空间过程表现出高度变异性区域。
实现复杂性:实现贝叶斯低秩模型在技术上具有挑战性,需要复杂的统计和计算工具。这种复杂性可能限制那些对贝叶斯方法或高级空间建模技术不熟悉的科研人员的使用。
计算需求:对于长时间序列或异常数据量极大的数据集,该模型可能计算开销较大。
5.1.2 STARN
用于河流网络的深度学习时空注意力LSTM模型(Spatio-Temporal Attention-based LSTM for River Networks,简称STARN)具有多项优势,使其非常适用于分析时空数据:
捕捉复杂依赖关系:双向LSTM与注意力机制的结合,使模型能够有效捕捉数据中复杂的时序依赖关系。LSTM的双向特性使模型能够同时从过去和未来的时刻学习,从而增强其对上下文的理解能力。
注意力机制:注意力层帮助模型在进行预测时聚焦于输入数据中最相关的部分。这种选择性关注通过忽略不重要的信息、集中于对当前任务(如异常检测或预测)起关键作用的特征,提升了模型的性能。
空间关系的整合:通过引入河流空间依赖层,该模型能够捕捉数据集中不同位置之间的空间相关性。这对于涉及传感器网络或地理数据的应用尤为重要,因为在这些场景中,空间关系显著影响所研究的动态过程。
灵活性与适应性:STARN的架构可适应多种类型的时空数据和任务,因此在环境监测、城市规划和资源管理等不同应用中具有广泛的适用性。该模型可根据不同数据集和具体需求进行微调。
稳健的性能表现:初步评估及与其他模型的比较表明,STARN在异常检测或未来状态预测方面能够实现高敏感性和高平衡准确率。其综合利用时间和空间信息的能力,使其在实际应用中表现出较强的鲁棒性。此外,STARN通过蒙特卡洛丢弃法(Monte Carlo dropout)提供预测不确定性估计,为每次预测提供有价值的置信度度量(见图B.4)。
集成丢弃法以实现正则化:使用丢弃层(dropout layers)可在训练过程中随机关闭一部分神经元,从而防止过拟合。这种正则化技术增强了模型的泛化能力,使其在应用于未见过的数据时更加有效。
- 可扩展性:该计算框架支持在大规模数据集上高效地训练和部署模型,尤其是在利用GPU加速的情况下。
然而,这一深度学习模型也存在若干需要考虑的重要局限性:
可解释性差:与许多深度学习模型类似,STARN可被视为一个“黑箱”,其决策过程难以解释。例如,协变量对响应变量的影响是什么?由于模型结构复杂,包含双向LSTM层和注意力机制,使得理解特定输入如何影响输出变得困难。这在需要高度可解释性的应用场景中可能构成显著限制,例如关键决策系统或监管环境。为缓解这一问题,我们提供了STARN模型预测结果的可视化,并将异常分类为真阳性、假阳性、真阴性和假阴性,以帮助说明模型对不同异常类型的响应,揭示其决策过程。此外,还可以采用Shapley值或显著性图(saliency maps)等方法,进一步增强模型的可解释性,使其更容易被生态学家和环境科学家所理解和使用。
空间与时间参数估计的不确定性:模型捕捉空间和时间依赖性的能力高度依赖于网络架构的设计和输入数据的质量。如果空间协方差结构或时间动态未能被准确表示或学习,模型可能无法充分捕捉数据中的潜在模式。这可能导致在异常检测或未来状态预测方面的性能欠佳,特别是在河流网络等复杂且高度可变的环境中。相关问题包括:时间依赖性的强度如何?空间相关性的范围有多广?
性能的不确定性:该模型在性能指标上表现出更大的变异性。
长时序数据表现不佳:已发现LSTM模型在处理长序列或大规模时间序列数据时存在困难。随着高频监测数据的日益增多,这一问题可能变得愈发重要。
5.1.3 STC(时空组合模型,Spatio-Temporal Combined)
STC集成模型结合了贝叶斯方法(BARST)和深度学习方法(STARN)的优势,具有以下几个显著优点:
全面的异常检测能力:STC模型在BARST或STARN任一模型(或两者)将某数据点识别为异常时,即将其标记为异常。该方法通过融合统计方法与机器学习方法的优势,实现了更全面的异常检测,能够捕捉更广泛的异常模式,从而提高了异常检测的敏感性。
平衡的性能表现:STC模型结合了BARST的高特异性与高准确性,以及STARN的高敏感性,因此在多种异常类型上实现了性能的平衡。这种平衡在实际应用中至关重要,因为在这些场景中,误报(假阳性)和漏报(假阴性)都可能带来严重后果。
对不同类型异常的鲁棒性:该集成方法对多种类型的异常均表现出较强的鲁棒性,包括大尖峰、高方差、偏移和漂移等。这种鲁棒性源于贝叶斯模型与深度学习模型的互补优势——它们在异常检测的不同方面各有所长。
统计方法与机器学习范式的融合:STC模型将贝叶斯推断的概率框架与深度学习的强大预测能力相结合。这种融合使得对数据的理解更加全面,既保留了贝叶斯方法在不确定性量化方面的优势,又发挥了深度学习在灵活性和适应性方面的长处。
然而,这些优势也伴随着一些潜在的局限性:
复杂性增加:STC模型通过整合两种不同的方法,引入了额外的复杂性。这使得模型的实现和解释更具挑战性,尤其对于不熟悉贝叶斯方法或深度学习技术的研究人员而言。
可能出现重叠错误:由于该集成模型依赖于BARST和STARN的输出,因此存在两类模型同时出错的可能性。例如,若两个模型均对同一数据点误分类,则集成模型也将出现误判。不过,由于两种模型具有互补优势,这种风险在一定程度上得以缓解。
计算资源需求更高:同时运行BARST和STARN模型作为集成系统,其计算开销比单独运行任一模型更大。这要求具备充足的计算资源,尤其在处理大规模数据集或高频数据时更为明显。
- 可解释性挑战:由于融合了贝叶斯组件和深度学习组件,该模型的可解释性较为困难。理解特定输入如何影响输出可能需要额外的分析手段。
5.2 最后的总结
在环境、生物多样性和生态监测中,合适方法的选择不仅仅取决于性能指标和错误检测率。关键因素在于误分类所带来的成本,而这一成本会因具体研究或应用场景的不同而存在显著差异。每种类型的误分类——无论是误报(假阳性)还是漏报(假阴性)——都会带来不同的影响和代价。
由传感器故障导致的漏报(假阴性)会使不可靠的数据被用于分析并向公众发布。这引发了严重关切,尤其是在监测污染物和关键水质参数时,未被发现的问题可能威胁公众健康和环境安全。例如,未能识别出有害细菌或污染物浓度的升高,可能导致本不安全的水源被错误判定为安全,从而给依赖这些资源的社区带来健康风险。
相反,误报(假阳性)通常会触发与传感器基础设施维护和技术更换相关的管理措施。这些措施可能带来巨大成本,尤其是在澳大利亚等国家,监测传感器常常安装在偏远地区。前往这些站点进行访问和维护所涉及的物流挑战和费用可能十分高昂。此外,基于虚假警报采取的不必要干预措施,会将资源从真正的问题上转移,影响整个水质监测项目的整体效率。
尽管BARST和STARN模型是针对河流网络数据开发的,但其适用性并不局限于这种特定结构。BARST虽然最初基于适用于树状网络的“尾向下”(tail-down)协方差模型构建,但可轻松适应标准地统计学场景,即空间依赖性由欧氏距离定义的情况。类似地,所采用的计算策略(如低秩近似和动态学习)也可广泛应用于其他具有时空依赖性的环境与生态监测领域。STARN同样具有灵活性——通过将河流网络嵌入替换为标准空间坐标,该模型可应用于除水生系统之外的多种传感器阵列。最后,集成方法(STC)本质上是数据无关的,其设计旨在融合不同建模范式的优点,因此能够支持各种时空应用中的异常检测。
我们的模拟框架明确设计用于在一系列具有挑战性的条件下测试模型的稳健性。这些条件包括异常类型的变化(如尖峰、漂移、偏移和高方差)、空间分布(随机站点选择)以及噪声水平,反映了实际运行监测中常见的变异性。通过引入微妙且持续的异常,我们确保评估涵盖了对模型稳定性构成压力的边缘情况。BARST和STARN在这些条件下均表现出较强的鲁棒性,而集成模型(STC)在不牺牲特异性的前提下进一步提高了敏感性。尽管该基准测试基于合成数据,但其构建旨在模拟真实世界传感器环境的随机特性,从而对各模型的可靠性提供了有意义的评估。
转自CreateAMind,仅用于学术分享,如有侵权留言删除