Py学习  »  机器学习算法

【文献情报】|Journal of Hydrology|流域化学特征的关键带控制:基于多种机器学习方法和大流域非规则数据的启示?

R语言与水文生态环境 • 6 月前 • 114 次点击  

点击蓝色字体 关注我们

(一)基本信息
  • 期刊:Journal of Hydrology

  • 中科院分区:1区 Top地球科学

  • 影响因子(IF):5.9

(二)作者信息
  • 第一作者:G.M. Goldrich-Middaugh

  • 通讯作者:G.M. Goldrich-Middaugh

  • 第一作者单位:Oregon State University, College of Earth, Ocean, and Atmospheric Sciences, USA

  • 原位连接: https://doi.org/10.1016/j.jhydrol.2025.133319

(三)文章亮点
  • (1)涌现的自组织映射聚类识别出德克萨斯州 6 种主要的河流化学特征;

  • (2)随机森林分析表明,降水量和沼泽 / 湿地比例是河流化学特征聚类的首要预测因子;
  • (3)结合机器学习方法为处理非规则数据提供了新视角。
(四)摘要
      理解地表水质并管理跨越多种气候、岩性和土地覆盖类型的河流系统,需要区域数据分析方法。在此尺度下,公开可用的河流化学数据的时空变异和不规则性,限制了许多传统技术在评估水质控制因素中的应用。本研究利用德克萨斯州科罗拉多河、布拉索斯河、雷德河和佩科斯河的主要离子浓度公开测量数据(670个站点的超31,000项溶质测量值;1944-2018年),解析了河流水化学空间变异的控制因素。我们使用涌现自组织映射(ESOM)识别数据结构,随后对ESOM结构(如每种溶质的节点权重比例)进行K均值聚类,发现6个聚类最能优化表征河流化学的独特空间模式。例如,在巴尔孔斯断层带观察到以镁浓度相对钙和碳酸氢盐升高为特征的独特化学信号,而在德克萨斯州东部更湿润、风化更强烈且森林覆盖更为主导的地区,硅浓度较高。随机森林分类模型用于根据子流域特征预测聚类归属,总体准确率为78.9%。年平均降水量被确定为区分聚类的最重要变量。ESOM、聚类和随机森林机器学习方法的融合揭示了复杂的水文地球化学过程,为区域流域管理提供了依据,并确定了需要进一步研究的区域。       通俗语言总结: 美国各地的水质测量数据在地理上分布广泛,但在时空上分布不规则,这使得传统数据分析方法难以用于理解流域过程。在此,我们使用机器学习分析德克萨斯州四个大流域的数据,以了解不同土地利用、地质和气候因素对水质的影响。这四条河流跨越多种岩石类型、土地利用和降水模式,具有不同的化学成分。我们发现,这片广大区域的数万项观测结果仅需用六个化学组即可概括,且流域特征与水化学之间存在密切关系。总体而言,这些技术有效捕捉了这些流域的主要空间水质趋势,可用于指导流域管理和监测工作。
(五)图文赏析
图1. 地图显示:   A) 采样点位置(按支流位置着色)及已标注的断层(包括巴尔孔斯断层带);   B) 2019年30米分辨率的土地利用与土地覆盖数据;   C) 1985-2019年平均年降水量(PRISM数据,单位:毫米);   D) 简化岩性分类。   各站点与支流对应关系参见图S1。   E) 四个流域中各年份观测数据量的统计示意图。
图2. 涌现自组织映射(ESOM)的训练步骤。
图3. 训练后涌现自组织映射(ESOM)的U矩阵(均方根误差为0.40)。z表示某节点与其四个相邻节点(上、下、左、右)的最大距离占比(Thrun等,2016)。地形色彩尺度代表节点间的相似程度,蓝色和绿色表示距离小且同质化区域,棕色和白色表示距离大且异常区域(Lerch等,2020)。该U矩阵为环形结构,本图中展开以消除边缘效应,采用标准的50×82节点网格排列。
图4. 训练后的涌现自组织映射(ESOM)中各溶质的分布(以总组成比例表示),白色和黄色表示比例较低,红色和黑色表示数值较高。
图5. (a) 以聚类归属(k=6)着色的最佳匹配单元U矩阵,(b) 以平方欧氏距离表示聚类宽度的轮廓图。红线表示平均聚类轮廓宽度(0.514)。
图6. 分配至聚类1–6的所有观测值的组成分布箱线图。箱线图中水平线分别表示均值、第25和第75百分位数,点表示离群值。箱线图颜色对应U矩阵中标注的聚类。
图7. (a) 随机森林算法在测试数据集上的混淆矩阵,总体准确率为78.9%。绿色对角线方框表示给定聚类中被正确分类的站点比例,同行中橙红色方框表示给定聚类中被误分类到其他聚类的站点比例。例如,聚类1的正确分类率为84%,其中10%的站点被误分类为聚类2,6%被误分类为聚类3。混淆矩阵中所有行的总和为1。(b) 各变量解释给定聚类预测的平均绝对SHAP值,数值越大表明该变量对预测的贡献越大,即对模型性能越重要。条形按特征类别着色:气候(蓝色)、岩性(灰色)和土地利用与土地覆盖(LULC;绿色)。基尼不纯度见图S11,输入特征的相关矩阵见图S12。
图8. 四个流域内观测值的分布图,显示了基于涌现自组织映射(ESOM)的K均值聚类归属。
图9. 各聚类的SHAP条形图。每个点代表一项观测值,属性按整体重要性排序。正SHAP值表明该特征有助于预测该聚类,SHAP值越大表明该特征对预测的贡献越大。颜色梯度表示归一化后的特征值,0表示低值(红色),1表示高值(蓝色)。例如,400毫米的年平均降水量(MAP)为低值,而1600毫米为高值。
专业名词的梳理与详细解释,按领域分类呈现: 
    一、水文与地球科学
 1. **Critical Zone(关键带)**    - **定义**:指从植被冠层顶部到地下水循环深度的地球表层交互作用带,包括土壤、岩石、水、生物等要素,是水文、地质、生态过程的综合作用区域(National Research Council, 2012)。      - **作用**:研究关键带可揭示控制地表水化学的复杂因子网络,如岩石风化、土地利用与气候的相互作用。  
 2. **Stream Chemistry(河流化学)**    - **定义**:河流中溶解物质(如主要离子、微量元素)的组成、浓度及空间分布特征,反映流域内地质、气候、人类活动的综合影响。      - **应用**:通过分析河流化学特征(如Ca²⁺、Mg²⁺、HCO₃⁻等浓度),可推断流域内的岩石类型、风化强度及污染来源。  
3. **Hydrogeochemical Process(水文地球化学过程)**    - **定义**:地下水与岩石、土壤、生物之间的化学反应过程,包括溶解、沉淀、离子交换等,影响水体化学组成。      - **案例**:文中通过机器学习揭示德克萨斯州河流中镁、硅等元素的分布与断层带、气候带的关联,即属于水文地球化学过程的典型表现。 
二、机器学习与数据分析
1. **Emergent Self-Organizing Map (ESOM,涌现自组织映射)**    - **定义**:一种高维数据降维技术,属于无监督神经网络算法,通过将复杂数据映射到二维网格节点,可视化数据结构并识别聚类(Thrun et al., 2016; Ultsch, 1999)。      - **特点**:相比传统自组织映射(SOM),ESOM使用更多节点(如文中4,100个节点),能捕捉高维数据中的复杂结构,消除边缘效应(环形结构)。      - **应用**:文中用于识别德克萨斯州河流化学数据中的空间模式,生成U矩阵(统一距离矩阵)展示节点间相似性。  
2. **K-means Clustering(K均值聚类)**    - **定义**:一种划分式聚类算法,将数据点划分为K个簇,使簇内方差最小。文中对ESOM生成的节点权重进行K均值聚类,确定最优簇数为6(通过轮廓系数评估)。      - **作用**:简化数据结构,突出主要化学模式,如文中识别出6种河流化学特征簇,对应不同的地质和气候区域。  
 3. **Random Forest Classification(随机森林分类)**    - **定义**:基于决策树的集成学习算法,通过自助采样生成多棵树,综合预测结果以提高准确性。文中用于根据流域特征(降水量、岩性、土地利用)预测聚类归属,总体准确率78.9%。      - **优势**:能处理非线性关系,评估变量重要性(如年平均降水量为最关键因子)。 
  4. **SHAP Values(SHapley Additive exPlanations)**    - **定义**:基于博弈论的可解释性工具,量化每个特征对模型预测的贡献。正SHAP值表示特征促进聚类归属,负值表示抑制。      - **应用**:文中通过SHAP条形图展示不同特征(如沼泽比例、蒸发岩分布)对各聚类的影响强度及方向。  
 三、地质与气候
1. **Lithology(岩性)**    - **定义**:岩石的物理和化学性质,如碳酸盐岩、蒸发岩、砂岩等。文中将岩性划分为主要类别,分析其与河流化学的关系(如碳酸盐岩区Ca²⁺和HCO₃⁻浓度较高)。      - **案例**:巴尔孔斯断层带的镁浓度升高与火成岩-变质岩分布相关,蒸发岩区则贡献高Na⁺、Cl⁻和SO₄²⁻。  
 2. **Mean Annual Precipitation (MAP,年平均降水量)**    - **定义**:特定区域多年降水量的平均值,是气候分区的核心指标。文中发现MAP是区分河流化学聚类的最重要变量,如东部湿润区(MAP=1,800 mm)硅浓度较高,西部半干旱区(MAP=300 mm)以Na⁺和Cl⁻为主。 
 3. **Balcones Fault Zone(巴尔孔斯断层带)**    - **定义**:德克萨斯州重要的地质构造带,文中显示该区域因断层活动导致深层地下水上升,形成独特的化学信号(Mg²⁺相对Ca²⁺和HCO₃⁻升高)。  
 四、土地利用与遥感
1. **Land Use and Land Cover (LULC,土地利用与土地覆盖)**     - **定义**:地表覆盖类型(如森林、农田、城市)及人类利用方式。文中使用30米分辨率数据(1985-2022年),分析其对水质的影响(如农田灌溉增加Na⁺和Cl⁻,森林覆盖区硅浓度高)。      - **变化趋势**:研究期间,布拉索斯河流域不透水地表增加38%,佩科斯河流域灌木和草地减少31%。  
2. **Watershed Delineation(流域划分)**    - **定义**:通过数字高程模型(DEM)确定每个采样点的汇水区域。文中使用ASTER DEM和ArcGIS Pro的D8方法,确保子流域特征(如岩性、土地利用)与采样点对应。   
五、模型与数据处理
1. **Umatrix(统一距离矩阵)**    - **定义**:ESOM输出的可视化工具,通过颜色梯度表示节点间距离(蓝色/绿色为低距离,相似性高;棕色/白色为高距离,差异性大),用于评估数据聚类稳定性(文中RMSE=0.40)。  
 2. **Compositional Data(组成数据)**    - **定义**:以相对比例表示的多变量数据(如离子浓度占总电荷的比例),需进行标准化处理(如转换为meq/L并中心化),避免高量级变量主导模型训练。  
 六、其他关键术语
1. **Root Mean Square Error (RMSE,均方根误差)**    - **定义**:衡量模型预测值与真实值偏差的指标,文中用于评估ESOM训练效果(RMSE=0.40,归一化后0.03,表明拟合良好)。  
 2. **Silhouette Plot(轮廓图)**    - **定义**:评估聚类质量的工具,轮廓系数介于-1到1之间,值越接近1表示聚类越紧凑。文中平均轮廓宽度为0.514,表明6聚类结构合理。  
 总结:这些专业名词贯穿全文,涵盖地质、气候、机器学习及数据科学领域,共同支撑了“通过多方法整合分析大流域非规则数据”的研究框架。理解这些术语有助于把握文中“关键带控制-机器学习-区域管理”的逻辑链条,以及如何通过数据驱动方法解决水文地球化学中的复杂问题。

免责声明:本文遵循微信公众平台各项保护原创的措施。推文可能未提前与原作者取得联系,或无法查证真实原作者,若涉及版权问题,请原作者留言联系我们。经核实后,我们会及时删除或者注明原作者及出处。本公众号原创文章,欢迎转载,转载时请注明出处。推文数据来源于网络,本文仅用于学术分享与传播。
(六)往期目录
  • (1)学习资源

【PMF源解析】 | 地下水、土壤 | 手把手教你如何操作,适合科研小白、初学者!
【水晶球 | 蒙特卡洛模拟】 | 概率健康风险评估 | 地下水、土壤| 适合初学者,科研小白!
【R语言-机器学习】|自组织神经网络(SOM)|地下水、土壤|水质数据聚类分析!
【R语言|干货|学习资料】|海量R语言学习资料免费获取,涉及医学、生信、生态、水文等!
一大波【概念模型】矢量下载——涉及水文、生态、环境、山脉、植物、动物、农业、工业、水产、微生物、病毒等(不少于10万幅图) !
  • (2)数据分享

【数据分享】|全国DEM12.5m精度原始数据|ALOS-12.5m(全国34个行政区全覆盖)
【数据分享】|最新全国30m土地利用分类数据| (2022年)|
【数据分享】|2024年中国最新水系|全国范围水系|分省份水系|分城市水系|行政区划(省市县)!
【数据分享】|【中国各省水文地质图集高清】|全国各省份|!
【中国地质图集高清】|全国各省份|全书约700M|!
【中国地球化学图集】|区域地球化学|39种微量元素及氧化物!
【国家自然保护区】| 全国各地-国家自然保护区图库| !
  • (3)环境科普

【地学科普】| Groundwater | 地下水!
【GW-SW交换】|河流—地下水交换特征!
【GW-SW交换】| 地下水-地表水交换的4种模式及不同尺度的交换特征!
【水循环科普】| 我们水循环中的地下水!
【地下水科普】| 地下水探险之旅-到达饱和带!
【 环境科普】|  地下水系统有关的概念模型 !
【 环境科普】| The Hydrologic CYCLE | 水文循环!
【 环境科普】|  河流系统 !
【地学科普】|Groundwater- SurfaceWater Exchange!地表水-地下水耦合作用下的流动动系统特征
【 环境科普】| 新污染物的前世今生!
【 环境科普】| 沉积物和土壤!
【地学科普】| Glaciers and Ice Ages | 冰川和冰期!
【 环境科普】| 一文搞懂——地球生物化学 !

  • (4)地学科普

【地学科普】|手把手教你野外地质素描,非常实用,总有一款适合你!

【 地学科普】| 沉积过程和沉积岩 !

【 地学科普】| 地质构造有关的概念模型 !

【 地学科普】| 一图搞懂——什么是地球系统 !

【 地学科普】| 一文搞懂——沙漠区地质地貌形成演化 !

【 地学科普】| 自然元素、化合物矿物晶体 !

【 地学科普】| 一文搞懂—河流地貌的形成演化过程 !
【地学科普】| 矿物与岩石鉴定图册  |231种矿物,65种岩石  !
【地学科普】|岩石矿物晶体,美图赏析|金、银、金刚石、红宝石、刚玉、蓝宝石等!
【地学科普】中国|广西|古生物化石图集|影藏的风景|全书451页|精美古生物化石艺术!
【 地学科普】| 地形图 | 世界各国| !
认识山沟沟里的石头,一不小心捡到和田玉、玛瑙、水晶、狗头金!
  • (5)文献情报

【文献情报】|Sci. Total Environ|CO2注入咸水层过程中缓解盐沉淀和增强CO2注入能力的修复策略!
【文献情报】| Nature Water | 全球内陆水域氮循环加速!
  • 更多更详细信息请阅读原文

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182535