1. **Critical Zone(关键带)** - **定义**:指从植被冠层顶部到地下水循环深度的地球表层交互作用带,包括土壤、岩石、水、生物等要素,是水文、地质、生态过程的综合作用区域(National Research Council, 2012)。 - **作用**:研究关键带可揭示控制地表水化学的复杂因子网络,如岩石风化、土地利用与气候的相互作用。 2. **Stream Chemistry(河流化学)** - **定义**:河流中溶解物质(如主要离子、微量元素)的组成、浓度及空间分布特征,反映流域内地质、气候、人类活动的综合影响。 - **应用**:通过分析河流化学特征(如Ca²⁺、Mg²⁺、HCO₃⁻等浓度),可推断流域内的岩石类型、风化强度及污染来源。 3. **Hydrogeochemical Process(水文地球化学过程)** - **定义**:地下水与岩石、土壤、生物之间的化学反应过程,包括溶解、沉淀、离子交换等,影响水体化学组成。 - **案例**:文中通过机器学习揭示德克萨斯州河流中镁、硅等元素的分布与断层带、气候带的关联,即属于水文地球化学过程的典型表现。 1. **Emergent Self-Organizing Map (ESOM,涌现自组织映射)** - **定义**:一种高维数据降维技术,属于无监督神经网络算法,通过将复杂数据映射到二维网格节点,可视化数据结构并识别聚类(Thrun et al., 2016; Ultsch, 1999)。 - **特点**:相比传统自组织映射(SOM),ESOM使用更多节点(如文中4,100个节点),能捕捉高维数据中的复杂结构,消除边缘效应(环形结构)。 - **应用**:文中用于识别德克萨斯州河流化学数据中的空间模式,生成U矩阵(统一距离矩阵)展示节点间相似性。 2. **K-means Clustering(K均值聚类)** - **定义**:一种划分式聚类算法,将数据点划分为K个簇,使簇内方差最小。文中对ESOM生成的节点权重进行K均值聚类,确定最优簇数为6(通过轮廓系数评估)。 - **作用**:简化数据结构,突出主要化学模式,如文中识别出6种河流化学特征簇,对应不同的地质和气候区域。 3. **Random Forest Classification(随机森林分类)** - **定义**:基于决策树的集成学习算法,通过自助采样生成多棵树,综合预测结果以提高准确性。文中用于根据流域特征(降水量、岩性、土地利用)预测聚类归属,总体准确率78.9%。 - **优势**:能处理非线性关系,评估变量重要性(如年平均降水量为最关键因子)。 4. **SHAP Values(SHapley Additive exPlanations)** - **定义**:基于博弈论的可解释性工具,量化每个特征对模型预测的贡献。正SHAP值表示特征促进聚类归属,负值表示抑制。 - **应用**:文中通过SHAP条形图展示不同特征(如沼泽比例、蒸发岩分布)对各聚类的影响强度及方向。 1. **Lithology(岩性)** - **定义**:岩石的物理和化学性质,如碳酸盐岩、蒸发岩、砂岩等。文中将岩性划分为主要类别,分析其与河流化学的关系(如碳酸盐岩区Ca²⁺和HCO₃⁻浓度较高)。 - **案例**:巴尔孔斯断层带的镁浓度升高与火成岩-变质岩分布相关,蒸发岩区则贡献高Na⁺、Cl⁻和SO₄²⁻。 2. **Mean Annual Precipitation (MAP,年平均降水量)** - **定义**:特定区域多年降水量的平均值,是气候分区的核心指标。文中发现MAP是区分河流化学聚类的最重要变量,如东部湿润区(MAP=1,800 mm)硅浓度较高,西部半干旱区(MAP=300 mm)以Na⁺和Cl⁻为主。 3. **Balcones Fault Zone(巴尔孔斯断层带)** - **定义**:德克萨斯州重要的地质构造带,文中显示该区域因断层活动导致深层地下水上升,形成独特的化学信号(Mg²⁺相对Ca²⁺和HCO₃⁻升高)。 1. **Land Use and Land Cover (LULC,土地利用与土地覆盖)**
- **定义**:地表覆盖类型(如森林、农田、城市)及人类利用方式。文中使用30米分辨率数据(1985-2022年),分析其对水质的影响(如农田灌溉增加Na⁺和Cl⁻,森林覆盖区硅浓度高)。 - **变化趋势**:研究期间,布拉索斯河流域不透水地表增加38%,佩科斯河流域灌木和草地减少31%。 2. **Watershed Delineation(流域划分)** - **定义**:通过数字高程模型(DEM)确定每个采样点的汇水区域。文中使用ASTER DEM和ArcGIS Pro的D8方法,确保子流域特征(如岩性、土地利用)与采样点对应。 1. **Umatrix(统一距离矩阵)** - **定义**:ESOM输出的可视化工具,通过颜色梯度表示节点间距离(蓝色/绿色为低距离,相似性高;棕色/白色为高距离,差异性大),用于评估数据聚类稳定性(文中RMSE=0.40)。 2. **Compositional Data(组成数据)** - **定义**:以相对比例表示的多变量数据(如离子浓度占总电荷的比例),需进行标准化处理(如转换为meq/L并中心化),避免高量级变量主导模型训练。 1. **Root Mean Square Error (RMSE,均方根误差)** - **定义**:衡量模型预测值与真实值偏差的指标,文中用于评估ESOM训练效果(RMSE=0.40,归一化后0.03,表明拟合良好)。 2. **Silhouette Plot(轮廓图)** - **定义**:评估聚类质量的工具,轮廓系数介于-1到1之间,值越接近1表示聚类越紧凑。文中平均轮廓宽度为0.514,表明6聚类结构合理。 总结:这些专业名词贯穿全文,涵盖地质、气候、机器学习及数据科学领域,共同支撑了“通过多方法整合分析大流域非规则数据”的研究框架。理解这些术语有助于把握文中“关键带控制-机器学习-区域管理”的逻辑链条,以及如何通过数据驱动方法解决水文地球化学中的复杂问题。 |