近日,国际沉积学家协会(IAS)刊物Sedimentology刊发论文,介绍了无人机结合机器学习对海岸带沉积物特征进行高效、精细、准确分析的新方法。华东师范大学海洋地质专业博士生张阳为第一作者,贾建军研究员为通讯作者。

题目:Using Machine Learning to analyze coastal sediment characteristics from Unmanned Aerial Vehicle data: A case study of the Dasha sandy beach, China.
作者
:张阳,陈奇,宗羿冰,何方婷,谭凯,李为华,汪亚平,贾建军期刊
:Sedimentology摘要:
海岸沉积物的输移过程在塑造海岸地貌中起着关键作用,而沉积物属性(如粒度)是理解地貌动力学的基础。然而,沉积物的野外采集和实验室分析耗时费力,对沉积物时空变化的大规模快速监测构成重大挑战。无人机平台结合机器学习技术为高效获取和分析沉积物特征提供了有前景的解决方案。研究团队从中国浙江省南田岛的大沙沙滩采集表层沉积物样本,对文本型的沉积物类型进行数字化编码。利用3台无人机获取10组空间和光谱数据集,结合机器学习模型与传统数学方法,对沉积物类型、沉积物含水量、平均粒度、分选系数和偏度五项沉积物特征进行了预测。在测试的模型中,随机森林模型表现优异,沉积物类型的总体精度达95.65%。对于其他四项连续变量,随机森林模型在验证集和测试集上的平均R²分别为0.86和0.82,显著优于传统的多元线性回归方法。研究发现,
近红外(Near-Infrarer)、红边(Red Eage)、数字表面模型(DSM)、红光(Red)和坡度(Slope)等为关键预测变量,强调了整合空间和光谱数据进行沉积物特征参数准确预测的必要性。相比之下,激光点云
强度、绿光和归一化植被指数等变量在预测沉积物特征(尤其是沙滩等无植被区域)时相关性较低。本研究提出了一种高效准确获取高分辨率沉积物特征的方法,克服了传统的采样-实验室分析方法的局限性,同时显著降低了人力和财力成本。该方法在多种海岸环境中具有巨大潜力,为未来的相关沉积学研究提供了可靠的技术框架。材料与方法
在中国东海之畔的南田岛大沙沙滩采集了64个表层沉积物样品(图1),利用3种无人机平台获(图2)取了10种空间-光谱数据,建立了离散型变量沉积物类型的编码规则(图3),采用机器学习和传统线性回归方法从空间-光谱域数据预测了沉积物的5个属性特征,包括沉积物类型、含水率、平均粒径、分选系数、偏态。

图1 研究区概况。(A)浙江省南田岛位置,(B)大沙沙滩位置,(C)大沙沙滩全貌,(D)研究区正摄影像及野外采样点分布。

图2 本研究使用的三种无人机平台(A.大疆精灵4 RTK;B.大疆精灵4多光谱;C.大疆M300 RTK)及搭载的三种传感器(① 测绘相机,② 多光谱相机,③ 禅思L1 LiDar)。

图3 将离散-文本型福克法沉积物类型进行数字化编码。为避免双重定义,左下角绿色区域中的M,sM,mS,S不参与编码。
结果
机器学习预测沉积物特征的结果比线性回归方法具有更稳定的精度。随机森林模型的表现最好:沉积物类型在验证集上的总体准确率和Kappa系数分别为95.65%和0.78;含水量、平均粒径、分选系数、偏态在验证集和测试集上的R
2平均值达到了0.86和0.82,比线性回归高出0.28和0.12;预测结果的空间分布格局也更符合基于沉积物的实验室分析数据得到的空间异质性(图4)。在预测5种沉积物特征时,近红外、红边、DSM、红光、坡度等5个空间-光谱数据起了较大的作用,这印证了无人机空-谱域数据结合的必要性,也指示了这5个变量对预测沉积物特征的重要程度(图5)。

图4 随机森林随机森林算法预测结果。(A)沉积物类型,(B)含水率,(C)平均粒径,(D)分选系数,(E)偏态。

图5 在预测沉积物5个特征时,10种变量的重要性排序。(A)沉积物类型,(B)含水率,(C)平均粒径,(D)分选系数,(E)偏态。
两种机器学习方法的比较
传统的碎屑沉积物粒度分析方法采用正向技术路线,通常包括一系列步骤:①采样;②通过实验室分析获得不同粒度组分的含量;③绘制粒度分布累积频率图;④计算出中值粒径、平均粒径和分选系数等粒度参数;⑤根据砾石、砂、粉砂和黏土等组分的百分含量对碎屑沉积物进行分类。与之相对,本文研究采用了一种逆向技术路线,通过无人机平台获取研究区沉积物的多维遥感数据矩阵,同时在小范围进行传统的沉积物采样和分析;之后,基于机器学习方法,建立遥感矩阵与沉积物特征数据的直接联系。这一方法高效便捷,能够直接获取传统沉积学分析方法的后两步结果,但缺点是缺乏对沉积学内部机理的深入理解。
为了进一步检验本研究探索的无人机遥感矩阵结合机器学习方法的潜力,我们尝试建立无人机遥感矩阵与沉积物粒度累积百分含量点之间的关系,这一思路相当于从传统分析方法的第③步开始。以图解法为例,若要完整运用Folk-Ward公式计算粒度参数,需要7组累积百分含量对应的粒度值(即5%、16%、25%、50%、75%、84%和95%)。在此,我们先尝试用机器学习算法直接获取5%、16%、50%、84%和95%五个值对应的粒度,用来计算平均粒径、分选系数和偏态等3个粒度参数(图6)。

图6 随机森林模型预测5个累积百分含量对应的粒度值并利用Folk-Ward公式计算得到的三个粒度参数。(A)Φ5,(B)Φ16,(C)Φ50,(D)Φ84,(E)Φ95,(F)平均粒径(Φ),(G)分选系数(Φ),(H)偏态。
为了方便比较,本研究将机器学习模型直接预测三个粒度参数的方法称为ML1,将机器学习模型预测累积百分含量对应的粒度值并利用Folk-Ward图解法公式计算得到的三个粒度参数的方法称为ML2。将传统粒度分析方法及ML1、ML2方法所获得的平均粒径、分选系数和偏态进行比较后发现(图7),实地采集的64个样品中,91%的样品的平均粒径差值小于0.4Φ,95%的样品的分选系数差值小于0.3Φ,94%的样品的偏态差值小于0.15。

图7 ML1、ML2方法与传统粒度分析方法对比的结果。(A)平均粒径的差值(Φ),(B)分选系数的差值,(C)偏态的差值。
ML2从传统碎屑沉积物粒度分析的第③步开始,比ML1更显进步。ML1与ML2相比,三个粒度参数的差值基本符合正态分布,差值范围主要集中在±0.15(图8)。如果进一步模拟更多累积百分含量对应的粒度值,相当回到传统碎屑沉积物分析的第②步。这证明了机器学习方法在沉积物粒度分析中的巨大潜力,同时也与沉积学机制更紧密地结合在一起,使其更容易被沉积学家所接受。此外,这种方法有助于解决机器学习用于沉积物粒度分析中的“黑箱”问题。

图8 ML1、ML2方法对比的结果。(A)平均粒径的差值(Φ),(B)分选系数的差值,(C)偏态的差值。
结语
论文提出了一种高效、准确的方法来获得高分辨率的沉积物特征,解决了传统采样和实验室分析的局限性,同时显著降低了人力物力的消耗。将该方法应用在海洋调查船和人工徒步采样都难以获取数据的区域具有相当大的潜力,在未来沉积学研究中是一个值得考虑的技术框架。我们建议将该方法应用到大空间尺度时,依据本文的技术路线(图9),首先收集大空间尺度的无人机集合数据集;然后,在小空间尺度采集样本,结合无人机集合数据集中的小空间尺度采样范围,建立精度较高且性能稳定的映射关系;最后,因为大尺度和小尺度的无人机集合数据集具有相同的变量,所以可以将小空间尺度建立的映射关系应用到大空间尺度,即可得到大空间尺度的沉积物特征数据。

图9 本研究的技术路线图
延伸阅读
过去几年,华东师范大学河口海岸全国重点实验室贾建军研究员团队在沉积物调查、分析、计算等方面开展了一些基础性的拓展研究,概述如下。
(1)砾石级沉积物粒度粒形分析仪器研发(Zhu et al., 2023)。基于图像识别算法,研制便携、可组装的砾石级沉积物粒度粒形分析硬件-GraSSAMS,可实现1-330 mm砾石颗粒的粒度与粒形自动分析(图10)。
(2)拓展现行海洋调查规范关于筛析法取样量的有关规定(宗羿冰等,2024)。基于概率分布理论推导出一套适用于砂砾质样品的筛析法取样质量估算公式, 给出了不同分选系数下(0.35 Φ~4.00 Φ)样品最大颗粒直径对应的理论取样最小量的范围。研究表明, 现行海洋调查规范的最大颗粒直径与取样最小量之间的定量关系可能是基于正态分布、分选极差的下界(σ=4.00 Φ)的情况推算而来的; 可将筛析法取样质量估算表的最大颗粒直径扩展至 64 mm, 该粒径对应的理论取样最小量为 47.8 kg(图11,表1)。
(3)激光-筛分联合法粒度分析结果的表达(唐雯雯等,2023)。海岸带的沉积动力环境比较复杂,沉积物多为粗细组分皆有的混合物,因此需要利用筛分法与激光法联合分析其粒度分布。由于两种方法的原理不同,激光法结果的粗端常常会“越界”与筛分法结果的细端重叠。在计算粒度分布时,如何处理这一重叠部分,长期以来没有明确的标准。石油天然气行业标准《碎屑岩粒度分析方法》(SY/T 5434-2018)中给出了对应的计算原则——“激光法分析后超出分样筛以上的颗粒体积分数,应由筛分法和激光法平分,按各粒级所占比例增加到每个粒级中”,但未给出明确的计算公式。根据SY/T 5434-2018提出的计算原则,推算出能够处理激光-筛分联合法重叠现象的粒度分布计算公式。
(4)Ф值表达的粒度与分选系数的单位问题(陈奇等,2025)。长期以来,基于等比制和负对数转换的粒度Ф值及粒度参数在地质学和海洋科学领域得到广泛应用,甚至成为国家标准。其中,分选系数的数学内涵与标准偏差有密切关系,因而分选系数是否与粒度一样具有量纲、用什么单位,就成为有争议的问题。通过回顾国内外研究进展及同行使用习惯的变化,我们认为,Ф值的计算公式已经将其修正为无量纲参数,使得Ф值成为表达粒度大小的一个便利性指标,但是它不具有计量单位的内在属性(图12),不能作为一个长度量纲(即粒度)的单位来使用;虽然分选系数源于统计学的标准偏差,但是已经独立发展为描述碎屑沉积物分选性的重要参数,与偏度系数、峰度系数等并列,建议使用时不必添加单位。

图10 GraSSAMS—Gravel Grain Size and Shape Automatic Measurement System

图11 根据正态分布推算的沉积物样品最大颗粒直径与最小取样质量的关系曲线
表1 筛析法粒度分析取样质量的参考值

图12 粒度的Φ值与长度(mm)的对应关系
说明:可以数字化的统计数据有四类,分别为定类数据、定序数据、定距数据和定比数据。其中,凡是具有计量单位的物理量,均属于定距(例如温度)和定比(例如质量和长度)。定距和定比的数据具有一项共同特征,即在同等单位尺度下,相同间隔的变化量总是绝对相等的。然而,随着Φ值的变化,相同的Φ值间隔与相应的粒径值的变化却并不相等。因而,
Φ值不具有定距或定比的性质,也不具有单位应有的衡量同类量的作用,因此不能将Φ作为单位使用。
相关论文与成果
(1)Zhang Y, Chen Q, Zong Y B, He F T, Tan K, Li W H, Wang Y P, Jia J J*. Using Machine Learning to analyze coastal sediment characteristics from Unmanned Aerial Vehicle data: A case study of the Dasha sandy beach, China.Sedimentology, 2025, doi: 10.1111/sed.70019.
(2)Zhu Y L, Chen Q, Zhang Y, Tang W W, Xu C R, Li W H, Jia J J*. GraSSAMS: A new instrument designed for the determination of grain size and shape of sand-gravel-sized sediment. Estuarine, Coastal and Shelf Science, 2023, 290: 108392.
(3)宗羿冰,陈奇,朱永兰,唐雯雯,蔡廷禄,贾建军*。筛析法分析砂砾质样品的取样质量估算——对现行国标有关规定的扩展讨论。海洋与湖沼,2024,55(2): 386-396。
(4)唐雯雯,陈奇,朱永兰,蔡廷禄,贾建军*。激光-筛分联合法粒度分析结果的表达及粒度端元的沉积动力学意义。海洋通报,2023, 42(4): 361-374。
(5)陈奇,唐雯雯,薛成凤,杨阳,高文华,杨建英,贾建军*。Φ值表达的粒度与分选系数的单位问题。沉积学报, 2025, 43(1): 39-49。
(6)朱永兰,贾建军,陈奇,等。便携式野外砾石图像获取装置及砾石粒度粒形获取方法(专利号:ZL 2022 1 1289374.0)。国家知识产权局,授权公告号:CN115586113B。
(7)Jia J J*, Tang W W, Zhu Y L, Zong Y B, Chen Q, Cai T L. Grain size of gravel: recent progress in sampling, analysis, and calculation.Geo-Marine Letters, 2024, 44: 18

小编注:感谢贾建军老师提供素材,上述是对文章的简单介绍,点击“阅读原文”获取原始文献!
投稿信箱:liu1999@126.com