Py学习  »  机器学习算法

HA.090 [水文气象数据众包] 基于机器学习算法的众包降雨数据质量控制

Hydro90 • 1 年前 • 230 次点击  


作者简介|PROFILE

牛庚

南方科技大学博士研究生(北京大学联合培养)。主要研究兴趣包括生态水文模拟、水文大数据与机器学习方法,相关成果已发表在Water Resources Research, Agricultural Water Management等期刊上。目前主要从事生态水文与社会经济耦合分析研究。

联系方式:niug@mail.sustech.edu.cn


引文链接|CITATION


Niu, Geng, Pan Yang, Yi Zheng, Ximing Cai, and Huapeng Qin. Automatic quality control of crowdsourced rainfall data with multiple noises: A machine learning approach. Water Resources Research 57, no. 11 (2021): e2020WR029121.


关键词|KEYWORDS


降雨,众包数据,降噪,机器学习


摘要|ABSTRACT


数据众包(data crowdsourcing)为水资源大数据的生产与应用提供了全新思路。近年来,水文观测的数据众包技术成为一个研究热点。然而,众包数据质量受众多因素影响,包含了不同类型的噪声。目前,水文众包数据的误差特征及其对管理决策的影响尚未引起重视,缺乏定量的研究。

本研究前瞻性地开发了基于监督和无监督机器学习算法的降雨众包数据质量控制(CSQC)模型(方法框架由图1示意)。通过耦合一个动态移动模型(Pedestrian model)来模拟动态传感器的数据收集,CSQC模型可自动识别并去除由固定(如安防摄像头)或移动传感器(如汽车或行人搭载的传感器)所采集的高时空分辨率降雨众包数据中的噪声。本研究通过建立特征提取方法(Distance and Window based),训练了四种机器学习模型来帮助识别噪声观测,并通过RMSE(Root Mean Square Error)、REAA(Relative Error in the Areal Average)的变化及AUC(a robust classification performance metric)来衡量模型降噪效果(图2)。

研究显示,CSQC模型可显著降低总降雨量估计的噪声。对比不同误差概率分布发现,模型对具有正态分布的误差具有更好的降噪效果。基于神经网络算法(MLPs)的CSQC模型在迁移应用方面表现出色,在不同气候类型的美国芝加哥和迈哈密地区均可显著降低雨量场的估计误差。研究还针对随机采样过程进行了不确定性分析,发现误差变化的标准差较小,CSQC模型的效果不会受到随机过程的支配影响。

在可预见的未来,数据众包技术将在环境、水资源等领域得到进一步普及。本研究成果解决了以往众包数据质量判断的主观性,以及无法自动处理大规模数据的难题,为水文众包数据的采集提供关键技术保障,对于大数据、人工智能、物联网技术在智慧城市建设中的推广应用具有重要意义。


图1. 基于机器学习的降雨众包数据质量控制的主要过程示意图


图2. 四种机器学习方法的对比(论文中Figure 13)



相关推荐|RECOMMENDATIONS


[1] De Vos, L. W., Raupach, T. H., Leijnse, H., Overeem, A., Berne, A., & Uijlenhoet, R. (2018). High-resolution simulation study exploring the potential of radars, crowdsourced personal weather stations, and commercial microwave links to monitor small-scale urban rainfall. Water Resources Research, 54(12), 10–293. https://doi.org/10.1029/2018wr023393

[2] Zheng, F., Tao, R., Maier, H. R., See, L., Savic, D., Zhang, T., et al. (2018). Crowdsourcing methods for data collection in Geophysics: State of the art, issues, and future directions. Reviews of Geophysics, 56(4), 698–740. https://doi.org/10.1029/2018RG000616

[3] Pidgeon, N., & Fischhoff, B. (2011). The role of social and decision sciences in communicating uncertain climate risks. Nature Climate Change, 1(1), 35–41. https://doi.org/10.1038/nclimate1080

撰稿: 牛庚  | 编辑: 刘源 | 校稿: 赵晨晨

【下一篇:机器学习与水文模拟】


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/127032
 
230 次点击