社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【文献分享】基于机器学习和降尺度的大都市区城市热岛时空评估与监测

GISer last • 3 周前 • 55 次点击  
本推文来源:数字生态与绿色发展学术团队
屏幕截图 2025-05-20 164500.png


摘要




城市热岛(UHI)是人类改变土地造成的一个重要现象。用于研究UHI对气温影响的数值模式需要高分辨率才能准确估算空间场。本研究采用统计和动态降尺度方法,从气象研究和预报(WRF)模式输出的1km分辨率气温场中估算城市热岛(UHI),该模式最初以5km的较粗分辨率生成,用于里约热内卢大都市区(MARJ)。在动态方法中,通过WRF模型25-5-1km三个域的嵌套系统,获得空间分辨率为1km的网格。后一个域与单层城市冠层模型(SLUCM)耦合。统计方法采用了一种基于极端梯度提升机器学习算法的新方法,通过1次多元非线性回归,将空气温度与1km尺度上的地貌景观变量联系起来。此外,还采用了SHAP分析来评估机器学习模型中各个特征的贡献。利用气象站测量的大气温度和遥感数据估算的大气温度,对这些降尺度方法的性能进行了评估。两种方法都能令人满意地模拟里约热内卢大都会地区的超高温影响的时间和空间行为,但统计方法的计算成本要低得多。这一结果表明,在计算资源有限的情况下,将这种基于机器学习的方法作为研究和监测UHI的替代方法是可行的。





研究背景及意义




快速城市化和气候变化使得了解和监测城市地区气温上升以帮助居民适应和减少危害变得越来越重要。城市中的高温正在产生不利影响,如工作效率下降、热带疾病发病率上升,以及心血管疾病、呼吸系统疾病和癌症的风险大大增加。此外,由于更多地使用制冷设备,气温升高增加了能源消耗和温室气体排放。当温度超过影响阈值时,这些影响会导致死亡率上升,超过阈值人类的福祉和健康就会恶化。城市热岛(UHI)是指城市中心的平均气温高于其周边农村地区的平均气温,是这方面的主要现象之一。

UHI在空间和时间上各不相同,其形状、强度和最突出核心的位置对于监测和预测至关重要。由于地形、土地利用和大陆位置等地方特征会影响气象变量,因此这些特征对于每个城市中心来说都是特殊的。根据观测数据评估UHI特征需要足够密集的气象站网络,且运行成本较高。因此,在资源有限的城市监测UHI仍然具有挑战性。而这些城市预计将在未来几十年内面临全球变暖带来的不成比例的经济影响。研究UHI的一种成本较低的方法是使用大气模型,该模型可生成全球地表任何区域的气温场。这些温度场使计算模型成为一种具有成本效益的替代方法,可为减缓气候变化的政策提供信息。

对UHI的数值研究需要细分空间(至少1km)和时间(亚日)尺度的模型输出,通常通过两种降尺度方法获得。在动态降尺度方法中,高分辨率大气模式与地表模式耦合,可以在区域尺度上表示较小尺度的大气过程。这些模式使用全球大气环流模式的输出作为初始条件和边界条件,其空间分辨率较粗。动态降尺度方法通常比统计方法更准确,因为它们的结构是以物理过程为基础的。然而,大气环流模式通常依赖于自由度大于107的网格点,需要使用超级计算机。由于需要较高的空间分辨率,在超高温影响研究中对这些计算资源的需求日益增加。对大量计算资源的依赖往往限制了它们在资源有限的实际环境中的适用性。

国家环境预报中心开发的天气研究与预报(WRF)模式是在UHI研究中广泛使用的区域大气模式之一。WRF模型通常与单层城市冠层模型(SLUCM)等城市地表模型耦合,以改善城市地表热流的细节。城市地表模型考虑了城市地貌对子网格中的动态、辐射和热动力过程的影响,而大气模型并不能明确表示这些影响。一些研究,如Mortezazadeh等人、Magnaye等人和Orkomi等人的研究,考虑了WRF/SLUCM在UHII研究中的应用。

统计降尺度是动态降尺度的一种替代方法。在这种方法中,统计技术被应用于通过较低分辨率网格和相关区域尺度的关系来估计当地的气象条件。作为一种统计降尺度方法,机器学习算法(MLA)因其在表示非线性关系方面的强大性能而受到研究人员的关注。此外,机器学习算法在处理大型数据集方面具有强大的能力,使其能够解决更大规模的问题。然而,MLA的“黑箱”结构是其局限性之一,它可能会掩盖UHI效应的潜在因果机制,从而限制其应用。

一些研究采用了可解释人工智能(XAI)技术,以提高模型的可解释性。在此背景下,研究人员探索了使用机器学习算法作为工具,以提高对物理过程的理解。在Liu等人的研究中,作者使用包括随机森林(RF)在内的机器学习模型模拟了陆地表面温度(LST),并预测了未来城市热岛(UHI)的趋势。他们还研究了土地利用和土地覆盖(LULC)的构成和配置如何影响UHI现象。结果表明,斑块密度和景观形状指数等因素是影响LST的关键。同样,在Kim等人的研究中,作者应用神经网络和随机森林模型估算了城市地表变暖的空间范围,从而研究了人为因素的影响。他们的研究结果强调,城市流动性是导致城市变暖的重要因素。

MLA正被用于气候气温的时空行为研究,以比动态降尺度方法更少的计算量对大气模型数据进行降尺度。一般来说,这些方法使用一个地区的地形数据,这些数据会影响当地大气条件的特殊性,如地形、沿海地区或土地利用。除温度外,用于统计降尺度的MLA还被应用于其他气象变量,如降水、蒸散、风以及热带气旋等事件。

与城市极端气温相关的风险提高了空间温度监测的重要性。在这种情况下,侧重于降低与超高温影响事件相关风险的预警系统正在利用数值模型进行监测和预测。大多数城市中心,主要是发展中国家的城市中心,都不具备大型计算基础设施,无法在合适的时间范围内以极高的空间分辨率进行动态预测,从而无法进行此类监测。因此,统计降尺度方法的计算效率可以预测温度,使此类系统得以实施。

在这项工作中,正在评估一种基于MLA的统计降尺度方案来模拟UHI,旨在降低计算成本,使计算资源有限的城市能够监测和研究UHI。这种方法利用气象站测得的温度,对计算需求较低的低分辨率大气模型进行降尺度模拟。极端梯度提升算法(XGB)被用于对WRF模型的气温场进行统计降尺度,以识别里约热内卢大都市区的亚日UHI。该统计降尺度方法与基于WRF/SLUCM高分辨率耦合模型的动态降尺度方法进行了比较。两种方法都利用气象站和遥感数据进行了验证。对特征贡献进行了分析,证明了该方法在理解局地特高波动行为方面的潜力。





研究亮点


         




(1)出了一种监测大都市地区UHI的ML方法。

(2) 利用统计和动态方法解决高分辨率温度场问题

(3)尽管精度相似,但ML方法消耗的计算资源更少。

(4)对于MARJ,地形对ML方法的影响最大。

(5)对于资源有限的城市,ML方法是监测UHI的一种替代方法。






研究结果




1.建模性能和交叉验证

在一台配备I7-9750H处理器、16GB内存、运行Ubuntu19.04的机器上,对每个小时温度场进行动态降尺度的平均计算时间为9分24秒。这一时间仅指从5km(域2)到1km(域3)分辨率的降尺度计算。在相同配置的机器上,统计降尺度的平均时间约为0.4秒。统计方法的这一显著加速性能优于LeRoux等人(2018年)使用支持向量机对农业地区进行温度降尺度的结果。

训练阶段模拟了120个分辨率为5km的温度场。交叉验证的平均值分别为0.89℃、0.87℃和0.87℃,MSE、RMSE和R2分别为0.89℃、0.87℃和0.87℃。这些结果表明气温与所用自变量之间的关系令人满意。例如,Zhou等人(2020年)在使用随机森林算法生成以色列1km处的温度校园时,发现MAE值介于0.42℃和1.12℃之间,RMSE介于0.65℃和1.58℃之间。

2.利用观测数据进行降尺度验证

与观测数据相比,动态模型和统计降尺度模型的R2、MSE和RMSE值相似,如图4所示。统计方法与观测数据的R2值高于动态方法。动态方法的误差值低于统计方法。

动态方法模拟的日间温度介于23.59至35.80℃之间,而统计过程则介于23.46至35.74之间。两种方法都高估了最小值,低估了最大值。

由于太阳辐射的昼夜变化,城市热岛(UHI)的形状和强度在白天各不相同。UHI的主要驱动因素之一是构造(Mirzaei&Haghighat,2010年)。分别观测夜间时段,动态方法模拟的温度在22.97至30.96℃之间变化;统计方法模拟的温度在23.09至31.31℃之间变化。因此,两种降尺度方法都高估了夜间的最高和最低气温。这种对气温的高估也体现在平均值上。在白天和夜间,动态方法和统计方法得出的平均气温分别为30.3℃±3.1((x)±σ)和25.8℃±1.9,34.4℃±3.1和25.7℃±1.8,而观测值分别为29.3℃±3.1和24.6℃±1.9。

在白天,统计方法高估了平均气温约5℃,高估了动态过程约1℃;在夜间,两种方法都高估了观测温度约1℃。Jandaghian和Berardid(2020年)将SLUCM与其他与WRF耦合的城市地表模式进行了比较,发现该模式估计的多伦多市区平均气温高估了约0.05℃。这些结果表明,WRF/SLUCM高估了城市地区的温度。反过来,统计方法也有类似的行为,在白天会加剧高估。

屏幕截图 2025-05-20 164654.png

3.间和空间UHI估计值

统计方法高估了UHI的平均强度,而动态方法则低估了UHI的日间强度(表3)。与统计方法的结果相比,动态方法的结果与观测数据的相关性更为显著。不过,统计方法在白天和夜间的均方根误差值较低。动态过程估计的白天平均UHI强度为负值,但该值与今晚的观测值接近。

屏幕截图 2025-05-20 164745.png

降尺度方法准确模拟了观测到的UHI日变化模式(图5)。在白天的大部分时间里,动态方法没有低估UHI,在当地时间上午7点到下午3点之间,UHI达到负值。在夜间的前几个小时,即当地时间下午7点之后,两种降尺度方法都高估了UHI值。在夜间,即当地时间凌晨1点到5点之间,统计方法高估了UHI强度,而动态方法则高估了UHI强度。

屏幕截图 2025-05-20 164822.png

统计降尺度方法估计的UHI强度也因城市土地利用类型而异。图6比较了不同土地利用类型的城市热岛强度。可以看出,与观测数据和SLUCM方法相比,XGB方法倾向于高估UHI强度,尤其是在低密度住宅区。在高密度住宅区,SLUCM方法显示出与观测数据更接近的离散性。这表明,SLUCM在估计城市密集区的UHI方面可能更准确,而XGB方法可能需要调整以提高其准确性,尤其是在密度较低的地区。两种降尺度方法估算值的不确定性(以变异条表示)表明,两种降尺度方法都倾向于高估较高的UHI强度,而低估较低的强度。

屏幕截图 2025-05-20 164830.png

两种降尺度方法都模拟了MODIS-LST遥感器探测到的UHI中心空间核心(图7)。最大的一个核心位于城市中心区域,向北延伸,那里有大量中高密度的城市区域(图1)。另一个核心则较为孤立,位于海湾东部城市化高度集中的区域。

降尺度方法估算了城市西部地区的UHI核心,MODIS-LST场景中没有观测到这些核心(图7a中以矩形标出)。近几十年来,该地区有高温和UHI核心增加的记录,因此这两种方法的估计值是可信的。值得注意的是,测量中固有的不确定性以及表面UHI和冠层高度UHI之间的差异也会影响MODIS场景。在有海风和山谷风的地区,如MARJ,这些现象的表现会影响与地表的热交换。这可能会增加两类UHI之间的差异。

在空间模式方面,两种降尺度方法估计的UHI形状和强度模式相似。两种方法估算的强度之间存在很高的相关性(R2=0.97)(图7b)。分析动态方法和统计方法平均差异的空间分布(图7c)可以发现,研究区域的西部和东部地区的强度存在正差异(图7c中突出显示)。这两个地区都有相当大的低洼地形(图1)。地形和坡度变量在XGB统计降尺度方法中的影响说明了这些地区存在差异的原因。

屏幕截图 2025-05-20 164805.png
屏幕截图 2025-05-20 164844.png

与沿海地区的动态过程相比,用统计方法估算的UHI强度更高。动力学方法是利用物理模式共同作用来模拟局地大气边界层(ABL)和地表湍流交换,从而影响空气温度。在沿海地区,海岸线上的局地大气会对海风等海洋-大气现象产生更强烈的影响,增加了模拟局地温度的复杂性。在这种情况下,这些沿海站点的热岛观测会受到影响。

图8显示了两种降尺度方法在UHI强度阈值为1到4◦C时估算出的UHI面积的每小时变化情况。两种方法,即统计方法(XGB)和动态方法(SLUCM),在一天中对马尔代夫的城市热岛(UHI)面积的变化具有相似的模式。白天热斑块的扩张和收缩与图5中观察到的UHI强度变化一致,尤其是在较高阈值(3◦C和4◦C)时。然而,在估计值和变异性的大小上出现了差异。动态方法(SLUCM)在一天中的大部分时间都有较大的UHI区域,但下午6点之后除外,因为此时的强度更高(图5),而XGB则呈现出相同或稍高的值。这种反演表明,XGB所捕捉到的非线性关系在强度较高的时段能更好地估计出UHI的持续性,尽管在其他情况下也经常出现低估。

屏幕截图 2025-05-20 164853.png

此外,XGB全天的标准偏差较大,但在UHI高峰时段除外,这两种方法的标准偏差相似。这种稳健性的提高可能是由于该算法能够捕捉数据中的非线性关系并建立模型。另一方面,由于地形崎岖且临近海洋,SLUCM对每小时的波动(如风力或湿度变化)非常敏感,因此变异性较大。这些差异可能会影响两种方法的应用范围。SLUCM可能更适用于实时物理过程分析,而XGB则在用于预警的业务极端预报方面具有优势,这对于像MARJ这样城市化程度高的沿海大都市的减灾工作至关重要。

4.全局特征贡献

如图9所示,在统计降尺度过程中,每个变量在提升梯度算法中的权重全天都在波动。不过,地形和土地利用变量的贡献最大。在当地时间5点之前的早期时段,土地利用比地形更为重要。从当地时间7时起,出现了反转现象,一直持续到中午前后,土地利用变量的作用又变得更加突出。MARJ具有当地的特殊性,如复杂的地形、城市内部植被茂密的区域以及靠近海岸,这些反过来又影响了地表在一天中早期的升温方式。在日照的最初几个小时,城市内部山丘造成的遮挡导致入射太阳辐射强度不同,增加了城市地表的异质加热。在这一时期,机器学习算法中地形对气温的影响比土地利用的影响更为显著。此外,在此期间,纬度的影响也会增大。

如果只考虑统计模型中土地用途的影响,则每种土地用途在白天的贡献率也存在差异。在白天时段,城市用途类别的影响最为显著。然而,在上午10时至下午3时期间,城市用途类别的影响力逐渐减弱,而植被类别,尤其是高植被类别的贡献率则有所上升。该算法的这种行为可能与MARJ内存在茂密的热带森林区有关。这些植被增加了当地的湿度,加剧了蒸散作用,从而影响了能量平衡,尤其是在一天中最热的时段,此时这类植被在算法估算中的重要性增加。下午5点以后,城市土地利用对模型的影响更大。这种行为与统计模型的UHI面积估计值一致(图8),其估计值与动态方法的估计值趋同。

屏幕截图 2025-05-20 165101.png

5.局部特征贡献

空间位置也会影响算法中的特征贡献。在SHAP分析中,地形是白天和夜间对模型贡献最大的特征(图8)。值得注意的是,SHAP值与温度之间存在线性反比关系(图8b)。这表明地形高度越低,气温越高。这一特征印证了垂直温度曲线的预期变化模式,即地表温度通常较高,随着向对流层顶移动,温度逐渐降低。

图10a中的左长尾表明,高海拔地区比低海拔地区的贡献更大。海拔500米以下,城市网格点的地形SHAP值较高(图10b)。然而,在海拔500米以上,城市地形的SHAP值较低。这一现象表明,在XGB的运行过程中,地形与城市使用之间存在相互作用。

城市使用特征的贡献因时间而异(图10)。在白天(图10),城市使用的SHAP值接近于零,表明该变量对模型的贡献较低。然而,在夜间,SHAP值增加,城市使用具有正贡献。这一结果与以下认识相吻合,即在白天结束和夜晚开始时,城市地区由于储存了热量,需要比农村地区更长的时间来降温,从而增加了UHI强度。这一行为与第3.3项中分析的估算UHI强度的统计方法的结果一致。

通过观察纬度的空间分布SHAP值,可以明显看出海岸线具有很强的负贡献(图11)。纬度越低的区域表明越靠近海岸带。随着纬度的增加,网格点进一步深入大陆,地形崎岖,与气温上升的直接关系减弱。这表明,尽管纬度这一变量的梯度减小,但中尺度过程对纬度的重要性影响很大。

由于临近大西洋,研究区域白天的地表变暖效应因水蒸气的存在而减弱。这一现象导致形成南北方向的热振幅梯度。在海洋地区,表层的高比热值和剧烈混合造成了巨大的热惯性,从而减少了白天的气温变化。在机器学习模型训练过程中也可以观察到这一点。

土地利用作为二进制变量被纳入模型,因此图11中显示的结果考虑了每个网格点存在(1)或不存在(0)特定土地利用的情况。值得注意的是,在白天,如果网格点没有城市覆盖,则该变量对任何分析算法都没有影响。这种现象可能与土壤—大气能量通量之间相互作用的时滞有关。换句话说,在白天,城市地表由于比热较低而升温较快,而大气则通过与地表接触层的传导和对流升温较慢。这种热量共享有利于蓄热而非对流。相反,农村地区往往湿度较大,导致潜热通量增加。因此,在一天中较暖的时段,城市地表的存在会导致空气温度比农村地区温和。

在白天结束和夜晚开始时,城市覆盖物由于储存了热量,往往需要比农村环境更长的时间来降温,从而增加了UHI强度。SHAP分析表明,网格点的城市化会导致夜间温度升高(图10)。

此外,在本研究中,即使在涉及崎岖地形和海岸效应的复杂地形中,极端梯度增强算法也成功地模拟了城市供暖区域。不过,要探索该算法的稳健性,还应在其他类型的地形中以及使用不同时空尺度的信息进行检验。本文介绍的统计方法可以通过在回归模型中插入新的自变量来改进,这可能会带来更好的降尺度结果。例如,城市建筑高度和人口密度对形成UHI有很大影响,因此,将这些信息纳入降尺度统计方法,有望改善模型在城市地区的性能。

机器学习算法可以整合来自多个不同来源的数据,包括计算模型和遥感数据,如本研究中所探讨的,从而可以通过综合数据库对城市地区的气候进行研究。整合原地传感器的数据可进一步增强降尺度系统,从而更准确地估计温度场。此外,机器学习算法为研究特高气温影响提供了宝贵的能力,如从现有数据中提取新的见解和识别组织模式。

此外,可解释性技术或可解释性机器学习算法的应用和发展也能让对UHI的研究受益匪浅。这些技术有助于理解热岛的形成过程,使统计降尺度方法(如本工作中介绍的方法)更有助于进行综合分析。

屏幕截图 2025-05-20 165156.png

屏幕截图 2025-05-20 165206.png










研究展望






统计降尺度方法在整合城市管理系统方面表现出强大的性能。全球变暖的加剧和地球上高密度城市地区的增加,增加了开发城市监测数字平台的需求。在此背景下,基于机器学习的统计降尺度技术成为监测和预测城市内部温度的有效方法。这种方法为城市规划者提供了两种关键能力:(1)实时、本地化的热浪和UHI早期预警系统,以保护弱势人群;(2)高分辨率热绘图,以指导有针对性的缓解策略。通过解析邻区尺度的温度变化,该模型可确定优先干预区域,如战略绿地隔离、凉爽路面实施和城市树冠管理,同时通过预测分析对其潜在的降温功效进行电子估值。该方法与联合国减少灾害风险指南(UN/ISDR)等国际框架相一致,为抗热规划提供了实用工具。汤姆森等人的研究表明,这些公共政策对社会影响巨大,尤其是对弱势群体。

在其他城市环境和更大的城市热(UH)事件数据集中的应用将有助于对该方法的适用性进行更可靠的评估。该方法的改进措施包括纳入与地表热通量相关的其他变量,如土壤湿度、辐射和微尺度风型,从而提高模型的准确性和通用性。不过,按照所需的规模和密度实施和运行城市测量站网络可能会过于昂贵,这对广泛采用该方法构成了巨大挑战。





初审:陈   楠

审核:徐彩瑶

排版编辑:许文静

文献推荐人:许文静


参考文献:Rafael João Sampaio, Daniel Andrés Rodriguez, Rogério Pinto Espíndola, Fabricio Polifke da Silva,Spatiotemporal assessment and monitoring of urban heat islands in metropolitan areas using machine learning and downscaling,Sustainable Cities and Society,Volume 126,2025,106365,ISSN 2210-6707

以上内容仅代表个人对文章的理解,详情请点击阅读原文。

【数字生态与绿色发展学术团队】Spatiotemporal assessment and monitoring of urban heat islands in metropolitan areas using machine learning and downscaling.pdf


推荐阅读

图片
图片
图片










Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182458
 
55 次点击