每日一个不同专业+机器学习发文实例——城市设计学
这篇文献题为《Mechanisms of non-stationary influence of urban form on the diurnal thermal environment based on machine learning and MGWR analysis.》(基于机器学习和MGWR分析的城市形态对昼夜热环境非平稳影响机制),发表在Sustainable Cities and Society期刊上。
该研究运用机器学习与多尺度地理加权回归(MGWR)方法,系统量化了城市形态对昼夜地表温度的非平稳性影响,弥补了现有研究的不足。基于对大连市街区尺度的实证分析,研究揭示了低矮植被覆盖、中低层建筑布局及建筑密度对地表温度动态变化的关键影响机制,并据此提出优化城市形态以增强气候适应性的具体策略。研究成果为沿海城市制定全天候热环境调控策略提供了科学支撑,在理论创新与规划实践层面均具有重要价值,可为城市热环境研究与可持续城市发展领域的学者及政策制定者提供参考。
K-means++
K-means++ 是 K-means 聚类算法的改进版本,主要用于优化初始聚类中心的选取,以避免传统 K-means 可能陷入局部最优的问题。该算法首先随机选择一个初始中心,然后依据概率分布(通常基于距离平方)依次选取后续中心点,使初始中心尽可能分散。这种方法提高了聚类的稳定性和收敛速度,适用于数据分布不均匀的情况,如城市形态分类、遥感影像分割等。
K-means
K-means 是一种经典的无监督聚类算法,通过迭代优化将数据划分为 K 个簇。其核心步骤包括:随机初始化 K 个中心点,计算各样本到中心的距离并归类,再更新中心点位置,直至收敛。该算法计算高效,适用于大规模数据集,但对初始中心敏感,可能收敛于局部最优。常用于图像分割、市场细分、空间数据分析等任务。
堆叠学习(Stacking)
堆叠学习是一种集成学习方法,通过结合多个基分类器的预测结果训练一个元模型(meta-model)来提高整体性能。其流程包括:基模型(如决策树、SVM 等)在训练集上进行交叉验证预测,生成新特征,再用这些特征训练元模型(如逻辑回归)。堆叠学习能有效降低过拟合风险,适用于复杂分类问题,如遥感影像分类、城市功能区识别等。
发刊实例:基于机器学习和MGWR分析的城市形态对昼夜热环境非平稳影响机制
该研究针对街区尺度城市形态对昼夜热环境影响的非平稳性这一尚未充分探索的领域,提出了一个创新的多尺度分析框架。通过整合机器学习算法与多尺度地理加权回归(MGWR)方法,以大连市为案例进行了系统性研究。研究团队运用机器学习技术对大连市2282个街区的城市形态特征进行了分类识别,并评估了各类形态对地表温度的影响效应。进一步采用MGWR模型,从空间异质性角度定量解析了城市形态要素、人类活动强度及空间区位因素对地表温度日变化动态的非平稳作用机制。
研究发现:低矮植被覆盖与中低层建筑形态对日间地表温度具有最显著的影响;天空可视因子(SVF)对昼夜温差的时空变异影响相对稳定;建筑密度则表现出对昼夜温度变化的持续显著效应。基于实证分析结果,研究建议优先采用高密度植被结合开放式布局(SVF>0.5)的中高层建筑(15-50米)的规划模式。该研究成果为沿海城市制定精准化的昼夜热环境调控策略提供了重要的科学依据,对提升城市气候适应性规划具有显著的实践价值。
数据来源
白天地表温度数据来源于美国地质调查局(USGS)提供的Landsat 8 OLI/TIRS影像,采用单通道算法反演获得,数据采集时间为2019年8月28日,当日云量覆盖率为0.28%。夜间地表温度数据获取自ASTER_08产品,空间分辨率为90米,数据源来自NASA地球数据搜索平台。建筑物矢量数据由Bigemap平台提供,土地覆盖数据通过卫星遥感反演获得。道路网络数据则来源于开放地理数据平台OpenStreetMap(OSM)。所有数据均经过严格的质量控制和预处理,确保研究结果的可靠性。
该研究采用地表温度作为城市热环境的关键表征指标,围绕两个相互关联的研究目标展开:一是评估不同城市形态类型对热环境的影响程度,二是建立地表温度(LST)与形态因子之间的定量关系模型,后者同时为前者提供机理层面的解释支撑。研究框架包含四个关键环节:
首先运用机器学习算法(Kmeans++、K-means和堆叠学习分类)实现城市形态的智能分类;
其次计算各局部气候区(LCZ)对日间热环境的贡献指数(CI);
然后基于多尺度地理加权回归(MGWR)方法定量解析城市形态要素与地表温度的空间关联特征;
最终形成面向城市规划实践的优化建议,为城市管理者提供缓解热岛效应的科学决策依据。
整个研究流程采用递进式分析方法,从形态分类到影响评估再到机理探究,最终落实到规划应用层面。
通过ArcGIS空间分析工具,提取了各街区内城市形态因子及地表温度(LST)的平均值。研究选取的城市形态参数包括建筑平均高度(AH)、天空视野系数(SVF)、容积率(FAR)、城市粗糙度长度(URL)、建筑密度(BD)、归一化植被指数(NDVI)和归一化建筑指数(NDBI),这些指标共同构成局部气候区(LCZ)划分的基础指标体系。为进一步分析人类活动及地理因素对LST的影响,研究还引入了夜间灯光数据(NL)、兴趣点密度(POI)以及距海岸线距离(DFC)等辅助参数。各指标的具体计算方法详见表1所示。
K-means作为一种典型的无监督分类算法,能够将大量未标记样本自动聚合到预设类别中,且不需要预先设定分类阈值(Sinaga & Yang,2020)。该算法具有广泛适用性,可应用于不同研究尺度的网格数据,对数据规模要求较低,因此在城市形态分类研究中展现出良好的通用性。已有诸多学者成功运用K-means算法进行城市形态分类研究(Joshi et al., 2022; Youme et al., 2022)。然而,传统K-means算法采用随机初始化聚类中心的方式,可能导致聚类结果陷入局部最优解。针对这一局限性,K-means++算法(Arthur & Vassilvitskii, 2007)通过优化初始中心点选择机制,有效增强了类间差异性,并采用迭代验证方法确定最优聚类中心,显著提升了分类结果的稳定性和可靠性。
支持向量机(SVM)和随机森林(RF)作为典型的半监督学习方法,在处理高维特征空间问题时表现出显著优势。这两种方法均基于标记样本训练模型,进而实现对未标记数据的分类预测。虽然SVM算法具有良好的泛化能力,但在面对多类别分类任务和大规模数据集时存在一定局限性。现有研究证实,集成学习方法在分类性能上普遍优于单一分类算法,其核心原理是通过组合多个基分类器的预测结果并进行加权整合,从而构建更优的分类模型。基于这一优势,本研究采用了堆叠集成算法,通过协同整合SVM和RF两种分类器的优势,实现了对未标记数据的优化分类。
研究采用建筑密度(BD)作为首要分类指标,将研究区块划分为建成型(BD≥0.1)和非建成型(BD<0.1)两大类别。对于建成区类型,综合运用NDBI、NDVI、AH、SVF、FAR、AR、URL和BD等形态指标进行分类;非建成区类型则主要基于NDBI和NDVI两个植被相关参数进行分类。局部气候区(LCZ)分类框架包含三个关键步骤:首先通过实证分析确定最优初始类别数(K值),采用K-means++算法计算初始质心位置,并通过多次迭代确保类间距离最大化以验证K值的合理性;其次运用K-means算法执行聚类分析,识别各类别的典型城市形态特征,基于马氏距离计算结果提取标注数据;最后将已标注数据作为训练集,采用堆叠集成算法对未标注数据进行分类,并通过精度检验和噪声数据修正来优化分类结果。整个分类过程实现了从参数选择、初始聚类到精细化分类的系统化流程。
多尺度地理加权回归(MGWR)是分析空间非平稳关系的有效方法之一,该方法通过考虑样本空间位置对异质性的影响,能够捕捉自变量与因变量之间随空间尺度变化的复杂关系。与传统地理加权回归相比,MGWR的创新性在于允许不同解释变量在各自最优带宽下建立回归关系,其数学表达式可表示为...[公式部分]。这种方法特别适用于分析城市热环境等具有显著空间异质性的地理现象。
在MGWR模型中,(u_i,v_i)代表第i个样本点的空间坐标,β_0(u_i,v_i)表示该位置对应的截距项。β_bwk(u_i,v_i)为第k个解释变量在i点处的局部回归系数,反映该变量对因变量的空间变异影响。ε_i代表模型在该位置的残差项。W(a_i,b_i)作为核心权重矩阵,通过空间加权函数确定邻近观测点对i点回归参数的贡献程度,其构建方式直接影响模型捕捉空间非平稳特征的能力。该模型架构有效刻画了地理要素间关系的空间异质性和尺度依赖性特征。
研究区域涵盖2281个城市街区,统计分析显示超过45%的街区具有建筑平均高度(AH)大于15米、天空视野系数(SVF)超过0.5的特征。基于建筑密度(BD)阈值划分,建成型街区占比44.5%,非建成型街区占55.5%(图2)。通过综合考量误差平方和(SSE)指标与城市矢量数据空间分布特征,最终将研究样本划分为17个局部气候区类型,包括11种建成区类型和6种非建成区类型,该分类体系较好地反映了研究区域城市形态的空间分异特征。
通过对建成区类型的分类研究,最终确定了11个具有显著差异的类别(当k=11时SSE下降趋势趋于稳定)。分类结果显示,LCZ6在各类别中占比最高,而LCZ1占比最低。采用堆叠学习分类方法取得了0.927的较高分类准确率。具体而言,LCZ1和LCZ4代表大型高层建筑及摩天大楼区域;LCZ2和LCZ5-1以中层建筑为主要特征;LCZ5-2则以中高层建筑为主导类型。空间分布上,LCZ6主要集中于沿海和山区地带,以别墅和小型低层建筑为主;LCZ7表现为中低层混合街区,其NDVI值明显低于LCZ6和LCZ5-1;LCZ8以工业用地为主;LCZ9分布于沿海和山区边缘,呈现零散建筑群特征,但在所有建筑类型中NDVI值最高;LCZ10主要包括汽车厂、造船厂等工业设施及公共交通服务区域。值得注意的是,虽然LCZ8和LCZ10具有相似的土地利用性质,但其NDVI和NDBI值的差异反映了地表覆盖材料的不同特性。
非建成区类型被划分为6个类别,其中中等植被覆盖区(LCZMVC)所占比例最大,而水体区域(LCZG)比例最小(该类别在前期处理中已被单独划分)。通过聚类分析,剩余区域被进一步分为5个类别(当k=5时SSE下降趋势趋于稳定),堆叠学习分类方法在此取得了0.95的高精度。分析表明,不同街区空间结构类型间存在显著的人类活动强度差异。夜间灯光数据显示,建成区类型的夜间光辐射强度明显高于非建成区(图3b)。具体而言,建成区中LCZ1的平均夜间光辐射值最高,LCZ2次之。各类别的夜间光辐射强度排序为:LCZ1>LCZ2>LCZ10>LCZ8>LCZ4>LCZ5-1>LCZ5-2>LCZF>LCZ7>LCZ6>LCZ9>LCZ3>LCZLVC>LCZE>LCZMVC>LCZG>LCZHVC,这一梯度变化规律清晰地反映了不同城市形态类型的人类活动强度特征。
研究将优化后的分类结果与世界城市数据库和访问门户工具(WUDAPT)生成的LCZ地图进行了对比分析(图4)。WUDAPT采用监督学习方法,基于原始LCZ分类框架由研究人员提供训练样本,最终分类总体精度约为0.7,输出数据分辨率为90米。WUDAPT将研究区划分为9种类型,其中LCZ5占比最高,大型低层建筑(LCZ8)次之。由于WUDAPT方法主要依赖遥感影像特征,其分类结果与街区实际形态特征的对应性存在一定偏差。虽然各类型在因子均值上表现出差异性,但各类别间的边界划分不够清晰。以LCZ1为例,其建筑高度范围跨度达3-189米,虽然该类型以紧凑型高层建筑为主,但实际包含部分低层建筑。相较于本研究优化后的分类结果,WUDAPT方法在类型区分度方面存在局限,特别是对中层建筑类型的多样性识别不足,容易产生类型混淆现象。
分析结果显示,白天地表温度(LST)呈现出显著的空间分异特征(图5)。除水体区域(LCZG)外,所有城市形态类型的日间LST均高于夜间值。日间温度分布表明,开放型建成区的整体LST水平低于紧凑型建成区。不同LCZ类型对热环境的昼夜贡献指数(CI)存在明显差异:非建成区类型(除LCZF外)普遍对城市热环境具有冷却效应,其中高植被覆盖区(LCZHVC,CID=-0.287,CIN=-0.181)和中植被覆盖区(LCZMVC,CID=-0.377,CIN=-0.223)的降温作用最为显著。在建成区类型中,LCZ9(CID=-0.0174,CIN=-0.0288)表现出最强的冷却贡献,而LCZ7(CID=0.185)和LCZ8(CIN=0.0501)分别在日间和夜间产生最强的增温效应。值得注意的是,LCZ3、LCZ5-1和LCZ5-2在昼夜时段呈现出相反的CI特征,反映了这些区域热环境效应的昼夜差异性。
图5 每种类型的日间 LST 和 CI:(a) 每种类型的平均 LST-白天 (b) LST-白天的空间分布 (c) 每种类型的平均 LST-夜间 (d) LST-夜间的空间分布 (e) 每种类型的平均 LST-DTA (f) LST-DTA 的空间分布 (g) 每种类型的 CI
回归分析结果表明,天空视野系数(SVF)、容积率(FAR)、建筑平均高度(AH)和归一化植被指数(NDVI)与地表温度(LST)日变化呈现显著负相关关系,而兴趣点密度(POI)、夜间灯光强度(NL)、距海岸线距离(DFC)、归一化建筑指数(NDBI)和建筑密度(BD)则与LST日变化呈正相关。研究通过空间可视化方法(图6)展示了这9个变量回归系数的空间分布格局,揭示了各影响因素对LST作用强度的空间异质性特征。各变量的影响系数在不同地理区位表现出明显的空间变异,反映了城市热环境形成机制的复杂性。
夜间地表温度(LST)的影响因子呈现不同的关联模式(图7)。分析表明,天空视野系数(SVF)、建筑密度(BD)、建筑平均高度(AH)、归一化植被指数(NDVI)和归一化建筑指数(NDBI)与夜间LST呈负相关关系。相反,距海岸线距离(DFC)、兴趣点密度(POI)、夜间灯光强度(NL)和容积率(FAR)则表现出正向关联。值得注意的是,建筑密度(BD)在不同区域对夜间LST的影响呈现双重性,既存在负相关区域也包含正相关区域,这种空间异质性反映了城市形态因素对热环境影响的复杂性。各影响因子的空间变异特征通过回归系数的地理分布得以直观呈现。
分析结果显示,兴趣点密度(POI)、天空视野系数(SVF)和建筑平均高度(AH)对地表温度日较差(LST-DTA)的影响未达到显著水平。在所有考察的因子中,建筑密度(BD)对LST-DTA的影响最为突出,主要表现为正向相关关系(图8)。建筑高度(AH)和夜间灯光强度(NL)的影响效应在远离南部海岸线的区块呈现高度集聚特征。具体而言,归一化建筑指数(NDBI)和建筑密度(BD)与LST-DTA呈正相关,而容积率(FAR)和归一化植被指数(NDVI)则表现为负相关。各影响因子在不同空间位置的效应强度存在显著差异,这种空间异质性特征充分证实了城市热环境影响因素具有显著的非平稳性特征。
基于街区尺度的多尺度地理加权回归(MGWR)分析揭示了沿海城市多维因素对昼夜地表温度(LST)的非平稳影响机制。研究发现LCZ3和LCZ7类型区域表现出更显著的LST日较差(DTA),这种特征主要源于其高不透水表面比例导致的太阳辐射吸收增强效应。这些区域普遍具有较高的归一化建筑指数(NDBI)和建筑密度(BD),同时建筑平均高度(AH)和植被覆盖(NDVI)水平较低。沙地、沥青和混凝土等不透水材料的热容特性加速了昼夜温度波动,夜间缺乏日照时白昼吸收的热量迅速释放。MGWR分析结果进一步证实,NDBI与LST-DTA及夜间LST呈正相关,而AH和NDVI则呈负相关,这一规律同样适用于解释LCE和LCZF类型的昼夜温度变化特征。相比之下,高层/中层建筑通过日间遮荫效应和夜间适度的热量扩散表现出更好的热环境调节能力。研究特别指出,采用高植被覆盖率与开放式布局(SVF>0.5)相结合的中层/中高层/低层(15-50米)建筑配置,能有效降低昼夜LST及日较差,是最优的热环境优化形态。水体区域(LCZG)由于水的高热容特性,表现出最小的昼夜温度差异。
研究揭示了不同空间类型贡献指数(CI)差异的形成机制主要源于城市形态要素的组成差异。以LCZ7和LCZ5为例,虽然两者夜间光照强度(NL)相近,但LCZ5对地表温度(LST)的增温效应显著低于LCZ7,这种差异主要归因于植被覆盖度(NDVI)的空间分异。NDVI对LST的负向调节作用能够部分抵消NL的增温效应,在LCZ5区域这种抵消作用可达近50%。值得注意的是,夜间LST对NL的响应更为敏感,这为人类活动是夜间热岛效应关键驱动因素提供了实证依据。多元回归分析证实,通过优化城市形态设计可有效缓解人类活动对热环境的负面影响:一方面,植被的高反照率特性能够减少地表热量吸收;另一方面,提升天空视野系数(SVF)、建筑高度(AH)和容积率(FAR)可增强城市通风效率,促进人为热量扩散。定量分析表明,NDVI每增加10%即可完全抵消10%NL增量带来的增温效应,同时可使LST降低0.024°C,这为城市热环境调控提供了重要的量化依据。
多尺度地理加权回归(MGWR)分析表明,城市形态因子对夜间地表温度(LST)的影响较日间更为显著。具体表现为:受容积率(FAR)显著影响的区块数量从白天的797个增至夜间的1410个,同时建筑高度(AH)、归一化植被指数(NDVI)和天空视野系数(SVF)的回归系数估计值均呈现增长趋势。与内陆城市相比,沿海城市的热环境受海洋调节作用更为明显,这种影响在昼夜温度振幅上表现尤为突出。当区块距海岸线距离(DFC)超过4800米时,海洋对日间LST的调节作用显著减弱甚至消失。在此范围内,DFC对LST日较差(DTA)的影响强度超过其他参数,且多数区块的LST不受AH影响。值得注意的是,DFC对日间LST的影响强度明显高于夜间。通过比较不同时段的带宽参数发现,建筑密度(BD)和FAR对日间LST的影响呈现更强的空间异质性,其系数估计值在远离海岸线区域表现出更大的空间变异特征。
该研究创新性地提出了一种融合目标值设定与机器学习算法的局部气候区(LCZ)分类方法,从贡献指数和空间异质性两个维度系统解析了城市形态对昼夜地表温度格局的影响机制,为同类沿海城市的热环境研究提供了重要理论参考。主要研究发现包括:首先,基于机器学习算法将城市街区划分为17种形态类型,识别出LCZ6为优势城市形态,其中LCZ7和LCZ8分别对日间和夜间地表温度的增温贡献最为显著,而LCZHVC和LCZMVC则表现出最强的冷却效应;其次,温度特征分析显示LCZ3具有最高的日间地表温度,LCZ1则主导夜间高温,LCZ3的昼夜温差最为突出,MGWR模型进一步验证NDVI对温度调控的关键作用,同时揭示建筑高度、建筑密度和天空视野系数对夜间温度的影响强度较日间显著增强;最后,从气候分区调控和形态参数优化两个层面提出热缓解策略,特别推荐采用高植被覆盖与开放式布局(SVF>0.5)相结合的中高层建筑(15-50米)组合模式。研究成果不仅揭示了街区尺度城市形态对热环境的非平稳影响机制,其构建的分析框架更为中观尺度的城市规划与生态评估提供了方法论支撑,未来可通过多城市的精细化实验进一步优化该研究体系。