基础设施特征在塑造环境危害方面的贡献可能因特征和城市而异。在此,我们使用 XGBoost 来检验基础设施特征在解释不同城市地区环境危害变异性的程度。基于 XGBoost 方法,使用 SHAP 进行了特征重要性分析。SHAP 分析揭示了基础设施特征在不同城市区域塑造环境危害的详细程度信息。对于五个研究区域的多个基础设施特征,图1提供了预测环境危害类别时相对特征重要性的概览。每个条形显示了数据集的全局 SHAP 值,代表了特定基础设施特征对高环境危害的平均贡献。条形按重要性递减顺序堆叠,显示了特征重要性的排名。这些排名在不同城市间差异很大。例如,铁路的特征重要性在芝加哥市排名第一,而在达拉斯、洛杉矶和底特律则排在列表末尾。特征重要性在不同城市间的可变性表明,可能不存在一致的相对重要性模式。因此,必须使用基于机器学习的技术,在计算空间区域的基础设施供给得分时指定各种基础设施特征的权重,以捕捉城市特定的背景。
除了指定基础设施特征的相对重要性外,我们进一步分析了 SHAP 依赖图以识别阈值,即基础设施特征的贡献从减少环境危害转变为增加环境危害的点。在 SHAP 依赖图上,每个点代表一个单独的实例,其中 x 轴显示特征值,y 轴显示其对应的 SHAP 值。这些图揭示了单一基础设施的变化如何影响预测的环境危害,同时考虑了与其他特征的相互作用。
为了识别潜在的阈值,我们应用了局部加权散点图平滑(LOWESS)技术来拟合每个 SHAP 依赖图,遵循先前研究中的常见做法。LOWESS 是一种非参数回归技术,它对数据的局部子集拟合一条加权回归线(Cleveland, 1979)。拟合曲线揭示了特征值对预测的不断变化的贡献。曲线周围的阴影区域代表 95% 的置信区间。当拟合曲线呈现上升趋势并穿过 x 轴时,我们将交点解释为阈值。这个拐点代表 SHAP 值从负值转变为正值的位置,表明该特征的贡献从缓解环境危害转变为加剧环境危害。
例如,休斯顿铁路基础设施的阈值被确定为 10.68%,这表明有超过 10.68% 的区域位于铁路 1 英里缓冲区内的普查区面临更高的环境危害风险。因此,该交点作为一个经验阈值,超出该阈值,额外的基础设施可能会产生递减甚至不利的影响。在所有研究的城市中,铁路和道路基础设施都一致观察到这种模式。然而,具体的阈值各不相同。例如,洛杉矶的铁路阈值为 18.30%,达拉斯为 27.21%,底特律为 68.92%,芝加哥为 72.93%。这种可变性可能源于基础设施特征与环境危害之间非线性的、特定背景的相互作用。给定特征的贡献不仅受其自身值的影响,还受与其他特征以及城市特定特征(如土地利用和预先存在的环境脆弱性)相互作用的影响。这种可变性强调了进行城市特定分析的重要性,因为统一的阈值可能无法捕捉基础设施与环境结果之间复杂的、局部化的关系。
图2c 和 d 呈现了相反的模式:拟合曲线的总体趋势是下降的,表明更多的基础设施数量与较低的环境危害相关。类似地,第三种模式显示拟合曲线保持负值,意味着该基础设施与高环境危害保持负相关。在这两种情况下,基础设施的增长与高环境危害无关,因此不存在表示基础设施供给最佳水平的阈值。比较五个城市六个基础设施特征的完整结果,我们发现相同特征的阈值在不同城市间一致存在。例如,对于道路和铁路,数量超过阈值可能导致高环境危害。这一发现与先前的研究相符。例如,Mukherjee 等人(2020)以及 Ferm 和 Sjöberg(2015)观察到由于道路排放,近道路区域的 PM2.5 显著增加。繁忙的道路交通和铺砌道路也是加剧城市热问题的原因。在公园和房龄特征中未识别出阈值,这意味着更高的公园供给比例和更大比例的新建房屋与较低的环境危害相关,这可能是由于公园缓解城市热岛效应和减少空气污染的能力。此外,较新的房屋往往建在新开发区域,这些区域的土地开发规定有助于缓解如城市热等环境危害。兴趣点(POI)密度(图2e 和 f)和步行便利性特征的结果因城市而异,这可能归因于城市结构、公共交通分布和设施集中度的差异。这两个基础设施特征需要按城市逐个分析。
图2 说明基础设施特征对环境危害影响的 SHAP 依赖图
本研究最显著的区分之一是将环境考量纳入基础设施供给评估。我们承认传统观点认为更多基础设施有助于改善福祉,但同时强调基础设施的增长不应导致过度的环境负担。利用先前讨论的关于每个基础设施特征与环境危害之间关联的结果,以及基础设施在塑造环境危害中的相对重要性,我们计算了五个研究城市在普查区层面的基础设施供给指数。图3可视化了这些城市基础设施供给的空间分布。
结果显示,基础设施供给水平在每个城市的普查区之间并非均匀分布。为了衡量基础设施供给不平等的程度,我们实施了基础设施不平等指数并在表 3 中展示了结果。该指数设计范围为 0 到 1,其中 0 代表无不平等,1 代表最大不平等。所有研究的城市都处于中等不平等状态,达拉斯呈现最高的基础设施供给不平等水平,而洛杉矶最低。将达拉斯与洛杉矶并列比较,达拉斯基础设施供给的不平等程度比洛杉矶高出 27%。这些结果显示了所提出的基础设施供给指标和方法在城市间和城市内比较方面的效用。
3.传统基础设施供给与考虑环境因素的基础设施供给之间的比较
为了比较目的,我们使用相同的基础设施特征为五个选定的城市计算了传统的基础设施供给指数。每个城市内的普查区根据其基础设施供给得分的百分位数分为五类。图4 展示了洛杉矶的结果。比较传统和环境整合的基础设施供给得分的空间分布(图4a 和 b)揭示了显著差异。在传统方法下排名前 20% 的许多普查区,在环境整合框架下落入后 20%,反之亦然。为了量化这些差异,我们计算了所有类别中两种类型基础设施供给水平之间的重叠百分比(表2)。结果表明一致性有限。例如,在传统方法下被归类为 1 级的普查区中,只有 2.85% 在环境整合方法中仍保持在 1 级,而在传统方法下为 5 级的普查区中,只有不到 1% 在所提出的方法下也被归类为 5 级。值得注意的是,大约 67.21% 在传统供给评估中被归类为 5 级的普查区,在整合框架下落入 1 级。这些差异强调了在评估基础设施不平等时纳入环境考量的重要性。图4c 展示了洛杉矶普查区收入中位数的空间分布,这与环境整合的基础设施供给得分的模式密切吻合。这种关联进一步得到图4d 和 e 中条形图的支持。具体来说,具有较高收入中位数的普查区与较高的环境整合基础设施供给水平相关,而收入与传统基础设施供给之间的关联则呈现相反或不太一致的关系。
两种基础设施供给模式的比较具有重要启示。基础设施供给的终极目标在于促进民生福祉、环境正义与经济繁荣。若仅依据数量指标和主观权重评估基础设施供给,可能导致对城市不同区域基础设施供给状况的误判——那些基础设施更密集但环境风险更高的区域反而可能获得更高的供给评分。此外,传统基础设施供给模式显示,环境危害更严重、环境不公问题更突出的低收入地区,其基础设施供给状况反而更佳。因此,现行评估方法可能导致对基础设施供给的误判,致使基础设施发展策略无法有效促进环境正义与平等。
表2 传统与环境整合基础设施供给等级之间的重叠百分比
在接下来的步骤中,我们考察了不同收入群体间的基础设施供给差异。使用基础设施供给值的中位数,我们将每个城市的普查区分为两组:供给较好的组和供给较差的组。结果(图 5)揭示了基础设施供给组之间在收入方面的显著差异。供给较好组中的普查区具有较高的收入中位数,这在所有五个城市中是一致的。例如,在洛杉矶,基础设施供给较好的普查区的收入中位数比供给较差的普查区高出 27%,这是五个城市中最大的差距。有趣的是,洛杉矶的空间基础设施不平等程度最低,但其在不同收入群体间的基础设施不平等程度却最大。这一结果说明了在空间和收入差异两方面衡量和评估基础设施供给不平等的重要性。我们还根据收入中位数的第 50 个百分位数将每个城市内的普查区分为低收入和高收入组。图6展示了低收入与高收入组的基础设施供给分布。在达拉斯、洛杉矶和底特律,两个收入组之间的差异出现了一致的模式:高收入组具有更高水平的基础设施供给。例如,大约 20% 的高收入普查区显示出低于 0.4 的基础设施供给,而在低收入组中,这一比例约为 40%。这一发现揭示了不同城市在基础设施供给方面收入不平等的不同模式。此外,图6中两条曲线(低收入曲线与高收入曲线)之间的面积为跨城市比较基础设施供给收入不平等的程度提供了量化度量。如图6所示,达拉斯和底特律在基础设施供给方面的收入不平等程度最大,其次是洛杉矶。休斯顿虽然空间不平等程度第二高,但其在基础设施供给方面的收入不平等程度最低。这些结果凸显了在城市间和城市内比较中,同时评估空间和收入不平等的重要性。