室內(nèi)環(huán)境中的細(xì)顆粒物(PM2.5)污染作為全球重要的公共衛(wèi)生問題之一,由于其高度非線性和復(fù)雜性而面臨重大挑戰(zhàn)。因?yàn)榕腼?、吸煙、清潔等揚(yáng)塵行為都會(huì)引起室內(nèi)PM2.5濃度的顯著波動(dòng)。但是,很難進(jìn)入私人空間收集足夠的來(lái)自家庭的細(xì)顆粒物污染相關(guān)數(shù)據(jù)。囿于輸入數(shù)據(jù)和信息的局限,傳統(tǒng)的質(zhì)量平衡原理計(jì)算模型難以預(yù)測(cè)未來(lái)的室內(nèi)PM2.5濃度變化趨勢(shì)。機(jī)器學(xué)習(xí)技術(shù)的最新進(jìn)展為城市計(jì)算提供了新的潛力,成為傳統(tǒng)方法的有益補(bǔ)充。其中,隨機(jī)森林和各種人工神經(jīng)網(wǎng)絡(luò)及其變體方法已成為最受歡迎和廣泛使用的技術(shù)。然而,現(xiàn)有的許多“黑箱”模型在可靠性、泛化性和可解釋性方面仍未闡明清楚。
近日,清華大學(xué)建筑學(xué)院趙彬教授課題組與合作者的最新研究通過多機(jī)器學(xué)習(xí)模型的比較、驗(yàn)證和歸因的全面評(píng)估框架(圖1),證明了貝葉斯神經(jīng)網(wǎng)絡(luò)模型(BNN)在識(shí)別城市住宅PM2.5暴露的人口水平差異方面具有顯著優(yōu)勢(shì)。研究選取了高斯過程回歸(GPR)、分位數(shù)隨機(jī)森林(QRF)和BNN三種模型進(jìn)行對(duì)比。這三種方法是用于區(qū)間預(yù)測(cè)的代表性概率機(jī)器學(xué)習(xí)模型,且三種模型的結(jié)構(gòu)復(fù)雜性以及黑箱程度逐步增加,一定程度代表了從“淺”到“深”的方法論思想。此外,通過獨(dú)立數(shù)據(jù)源驗(yàn)證其泛化性,并使用SHapley加性解釋(SHAP)方法對(duì)這些模型進(jìn)行進(jìn)一步分析,以量化其多因素貢獻(xiàn)并闡明模型性能的差異。
圖1 機(jī)器學(xué)習(xí)模型驗(yàn)證-對(duì)比-歸因的評(píng)價(jià)框架。 GPR: 高斯過程回歸; QRF: 分位數(shù)隨機(jī)森林; BNN: 貝葉斯神經(jīng)網(wǎng)絡(luò). MAE: 平均絕對(duì)誤差 (μg/m3); RMSE: 均方根誤差 (μg/m3); R2:決定系數(shù). SHAP: SHapley加性解釋方法。
研究發(fā)現(xiàn)BNN模型在保證這個(gè)區(qū)間的濃度預(yù)測(cè)準(zhǔn)確的前提下,比QRF和GPR模型捕捉峰值濃度方面表現(xiàn)更為卓越,尤其是在樣本量有限的情況下??偨Y(jié)三個(gè)模型在兩個(gè)數(shù)據(jù)源上的性能指標(biāo)對(duì)比(表1),發(fā)現(xiàn)GPR模型對(duì)測(cè)量數(shù)據(jù)點(diǎn)的覆蓋不足,無(wú)法有效捕捉某一天城市內(nèi)不同住宅之間的日均PM2.5濃度變化。QRF模型在新數(shù)據(jù)集上的表現(xiàn)較差,數(shù)據(jù)源Ⅱ中的R2、MAE和RMSE(分別為0.24、20.0 μg/m3和31.4 μg/m3),顯著低于數(shù)據(jù)源Ⅰ訓(xùn)練集中的相應(yīng)值(分別為0.95、3.09 μg/m3和4.71 μg/m3)。這種顯著的性能差異表明,QRF模型在訓(xùn)練集上的優(yōu)越表現(xiàn)可能源于過擬合問題。而BNN模型在均值擬合和區(qū)間覆蓋方面均表現(xiàn)優(yōu)異,展現(xiàn)了良好的泛化能力。因此,綜合考慮模型在兩個(gè)數(shù)據(jù)集上的一致性和魯棒性,BNN模型被確定為最優(yōu)模型,能更準(zhǔn)確地反映數(shù)據(jù)的真實(shí)波動(dòng)。
進(jìn)一步,該研究采用SHAP方法闡明了不同輸入因素對(duì)三種模型預(yù)測(cè)的總體影響(圖2)。結(jié)果表明,三種模型之間的差異可主要?dú)w因于GDP和人口的貢獻(xiàn)不同。具體而言,GPR模型主要將住宅PM2.5濃度與室外PM2.5濃度和室外氣象條件關(guān)聯(lián),分別占總貢獻(xiàn)的56%和27%。相比之下,BNN和QRF模型中GDP和人口這兩個(gè)輸入因素的貢獻(xiàn)顯著增加:GDP在對(duì)BNN和QRF模型的貢獻(xiàn)中分別排名第二(15%)和第四(8%),而人口在這兩種模型中的貢獻(xiàn)排名第三(13%)和第二(17%)。這表明,要有效捕捉城市層面住宅PM2.5濃度的復(fù)雜變化,除了室外濃度和氣象特征外,還需考慮社會(huì)經(jīng)濟(jì)因素。
圖2 輸入因素對(duì)BNN、QRF和GPR模型的貢獻(xiàn)評(píng)估。(a) 特征的重要性排序;(b) 數(shù)據(jù)源I中各個(gè)樣本的SHAP值分布。正SHAP值表示該特征增加了預(yù)測(cè)結(jié)果,而負(fù)值表示預(yù)測(cè)結(jié)果減少。顏色漸變表示數(shù)值特征的實(shí)際值。 BNN: 貝葉斯神經(jīng)網(wǎng)絡(luò); QRF: 分位數(shù)隨機(jī)森林; GPR: 高斯過程回歸。PM2.5_out: 室外日均 PM2.5濃度;Tair: 室外日均溫度; RHout: 室外日均濕度;GDP:國(guó)內(nèi)生產(chǎn)總值。
總體而言,數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法已經(jīng)迅速發(fā)展成為一種與傳統(tǒng)方法并列的重要工具。盡管初期常因其黑箱特性而受到質(zhì)疑,但隨著未來(lái)對(duì)數(shù)據(jù)的重視、搜集和不斷完善,以及先進(jìn)可解釋方法的結(jié)合,其可靠性和應(yīng)用范圍必將進(jìn)一步增強(qiáng)。本研究該框架能夠?qū)C(jī)器學(xué)習(xí)模型進(jìn)行定性和定量解釋,從而為未來(lái)研究闡明城市特征與室內(nèi)空氣污染物之間復(fù)雜的非線性關(guān)系提供有價(jià)值的參考。
該項(xiàng)工作于4月7日以“大時(shí)空尺度下室內(nèi)PM2.5濃度預(yù)測(cè)的機(jī)器學(xué)習(xí)模型對(duì)比與評(píng)估”(Comparison and evaluation of machine learning models for predicting indoor PM2.5 concentrations on a large spatiotemporal scale)為題在線發(fā)表于《建筑模擬》(Building Simulation)。清華大學(xué)建筑學(xué)院建筑技術(shù)科學(xué)系2020級(jí)博士研究生代慧為該論文的第一作者,趙彬教授為通訊作者,北京航空航天大學(xué)董兆敏教授和深圳市建筑科學(xué)研究院股份有限公司的高峣高級(jí)工程師、任俊教授級(jí)高級(jí)工程師為合作作者。
本研究得到了清華大學(xué)恒隆房地產(chǎn)研究中心的資助。
文章鏈接:
https://doi.org/10.1007/s12273-025-1276-0
聲明:本文系轉(zhuǎn)載自互聯(lián)網(wǎng),請(qǐng)讀者僅作參考,并自行核實(shí)相關(guān)內(nèi)容。若對(duì)該稿件內(nèi)容有任何疑問或質(zhì)疑,請(qǐng)立即與鐵甲網(wǎng)聯(lián)系,本網(wǎng)將迅速給您回應(yīng)并做處理,再次感謝您的閱讀與關(guān)注。
不想錯(cuò)過新鮮資訊?
微信"掃一掃"