宋鵬飛孫 勇季 民張立國鄭 巖
1山東科技大學(xué)測(cè)繪與空間信息學(xué)院,山東 青島,266590
2山東建筑大學(xué)測(cè)繪地理信息學(xué)院,山東 濟(jì)南,250101
3山東省國土測(cè)繪院,山東 濟(jì)南,250000
隨著我國經(jīng)濟(jì)的快速發(fā)展,不斷出現(xiàn)的區(qū)域性大氣污染事件[1],已成為政府和公眾關(guān)注的焦點(diǎn)。目前大氣質(zhì)量監(jiān)測(cè)主要依賴的是國控站點(diǎn),這些站點(diǎn)大多分布在城市,且點(diǎn)位稀疏,通過這些站點(diǎn)的長(zhǎng)時(shí)序監(jiān)測(cè),可為宏觀區(qū)域大氣質(zhì)量變化分析提供實(shí)測(cè)依據(jù),但對(duì)頻發(fā)的局域性或區(qū)域性大氣污染事件的監(jiān)測(cè)則顯得有些不力。而公眾是空氣質(zhì)量的直接感知者[2],對(duì)空氣質(zhì)量的滿意度評(píng)價(jià)則可以成為政府職能部門進(jìn)行大氣環(huán)境治理的基礎(chǔ)[3]。自從人類進(jìn)入互聯(lián)網(wǎng)時(shí)代,人們?cè)诰W(wǎng)絡(luò)上進(jìn)行大氣質(zhì)量的議論和評(píng)價(jià)已經(jīng)成為常態(tài),通過收集公眾對(duì)大氣質(zhì)量投訴的輿情信息,并加以空間化,可有效地反映出區(qū)域性大氣污染狀況分布,這不僅能夠提高民眾的政治參與度[4],而且還能夠?yàn)檎块T對(duì)區(qū)域性大氣污染事件的監(jiān)管與治理提供決策依據(jù)。
關(guān)于空間化方法,國內(nèi)外學(xué)者均進(jìn)行了諸多研究,王明明等[5]利用夜間燈光數(shù)據(jù)進(jìn)行了山東省鄉(xiāng)鎮(zhèn)級(jí)人口數(shù)據(jù)的空間化;尹言軍等[6]利用FME軟件對(duì)浮動(dòng)車的交通數(shù)據(jù)進(jìn)行了空間化。自然語言處理(natural language processing,NLP)技術(shù)也得到了快速發(fā)展,尤其在中文分詞和詞性標(biāo)注等方面[7-9],Matci等[10]將自然語言處理融入到地理編碼中,通過地址分解、錯(cuò)誤修正及基于NLP的地址重組,實(shí)現(xiàn)了地址標(biāo)準(zhǔn)化;許普樂等[11]在大數(shù)據(jù)環(huán)境下,基于貝葉斯推理進(jìn)行了海量中文地名地址的快速匹配。目前關(guān)于大氣質(zhì)量輿情信息的地址匹配和空間定位尚未有相關(guān)文獻(xiàn),本文以山東省環(huán)境保護(hù)廳公眾投訴平臺(tái)爬取的大氣質(zhì)量輿情數(shù)據(jù)為基礎(chǔ),通過使用基于條件隨機(jī)場(chǎng)(conditional random field,CRF)模型的中文分詞和詞性標(biāo)注等方法,進(jìn)行了大眾重點(diǎn)投訴區(qū)域的地址匹配和空間可視化表達(dá),可為山東省從宏觀到中小尺度下的大氣質(zhì)量監(jiān)測(cè)提供一定的參考。
大氣污染輿情數(shù)據(jù)來源于山東省環(huán)境保護(hù)廳公眾投訴平臺(tái)爬取的公眾投訴信息,其中主要包含:投訴的大氣污染類型、投訴時(shí)間、投訴內(nèi)容以及針對(duì)投訴的處理狀態(tài)、答復(fù)情況等,其中,大氣污染類型主要包括了飛塵、惡臭/異味、油煙、機(jī)動(dòng)車/移動(dòng)源、工業(yè)廢氣、煙塵以及其他大氣污染等;投訴內(nèi)容以自然語言形式存在,需要對(duì)其進(jìn)行分析和處理,以提取其中的中文地址信息和大氣污染專題輿情語義信息。
在對(duì)大氣質(zhì)量輿情信息進(jìn)行處理時(shí)主要用到了自然語言處理技術(shù)中的中文文辭和詞性標(biāo)注,主要的算法有隱馬爾科夫模型(hidden Markov model,HMM)、最大熵模型、CRF模型等[12],鑒于CRF模型的性能優(yōu)勢(shì),本文選擇使用CRF模型來進(jìn)行中文分詞,并使用HMM模型對(duì)無法識(shí)別的未登錄詞進(jìn)行標(biāo)注。
1)CRF模型。
CRF模型在進(jìn)行分詞時(shí),不僅能夠統(tǒng)計(jì)某個(gè)詞出現(xiàn)的頻率,而且還將上下文語境也納入考量范圍內(nèi),在對(duì)數(shù)據(jù)中的一些未登錄詞,例如工廠名稱等,具有良好的切分效果。其中最常用的是線性條件隨機(jī)場(chǎng)模型,在隨機(jī)變量X取值為x的條件下,隨機(jī)變量Y取值為y的條件概率[13]。
2)HMM模型。
HMM模型包含一個(gè)可見的狀態(tài)序列和一個(gè)隱藏狀態(tài)序列,這兩個(gè)序列概率相關(guān),并由5個(gè)參數(shù)組成[14],可以用一個(gè)五元組{N,M,η,A,B}表示。其中,N表示隱藏狀態(tài)的數(shù)量,每一個(gè)狀態(tài)的概率可以有確定的值,也可以進(jìn)行分析確定;M表示可見狀態(tài)的數(shù)量,通過訓(xùn)練集獲??;η=ηi表示每一個(gè)隱藏狀態(tài)初始時(shí)刻發(fā)生的概率;A={aij}表示隱藏狀態(tài)的轉(zhuǎn)移矩陣,即從隱藏狀態(tài)1到隱藏狀態(tài)2事件發(fā)生的概率;B={bij}表示混淆矩陣,即在某個(gè)隱藏狀態(tài)的條件下可見狀態(tài)發(fā)生的概率。
在大氣污染空間化分析與評(píng)價(jià)中,需要將公眾輿情數(shù)據(jù)中的地址信息進(jìn)行解析提取,并通過地址匹配方法,實(shí)現(xiàn)空間位置轉(zhuǎn)化,其數(shù)據(jù)處理過程可包括:數(shù)據(jù)預(yù)處理、自然語言處理、詞性提取、地址匹配等。其中,數(shù)據(jù)預(yù)處理包括了內(nèi)容提取和去停用詞等兩個(gè)步驟,自然語言處理包括了中文分詞和詞性標(biāo)注等兩個(gè)過程,如圖1所示。
圖1 大氣輿情數(shù)據(jù)空間化過程Fig.1 Air Public Opinion Data Spatialization Process
數(shù)據(jù)預(yù)處理就是對(duì)公眾投訴的輿情數(shù)據(jù)進(jìn)行內(nèi)容提取及停用詞去除。首先為了便于管理和數(shù)據(jù)讀寫的方便,通過設(shè)計(jì)相應(yīng)的數(shù)據(jù)庫結(jié)構(gòu),將獲取的公眾投訴數(shù)據(jù)轉(zhuǎn)存入數(shù)據(jù)庫,并將包含位置信息的數(shù)據(jù)內(nèi)容以單獨(dú)字段進(jìn)行存儲(chǔ),以提高數(shù)據(jù)分析過程中的讀寫效率,同時(shí)通過去除一些特殊符號(hào)、停用詞等,實(shí)現(xiàn)對(duì)數(shù)據(jù)內(nèi)容的清洗。
借助CRF模型對(duì)公眾投訴內(nèi)容進(jìn)行中文分詞,將分詞結(jié)果在百度詞庫中進(jìn)行字符串匹配,查找詞性,無法識(shí)別成功的詞語既為未登錄詞,緊接著運(yùn)用HMM模型對(duì)其進(jìn)行詞性標(biāo)注。由于同一個(gè)詞在不同的語句中具有多種詞性,并且在不同應(yīng)用領(lǐng)域中也存在諸多未登錄詞,從而造成詞性標(biāo)注存在諸多難點(diǎn),為此,將詞語的詞性劃分為普通名詞、普通動(dòng)詞、代詞、形容詞等24類,如表1所示。為了進(jìn)一步確定專有名稱,又劃分了人名(PER)、地名(LOC)、機(jī)構(gòu)名(ORG)、時(shí)間(TIME)這4類專名詞性,這些詞性分類為自然語言處理過程中的詞性標(biāo)注提供了有力支撐。
表1 詞性標(biāo)注表Tab.1 Part of Speech Tag
詞性標(biāo)注分析完成后,須將其中的地名(LOC)和機(jī)構(gòu)名(ORG)進(jìn)行提取,由于公眾投訴內(nèi)容中可能會(huì)包括工廠污染排放問題,因此提取的工廠名稱會(huì)被標(biāo)注為機(jī)構(gòu)名。詞性提取完成后,須按照提取的地點(diǎn)名稱和機(jī)構(gòu)名稱實(shí)現(xiàn)投訴信息的空間定位,即地址匹配。所謂地址匹配是使用地理編碼將地址信息轉(zhuǎn)為經(jīng)緯度坐標(biāo),并將地址匹配結(jié)果定位到地圖上,通過制作熱力圖實(shí)現(xiàn)大氣污染輿情信息的空間化。地址匹配時(shí),根據(jù)提取的地名和機(jī)構(gòu)名的情況,主要包括以下3種組合情況:①若解析后的詞性只有地名沒有機(jī)構(gòu)名,則只對(duì)地名進(jìn)行地址匹配;②若解析后的詞性只有機(jī)構(gòu)名沒有地名,則只對(duì)機(jī)構(gòu)名進(jìn)行地址匹配;③若既有地名也有機(jī)構(gòu)名,則對(duì)機(jī)構(gòu)名和地名進(jìn)行判斷:機(jī)構(gòu)名中如果包含地名,則選擇機(jī)構(gòu)名進(jìn)行地址匹配,如果不包含則通過“地名+機(jī)構(gòu)名”的方法進(jìn)行地址匹配。
本文選取了山東省環(huán)境保護(hù)廳公眾投訴平臺(tái)上的2017年2月到2018年10月共5 000條公眾投訴 信息,按照前述大氣質(zhì)量輿情信息空間化方法對(duì)這些數(shù)據(jù)進(jìn)行了處理和分析,以區(qū)縣為單元進(jìn)行了統(tǒng)計(jì),并運(yùn)用GIS的核密度分析功能,制作了山東省大氣污染投訴熱力分布圖,通過空間化結(jié)果可以看出,公眾投訴的重點(diǎn)區(qū)域主要是淄博、濰坊、濟(jì)南、萊蕪以及棗莊等地市,東部沿海地區(qū)的總體情況較好,但是也有一些公眾投訴比較集中的地方,如青島、煙臺(tái)等地市的市區(qū)范圍。
為了驗(yàn)證輿情空間化分析結(jié)果與權(quán)威機(jī)構(gòu)或部門發(fā)布數(shù)據(jù)的一致性,本文獲取了山東省生態(tài)環(huán)境廳發(fā)布的2017年山東省17地市空氣質(zhì)量排名(見表2)和山東省2018年4月-10月綜合空氣指數(shù)排名(見圖2),從與表2、圖2的對(duì)比中可以看出,公眾輿情數(shù)據(jù)分析結(jié)果和權(quán)威機(jī)構(gòu)發(fā)布的結(jié)果基本一致,只有魯西北和魯西南地區(qū)的情況與權(quán)威機(jī)構(gòu)發(fā)布的數(shù)據(jù)有所偏差,其原因可能與當(dāng)?shù)毓姷木S權(quán)意識(shí)和地區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r有關(guān)。
表2 2017年山東省各市空氣質(zhì)量排名Tab.2 Air Quality Ranking of Cities in Shandong Province in 2017
圖2 山東省2018年4月-10月綜合空氣指數(shù)排名Fig.2 Shandong Province Comprehensive Air Index Rankings from April to October 2018
根據(jù)公眾投訴數(shù)據(jù)的投訴類別分析,公眾投訴內(nèi)容主要集中在工礦企業(yè)的廢氣排放,尤其是一些空氣質(zhì)量較差的城市,廢氣排放占很大一部分比重,如投訴比較嚴(yán)重的淄博市。圖3為從山東省生態(tài)環(huán)境廳獲取的與公眾投訴輿情數(shù)據(jù)時(shí)間同步的淄博市空氣質(zhì)量綜合指數(shù)(air quality index,AQI)的月際變化趨勢(shì)數(shù)據(jù),通過圖3可以看出,淄博市空氣質(zhì)量指數(shù)呈現(xiàn)一定的周期性變化,尤其在12月份致次年的1月份,大氣污染最為嚴(yán)重,通過與公眾投訴數(shù)據(jù)的對(duì)比分析,也反映了公眾投訴情況在這個(gè)期間也最為集中。
圖3 淄博市2017年2月-2018年10月空氣質(zhì)量數(shù)據(jù)圖Fig.3 Zibo City Air Quality Data Map from February 2017 to October 2018
另外,國家發(fā)布的各地市的空氣質(zhì)量狀況數(shù)據(jù)大多來自于國控監(jiān)測(cè)站點(diǎn),這些站點(diǎn)分布相對(duì)稀疏,因而針對(duì)一些局域性大氣污染事件無法有效地發(fā)現(xiàn)。如圖4所示,煙臺(tái)市的監(jiān)測(cè)站點(diǎn)主要分布在東北部沿海地區(qū),這些站點(diǎn)監(jiān)測(cè)的煙臺(tái)市總體城市空氣質(zhì)量狀況在山東省排名第2,全國排名123。而從圖2煙臺(tái)區(qū)域可以看出有投訴集中分布的情況,并且在萊州有化工污染和粉塵污染投訴較為集中的情形,這說明當(dāng)?shù)卮嬖谄髽I(yè)非法排放有毒有害氣體和非法采礦事件的發(fā)生。因此,通過將公眾投訴的輿情信息進(jìn)行空間化,可有效反映較小時(shí)空尺度下的區(qū)域性大氣污染狀況,可實(shí)現(xiàn)對(duì)國控監(jiān)測(cè)站點(diǎn)監(jiān)測(cè)結(jié)果的強(qiáng)有力補(bǔ)充。
圖4 煙臺(tái)市空氣質(zhì)量監(jiān)測(cè)站點(diǎn)分布Fig.4 Distribution of Air Quality Monitoring Stations in Yantai City
針對(duì)國控監(jiān)測(cè)站點(diǎn)無法有效監(jiān)測(cè)較小時(shí)空尺度下的區(qū)域性大氣污染事件,本文提出了基于自然語言處理的大氣質(zhì)量輿情數(shù)據(jù)的空間化方法,通過對(duì)輿情數(shù)據(jù)進(jìn)行中文分詞、詞性標(biāo)注、地址匹配等處理過程,以熱力圖或核密度圖的方式實(shí)現(xiàn)了公眾投訴數(shù)據(jù)的空間定位與轉(zhuǎn)化,通過進(jìn)一步與國家權(quán)威部門發(fā)布的污染結(jié)果數(shù)據(jù)的對(duì)比分析,表明本文提出的方法能夠從更細(xì)尺度上實(shí)現(xiàn)對(duì)大氣污染狀況的動(dòng)態(tài)監(jiān)測(cè),能夠有效提高公眾對(duì)大氣質(zhì)量監(jiān)控的參與度,可為國控監(jiān)測(cè)站點(diǎn)的大氣環(huán)境監(jiān)測(cè)提供有益的補(bǔ)充。