白玲瑋 魏莉
當(dāng)前,中國(guó)面臨嚴(yán)重的環(huán)境污染問題,其中空氣質(zhì)量問題日益突出,且已經(jīng)嚴(yán)重影響到人們的身體健康、生活水平甚至國(guó)民經(jīng)濟(jì)的發(fā)展??諝赓|(zhì)量的定性、定量分析能夠幫助公眾了解現(xiàn)狀,為政府制定環(huán)境政策并采取有效措施提供科學(xué)依據(jù),從而達(dá)到進(jìn)一步改善空氣質(zhì)量的目的。而且空氣質(zhì)量問題一直以來都是微博熱搜話題。根據(jù)LDA網(wǎng)絡(luò)輿情,從微博文本中提出主要觀點(diǎn),可以有效地?cái)U(kuò)大個(gè)人的思想和認(rèn)知,同時(shí)為輿論監(jiān)督和指導(dǎo)提供了堅(jiān)實(shí)的基礎(chǔ)。
一、實(shí)證分析
(一)全國(guó)主要城市2016年空氣質(zhì)量分析
首先,根據(jù)2016年1月1日至2017年1月1日全國(guó)367個(gè)城市平均AQI值繪制折線圖??梢钥闯?,1月份平均AQI較高,2月到10月總體呈下降趨勢(shì),空氣質(zhì)量相對(duì)較好。11月份到12月份急劇上升,達(dá)到中度污染甚至重污染,這可能是受到北方地區(qū)進(jìn)入供暖期后,煤炭等能源的燃燒增多的影響。緊接著研究發(fā)現(xiàn)我國(guó)六項(xiàng)空氣污染物指標(biāo)中首要污染物為PM2.5,其次為 、PM10、 以及復(fù)合污染物。最后,收集2014年、2015年和2016年中國(guó)五大主要城市(北京、上海、廣州、沈陽(yáng)、成都)的PM2.5每小時(shí)觀測(cè)值。可知從2014 年到20016年,五個(gè)主要城市的PM2.5 觀測(cè)值均有所減小,且北京下降幅度最大。總體來看,我國(guó)PM2.5 治理成效明顯。
(二)基于主題模型的新浪微博數(shù)據(jù)輿情分析
本文數(shù)據(jù)來自新浪微博用戶“人民日?qǐng)?bào)”和“環(huán)保北京”。
1.語料預(yù)處理。很多用戶的微博內(nèi)容字?jǐn)?shù)較少,且部分含有大量無意義的信息,因此需要對(duì)數(shù)據(jù)進(jìn)行篩選。本文篩選標(biāo)準(zhǔn)為:刪除字?jǐn)?shù)少于兩個(gè)的、帶有廣告等與話題無關(guān)的微博,保留信息量較大的原創(chuàng)微博。篩選過后,對(duì)得到的470條微博數(shù)據(jù)進(jìn)行預(yù)處理,利用R軟件進(jìn)行分詞。首先提取名詞、動(dòng)詞等具有實(shí)際意義的詞語,再去除標(biāo)點(diǎn)、停用詞及數(shù)字,構(gòu)建詞文檔矩陣,矩陣中共包括22305個(gè)分詞。
2.結(jié)果分析。根據(jù)得到的詞文檔矩陣,初步可以看出出現(xiàn)頻率較高的詞語有口罩、治理、北京、污染等。其中,口罩是出現(xiàn)頻率最高的詞語,以及防毒面具等關(guān)鍵詞說明在空氣質(zhì)量問題上人們對(duì)空氣質(zhì)量帶來的個(gè)人健康問題最為重視,尤其在2016年末,空氣污染最為嚴(yán)重的時(shí)候,口罩在熱點(diǎn)話題中的位置居高不下。還可以看出公眾對(duì)政府治理措施的高度關(guān)注,認(rèn)為政府是否作為、監(jiān)管力度是否足夠在此事件中的影響很大。此外,關(guān)鍵詞房?jī)r(jià)值得注意,有國(guó)外學(xué)者認(rèn)為房地產(chǎn)價(jià)格與空氣質(zhì)量有一定的相關(guān)關(guān)系,但是國(guó)內(nèi)此方面的研究還有待深入。
然后使用R軟件中的ida程序包進(jìn)行訓(xùn)練,使用快速壓縮Gibbs抽樣方法。主題個(gè)數(shù)k對(duì)LDA模型的最終結(jié)果影響很大,經(jīng)過反復(fù)實(shí)驗(yàn)比較和判斷,最終確定主題個(gè)數(shù)為5,參數(shù) 和 的初始值為0和1。實(shí)驗(yàn)結(jié)果如下:
由表1可知,每個(gè)topic的關(guān)鍵詞都能較為清楚地反映主題的內(nèi)容。通過對(duì)比LDA模型提取的熱點(diǎn)主題與用于建模的470條微博內(nèi)容,可以認(rèn)為L(zhǎng)DA模型在提取“空氣質(zhì)量”熱點(diǎn)話題主題的應(yīng)用上有較好的效果。5個(gè)Topic的關(guān)鍵詞反映的主題內(nèi)容表明公眾對(duì)空氣質(zhì)量、身體健康、情緒狀態(tài)、污染地區(qū)、治理措施的關(guān)注。綜上所述,LDA模型在空氣質(zhì)量這一熱點(diǎn)微博主題挖掘中呈現(xiàn)了較好的效果,但是仍需進(jìn)一步的完善和改進(jìn)。
二、結(jié)語
從整體上看,2016年我國(guó)空氣質(zhì)量呈現(xiàn)較為良好狀態(tài),在時(shí)空上有較為明顯的分布特征,由內(nèi)陸向沿海地區(qū)、由北方向南方空氣質(zhì)量呈變好趨勢(shì),夏天空氣質(zhì)量相對(duì)較好,且高污染城市易對(duì)周邊地區(qū)產(chǎn)生影響。第四季度特別是冬季的空氣質(zhì)量較差,且易出現(xiàn)極端污染情況。我國(guó)的首要污染物為PM2.5,2016年在東北、華北地區(qū)對(duì)PM2.5的治理效果顯著,由于原本空氣質(zhì)量污染嚴(yán)重,故采取治理措施后效果顯著。另外,LDA模型在空氣質(zhì)量微博評(píng)論主題挖掘這一實(shí)際問題中呈現(xiàn)了較好的效果。模型挖掘得到公眾對(duì)于空氣質(zhì)量這一熱點(diǎn)主題的關(guān)注主要表現(xiàn)在空氣質(zhì)量情況、污染嚴(yán)重城市、自我防護(hù)措施等方面。(作者單位為山西財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院)