巫誠誠,單 飛,蔣雨波,陳大偉,莫方旭
(1.東南大學 交通學院,江蘇 南京 211189;2.河南交通發(fā)展研究院有限公司,河南 鄭州 451162)
“四好農(nóng)村路”即建好、管好、護好、運營好農(nóng)村公路,自2014年由中共中央總書記習近平提出,2015年交通運輸部進一步形成具體意見,并計劃于2020年實現(xiàn)這一總目標,從而進一步消除農(nóng)村發(fā)展瓶頸、推動農(nóng)路管養(yǎng)運協(xié)調(diào)發(fā)展。隨著全國各省市的建設推進和目標年的到來,定量化評估四好農(nóng)村路建設落實效果具有重要的現(xiàn)實意義。既有評估模型更多地依賴于地方上報數(shù)據(jù)及實際建設情況進行評估,存在反饋時間長、耗用人力物力大等問題,且評估結(jié)果難以反映出廣大人民群眾的實際支持情況。此外,由于不同地區(qū)統(tǒng)計口徑不一,統(tǒng)計渠道存在差異,也使得不同地區(qū)間的評估對比存在困難。因此,隨著信息化技術(shù)的發(fā)展,從大數(shù)據(jù)角度進行統(tǒng)一化的評估數(shù)據(jù)采集與評估方法建立,具有重要意義。
國內(nèi)外學者針對農(nóng)村公路的評估研究大多集中在農(nóng)村公路的安全性、技術(shù)性及發(fā)展水平等方面。安全性評估主要從道路設計、道路線性、路況等方面確定農(nóng)村道路安全性的評價指標[1-4]。技術(shù)性評估從路網(wǎng)連通性、路網(wǎng)密度及服務水平等角度出發(fā)制定評估指標體系[5-7]。農(nóng)村公路發(fā)展水平評估則側(cè)重考慮農(nóng)村公路建設、管理、養(yǎng)護、運營中某階段發(fā)展情況或建管養(yǎng)運全方面的綜合評估[8-10],如朱雨晴[9]基于“values-objectives-criteria”的邏輯理論研究,引入因子分析方法確立了具有針對性的四好農(nóng)村路發(fā)展水平指標體系。另外也有一些學者對建設農(nóng)村公路的社會經(jīng)濟效益展開了研究[11-13],如馮震宇[12]研究了農(nóng)村公路建設對于農(nóng)村區(qū)域生活水平、城鄉(xiāng)結(jié)構(gòu)改善等方面的影響,確定了農(nóng)村區(qū)域經(jīng)濟增長表現(xiàn)的若干指標。然而,目前對于農(nóng)村公路建設及運營的社會影響、社會評價的評估與對比的研究極少涉及。原因在于公路作為交通聯(lián)通承載者,其實際使用群體數(shù)量龐大且分布較廣,難以通過問詢調(diào)查等方式開展數(shù)據(jù)采集。單條公路作為網(wǎng)絡聯(lián)通的一部分,其社會評價也難以單獨評估。然而,四好農(nóng)村公路在道路網(wǎng)中承擔末端連接功能,其使用及收益群體相對穩(wěn)定,而其建設運營帶來的改善效用相對明確。因此,對四好農(nóng)村公路的社會評價進行研究,兼具可行性與重要性。
在農(nóng)村公路評估方法方面,國外學者提出了灰色評價法、模糊決策模型、多元回歸模型等方法[14-17]。而國內(nèi)學者常用的方法有模糊綜合評價法、層次分析法、物元法等[1,4,7],通過多級指標的建立與量化評分,最終實現(xiàn)公路建設和運營評估,其評估數(shù)據(jù)主要來源于公路建設和運管部門的實際采集數(shù)據(jù)。隨著信息化虛擬社交的不斷發(fā)展,微博等通過公開社會信息締結(jié)交流的新型社交平臺愈發(fā)普及[18],使得通過社交平臺采集四好農(nóng)村公路的社會評價及社會影響的相關(guān)量化指標數(shù)據(jù)成為可能。目前已有相關(guān)研究通過公共社交平臺的信息采集及挖掘?qū)崿F(xiàn)網(wǎng)絡輿情社會影響力以及參與者情感評估[19-22]。如馮小東等[19]基于微博采集數(shù)據(jù)和文本挖掘方法,從公眾視角分析了政務微博的傳播效果,發(fā)現(xiàn)發(fā)布機構(gòu)的社會資本、社會信任和行為習慣對其傳播效果具有顯著影響;段堯清等[20]則通過對政府新聞的文本挖掘,構(gòu)建了政府態(tài)度快速識別評估方法。文本挖掘方法目前在交通領(lǐng)域主要用于交通參與者的情感挖掘,如崔健等[23]通過抓取并提取出交通主題相關(guān)微博,以分析交通狀況,評估交通參與人的情感狀態(tài)。盡管目前的相關(guān)研究較少涉及農(nóng)村公路建設的社會化評估,但采用微博社交平臺進行社會效用的評估,可實現(xiàn)對多個地區(qū)的一致性評估,具有明顯的研究潛力。
為此,本研究通過采集微博平臺內(nèi)的四好農(nóng)村公路相關(guān)信息,在文本挖掘的基礎(chǔ)上實現(xiàn)2個目的:(1)構(gòu)建評估四好農(nóng)路建設社會反響的快速評估方法;(2)實現(xiàn)不同區(qū)域四好農(nóng)路建設特征的定量化橫向?qū)Ρ?。同時,以河南省四好農(nóng)村公路建設為例進行相應的案例應用。本研究有助于從第三方角度便捷、快速地對四好農(nóng)村公路建設情況進行定量化評估,進而為反映社會大眾的群體化情感、推動農(nóng)路建管養(yǎng)運協(xié)調(diào)發(fā)展、消除農(nóng)村發(fā)展瓶頸提供定量化參考。
本研究分析數(shù)據(jù)來源為新浪微博平臺公開信息。具體而言,以“四好農(nóng)村公路”為關(guān)鍵詞,通過對1段時間內(nèi)(不少于30 d)發(fā)布內(nèi)容及相關(guān)信息進行采集,從而獲得評估的基礎(chǔ)數(shù)據(jù)。具體采集信息內(nèi)容包括:微博發(fā)布者、微博內(nèi)容、轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)、發(fā)布時間共計7個內(nèi)容。信息采集結(jié)果示例如表1所示。
表1 信息采集示例Tab.1 Example of information acquisition
文本挖掘是一種分析非結(jié)構(gòu)化文本數(shù)據(jù),并從中提取有用信息的數(shù)據(jù)分析方法,在描述分析、預測分析中均適用。文本挖掘的子任務包括:信息提取、詞頻分析、文本分類/聚類和關(guān)聯(lián)規(guī)則挖掘4部分,具體內(nèi)容如下。
(1)分詞與信息提?。簩Ψ墙Y(jié)構(gòu)化文本數(shù)據(jù)進行分詞,并通過剔除詞庫中的無用詞匯(如“的”、“正在”、“和”等)及特殊字符、數(shù)字,從而自大量的文本信息中獲得相應的關(guān)鍵詞。分詞結(jié)果的優(yōu)劣將直接影響到文本挖掘的準確程度。
(2)詞頻分析與降維:對分詞獲得的關(guān)鍵詞進行頻率統(tǒng)計分析。由于文本中信息繁多,提取的關(guān)鍵詞數(shù)量多,分析對象的特征維度也相對較高,運用條形圖和詞云進行詞頻分析是文本挖掘的基礎(chǔ)。經(jīng)過詞頻分析可對低頻、冗余詞進行剔除,進一步降低分析對象的特征維度。
(3)文本分類/聚類:文本分類即在事先定義主體類別的基礎(chǔ)上,通過機器學習的方法將未標明類別的文本映射至1類或多類中的方法。常用的分類算法包括樸素貝葉斯分類、支持向量機、后向傳播分類等。相對文本分類,文本聚類方法不需要預先定義主題類別,而是通過聚類學習算法進行自動類別識別,是一種無指導的機器學習方法,常用的文本聚類方法包括層次凝聚法和K均值聚類方法。
(4)可視化:通過多類數(shù)據(jù)可視化方法,對文本挖掘的內(nèi)容進行定量化內(nèi)容的圖像展示與分析。常用的可視化方法包括文字云、熱力圖、聚類圖、相關(guān)性分析圖等。
(5)特征識別:基于文本挖掘的定量化分析,對其反映出的特定對象的相關(guān)特征進行歸類和識別。
文本挖掘方法內(nèi)容眾多,可廣泛應用于各類研究。本研究主要采用文本挖掘進行農(nóng)村公路社會化反響的定量化數(shù)據(jù)獲取,為評估模型的建立奠定數(shù)據(jù)基礎(chǔ)。
在獲取模型文本定量化數(shù)據(jù)并借鑒綜合評估法思路的基礎(chǔ)上,建立多維度定量化指標,并通過指標權(quán)重的分配,實現(xiàn)對四好農(nóng)村公路建設工作的社會化反響評估。模型總體框架如圖1所示。
圖1 評估模型總體框架Fig.1 Overall framework of evaluation model
模型共包含社會響應度、社會曝光度和農(nóng)路建設度3個維度共計11個指標。具體各指標含義及其挖掘結(jié)果的定量化方法如表2所示。
表2 多維度評估指標及其量化Tab.2 Multidimensional evaluation indications and quantification
采用文本挖掘方法對11個評估指標進行定量數(shù)據(jù)挖掘后,采取加權(quán)平均方式對評估指標集計化處理,以獲得最終的評估得分。為保障指標權(quán)重的準確性與公正性,借鑒綜合評估法,采取專家評分法形成相應的權(quán)重矩陣,對若干名專家進行調(diào)研,得到各個專家對指標相對重要性評分結(jié)果,以獲得最終評估得分。
河南省作為重要的農(nóng)業(yè)大省,在四好農(nóng)村路的建設中成就卓然,其率先出臺了《推進“四好農(nóng)村路”建設工作方案》等一系列文件,成功創(chuàng)建國家級四好農(nóng)村路示范縣6個,位居全國第1位。截至2019年底,河南省新建和改擴建農(nóng)村道路10 200 km,全省1 806個鄉(xiāng)鎮(zhèn)和46 098個行政村通客車率達到100%,已有65個縣基本完成20戶以上自然村通硬化路任務,新增逾10 000個自然村實現(xiàn)通硬化路,全省自然村通硬化路率達到75%以上。2020年完成15 000個自然村通硬化路的目標,全省20戶以上自然村通硬化路率達到85%以上。本研究以河南省為例,基于文本挖掘方法獲取新浪微博平臺中河南省四好農(nóng)路建設社會化反響的相關(guān)數(shù)據(jù),以實現(xiàn)定量化評估與特征識別。同時,以相同方法挖掘江蘇省四好農(nóng)村路的相應數(shù)據(jù)進行評估,以實現(xiàn)案例間的橫向?qū)Ρ取?/p>
在新浪微博平臺的公開信息中,分別以河南省、江蘇省及其各自下屬地區(qū)與四好農(nóng)村路建設相關(guān)的詞匯作為關(guān)鍵詞,對平臺中2020-04-01至2020- 06-01間的相應微博內(nèi)容和數(shù)據(jù)進行采集,并剔除無地名微博內(nèi)容、重復內(nèi)容及廣告內(nèi)容。
2個月的時間段內(nèi)累計共采集相關(guān)微博278條,通過地名映射進行地區(qū)劃分,得到河南省相關(guān)微博91條,江蘇省相關(guān)微博187條,其具體特征情況如下。
關(guān)鍵詞詞頻分析結(jié)果如圖2所示。直觀可見,河南省最高頻關(guān)鍵詞為“示范”,其更著重于示范縣建設情況的展示,而江蘇省最高頻關(guān)鍵詞為“小康”,更強調(diào)于四好農(nóng)村路建設的成效。從高頻關(guān)鍵詞分析可知,河南省發(fā)文內(nèi)容著重于建設成果與經(jīng)濟拉動,而江蘇省發(fā)文內(nèi)容則更重視建設目的及經(jīng)濟建設類型(如旅游、生態(tài)、產(chǎn)業(yè)、品牌等)。在發(fā)文主體上,“江蘇”詞頻位居第二,“河南”詞頻位居第六,可見河南省發(fā)文內(nèi)容更強調(diào)示范縣及其他城鄉(xiāng)的成果,而江蘇省更突出其省份的整體面貌。
圖2 關(guān)鍵詞詞頻分析結(jié)果Fig.2 Analysis result of frequencies of key words
圖3 發(fā)文數(shù)、點贊數(shù)、評論數(shù)的趨勢Fig.3 Trends of document issuing, approval and comment numbers
對2020-04-01至2020-05-27的發(fā)文反饋情況(點贊、評論及轉(zhuǎn)發(fā)),以周為單位進行統(tǒng)計,得到2個省發(fā)文反饋情況的時間趨勢圖,如圖3所示??傮w可見,2個省的發(fā)文點贊數(shù)基本高于轉(zhuǎn)發(fā)及評論數(shù),且隨著時間的推移呈現(xiàn)上升趨勢。上升趨勢可能與新冠疫情的影響與復工進度存在關(guān)聯(lián)性。江蘇省3類反饋數(shù)均高于河南省,可見江蘇省社會反饋度更高,但江蘇省反饋趨勢相對平緩,而河南省則呈現(xiàn)更為明顯的上升趨勢。由于微博平臺的社會反饋存在一定的教育經(jīng)濟門檻,即經(jīng)濟發(fā)達、受教育程度更高的地區(qū)可能具有更高的微博參與度,因此可能影響了河南省與江蘇省的總體頻率差異。
圖4 內(nèi)容分類Fig.4 Content classification
通過對發(fā)文關(guān)鍵詞進行文本分類,分別統(tǒng)計3類文本的出現(xiàn)頻率:(1)政績類,即涉及體現(xiàn)政績的文本內(nèi)容,如“示范、試點、領(lǐng)先、第一、XX率等”;(2)建設類,即涉及農(nóng)路建設情況的文本內(nèi)容,如“建成、開工、硬化、通車等”;(3)經(jīng)濟類,即涉及經(jīng)濟建設類文本內(nèi)容,如“產(chǎn)業(yè)、GDP、拉動、種植、養(yǎng)殖等”,最終統(tǒng)計結(jié)果如圖4所示。分析3類文本的占比可知,河南省發(fā)布的建設類文本最多,占總文本量的44%;江蘇省發(fā)布的文本內(nèi)容則以經(jīng)濟類為主,占總量的43%。通過文本內(nèi)容也可印證河南省四好農(nóng)村路更著重于工程建設進展,而江蘇省更側(cè)重于經(jīng)濟建設進展,這也同它們當前的經(jīng)濟發(fā)展及農(nóng)村建設進度相匹配:河南省當前的重點工作在于建設,實現(xiàn)村村硬化路通達;江蘇省則在于農(nóng)路的運營、養(yǎng)護及借助較為完善的交通設施,進一步通過產(chǎn)業(yè)化拉動村級經(jīng)濟的發(fā)展。
基于文本挖掘的數(shù)據(jù)結(jié)果,應用本研究所建立的評估模型,可分別得到河南省、江蘇省四好農(nóng)路建設的社會化反響評估結(jié)果,如表3所示。其中,各指標權(quán)重的確定運用專家打分法通過依托項目在前期的調(diào)研會中咨詢相關(guān)建設規(guī)劃人員進行打分統(tǒng)計獲得。由于標準化后指標值的理論最大值為1.0,同時各權(quán)重加總值為1.0,因此其集計化總分應在[0,1]區(qū)間內(nèi)。為提升評估結(jié)果的直觀性,本研究采用百分制評分,即評估所得的總分直接乘以100,從而保障各評估對象的得分位于[0.100]區(qū)間。
表3 社會化評估指標計算值及評估結(jié)果Tab.3 values and evaluation result of socialization evaluation indicators
總體上看,江蘇省社會化評估得分高于河南省,其四好農(nóng)村路建設工作中,具有更良性的“開展工作-媒體曝光-社會反饋”循環(huán)。從單項得分來看,河南省四好農(nóng)村路建設最大的優(yōu)勢在于建設度較高,其建設穩(wěn)定度、持續(xù)度、離散度均高于江蘇省,能夠更為持續(xù)、穩(wěn)定地通過媒體反映出建設工作的進展。但河南省對其建設進展的反映更多地集中于關(guān)鍵性的地區(qū)(洛陽市、南陽市、安陽市、焦作市、平頂山市、漯河市等),導致其媒體反映出的建設密度低于江蘇省。相對而言,由于江蘇省經(jīng)濟發(fā)展水平更高,其四好農(nóng)村路工作傾向于管理、養(yǎng)護、運營,因此在農(nóng)路建設工作的媒體反映上低于河南省,但由于江蘇省管養(yǎng)運的經(jīng)濟投入相對高于建設,因此其工作更多地體現(xiàn)出“遍地開花”的局面,反映出的建設密度更高。
在社會曝光維度上,河南省與江蘇省評估結(jié)果相對接近。具體而言,河南省四好農(nóng)村路建設的媒體曝光度具有更高的穩(wěn)定度、集中度和持續(xù)度;江蘇省的媒體曝光度具有更好的信息展示率與接受率。這同樣反映出它們因建設階段差異性導致的社會宣傳、反饋差異。河南省的工作重點在于通過自然村硬化路建設及改造升級,提升偏僻村落通達度、促進城鄉(xiāng)一體化格局基本形成;江蘇省的工作重點在于已建成農(nóng)村路的管養(yǎng)運,并依托更為便捷的交通服務拉動相關(guān)村鎮(zhèn)的產(chǎn)業(yè)化發(fā)展、提升村鎮(zhèn)的小康化水平。建設階段的差異性也使得河南省媒體發(fā)布內(nèi)容更為穩(wěn)定、集中,而江蘇省的發(fā)布內(nèi)容有著更高的社會傳播力。
此外,河南省四好農(nóng)村路建設的社會響應維度的評估得分遠低于江蘇省。河南省農(nóng)路建設相關(guān)內(nèi)容的發(fā)布數(shù)量、社會群眾對其的關(guān)注度均低于江蘇省(點贊數(shù)、評論數(shù)),其自發(fā)傳播力更低(轉(zhuǎn)發(fā)數(shù)更低),造成河南省四好農(nóng)村路建設的公眾的關(guān)注度及支持度評估得分遠低于江蘇省。
本研究基于新浪微博社交平臺的文本挖掘數(shù)據(jù),建立了定量化的評估方法,以反映在四好農(nóng)村路建設中的政府工作特征和社會反映。以河南省、江蘇省為例進行了案例分析,得到如下結(jié)論。
(1)文本挖掘下的定量化評估模型有助于更為便捷、客觀地反映出評估對象在四好農(nóng)村路建設工作中的工作重點、建設特征及公眾響應情況。這既可為目標年(2020年)各省市的工作成果評估提供定量化參考,也有助于各省市四好農(nóng)村路工作推進的日常評估,實時反饋社會群眾反響,從而查漏補缺提升工作水平。
(2)通過案例分析可知,河南省、江蘇省四好農(nóng)村路建設階段不同,其社會宣傳、反饋具有差異化特征:河南省的工作重點在于建設(自然村硬化農(nóng)路建設及改造升級),而其宣傳更側(cè)重于實際政績,以提升偏僻村落通達度、促進城鄉(xiāng)一體化格局基本形成為工作目標;江蘇省的工作重點在于管養(yǎng)運,核心思路在于依托更為便捷的交通服務拉動相關(guān)村鎮(zhèn)的產(chǎn)業(yè)化發(fā)展、提升村鎮(zhèn)的小康化水平。
本研究及評估模型仍具有一定的局限性和優(yōu)化空間:(1)由于2020年新冠疫情的影響,使得前期政府工作更集中于疫情防控,加之復工復產(chǎn)存在時間需求,使得數(shù)據(jù)采集時間(2020-04-01至2020-06-01)的四好農(nóng)村路相關(guān)內(nèi)容也存在“復工”特征,呈現(xiàn)逐步上升趨勢,且河南省、江蘇省復工進度不一,所采用的非結(jié)構(gòu)化文本數(shù)據(jù)挖掘分析具有一定隨機性。這些問題使得文本挖掘采集到的案例數(shù)據(jù)具有一定的誤差,因此本研究的實證分析結(jié)論僅供參考。(2)社會化評估可進一步采集評論內(nèi)容,從而識別出社會化反饋的情感傾向(支持或反對),使得評估結(jié)論可進一步細化。(3)不同省份的人工基數(shù)不一、微博注冊用戶數(shù)量差異,采用微博內(nèi)容的轉(zhuǎn)發(fā)、評論、點贊數(shù)進行指標計算,也存在一定的誤差。后期可考慮對該指標除以注冊省份活躍用戶數(shù),從而提升指標的準確性。