(湘潭大學(xué) 湖南 湘潭 411100)
在現(xiàn)實(shí)生活中,在文本挖掘的幫助下,許多工作都能夠自動(dòng)化完成,并能夠用定量研究的方式分析數(shù)據(jù)。文本挖掘的一般的處理過程是對(duì)大量文檔集合的內(nèi)容資源進(jìn)行爬取、數(shù)據(jù)預(yù)處理、特征提取、趨勢分析、文本分類、可視化等[1]。圖1給出了文本挖掘的一般處理過程。1995年,F(xiàn)eldman正式給出文本挖掘的概念[2],國內(nèi)外眾多學(xué)者對(duì)文本挖掘的理論和技術(shù)研究開展了很多研究,并取得了可觀的成果。文本挖掘技術(shù)主要包括信息提取、主題跟蹤、文本分類、文本聚類、關(guān)聯(lián)規(guī)則挖掘和信息可視化等領(lǐng)域[3]。
圖1 文本挖掘的一般處理過程
從定性研究的角度來看,國外學(xué)者針對(duì)政府工作報(bào)告作了大量的研究,Walter和Kenneth[4]認(rèn)為從重要性和內(nèi)容[5]兩個(gè)角度對(duì)測量政府財(cái)政報(bào)告質(zhì)量是有用的,關(guān)于政府工作報(bào)告在對(duì)政府進(jìn)行職能問責(zé)中所扮演的角色,Ryan和Taylor等人[6]的研究突出了政府工作報(bào)告在職能問責(zé)中的作用,而Jones和Priest等人[7]則對(duì)政府工作報(bào)告在監(jiān)督中的作用持反對(duì)意見
在文本挖掘技術(shù)還未得到廣泛普及之前,針對(duì)政府工作報(bào)告的研究大多屬于定性研究,也就是從語言學(xué)、文學(xué)、社會(huì)學(xué)的角度出發(fā),如研討報(bào)告文本的翻譯問題[9]。從文學(xué)的研究角度,鄧曄[10]以1978年以后的政府工作報(bào)告作為研究語料,并對(duì)研究語料進(jìn)行體裁分析,為中國政治文體與書面用語的書寫提供新的視角;王楠[11]則通過比較澳門與中央政府的報(bào)告為理解澳門歷史文化提供了新的方向。
近年來,隨著互聯(lián)網(wǎng)的普及,利用計(jì)算機(jī)進(jìn)行數(shù)據(jù)分析變得觸手可及,國內(nèi)對(duì)于政府工作報(bào)告的文本分析研究工作漸漸增加,不少學(xué)者開始從定量分析的角度對(duì)政府工作報(bào)告進(jìn)行積極的探討。楊君[12]以副省級(jí)城市政府年度工作報(bào)告為研究對(duì)象,使用回歸分析研究官員的政治承諾行為,為中國政治體制下建立問責(zé)體系提供了有益的思路;文宏[13]使用文本分析軟件QSR NVivo 9和分詞軟件ROST CM 6,以 1954至2013期間的政府工作報(bào)告為研究語料,通過統(tǒng)計(jì)涉及反映基本公共服務(wù)的關(guān)鍵詞的句子頻數(shù),試圖測量政府對(duì)公共服務(wù)的注意力配置,并為公共管理提供了一些有益的啟示。
總的來說,這些學(xué)者從文學(xué)、語言學(xué)、社會(huì)學(xué)的角度出發(fā),研究集中于分析比較中英兩種語言的文本產(chǎn)生差異性的原因,這些研究大多屬于定性分析,而把國務(wù)院政府工作報(bào)告作為探討政府政策轉(zhuǎn)變趨勢的定量研究比較少,通過運(yùn)用文本挖掘技術(shù)針對(duì)政府工作報(bào)告的信息提取工作更是方興未艾。