朱鳳山
摘要
我國的智慧校園建設(shè)和數(shù)字化校園建設(shè)已經(jīng)持續(xù)多年,積累的相當(dāng)數(shù)量的數(shù)字化信息,反映了各學(xué)校發(fā)展歷程中的關(guān)切點(diǎn)。校園在線新聞是數(shù)字化校園與智慧校園建設(shè)的組成部分,建立新聞主題分析模型,對(duì)在線新聞進(jìn)行智能化的挖掘、統(tǒng)計(jì)和分析,提供相應(yīng)參考數(shù)據(jù),有利于智慧校園建設(shè)和完善。新聞主題分析模型運(yùn)用Python編程語言實(shí)現(xiàn)爬蟲程序,建立數(shù)據(jù)獲取模塊,經(jīng)清洗和結(jié)構(gòu)化處理后,借助HanLp技術(shù)進(jìn)行詞語切分,實(shí)現(xiàn)中文語法分詞,統(tǒng)計(jì)、分析在線新聞的隱含信息和潛在價(jià)值。最后使用該分析模型針對(duì)某高校近五年新聞數(shù)據(jù),按照時(shí)間和主題進(jìn)行了分析和匯總
【關(guān)鍵詞】在線新聞 Python HanLP 主題分析模型
1 引言
智慧校園是在本世紀(jì)初,全球進(jìn)入信息化大背景下,我國在十二五規(guī)劃中明確提出來的,它以數(shù)字校園建設(shè)與發(fā)展為基本出發(fā)點(diǎn)與落腳點(diǎn)。2015年國務(wù)院頒發(fā)了《關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動(dòng)的指導(dǎo)意見》,進(jìn)一步明確要求加快推進(jìn)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等相關(guān)技術(shù)的創(chuàng)新應(yīng)用,推動(dòng)國家大數(shù)據(jù)戰(zhàn)略和數(shù)據(jù)資源開放共享?!盎ヂ?lián)網(wǎng)+”行動(dòng)引起了社會(huì)各行業(yè)、領(lǐng)域的廣泛探討,教育領(lǐng)域所提倡的智慧校園也包含在內(nèi)。
隨著大數(shù)據(jù)時(shí)代的到來,對(duì)數(shù)據(jù)進(jìn)行分析、整理和歸納,從而為決策者提供決策支持,己受到各行各業(yè)的廣泛關(guān)注的。國內(nèi)外的很多研究者已經(jīng)對(duì)如何高效利用大數(shù)據(jù)進(jìn)行了廣泛和深入的研究。高校門戶網(wǎng)站是高校數(shù)字化校園與智慧校園建設(shè)的組成部分,承擔(dān)著對(duì)外宣傳的重任,同時(shí)又是在校師生獲取信息的重要途徑。科學(xué)、合理、高效的門戶網(wǎng)站可以作為高校對(duì)外展示的一張名片,它反映了高校的信息化程度,是高校軟實(shí)力的體現(xiàn)。因此,借鑒大數(shù)據(jù)分析技術(shù),構(gòu)建在線校園新聞主題分析模型,對(duì)高校在線新聞主題進(jìn)行挖掘、分析、統(tǒng)計(jì),對(duì)高校開展信息化建設(shè)和智慧校園建設(shè)都有積極意義。
智慧校園建設(shè)將成為教育信息化的最終形態(tài)。李有增認(rèn)為智慧校園是融合提升高校教學(xué)、管理和服務(wù)的新模式,是教育信息化的高級(jí)形態(tài)。智慧校園所提倡的智慧,其內(nèi)涵不是簡單的數(shù)字信息化,而是創(chuàng)新和創(chuàng)造。建設(shè)智慧校園要結(jié)合云計(jì)算和大數(shù)據(jù)分析等科研技術(shù),有效的對(duì)各種資源進(jìn)行整合。在線校園新聞主題分析模型就是以大數(shù)據(jù)分析為基礎(chǔ),對(duì)高校所發(fā)布到門戶網(wǎng)站上的校園新聞進(jìn)行主題挖掘和分析,提供反饋結(jié)果,用以提升在線校園新聞管理的智慧程度。
2 分析模型的構(gòu)建
在線新聞主題分析模型依據(jù)所加工數(shù)據(jù)的流向劃分,主要包括數(shù)據(jù)獲取與結(jié)構(gòu)化處理,中文分詞處理,統(tǒng)計(jì)與分析,可視化呈現(xiàn)四個(gè)環(huán)節(jié),如圖1所示。
2.1 數(shù)據(jù)的獲取與結(jié)構(gòu)化處理
鑒于校園網(wǎng)新聞內(nèi)容都是以HTML文本方式呈現(xiàn),分析模型在獲取數(shù)據(jù)時(shí)采用Python語言編寫的“爬蟲”來完成。Python編寫“爬蟲”程序時(shí)可以自行設(shè)計(jì)功能函數(shù),通過多線程機(jī)制優(yōu)化運(yùn)行;也可以借助成熟的函數(shù)庫或框架,如Beautiful Soup、Scrapy等。在本模型中采用的是前者。
為了讓“爬蟲”程序比較穩(wěn)健,在實(shí)現(xiàn)過程中采取相應(yīng)策略抵抗“反爬蟲”程序。通過URL訪問HTML頁面時(shí),動(dòng)態(tài)更改user-agent,偽造用戶代理,以防止服務(wù)器封殺??刂啤芭老x”程序執(zhí)行速率,隨機(jī)每1~5秒執(zhí)行一次爬取操作。讀取到頁面內(nèi)容后,進(jìn)行數(shù)據(jù)類型識(shí)別,如果是新聞信息數(shù)據(jù),分發(fā)到數(shù)據(jù)清洗與整理模塊;如果是新的頁面URL鏈接,加入U(xiǎn)RL列表集合?!芭老x”程序從入口頁面開始之后,不斷從URL列表中提取新的頁面,爬取所需內(nèi)容,并進(jìn)行標(biāo)記,以防止重復(fù)爬取。結(jié)構(gòu)化處理模塊讀取新聞信息以及相關(guān)屬性,如新聞發(fā)布日期、發(fā)布者等,重新組織為結(jié)構(gòu)化數(shù)據(jù),借助pymysql模塊存入Mysql數(shù)據(jù)庫。由于所需采集數(shù)據(jù)具有很強(qiáng)的規(guī)律性,使用“爬蟲”程序提取URL時(shí),可以屏蔽無關(guān)鏈接,避免Python程序執(zhí)行時(shí)耗費(fèi)很長時(shí)間。如果需要處理的URL種類較多,且無固定分組模式,可以借助Python的多進(jìn)程或多線程技術(shù),采用緩存優(yōu)化和并發(fā)性訪問,從而可以提升執(zhí)行性能。
2.2 新聞主題的分詞
中文分詞是基于HTML頁面數(shù)據(jù)挖掘的前提。按照分詞算法的不同,可以分為基于字符串匹配算法、基于理解的算法和基于統(tǒng)計(jì)的算法。根據(jù)分詞與詞性標(biāo)注是否融合的不同,又可分為單純分詞的非融合算法和分詞與標(biāo)注同時(shí)進(jìn)行的融合算法。目前,比較流行的中文分詞算法是基于統(tǒng)計(jì)模型的機(jī)器學(xué)習(xí)方法。
在新聞主題分析模型中,采用的分詞算法是由HanLP封裝的。HanLP是由一系列模型與算法組成的開發(fā)工具包,用于提供自然語言處理技術(shù)在軟件開發(fā)中的應(yīng)用[4]。HanLP提供了多種分詞算法的實(shí)現(xiàn),如最短路分詞、N-最短路分詞、CRI分詞等,中心思想是基于統(tǒng)計(jì)的自然語言處理。它較為完善的實(shí)現(xiàn)了詞法分析、句法分析和語義理解等功能。HanLP工具包同時(shí)具備架構(gòu)清晰、語料時(shí)新、可自定義詞典等特點(diǎn),hanlp.properties配置文件想具體信息如下,其中mywords.txt文件即為自定義的詞典。
root=E:/eclipseSpace/test/
CoreDictionaryPath=data/dictionary/CoreNatureDictionary.txt
BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.txt
CoreStopWordDictionaryPath=data/dictionary/stopwords.txt
CoreSynonymDictionaryDictionaryPath=data/dictionary/synonym/CoreSynonym.txt
PersonDictionaryPath=data/dictionary/person/nr.txl
PersonDictionaryTrPath=data/dictionary/person/nr.tr.txt
TraditionalChineseDictionaryPath=data/dictionary/tc/TraditionalChinese.txt
CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt;mywords.txt;現(xiàn)代漢語補(bǔ)充詞庫.txt;全國地名大全.txt ns;人名詞典.txt;機(jī)構(gòu)名詞典.txt;地名.txt
ns;data/dictionary/person/nrf.txt.nrf
CRFSegmentModelPath=data/model/segment/CR]SegmentModel.txt
HMMSegmentModelPath=data/model/segment/HMMSegmentModel.bin
ShowTermNature=true
2.3 統(tǒng)計(jì)分析與可視化呈現(xiàn)
分析模型的最終目的是對(duì)獲取到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析,并予以呈現(xiàn)。可視化呈現(xiàn)利用數(shù)據(jù)窗口的直觀、全面,對(duì)挖掘出的數(shù)據(jù),通過視覺化,把信息變成了一種信息地圖,避免迷失在數(shù)字信息中時(shí)。數(shù)據(jù)信息地可視化呈現(xiàn),在大數(shù)據(jù)應(yīng)用逐漸普及的情況下,顯得尤為重要。
統(tǒng)計(jì)和分析模塊主要從頻度分析、主題分析和熱度分析三個(gè)方面展開。頻度分析是對(duì)特定時(shí)間段內(nèi),在線新聞發(fā)布數(shù)量的統(tǒng)計(jì)和分析;主題分析是對(duì)特定時(shí)間段內(nèi),所發(fā)布在線新聞的主題進(jìn)行統(tǒng)計(jì)和分析;熱度分析是對(duì)主題分析結(jié)果的進(jìn)一步挖掘,尋找特定時(shí)間段內(nèi)在線新聞的熱點(diǎn)、關(guān)切點(diǎn),它能反應(yīng)高校比較重視的事件,體現(xiàn)高校管理的發(fā)展與變化趨勢(shì)。
在實(shí)現(xiàn)可視化呈現(xiàn)時(shí),選擇Highcharts圖標(biāo)庫。它是一套用Javascript語言編寫實(shí)現(xiàn)的,支持所有主流瀏覽器和移動(dòng)平臺(tái)(android、iOS等),開源免費(fèi)的輕量JS庫。Highcharts可以較為簡單的在Web頁面或Web應(yīng)用程序中添加具有交互性的圖表,即為方便的呈現(xiàn)數(shù)據(jù)。
3 分析模型的應(yīng)用
為檢驗(yàn)在線校園新聞主題分析模型的應(yīng)用效果,選擇華北某省屬高校的在線校園新聞進(jìn)行實(shí)踐應(yīng)用測(cè)試。使用Python編寫的“爬蟲”程序,共獲取數(shù)據(jù)4193條,時(shí)間跨度為2012-06-18到2018-06-01。為了便于統(tǒng)計(jì)和分析,截取2013-01-01到2017-12-31之間五年的數(shù)據(jù),共計(jì)3687條數(shù)據(jù),進(jìn)行主題分詞,頻度分析和熱度分析。
新聞主題的獲取較為完善、清晰,沒有混入其他文本信息和HTML元素,說明Python程序的執(zhí)行較為穩(wěn)定,預(yù)定模式匹配比較成功。
3.1 新聞發(fā)布頻度分析
在被選數(shù)據(jù)集合中,該高校在線新聞發(fā)布量為2013年423篇,2014年864篇,2015年774篇,2016年739篇,2017年887篇,整體趨勢(shì)為正向增長,如圖2所示。在大力推廣數(shù)字化校園建設(shè),智慧校園建設(shè)的進(jìn)程中,校園新聞可以作為傳播和反映校園文化精神的載體。校園新聞可以服務(wù)于大學(xué)文化建設(shè),同時(shí)可以作為校園文化建設(shè)的手段。積極、合理、適度的校園新聞發(fā)布量,是反映校園文化內(nèi)涵、樹立高校形象和辦學(xué)特色的重要形式,能夠增強(qiáng)教師和學(xué)生的凝聚力,使其有歸屬感,同時(shí)營造積極向上的數(shù)字化校園氛圍。
近五年的數(shù)據(jù)信息顯示,校園新聞在月度發(fā)布量上與高校的學(xué)期時(shí)間跨度正向匹配。9月至轉(zhuǎn)年1月為第一學(xué)期(上半學(xué)期);3月至7月為第二學(xué)期(下半學(xué)期),調(diào)整之后的月度新聞發(fā)布量如圖3所示。寒暑假期間的新聞發(fā)布量最低,學(xué)期中新聞發(fā)布量較高。比較有意思的是,近五年的數(shù)據(jù)反映,兩個(gè)學(xué)期的發(fā)文量并不平均,第一學(xué)期明顯的發(fā)文量明顯高于第二學(xué)期。
3.2 新聞主題與熱度分析
經(jīng)HanLP分詞模塊對(duì)所提取新聞主題分詞后,進(jìn)行數(shù)據(jù)清洗,主要從不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)三個(gè)方面進(jìn)行清洗。在數(shù)據(jù)處理過程中還過濾了與單位信息密切相關(guān)的數(shù)據(jù)。
整理之后的數(shù)據(jù)按照詞語在新聞主題中出現(xiàn)次數(shù)高低拍序,出現(xiàn)次數(shù)越多,則意味著該詞語具備更高的熱度指數(shù)。2013年度,排名前五位的熱度詞匯有“我?!薄ⅰ罢匍_”、“工作”、“舉行”、“全國”;2014年度,排名前五位的熱度詞匯有“我?!?、“天津市”、“舉行”、“召開”、“工作”;2015年度,排名前五位的熱度詞匯有“我?!?、“召開”、“工作”、“天津市”、“舉行”;2016年度,排名前五位的熱度詞匯有“我?!薄ⅰ罢匍_”、“工作”、“舉行”、“天津市”;2017年度,排名前五位的熱度詞匯有“我校”、“召開”、“工作”、“天津市”、“舉行”。各年度熱詞排行榜具體信息可以參考圖4至圖80
除去“我?!?、“召開”、“舉行”、“工作”等在新聞主題發(fā)布時(shí)較為常用的詞匯,位于熱度詞匯排行榜中其他詞匯則可以標(biāo)明該所高校的新聞關(guān)切點(diǎn)所在,如“學(xué)生”、“學(xué)習(xí)”、“教育”、“教師”等,這些詞匯在近5年的排行榜中都有所反應(yīng)。
4 總結(jié)
基于Python和HanLp技術(shù)的在線新聞主題分析模型,使用Python采集Web數(shù)據(jù),經(jīng)數(shù)據(jù)清洗和結(jié)構(gòu)化整理之后,借助HanLP中文語法工具分詞,統(tǒng)計(jì)、分析在線新聞的隱含信息和潛在價(jià)值,體現(xiàn)了數(shù)據(jù)挖掘的意義,對(duì)校園信息化建設(shè)和信息化管理提供支持。
4.1 提供決策支持
在線新聞主題經(jīng)過中文分詞、聚類等方法,可以收集到相關(guān)信息,為管理者提供信息反饋和決策支持。通過抽取門戶網(wǎng)站各主題的信息,對(duì)主題進(jìn)行深入挖掘,可以讓管理者更加深刻的從多角度的了解高校門戶網(wǎng)站的內(nèi)容發(fā)布情況,也可以作為高校領(lǐng)導(dǎo)對(duì)相關(guān)事件的決策判斷基礎(chǔ)。通過信息技術(shù)將數(shù)據(jù)所隱藏的信息發(fā)掘出來,實(shí)現(xiàn)數(shù)據(jù)價(jià)值的有效利用,為相關(guān)決策提供數(shù)據(jù)支撐。在此基礎(chǔ)上,對(duì)挖掘出的數(shù)據(jù)進(jìn)一步分類,這也數(shù)據(jù)挖掘領(lǐng)域的重要方向,通過描述性的數(shù)據(jù)特征,將歸為一類的數(shù)據(jù)劃分為一個(gè)領(lǐng)域。基于Python和HanLp技術(shù)的在線新聞主題分析模型可以分析高校門戶網(wǎng)站主題新聞內(nèi)容,從而找出高校新聞主題的相關(guān)信息,將信息進(jìn)行歸納和總結(jié),以便讓管理者做出更加正確的決策。
4.2 提供縱向和橫向?qū)Ρ葦?shù)據(jù)
使用基于Python和HanLp技術(shù)的在線新聞主題分析模型,可以縱向分析同一學(xué)校在不同時(shí)間段、不同歷史時(shí)期的關(guān)注點(diǎn),找出該歷史時(shí)期下的工作重點(diǎn)??v向切分的時(shí)間段可以按照年、月、周為單位,這需要對(duì)分析模型中“統(tǒng)計(jì)和分析”模塊的參數(shù)進(jìn)行調(diào)整。同時(shí),該分析模型可以應(yīng)用于不同學(xué)校在線新聞主題的挖掘和分析,橫向?qū)Ρ葘W(xué)校之間的關(guān)切點(diǎn)。綜合使用縱向和橫向?qū)Ρ葦?shù)據(jù),可以發(fā)現(xiàn)某一個(gè)特定時(shí)間段下,不同學(xué)校之間的發(fā)展變化,提供數(shù)據(jù)支撐。
4.3 分析模型存在的問題
當(dāng)前,在線新聞主題分析模型是針對(duì)同一個(gè)高校新聞網(wǎng)站進(jìn)行的,基于Python的爬蟲模塊在匹配新聞URl時(shí),只限定于當(dāng)前域,對(duì)域外的URL不進(jìn)行處理,這種挖掘數(shù)據(jù)的方式,可以提高效率,但降低了靈活性。通過實(shí)踐應(yīng)用,分析模型在獲取數(shù)據(jù)和分析數(shù)據(jù)時(shí)都可以比較高效、穩(wěn)定。分析模型下一步需要完善的功能是可以比較智能的對(duì)所指定的多所高校新聞?wù)军c(diǎn),自動(dòng)的爬取數(shù)據(jù);同時(shí)提供校際橫向關(guān)切點(diǎn)數(shù)據(jù)分析功能模塊。
參考文獻(xiàn)
[1]潘慶超,吳東偉.高校門戶網(wǎng)站設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2014(04):838-840.
[2]蔣東興,付小龍等.高校智慧校園技術(shù)參考模型設(shè)計(jì)[J].中國電化教育,2016(09):108-P114.
[3]陳琳,王蔚等.智慧校園的智慧本質(zhì)探討--兼論智慧校園“智慧缺失”及建設(shè)策略[J].遠(yuǎn)程教育雜志,2016(04):17-24.
[4]Han Language Processing[EB/OL],http://hanlp.linrunsoft.com/,2018-6-6.
[5]李有增,周全等.關(guān)于高校智慧校園建設(shè)的若干思考[J],中國電化教育,2018(01):112-117.