李一平
摘要:目的:以信息計量學為基礎的學科研究熱點提取多以作者自行定義的關(guān)鍵詞為研究對象,關(guān)鍵詞個數(shù)較隨意且?guī)в姓撐淖髡叩闹饔^猜想。故提出一種基于TF-IDF矩陣結(jié)合高權(quán)重詞出現(xiàn)頻率的方法,提取學科研究熱點。方法:釆集2017年度《現(xiàn)代情報》的載文內(nèi)容,對每篇文章進行全文分詞,生成詞向量空間,創(chuàng)建TF-IDF權(quán)重矩陣。統(tǒng)計高權(quán)重詞的出現(xiàn)頻率提取研究熱點。結(jié)論:通過與用信息計量學方法得到的結(jié)果進行對比,證明該方法有效且客觀。
關(guān)鍵詞:研究熱點;TF-IDF矩陣;全文分詞
中圖分類號:G250文獻標志碼:A
0引言
研究熱點是反映某一學科發(fā)展規(guī)律和特征的重要指標,有助于把握該學科領域發(fā)展的軌跡和趨勢。情報學是研究信息、知識和情報的產(chǎn)生、傳遞、利用規(guī)律,運用現(xiàn)代科學技術(shù)有效地管理和利用信息、知識和情報的_門交叉學科E。對情報學研究熱點及其變化過程的分析將有助于從整體上把握情報學發(fā)展動向,促進情報學與其他學科的融合發(fā)展。
目前,國內(nèi)學者對情報學研究熱點的探究主要從不同類型的論文入手,比如分析期刊論文、學位論文、會議論文,從不同的角度對情報學熱點進行剖析⑵。研究內(nèi)容隨著新興技術(shù)的更新而不斷完善和發(fā)展,開始關(guān)注知識層面的數(shù)據(jù)管理和挖掘,更注重知識本身的潛在價值,同時也開始關(guān)注科技文獻、科技數(shù)據(jù)等的內(nèi)容發(fā)現(xiàn),以及情報學教育的探索。研究方法也是多種多樣,具體來說,多是將定性與定量相結(jié)合,還包括很多工具和手段,諸如知識圖譜、聚類工具、高被引分析和機器學習方法等。
在定量的研究方法中,通過關(guān)鍵詞進而揭示研究目的是眾多研究學者青睞的研究方式。一方面關(guān)鍵詞是表達文獻主題概念的自然語言詞匯'氣其能夠高度概括文章的核心主旨和作者的主觀思想。關(guān)鍵詞詞頻的變化波動和社會現(xiàn)象、學科發(fā)展存在著密不可分的聯(lián)系。通過分析文獻中存在的大量關(guān)鍵詞,可在一定程度上揭示學科發(fā)展的總體特征和內(nèi)容特點,了解學術(shù)研究的發(fā)展脈絡及發(fā)展動向,關(guān)鍵詞的變化也是前沿熱點的另_種表現(xiàn)形式。但現(xiàn)有研究中仍然存在不足之處,一是關(guān)鍵詞無法準確概括文本核心內(nèi)容,二是關(guān)鍵詞的數(shù)量也會對分析文章起到重要作用,簡單地將某個階段文獻中某個關(guān)鍵詞的頻次累加或進行共現(xiàn)分析,顯然對于研究結(jié)果的結(jié)論會造成不同程度的影響,具有一定的局限性'氣
基于此,本論述著眼于期刊全文內(nèi)容,不依賴題錄信息進行關(guān)鍵詞特征提取。首先對文章全文進行分詞,去除無意義的停用詞,構(gòu)建所有數(shù)據(jù)樣本的詞袋模型。然后計算每篇文章詞語的TF-IDF權(quán)重,生成TF- IDF矩陣。最后提取高TF-IDF權(quán)重詞匯并結(jié)合出現(xiàn)頻率,得到研究熱點語詞。
1相關(guān)理論與技術(shù)
1.1中文分詞
中文分詞是指將連續(xù)的中文字符串按照一定的規(guī)范分割成詞序列的過程'可。不同于拉丁語系用天然的空格來分隔每一個單詞,漢語的“詞”和“詞組”界限很模糊,中文語言的特殊性無疑為分詞的技術(shù)增加了難度。例如,目前關(guān)于字或詞還沒有一個公認的、權(quán)威的標準;歧義詞的切分也需要考慮不同語境;未登錄詞更是加大了識別、分詞的難度。因此在進行中文文本處理的過程中,首先需要把中文文本切分成一個一個的詞或者詞組,這樣的技術(shù)成為中文分詞技術(shù)面。中文分詞是中文文本的自然語言處理任務的基礎,分詞結(jié)果直接影響到自然語言處理任務的好壞5。
目前常見的中文分詞方法主要有基于規(guī)則和詞表的方法與基于統(tǒng)計模型的中文分詞方法,現(xiàn)階段深受學者青睞的分詞Python庫主要有:jieba、SnowNLP、TH- ULAC、NLPIR,NLTK和LTP等。上述幾種庫各有優(yōu)缺點,本文將采用jieba進行分詞處理分析。其核心算法主要有:(1)基于前綴詞典實現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖;(2)采用了動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;(3)對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了 Viterbi算法。
此外.jieba庫還有如下特點:(1)支持三種分詞模式:精確模式,試圖將句子最精確的切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語都掃描出來,速度非???,但是不能解決歧義;搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用戶搜索引擎分詞;(2)支持繁體分詞;(3)支持自定義詞典;用戶可以指定自己自定義的領域詞典,以便包含jieba詞庫里沒有的詞。雖然jieba有新詞識別能力,但是自行添加的新詞可以保證更高的正確率。同時,自定義的字典還支持詞頻和詞性的設置。
1.2詞頻率變換矩陣(TF-IDF)
TF-IDF對于數(shù)據(jù)分析師和大部分程序員來說應該都不陌生,它是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù),它加權(quán)的各種形式通常會被各大搜索引擎所應用,作為文件與用戶利用之間相關(guān)程度的衡量或評級,比較常用的就是計算查詢關(guān)鍵詞所對應的向量和文檔所對應的向量之間的相關(guān)度。TF-IDF實際上是TF與IDF的乘積[12]。
特征項頻率TF,也稱短期頻率,是指某個詞在某個文檔中出現(xiàn)的總次數(shù)與該文檔的詞總數(shù)的商,用于衡量該詞在該文檔中的出現(xiàn)頻率。因為每個文檔總詞數(shù)差距較大,因此一個詞在某個文檔中出現(xiàn)的次數(shù)可能遠大于另一個文檔,所以詞頻通常就是一個詞出現(xiàn)的次數(shù)除以文檔的總長度,相當于做了一次歸一化。TF 的特點在于,要想有效地反映某個字或詞在文檔中的頻率,就必須讓它在該文檔中出現(xiàn)的次數(shù)足夠多且在其他文檔中出現(xiàn)頻率小。但是,如果只使用TF可能會產(chǎn)生以下問題:第一,有些字或詞在文檔中可能會很自然地反復出現(xiàn),比如連詞、語氣詞、指示代詞等,這些詞大多起著連接語句的作用,是保持語言連貫不可或缺的部分,甚至許多關(guān)鍵詞中都有包含,會出現(xiàn)在許多文檔中,這時TF就難以幫助我們區(qū)分文檔的相關(guān)度;第二,若搜索一個關(guān)鍵詞,它在所有文本中的TF值都高,那么該關(guān)鍵詞也就不利于進行文本分類。因此,為了解決上述問題,業(yè)界經(jīng)常將特征項頻率TF與反文檔頻率IDF結(jié)合起來使用糾
IDF背后的隱含假設是:查詢關(guān)鍵詞中的字或詞應該相對于其他字或詞更加重要,而文檔的重要程度,也就是相關(guān)度,與字或詞在文檔中出現(xiàn)的字數(shù)成正比。例如,“圖書館”一詞在文檔A中出現(xiàn)了5次,而在文檔B里出現(xiàn)了20次,那么TF計算就認為文檔B可能更相關(guān)。
1.3 Scikit-Learn
Scikit-Leam是基于Python的機器學習模塊,是高級數(shù)據(jù)分析中非常重要的工具包,同時也是一款簡單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具。一方面,它具有種類豐富的成熟算法和案例,機器學習模型包括支持向量機、決策樹、樸素貝葉斯、K近鄰等,可分為監(jiān)督學習和非監(jiān)督學習。它的基本功能主要被分為6個部分:分類、回歸、聚類、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預處理。另一方面,Scikit-Leam能夠以問題為導向,選擇合適的模型進行分析,比如分類,即可以訓練電腦識別不同的圖片;線性回歸可以用來預測某一事物的趨勢走向,非監(jiān)督學習則是讓計算機自己“思考”數(shù)據(jù)的不同,從而形成分類標準。本論述主要應用Scikit-Leam來生成TF- IDF矩陣。
2數(shù)據(jù)來源與分析模型
2.1數(shù)據(jù)來源
本論述選取《現(xiàn)代情報》2017年度的載文作為數(shù)據(jù)來源,通過自己編寫的Python腳本和瀏覽器測試框架 Selenium工具從中國知網(wǎng)上爬取上述文獻。同時為了提高精度,爬取過程中過濾文章大小標題、中英文摘要、作者簡介、頁眉頁腳標注以及參考文獻等內(nèi)容,只保留文章的正文段落內(nèi)容,然后將爬取到的內(nèi)容以 TXT格式文本存儲,具體形式如圖1所示。最后剔除通知、簡訊、評論等不相關(guān)的非學術(shù)文獻,共計得到268篇情報學研究相關(guān)文獻。
2.2分析模型
本論述的分析模型與一般的文本分析框架無異,主要是:(1)文本預處理,先將文章進行分詞,然后去除停用詞,生成每篇文章的核心詞組;(2)特征提取,匯總每篇文章的核心詞,構(gòu)建整個分析數(shù)據(jù)的詞袋,計算每個詞的TF-IDF權(quán)重值;(3)構(gòu)建TF-IDF矩陣,根據(jù)TF- IDF權(quán)重值和詞向量的頻率進行分析,得出研究熱點。實驗流程如圖2所示。
3分析過程與分析結(jié)果
3.1文本預處理
用Python的jieba工具將上述采集的268篇文章進行分詞,在去除一些常見詞、無意義的語詞的同時,還引入了情報學領域的專有名詞,并設置了較高的權(quán)重,防止分詞時將其分割。其中某一篇文章的部分處理結(jié)果如圖3所示。
3.2構(gòu)建TF-IDF矩陣
統(tǒng)計268篇文章的核心詞匯,得到整個數(shù)據(jù)集的詞袋共計21717個。利用skleam工具計算出每個文檔在詞袋中的TF-IDF權(quán)重值。匯總每篇文章的TF-IDF構(gòu)造整個數(shù)據(jù)集的TF-IDF矩陣,得到一個268x21717大小的稀疏矩陣。該矩陣中每一行表示一篇文章,每一列表示詞袋中的一個詞語。生成的TF-IDF矩陣如圖4所示。
3.3分析TF-IDF矩陣
在TF-IDF矩陣的基礎上,先獲取前1000位權(quán)重值較大的數(shù)據(jù)。這些權(quán)重大的數(shù)據(jù)意味著對應的特征詞對所屬文章、整個詞向量空間都很重要。截取前20位見表1所列。
權(quán)重大的特征詞不一定會成為研究熱點,而在多篇文章都出現(xiàn)權(quán)重值較大的同一特征詞時則可以說明該詞語是眾多研究學者關(guān)注的熱點。所以,遍歷這1 000個權(quán)重值較大的特征詞,得出結(jié)果見表2所列。
3.4實驗對比與解釋
為了驗證本文方法的有效性,本論述用信息計量學軟件BICOMB對相同的數(shù)據(jù)進行關(guān)鍵詞提取,對比試驗只需要獲取2017年《現(xiàn)代情報》載文的題錄信息,統(tǒng)計由作者自行標注的關(guān)鍵詞,截取前20位見表3所列。
對比表2和表3,可以發(fā)現(xiàn):由全文分詞得出的特征詞基本和作者自行提供的關(guān)鍵詞相契合。但由全文分詞后得到的特征詞更具有客觀性,所以更能體現(xiàn)出當前學科的研究熱點。不過需要指出的是,特征詞的最終成型不僅僅取決于該詞的權(quán)重大小,還與文章分詞的粒度相關(guān),因為本論述在分詞過程中沒有添加任何干預,所以分詞的粒度都比較小,詞語粒度過小將導致所形成的詞語因被切割而權(quán)重降低。比如“知識圖譜”在Jieba分詞后被分成“知識”和“圖譜”兩個詞語,“圖譜”一詞在TF-IDF的計算中數(shù)值較小,因此無法得出其是核心關(guān)鍵詞的結(jié)論。同時,也會存在全文分詞得到的關(guān)鍵詞在語義層面高度囊括作者提出的關(guān)鍵詞,比如表2中的“數(shù)據(jù)”和表3中的“大數(shù)據(jù)”,甚至也可以解釋為不同的語義層面范疇。
4結(jié)論
本論述通過對2017年《現(xiàn)代情報》的載文進行全文分詞,利用TF-IDF權(quán)重和高權(quán)重詞的出現(xiàn)頻率得出學科研究熱點。實驗結(jié)果與用信息計量學研究方法得出的結(jié)果大體一致。受中文分詞粒度的影響,研究熱點的語義范疇比信息計量學得到的熱點范疇更高。所以本文的下一步工作將對中文分詞的過程進行干預,引入圖情領域的專有詞匯,保證專有詞匯的成詞率,屆時再和信息計量學方法進行對比。
綜上,基于TF-IDF權(quán)重和高權(quán)重詞的出現(xiàn)頻率得出的研究熱點擺脫了論文作者的主觀臆想,更客觀的得出當前學科的研究熱點。
參考文獻:
[1]中國科學技術(shù)信息研究所.情報學[EB/OL], [2018-11- lS].http ://www.istic.ac.cn/t-abid/304/default.aspx.
[2]黃曉斌,羅海媛.從會議征文看近五年我國情報學研究熱點的發(fā)展[J].情報理論與實踐,2018,41⑼:31-36.
[3]李文蘭,楊祖國.中國情報學期刊論文關(guān)鍵詞詞頻分析[J].情報科學,2005(1):68-70,143.
[4]劉小慧,李長玲,馮志剛.基于改進的TF*IDF方法分析學科研究熱點一以情報學為例[J].情報科學,2017, 35(7):82-87.
[5]金宸,李維華,姬晨,等.基于雙向LSTM神經(jīng)網(wǎng)絡模型的中文分詞[J].中文信息學報,2018,32⑵:29-37.
[6]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學報,2011,34(8):1423-1436.
[7]余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發(fā)展,2013,50(9):1799-1804.
[8]Jie C, Cai C, Yi L. Optimized TF- IDF Algorithm with the Adaptive Weight of Position of Word [C]//. Science and Engi?neering Research Center.Proceedings of 20162nd Internation?al Conference on Artificial Intelligence and Industrial Engi?neering(AIIE2016),2016:4.
[9]武永亮,趙書良,李長鏡,等.基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學報,2017,31⑸:138-145.