楊秀璋 夏換 于小民 楊琪 汪瑜斌
摘? 要: 為科研工作者精準(zhǔn)推薦所需的學(xué)術(shù)論文,從而節(jié)約檢索時(shí)間和精力,提高科研效率,并進(jìn)一步提升論文自動分類的準(zhǔn)確度。該文在傳統(tǒng)單視圖論文分類基礎(chǔ)上,提出了一種基于多視圖融合的論文自動分類方法,考慮論文標(biāo)題、關(guān)鍵詞、摘要三個(gè)視圖的互補(bǔ)性和協(xié)調(diào)性,實(shí)現(xiàn)對海量論文的自動分類。文中抓取了中國知網(wǎng)9個(gè)主題的1 710篇論文作為實(shí)驗(yàn)語料,并構(gòu)建決策樹、K最近鄰、隨機(jī)森林、支持向量機(jī)、樸素貝葉斯分類器進(jìn)行實(shí)驗(yàn)。結(jié)果表明,基于多視圖融合的論文分類方法在準(zhǔn)確率、召回率和F值上都有所提升,優(yōu)于單視圖的論文分類方法,且可以為論文自動分類、推薦系統(tǒng)、文本挖掘提供有效支撐,具有一定的應(yīng)用前景和實(shí)用價(jià)值。
關(guān)鍵詞: 論文自動分類; 多視圖融合; 數(shù)據(jù)處理; 語料獲取; 智能推薦; 文本挖掘
中圖分類號: TN911?34; TP391? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)08?0120?05
Research on paper automatic classification method based on multi?view fusion
YANG Xiuzhang1, XIA Huan2, YU Xiaomin2, YANG Qi1, WANG Yubin1
(1. School of Information, Guizhou University of Finance and Economics, Guiyang 550025, China;
2. Guizhou Key Laboratory of Economics System Simulation, Guizhou University of Finance and Economics, Guiyang 550025, China)
Abstract: On the basis of the traditional single?view paper classification, an automatic classification method based on multi?view fusion is proposed to accurately recommend the required academic papers for scientific research workers, so as to save the retrieval time and energy, improve the scientific research efficiency, and further increase the accuracy of paper automatic classification. In the method, the complementarity and coordination of the three views of the title, keyword and abstract in the paper are considered to realize the automatic classification of massive papers. The 1710 papers on nine topics on CNKI were grabbed as the experimental corpus, and the decision tree, K nearest neighbor, random forest, support vector machine and naive Bayes classifier were constructed for the experiments. The results show that the paper classification method based on the multi?view fusion can improve the precision, recall rate and F value, which is better than the single?view paper classification method. The algorithm can provide effective support for automatic classification, recommendation system and text mining, which has certain application prospect and practical value.
Keywords: paper automatic classification; multi?view fusion; data processing; corpus obtaining; intelligent recommendation; text mining
0? 引? 言
隨著機(jī)器學(xué)習(xí)和知識圖譜的迅速發(fā)展,自動推薦系統(tǒng)越來越普遍,論文自動分類就是其應(yīng)用之一。然而,由于學(xué)術(shù)科研成果種類繁多、學(xué)科呈交叉式分布、實(shí)時(shí)性強(qiáng),并蘊(yùn)含著深層次語義知識,這一定程度上妨礙了科研工作者快速精準(zhǔn)地從海量文獻(xiàn)中獲取自己所需的信息。論文自動分類旨在準(zhǔn)確地劃分論文學(xué)科類別,再通過推薦系統(tǒng)或知識圖譜實(shí)現(xiàn)關(guān)聯(lián)性推薦,從而節(jié)約科研工作者的檢索時(shí)間和精力,提高科研效率。
傳統(tǒng)的論文自動分類算法僅從單一角度或僅依賴論文摘要去實(shí)現(xiàn)自動分類的,沒有考慮多個(gè)視圖角度的互補(bǔ)性和協(xié)調(diào)性,如何從多個(gè)視圖角度并同時(shí)利用論文標(biāo)題、關(guān)鍵詞和摘要三個(gè)視圖去解決論文自動分類問題,正是本文所研究的出發(fā)點(diǎn)。針對這些問題,本文提出一種基于多視圖融合的論文自動分類方法,構(gòu)建決策樹、K最近鄰、隨機(jī)森林、支持向量機(jī)、樸素貝葉斯分類器,再對基于標(biāo)題視圖、關(guān)鍵詞視圖、摘要視圖和本文提出的多視圖融合的論文自動分類方法進(jìn)行比較,進(jìn)而論證多視圖融合方法。
1? 相關(guān)研究
近年來,國內(nèi)外學(xué)者對論文自動分類和關(guān)聯(lián)推薦做了大量研究,常用的方法是使用機(jī)器學(xué)習(xí)和自然語言處理中的文本分類算法實(shí)現(xiàn),包括樸素貝葉斯、K最近鄰、支持向量機(jī)、決策樹、最大熵等。
劉瀏等結(jié)合論文的跨學(xué)科度和KNN算法,實(shí)現(xiàn)了社科類論文的自動分類[1];顏端武等通過HDP模型研究主題文獻(xiàn)并實(shí)現(xiàn)自動推薦[2];周慶平等提出了基于聚類改進(jìn)的KNN文本分類算法[3];楊曉花等通過多父突變和交叉操作估計(jì)概率項(xiàng)改進(jìn)貝葉斯分類算法,并用于書目自動分類[4];馮志剛等從引用和被引用兩個(gè)角度分析圖書情報(bào)學(xué)文獻(xiàn)的跨學(xué)科性[5]。同時(shí),隨著深度學(xué)習(xí)和語義網(wǎng)的興起,利用LDA模型[6]、Word2Vec、卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法也得到了一些嘗試。王婷婷等通過LDA模型和Word2Vec算法獲取科技文獻(xiàn)的主題詞概率,并構(gòu)建詞義相關(guān)的T?WV矩陣識別主題[7];商憲麗基于LDA模型研究交叉學(xué)科潛在主題[8];Shi等通過LDA主題建模量化企業(yè)在產(chǎn)品、市場和科技空間中的位置,分析企業(yè)非結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)[9];陳波利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)文本分類,提升了準(zhǔn)確率、召回率和F值[10];李洋等提出了基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析方法[11]。
從相關(guān)研究可以看出,現(xiàn)有的論文分類采用的方法是基于機(jī)器學(xué)習(xí)、LDA模型、神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的,可以有效地實(shí)現(xiàn)論文自動分類,預(yù)測論文所屬的學(xué)科或主題。但這些方法均是從單一視圖角度實(shí)現(xiàn)的,沒有引入基于多視圖融合的思想,也沒有從多個(gè)角度考慮論文的互補(bǔ)性和協(xié)調(diào)性,因此本文提出了一種基于多視圖融合的論文自動分類方法。
從多視圖融合的角度看,現(xiàn)代科學(xué)研究中,學(xué)科、主題間的合作越來越普遍和密切[12],通過多種視圖角度解決問題已成為現(xiàn)代科學(xué)發(fā)展的重要內(nèi)容。Zhang等提出了一種多視圖融合的實(shí)體對齊方法[13];孫啟蘊(yùn)采用一種多視圖tri?training的方法實(shí)現(xiàn)用戶性別判斷[14]。
本文選擇中國知網(wǎng)9個(gè)主題的學(xué)術(shù)論文作為語料,提出一種基于多視圖融合的論文自動分類方法,并與單視圖的論文自動分類算法進(jìn)行對比實(shí)驗(yàn),通過準(zhǔn)確率、召回率和F值進(jìn)行算法評價(jià)。
2? 基于多視圖融合的論文自動分類方法
2.1? 算法總體流程
本文方法的總體流程如圖1所示。
首先調(diào)用Selenium和XPath等技術(shù)自動抓取中國知網(wǎng)“數(shù)據(jù)挖掘”“數(shù)據(jù)分析”“大數(shù)據(jù)”“Python”“民族”“數(shù)學(xué)”“文學(xué)”“數(shù)據(jù)科學(xué)”“機(jī)器學(xué)習(xí)”九個(gè)主題的1 710篇學(xué)術(shù)論文;接著從論文標(biāo)題、關(guān)鍵詞、摘要三個(gè)視圖分別對所抓取的文本進(jìn)行數(shù)據(jù)預(yù)處理,包括中文分詞、數(shù)據(jù)清洗、數(shù)據(jù)集成等操作,并通過特征提取及權(quán)重計(jì)算技術(shù)將預(yù)處理后的文本轉(zhuǎn)換為特征詞矩陣;利用多視圖融合模型對論文標(biāo)題視圖、關(guān)鍵詞視圖和摘要視圖的特征詞向量進(jìn)行融合,并構(gòu)造決策樹(Decision Tree)算法、K最近鄰(K?Nearest Neighbor)算法、隨機(jī)森林(Random Forest)算法、支持向量機(jī)(Support Vector Machine)算法、樸素貝葉斯(Naive Bayes)算法的分類器實(shí)現(xiàn)論文自動分類。
2.2? 數(shù)據(jù)預(yù)處理
本文抓取了中國知網(wǎng)九個(gè)主題的若干期刊論文的相關(guān)信息作為實(shí)驗(yàn)語料,并將其導(dǎo)入數(shù)據(jù)庫形成結(jié)構(gòu)化數(shù)據(jù),抽取的信息主要包括論文標(biāo)題、關(guān)鍵詞、摘要和類別4個(gè)字段。實(shí)驗(yàn)之前需要對數(shù)據(jù)進(jìn)行預(yù)處理操作,包括中文分詞、缺失值填充、異常值處理、去除停用詞、去除標(biāo)點(diǎn)符號、數(shù)據(jù)集成等步驟,其目標(biāo)是為了得到高標(biāo)準(zhǔn)、高質(zhì)量的數(shù)據(jù),從而提升分析結(jié)果,過程如圖2所示。
2.3? 特征提取和權(quán)重計(jì)算
向量空間模型(Vector Space Model)表示通過向量的形式來表征一個(gè)文本,它將中文文本轉(zhuǎn)換為數(shù)值特征。一個(gè)文檔(Document)或文本語料經(jīng)過特征提取后被描述為一系列的特征詞(Term)向量,如下:
式中:文檔d共包含n個(gè)特征詞和n個(gè)權(quán)重;ti為一系列互相不同的特征詞,i=1,2,…,n;wi(d)為特征詞ti在文檔d中的權(quán)重,它通常可以被表達(dá)為ti在d中呈現(xiàn)的頻率。
本文權(quán)重計(jì)算的方法是采用TF?IDF算法來實(shí)現(xiàn)的。
TF?IDF(Term Frequency?Invers Document Frequency)是一種常用于信息處理和數(shù)據(jù)挖掘的加權(quán)技術(shù)。該技術(shù)采用一種統(tǒng)計(jì)方法,根據(jù)特征詞在文本中出現(xiàn)的次數(shù)和在整個(gè)語料中出現(xiàn)的文檔頻率來計(jì)算一個(gè)特征詞在整個(gè)語料中的重要程度。它的優(yōu)點(diǎn)是能過濾掉一些常見的卻無關(guān)緊要本的詞語,同時(shí)保留影響整個(gè)文本的重要特征詞。計(jì)算方法如下:
式中,tfidfi,j表示詞頻tfi,j和倒文本詞頻idfi,j的乘積,權(quán)重與特征項(xiàng)在文檔中出現(xiàn)的頻率成正比,與在整個(gè)語料中出現(xiàn)該特征項(xiàng)的文檔數(shù)成反比。TF?IDF值越大表示該特征詞對文本的重要性越大。
2.4? 多視圖模型
多視圖模型是從多個(gè)角度解決論文分類問題,考慮了多種視圖的互補(bǔ)性和協(xié)調(diào)性。本文結(jié)合論文標(biāo)題、關(guān)鍵詞、摘要三種視圖進(jìn)行實(shí)驗(yàn),其融合過程如圖3所示。
由于不同視圖的文本會存在獨(dú)有特征詞和共有特征詞的情況,本文將三個(gè)視圖F1,F(xiàn)2,F(xiàn)3劃分為7個(gè)數(shù)據(jù)集U1,U2,U3,U4,U5,U6,U7,其劃分過程如下:
多視圖模型的計(jì)算公式如下:
式中:[V]表示多視圖融合后的向量空間模型;V1表示F1視圖獨(dú)有的特征詞向量,對應(yīng)的權(quán)重參數(shù)w1;V2表示F2視圖獨(dú)有的特征詞向量,參數(shù)w2表示F2視圖獨(dú)有部分的權(quán)重;V3表示F3視圖獨(dú)有的特征詞向量,對應(yīng)的權(quán)重參數(shù)w3;V4,V5,V6表示F1,F(xiàn)2,F(xiàn)3視圖兩兩共有特征詞且不含有三個(gè)視圖共有的特征詞的向量,對應(yīng)的權(quán)重為w4,w5,w6;V7表示標(biāo)題、關(guān)鍵詞、摘要視圖共有的特征詞向量,參數(shù)w7表示對應(yīng)的權(quán)重。
3? 實(shí)驗(yàn)結(jié)果與分析
3.1? 語料獲取和預(yù)處理
本文使用Python自定義爬蟲采集中國知網(wǎng)1 710篇學(xué)術(shù)論文信息(包括標(biāo)題、關(guān)鍵詞和摘要),涉及9個(gè)主題,并將數(shù)據(jù)集按照一定比例劃分訓(xùn)練集與測試集,詳細(xì)信息如表1所示。
接著采用Jieba工具對文本語料進(jìn)行中文分詞處理,并去除停用詞、標(biāo)點(diǎn)符號,再進(jìn)行特征提取和權(quán)重計(jì)算。
3.2? 評價(jià)指標(biāo)
本文采用準(zhǔn)確率(Precision)、召回率(Recall)和F值(F?measure)評估實(shí)驗(yàn)結(jié)果,最終結(jié)果為10次實(shí)驗(yàn)結(jié)果的平均值。計(jì)算公式定義如下:
式中:ni表示類別為i的文本數(shù)目;nj表示類標(biāo)j的文本數(shù)目;nij表示文本類標(biāo)j中屬于i的數(shù)目;F值是準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值,常用于評價(jià)分類、聚類模型的好壞。
3.3? 論文自動分類實(shí)驗(yàn)
采用支持向量機(jī)算法分別對各數(shù)據(jù)集進(jìn)行論文自動分類實(shí)驗(yàn),比較基于標(biāo)題視圖、關(guān)鍵詞視圖、摘要視圖以及本文提出的基于多視圖融合的論文自動方法,實(shí)驗(yàn)結(jié)果的F值如表2所示。由表可知,本文方法的F值最高為1.00,最低為0.83,F(xiàn)值較其他三種方法都有一定提高,其中“數(shù)據(jù)分析”主題提升最多,比基于標(biāo)題視圖的方法提升了0.07,比基于關(guān)鍵詞視圖的方法提升了0.07,比基于摘要視圖的方法提升了0.05。
采用K最近鄰算法的實(shí)驗(yàn)結(jié)果F值如圖4所示,從圖中可以看出,本文方法在所有主題的論文自動分類比較中,F(xiàn)值都有一定程度的提升。
從表3可以看出,基于隨機(jī)森林的多視圖融合論文自動分類方法的F值優(yōu)于其他方法,其中相比于基于標(biāo)題視圖方法的F值提升最為明顯?!皵?shù)據(jù)挖掘”主題提升了0.09,“數(shù)據(jù)分析”主題提升了0.12,“大數(shù)據(jù)”主題提升了0.19,“Python”主題提升了0.11,“民族”主題提升了0.02,“數(shù)學(xué)”主題提升了0.28,“文學(xué)”主題提升了0.04,“數(shù)據(jù)科學(xué)”主題提升了0.09,“機(jī)器學(xué)習(xí)”主題提升了0.21。
為了進(jìn)一步研究論文自動分類算法,分別對比了基于多視圖融合和單視圖的隨機(jī)森林、K最近鄰、支持向量機(jī)、樸素貝葉斯、決策樹分類算法。圖5~圖7分別顯示了各分類算法對比實(shí)驗(yàn)的平均準(zhǔn)確率、平均召回率和平均F值,實(shí)驗(yàn)結(jié)果整體呈現(xiàn)出本文方法優(yōu)于基于摘要視圖方法、基于關(guān)鍵詞視圖方法、基于標(biāo)題視圖方法的趨勢,本文方法的論文自動分類效果更好。
4? 結(jié)? 語
針對傳統(tǒng)的論文自動分類算法僅從單個(gè)視圖的角度去實(shí)現(xiàn)分類,沒有考慮多種視圖的互補(bǔ)性和協(xié)調(diào)性,本文提出了一種基于多視圖融合的論文自動分類方法,結(jié)合論文標(biāo)題、關(guān)鍵詞、摘要三種視圖來實(shí)現(xiàn)自動分類。仿真實(shí)驗(yàn)首先抓取了中國知網(wǎng)九大主題的論文數(shù)據(jù),再分別對比了基于多視圖融合和單視圖的隨機(jī)森林、K最近鄰、支持向量機(jī)、樸素貝葉斯、決策樹分類算法。
實(shí)驗(yàn)結(jié)果表明,本文提出的基于多視圖融合的論文自動分類方法優(yōu)于其他三種單視圖的論文自動分類方法,本文的方法在準(zhǔn)確率、召回率和F值上都有所提升,為下一步自動分類、引文分析、文獻(xiàn)知識圖譜構(gòu)建提供有效支撐,具有較好的準(zhǔn)確率和實(shí)用性。
注:本文通訊作者為夏換。
參考文獻(xiàn)
[1] 劉瀏,王東波.基于論文自動分類的社科類學(xué)科跨學(xué)科性研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018(3):30?38.
[2] 顏端武,陶志恒,李蘭彬.一種基于HDP模型的主題文獻(xiàn)自動推薦方法及應(yīng)用研究[J].情報(bào)理論與實(shí)踐,2016,39(1):128?132.
[3] 周慶平,譚長庚,王宏君,等.基于聚類改進(jìn)的KNN文本分類算法[J].計(jì)算機(jī)應(yīng)用研究,2016,33(11):3374?3377.
[4] 楊曉花,高海云.基于改進(jìn)貝葉斯的書目自動分類算法[J].計(jì)算機(jī)科學(xué),2018,45(8):203?207.
[5] 馮志剛,李長玲,劉小慧,等.基于引用與被引用文獻(xiàn)信息的圖書情報(bào)學(xué)跨學(xué)科性分析[J].情報(bào)科學(xué),2018,36(3):105?111.
[6] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation [J]. Journal of machine learning research, 2003, 3: 993?1022.
[7] 王婷婷,韓滿,王宇.LDA模型的優(yōu)化及其主題數(shù)量選擇研究:以科技文獻(xiàn)為例[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018(1):29?39.
[8] 商憲麗.基于LDA的交叉學(xué)科潛在主題識別研究:以數(shù)字圖書館為例[J].情報(bào)科學(xué),2018,36(9):27?31.
[9] SHI Z M, LEE G, WHINSTON A B. Toward a better measure of business proximity: topic modeling for industry intelligence [J]. MIS quarterly, 2016, 40(4): 1035?1056.
[10] 陳波.基于循環(huán)結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)文本分類方法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,30(5):705?710.
[11] 李洋,董紅斌.基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J].計(jì)算機(jī)應(yīng)用,2018,38(11):3075?3080.
[12] BRONSTEIN L R. A model for interdisciplinary collaboration [J]. Social work, 2003, 48(3): 297?306.
[13] ZHANG Chunxia, YANG Xiuzhang, WANG Shuliang, et al. A multi?view fusion approach for entity alignment [C]// 2017 IEEE 16th International Conference on Cognitive Informatics & Cognitive Computing. Porto: IEEE, 2017: 388?393.
[14] 孫啟蘊(yùn).基于多視圖Tri?Training的微博用戶性別判斷[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(2):240?244.