• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Doc2Vec和LDA模型融合文獻質量的學術論文推薦研究

      2023-07-13 02:28:14王大阜鄧志文賈志勇王靜
      關鍵詞:語料庫文檔語義

      王大阜,鄧志文,賈志勇,王靜

      (中國礦業(yè)大學 圖書館,江蘇 徐州 221116)

      圖書館是文化、資源的聚集地與傳播中心,為了滿足讀者泛在化科研、學習的需求,更好地推進高校“雙一流”建設,促進學科建設發(fā)展,電子資源已經成為圖書館主要引進的文獻結構類型.科研大數據時代,面對海量的學術資源,學者難以就其感興趣的學科領域,進行相關文獻的擇優(yōu)選取,從而對學者造成“信息過載”的困擾[1].學者通常借助OPAC系統、中外文數據庫搜索引擎,從中檢索、選取相關的論文文獻.根據美國科學基金會統計,學術人員在開展學術活動的過程中,花費在資料收集上的時間占全部科研時間的 51%,科研效率低下[2].因此,用戶更傾向于智慧化的個性化服務,希望系統自動、高效地向讀者推薦、呈現感興趣的優(yōu)質資源.以滿足讀者的需求為導向,圖書館亟需利用大數據、推薦算法、機器學習等技術,從用戶閱讀行為信息、學術成果等信息中,挖掘讀者閱讀興趣偏好,為其提供與研究興趣較匹配、文獻質量優(yōu)越的資源推薦服務,幫助讀者從耗時耗力的檢索、挑選論文的事務中解脫出來,同時精準的推薦效果亦能夠激發(fā)讀者的學術活躍度和科研創(chuàng)作潛能.

      近年來,學界圍繞紙本資源、電子資源的個性化推薦開展了大量研究,采用的技術方法主要分為3種:(1)基于協同過濾推薦:劉巖[3]基于傳統的協同過濾(Collaborative Filtering,CF)算法實現紙本文獻的推薦.協同過濾算法依賴讀者對物品的評分數據,大多數讀者在使用OPAC系統檢索、借閱文獻時不關注評分事項,導致用戶-項目評分矩陣數據稀疏,推薦精度不理想,為此,有學者研究利用借閱次數、借閱時長計算用戶-項目的隱性評分[4].(2)基于內容推薦:論文、專利等學術資源屬于典型的文本數據,學者們主要使用信息檢索的理論和技術,圍繞“語義相關性”展開,結合自然語言處理(NLP)技術對文本進行特征提取和挖掘分析,同時能夠緩解物品冷啟動問題[1].張戈一等[5]采用TF-IDF算法分別對地質文獻進行特征提取、相似度計算及推薦.阮光冊[6]構造讀者借閱行為共現矩陣,利用Word2Vec的潛在語義分析特性提供多樣性的推薦結果.耿立校等[7]針對向量空間模型存在的文本向量維度災難問題,采用TF-IDF算法提取關鍵詞,再結合Word2Vec模型實現文獻推薦.熊回香等[8]從關鍵詞語義類型和文獻老化兩個維度出發(fā),為用戶推薦符合其研究方向且時間價值高的學術論文.陳長華等[9]結合Word2Vec與時間因素進行論文推薦.杜永萍等[10]使用LDA模型對候選文獻和用戶發(fā)表的文獻進行建模,根據兩者相似度值進行推薦.張衛(wèi)衛(wèi)等[11]融合LDA和Doc2Vec模型,利用語料庫的全局語義信息和上下文語義信息,分別進行學術摘要聚類、挖掘學者研究興趣標簽,對本文的研究提供了一定的參考借鑒.WANG等[12]基于TF-IDF算法得出學術論文的關鍵詞分布為用戶推薦學術論文.KANAKIA 等[13]將Word2Vec模型和共被引方法相結合對微軟學術論文進行推薦.(3)基于社交網絡推薦:該方法是基于學術社交網絡進行社區(qū)劃分,并對社區(qū)內用戶進行學術論文推薦[14-15].此外,有學者根據用戶基本信息、閱讀習慣、閱讀行為及情景數據進行用戶畫像,將用戶標簽化,并向其提供個性化推薦服務[2,16].隨著深度學習技術迅猛發(fā)展,CNN、RNN模型應用于論文推薦系統,實現深層次地挖掘文本隱式特征[17-18].

      綜上所述,學術論文推薦方法主要是采用TF-IDF、Word2Vec、LDA不同模型對論文摘要語料庫進行訓練,學習得到論文的文本特征向量,再將目標論文與候選論文集進行相似度計算,選擇相似度較高的候選論文集作為推薦結果.以上3種模型的推薦結果的精度和效果不理想,原因是存在以下局限性:(1)特征提取信息不完善,TF-IDF僅考慮詞權重,存在“詞匯鴻溝”現象,認為詞語間是相互獨立的;Word2Vec獲取到上下文語義信息,但缺失詞序、全局主題信息; LDA從全局語境挖掘隱性的主題信息,但忽略了局部上下文語義關系.(2)缺乏文獻質量因素的度量,僅從文本內容角度作相似度對比,導致向讀者推薦過時的、學術質量相對較低的論文.本文研究內容旨在設計學術論文推薦模型,向用戶推薦內容相似度高的學術論文,并在此基礎之上,引入文獻質量權重對相似度進行加權修正,從而使用戶獲取到高質量的學術論文.

      1 相關模型

      1.1 詞向量模型

      文本向量化是從文本中提取特征,將文本表示成可量化、可運算的數字形式.詞嵌入(Word Embedding)技術誕生之前,文本向量化通常采用詞袋模型(Bags of Words,BoW)中的獨熱編碼(One-Hot)、詞頻(Term Frequency,TF)、詞頻-逆文檔頻率(TF-IDF)3種表示方法.One-Hot方法根據詞在字典中的索引位置將文本轉化為0或1二值向量,該方法會造成嚴重的維度災難和數據稀疏問題.TF和TF-IDF是基于向量空間(VSM)模型,將一篇文本投射成高維空間中的一個點,該點的坐標對應文本的多個特征詞向量.詞袋模型的缺點在于:假定詞與詞間相互獨立,不考慮詞間的語義關系,而且對于大規(guī)模語料庫而言,仍然存在維度災難問題.

      2013年Google公司Tomas Mikolov團隊發(fā)布了Word2Vec詞嵌入模型,Word2Vec認為相似語境的詞語語義相近,通過三層神經網絡模型訓練,將多維詞向量映射成稠密的低維向量,從而實現了詞的分布式表示[9].2014年Tomas Mikolov提出改進模型Doc2Vec,也稱為段落向量(Paragraph Vector),增加了詞序語義的分析,用于創(chuàng)建文檔向量,文檔可以是句子、段落或文章.Doc2Vec模型分為分布式內存模型(PV-DM)和分布式詞袋模型(PV-DBOW)兩種,架構如圖1所示,PV-DM模型是在輸入層增加了段落ID作為樣本用于預測目標詞概率,段落ID類似一個特殊的上下文單詞,存儲著段落信息,段落向量被該文檔所有上下文窗口共享[11].PV-DBOW模型將段落ID作為輸入,從文檔中預測隨機采樣的詞概率.Doc2Vec模型能夠同時訓練學習到詞向量和文檔向量,適用于論文文本向量化高效處理的需求,而且它考慮了詞序信息,對詞預測也更為準確、靈活.

      1.2 LDA主題模型

      潛在狄利克雷分布(LDA)主題模型是通過語義分析技術,對上下文理解后,挖掘出隱含的抽象主題[11].LDA模型的基本思想是:一篇文檔隱含了多個主題,一個主題由多個詞語構成,通過迭代模擬文檔生成過程,識別文檔和文檔集中潛在的主題信息.鑒于此,LDA模型由文檔、主題、詞組成的三層貝葉斯概率分布生成,α和β是兩個Dirichlet先驗超參數,θ表示文檔到主題之間的多項分布,ψ表示主題和詞之間的多項分布.α、β與其他變量之間的服從分布關系為:θ~Dirichlet(α),z~Multinomial(θ),ψ~Dirichlet(β),w~Multinomial(ψ).

      對于語料庫中每篇文檔d生成的過程如圖2所示:(1)為文檔d選擇一個由T個主題混合的概率分布θ,從超參數α吉布斯采樣生成;(2)對于文檔d每個單詞從Multinomial分布中取樣生成主題z;(3)從超參數β吉布斯采樣生成ψ,以ψ為參數的Multinomial分布中采樣生成詞w;(4)上述3個步驟重復N次,產生文檔d.

      LDA模型的作者Blei采用困惑度(Perplexity)評估LDA主題模型好壞,確定最優(yōu)主題數.困惑度小,說明模型具有更好的泛化能力[19].困惑度(Pe)的計算公式如下:

      (1)

      式中,M表示文檔的數量,wd表示文檔d中的單詞,Nd表示文檔d中的單詞數量,P(wd)表示文檔中詞wd產生的概率.

      2 文獻質量評估

      文獻質量的衡量取決于文獻老化率、期刊影響因子及作者權威度3個因素,綜合3個因素對文獻質量進行定量評估.

      2.1 文獻老化

      隨著科學技術的不斷演進發(fā)展,文獻隨之發(fā)生新陳代謝、老化淘汰.對于讀者而言,較新的論文能夠捕捉某學科的研究熱點及其理論技術發(fā)展前沿,論文質量、研究價值相對較高.文獻老化是科學計量學與文獻計量學的重要課題,衡量文獻老化速度和程度的主要度量指標有半衰期和普賴斯指數[20].半衰期是指在利用的全部文獻中較新的一半是在多長時間內發(fā)表的.普賴斯指數(Pr)是指在某一個知識領域內,年限不超過5 a的被引文獻數量與引文文獻總量的比例,計算公式為:

      由于非水庫管理單位已經取得水庫管理范圍內部分地塊所有權證書,所以在水庫防洪與興利調度時,為了防止對非權屬土地造成淹沒、沖蝕等破壞而引發(fā)經濟賠償糾紛,水庫管理單位不得不額外考慮水庫蓄泄水對非權屬土地的影響。因而制約了水庫的防洪作用,降低了水庫的興利效益,對水庫的防汛與供水安全形成了較大的挑戰(zhàn)。

      (2)

      文獻老化經典數學模型利用引文共時數據分析法,反映文獻引用頻率與時間(以10 a為單位)之間的函數關系,揭示某些特定學科領域文獻的老化規(guī)律.參考文獻[21],定義Age(簡記為Ag)表示文獻老化率,用于進一步區(qū)分每篇論文的老化程度,計算公式為:

      (3)

      式中,T為半衰期,根據文獻[21],圖書情報類文獻的半衰期T值為6 a.t為文獻自發(fā)表之日起至推薦時間所間隔的時長,計算方式為以d為單位再換算為以a為單位.

      2.2 期刊影響因子

      論文的質量與期刊影響因子密切相關,期刊影響因子(Impact Factor,IF)是指期刊中論文的平均應用率,等于期刊近兩年被引用量與發(fā)文量之比,IF直觀反映期刊整體的論文質量,利用IF表示同一期刊中每篇候選論文的通用質量.根據CNKI期刊數據統計,2021年圖書情報類期刊的IF值區(qū)間范圍為[0.811,7.343],為抑制IF值過大對整體文獻質量的影響,利用離差標準化(Min-Max)方法對特征做歸一化處理,IF(簡記為I)計算公式為:

      (4)

      2.3 文獻影響力

      在同一研究領域,某篇文獻被引次數較高,表明該論文更受學者們的青睞和認可,其學術影響力較高,其中可能包括歷久不衰的經典文獻.定義I′表示文獻影響力,取100作為被引次數的閾值,超過100可以當作高影響力文獻,計算公式為:

      (5)

      定義Qa表示候選論文的文獻質量權重,該指標綜合期刊影響因子、文獻老化率以及文獻被引次數(I′)3個因素,并取其平均值作為Qa指標值,計算公式為:

      (6)

      3 推薦模型框架

      推薦模型架構如圖3所示,本文以CNKI期刊論文的摘要文本作為語料庫,融合兩種Doc2Vec、LDA模型進行建模,用于訓練語料庫,利用優(yōu)勢互補來挖掘文本局部上下文語義、詞序信息以及隱藏的全局主題信息,擴充了所提取的論文文本的特征豐度和細粒度,為后續(xù)的NLP任務處理提升識別及預測能力.大量的文本相似度計算會增加計算復雜度,造成算法運行緩慢,為此通過聚類進行了優(yōu)化處理,將候選論文集進行聚類,劃分出多個類群,然后在類群范圍內尋找文獻質量加權相似度較高的候選論文集.

      假定語料庫是由一系列文檔(論文摘要文本)組成的集合D={d1,d2,…,dn},文檔d的詞集合W={w1,w2,…,wn},LDA模型訓練文檔D后得到多個隱含主題集合T={t1,t2,…,tn}.推薦模型的推薦結果處理流程如下.

      步驟1 對語料庫進行分詞、去除停用詞等數據預處理,利用Doc2Vec模型訓練語料庫,得到所有詞向量和文本向量,假定某篇論文文檔d的向量,記作v(d),v(d)=[wd1wd2wd3…wdm],wdi表示文檔d的第i個特征值.

      步驟2 利用LDA模型訓練語料庫,得到每篇論文文檔的主題概率分布,即文檔的主題向量,記作v(d)t,v(d)t=[td1td2td3…tdm],tdi表示文檔d在主題ti上的概率分布.

      v(d)′=[wd1wd2wd3…wdmtd1td2td3…tdm].

      步驟4 采用K-Means經典聚類算法對所有文檔進行聚類并保存模型,兩篇文檔的距離采用余弦相似度進行度量,相似度越高則距離越接近.通過多次迭代計算簇中心,直至簇中心收斂,不再改變位置,最終確定多個聚類簇.余弦相似度計算公式如下:

      (7)

      步驟5 將用戶發(fā)表的論文集作為目標論文集,經過分詞、去除停用詞等數據預處理后,通過步驟1、2訓練保存的模型得到文檔向量.接著通過步驟4保存聚類模型,計算出每篇目標論文距離最近的簇中心,進而判定目標論文所屬簇及簇內的類群成員(即待推薦論文集).

      步驟6 修正余弦相似度公式(式8),為其賦予文獻質量權重,接著對相似度進行排序,排序后的TOP-N篇候選論文作為輸出推薦結果.聚類示意圖如圖4所示,文獻質量(Qa)加權相似度計算公式如下:

      sim′(d,d′)=Qa×sim(d,d′).

      (8)

      4 實證分析

      4.1 數據準備及預處理

      通過編寫Python程序,從CNKI爬取圖書情報類期刊論文作為候選論文集,同時將論文摘要作為語料庫.期刊論文的檢索條件為文獻分類:圖書情報與數字圖書館,時間范圍為2014-2021年(8年),來源類別為北大中文核心期刊和CSSCI來源期刊,清除選題指南、名人專訪等無效文獻,最終采集總計42 072篇論文.目標論文集選取中國礦業(yè)大學10位館員近5年發(fā)表的論文.數據預處理環(huán)節(jié)采用結巴分詞工具進行分詞,停用詞采用哈工大停用詞詞典追加部分自定義停用詞,比如論文中經常出現的“目的”、“意義”、“過程”等無關詞.圖書情報學領域具有很多專業(yè)術語,為了使得分詞更加精準,通過BICOMB工具提取文獻關鍵詞,進而構建包含1 724個詞的自定義詞典.

      4.2 混合語義模型訓練

      采用Python版本的Gensim軟件包訓練Doc2Vec、LDA模型,Doc2Vec模型的參數設置為:window(窗口大小)設為5,min_count(最小詞頻閾值)設為5,Dm(模型類別)設為1,即PV-DM模型,Size(段落向量維度)設為100,epochs(迭代次數)設為200.LDA模型的參數設置為:超參數α設為0.05,超參數β設為0.01,iterations(迭代次數)設為200,dictionary(字典)過濾詞頻小于5的詞.

      前文提到,LDA模型采用困惑度指標評估最優(yōu)主題數,本文通過繪制困惑度與主題數間的曲線,結果表明:當主題數為20時,困惑度出現拐點,下降趨勢逐漸平緩,另外從PyLDAvis庫生成的主題可視化結果(圖5)來看,各個圓圈代表一個主題,各個主題之間重合性不高,因此最佳主題數取值為20.根據20個主題對應的高頻次出現的詞語分布,提取主題所代表的含義標識,其中前8個熱門主題分別為:“圖書館服務模式創(chuàng)新”“圖書館建設發(fā)展”“用戶行為分析”“知識組織與知識服務”“文獻資源建設與保護”“科技文獻發(fā)展”“閱讀推廣”“高校學科服務”等.圖5中圓圈的大小代表每個主題相關的文獻數量,圓圈較大的主題即為熱門主題.由圖5可見,圖書情報類論文研究的主題分布整體較為分散,少數主題關系緊密,如主題1與主題2和主題5有部分重合,三者均與圖書館建設發(fā)展關聯密切.

      4.3 推薦實例

      時間是一種重要的上下文信息,用戶的研究興趣會隨著時間上下文的推移而發(fā)生遷移,本文假定讀者的研究興趣5年內不會衰減,以中國礦業(yè)大學圖書館某館員為例,表1是該館員近5年的發(fā)表論文匯總(共5篇),采用K-Means算法對語料庫聚類,每篇論文所在簇的成員數側面反映出該研究主題的發(fā)文量及研究熱度.

      表1 某館員近5年發(fā)表論文列表

      以該館員序號1的發(fā)表論文《學科分析中科研合作網絡分析方法研究》為例,模型的部分推薦論文如表2所示,序號1~6是按照初始的余弦相似度進行排序.可見,推薦論文的主題與發(fā)表論文研究主題均與科研合作網絡相關,契合度十分高.在引入文獻老化率、期刊影響因子及文獻影響力3個因素后,對相似度進行加權修正計算后,重新排序的次序為序號2、序號5、序號6、序號3、序號4、序號1.序號1論文初始排名第1,但是因為其老化率較低,使其最終的推薦結果產生改變,排名轉為第6.序號6論文因為老化率和被引次數較高,最終排名轉為第3.由此可見,加權后的論文推薦結果不僅保證了內容的相關性,而且在論文質量上得到了很好的保證.

      表2 某館員部分推薦論文列表

      4.4 推薦效果評估

      本文采用精確率評估本文推薦模型的推薦精確度,方法是采用本文模型與TF-IDF、Word2Vec、LDA 3種模型,分別向10位館員推薦相似度較高的TOP-N論文,N分別取值10、15、20、25、30,并對推薦論文進行滿意度(滿意或不滿意)評價,精確率(Precision,P)的計算公式如下.

      (9)

      式中,PT為用戶滿意的推薦論文數,PN為用戶不滿意的推薦論文數.

      實驗結果表明:隨著N的增加,精確率逐漸提高,當N=20時,論文推薦的精確率最高(P@20=0.729),隨后又發(fā)生明顯降低.4種模型推薦精確率如圖6所示,由圖6可見,本文模型與其他模型對比,精確率最高,其次為Word2Vec、LDA及TF-IDF.分析其原因是:TF-IDF模型僅考慮論文的關鍵詞權重,而且文本向量數據稀疏,導致精確率最低.Word2Vec模型考慮上下文語境信息,并且文本向量低維稠密,因此精確率高于TF-IDF,但是文本向量是簡單地通過詞向量取均值表示,會丟失部分上下文信息.LDA模型是基于論文的詞分布提取論文的主題信息,缺乏上下文語義信息,與Word2Vec模型相比,精確率較低.本文模型綜合論文的上下文語義、全局語義以及詞序信息,更能準確表達論文的內容主旨,因此精確率最高.

      為了驗證本文文獻質量加權計算方法的有效性,即推薦論文的排序效果,需計算推薦論文的輸出排序與用戶真實排序的差異,該差異值越小,則越符合用戶期望的排序結果.定義p為排序差異值,計算公式為:

      (10)

      5 結束語

      本文采用單機對設計的推薦模型進行實證,語料庫使用的圖書情報類期刊論文文本,并取得良好的實驗效果.同時,本文研究存在一定的局限性,下一步考慮從以下3個方面進行優(yōu)化改進:

      1)處理性能提升方面,在實際場景中,語料庫會涵蓋各個學科的期刊論文文本,超大規(guī)模的語料庫在提升模型精度的同時,會造成訓練收斂緩慢,并且數以萬計的論文相似度計算存在性能瓶頸.采用Spark分布式計算框架作為推薦系統的計算平臺,區(qū)別于Hadoop的MapReduce框架,Spark將數據集緩存在內存中,避免計算過程中頻繁的磁盤I/O操作,從而有效提升推薦系統的處理性能[22].

      2)目標論文集數據來源方面,圖書館的機構知識庫存儲展示學者的學術科研成果,用戶發(fā)表論文的標題、摘要、作者等元數據可以通過機構知識庫定期采集獲取,隨著用戶發(fā)表論文量的增多,推薦結果同步發(fā)生改變,保證了推薦系統的實時性.

      3)論文和圖書的資源整合方面,用戶發(fā)表的論文及圖書借閱信息都揭示了用戶的閱讀興趣,可以將兩者有機結合起來,更精準地提取用戶興趣特征,向用戶推薦優(yōu)質論文.反之亦然,可以為平常更關注論文的學術用戶推薦優(yōu)質書籍,擴充可供學習參考的文獻范圍.

      猜你喜歡
      語料庫文檔語義
      有人一聲不吭向你扔了個文檔
      語言與語義
      《語料庫翻譯文體學》評介
      把課文的優(yōu)美表達存進語料庫
      基于RI碼計算的Word復制文檔鑒別
      “上”與“下”語義的不對稱性及其認知闡釋
      現代語文(2016年21期)2016-05-25 13:13:44
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      認知范疇模糊與語義模糊
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      电白县| 耒阳市| 文山县| 抚宁县| 满洲里市| 乐都县| 张掖市| 庆安县| 金堂县| 外汇| 潍坊市| 页游| 沾益县| 崇礼县| 武安市| 双流县| 集安市| 连平县| 旺苍县| 长宁县| 昌吉市| 泾源县| 化隆| 莎车县| 西青区| 佛教| 新野县| 临邑县| 当涂县| 长丰县| 安顺市| 高阳县| 深水埗区| 深圳市| 芜湖县| 科技| 宜昌市| 武夷山市| 葵青区| 鹿邑县| 华阴市|