摘 要:為提高文獻(xiàn)綜合推薦效率,提出一種基于Vague相似性的文獻(xiàn)推薦方法。該方法首先利用文獻(xiàn)數(shù)據(jù)庫(kù)檢索用戶感興趣文獻(xiàn),作為待推薦文獻(xiàn)集;然后,對(duì)文獻(xiàn)中的關(guān)鍵詞依據(jù)提出的方法重新排序、計(jì)算關(guān)鍵詞的模糊隸屬度和關(guān)鍵詞轉(zhuǎn)換為Vague值;最后,利用Vague相似性度量文獻(xiàn)的相關(guān)性,并結(jié)合年均下載量和年均引用,對(duì)進(jìn)入推薦集的文獻(xiàn)進(jìn)行推薦排序供用戶選擇使用。實(shí)驗(yàn)表明,該算法不僅利用關(guān)鍵詞相似度,還融入了對(duì)文獻(xiàn)有重要意義的引用數(shù)和下載量參數(shù)作為推薦參數(shù),綜合推薦效果明顯。
關(guān)鍵詞:文獻(xiàn);相似性;推薦;Vague技術(shù)
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
隨著學(xué)術(shù)資源的不斷積累,文獻(xiàn)數(shù)量越來(lái)越龐大,如以“藏文”為主題在知網(wǎng)上檢索期刊,可以查詢到有1 741篇(截止到2021年5月22日)文獻(xiàn)資源,如此多的文獻(xiàn)資源,靠傳統(tǒng)的檢索排序技術(shù),已不能滿足檢索者準(zhǔn)確快速獲取相關(guān)重要文獻(xiàn)的需求,因此如何為檢索者提供更準(zhǔn)確的文獻(xiàn)推薦已成為學(xué)者關(guān)注的一個(gè)重要問題。目前,常用的推薦技術(shù)主要包括基于內(nèi)容的推薦、基于協(xié)同過濾的推薦和混合推薦等[1-3]。基于內(nèi)容的推薦算法具有不需要檢索者的評(píng)價(jià)意見和相關(guān)個(gè)人信息,僅需要檢索者與文獻(xiàn)互動(dòng)過,從互動(dòng)的文獻(xiàn)中提取特征與待推薦文獻(xiàn)特征進(jìn)行相識(shí)性比較,找出相識(shí)性比較高的文獻(xiàn)就可進(jìn)行推薦,比較適合于文獻(xiàn)的推薦?;趨f(xié)同過濾的推薦,需要用戶注冊(cè)信息和文獻(xiàn)評(píng)價(jià)信息,由于用戶評(píng)價(jià)數(shù)量少也即數(shù)據(jù)稀疏問題,并且面臨新的推薦文獻(xiàn)和新注冊(cè)用戶無(wú)評(píng)分?jǐn)?shù)據(jù)也即冷啟動(dòng)問題,不適合作為文獻(xiàn)推薦。
基于Vague的相似性產(chǎn)生了很多理論和算法[4-5],本文以2020年劉永志等[6-7]提出的Vague的相似性算法,該算法對(duì)模糊度相似性具有計(jì)算量小、功能優(yōu)等特點(diǎn),可對(duì)文獻(xiàn)關(guān)鍵詞相似性快速計(jì)算?;谠撍惴?,以知網(wǎng)中檢索到的藏文文獻(xiàn)數(shù)據(jù)為研究對(duì)象,利用Vague相似性算法對(duì)檢索到的文獻(xiàn)關(guān)鍵詞相似性進(jìn)行研究,并通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
1 Vague相似性推薦方法
1.1 關(guān)鍵詞排序
預(yù)定K為關(guān)鍵詞的集合,表示為K={k1,k2,…,km},依據(jù)其在摘要和標(biāo)題中出現(xiàn)的次數(shù)認(rèn)定其重要性,出現(xiàn)的次數(shù)越多,重要度越高。
wi=C(ki)a+2×C(ki)t(1)
其中,C( )代表統(tǒng)計(jì)次數(shù),a代表摘要,t代表標(biāo)題。
如果有幾個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)相同,出現(xiàn)在標(biāo)題中的優(yōu)先,否則可以默認(rèn)原來(lái)的位置。如K={k1,k2,k3,k4},w1=2+2×0=2,w2=2+1×2=4,w3=3+2×0=3,w4=1+2×1=3,則對(duì)關(guān)鍵字依據(jù)重要性重新排序?yàn)镵={k2,k4,k3,k1}。
1.2 轉(zhuǎn)為模糊隸屬度
對(duì)文獻(xiàn)的關(guān)鍵詞特征進(jìn)行數(shù)值轉(zhuǎn)換,才能夠進(jìn)行數(shù)學(xué)處理研究,文中選擇文獻(xiàn)[8]的理論來(lái)對(duì)關(guān)鍵詞特征進(jìn)行轉(zhuǎn)換,文獻(xiàn)[8]認(rèn)為模糊隸屬度基本符合Gaussian函數(shù)特征,利用Gaussian函數(shù)得到各個(gè)文獻(xiàn)I的特征值,|L|代表關(guān)鍵詞個(gè)數(shù),r代表排序后的位置序數(shù),VIi=r2α|L|(r-1),α是一個(gè)大于1的常數(shù),它影響各個(gè)關(guān)鍵詞的取值。在實(shí)際操作過程中,選取的關(guān)鍵詞特征都是重要的,還有些較次要特征未入選為關(guān)鍵詞,文中在每個(gè)關(guān)鍵詞特征集后面追加一個(gè)Kx代表,這樣特征個(gè)數(shù)變?yōu)閨L|+1。
1.3 模糊隸屬度轉(zhuǎn)為Vague函數(shù)值
利用Gaussian函數(shù)取得關(guān)鍵詞特征的模糊隸屬度,為利用Vague相似性,需要轉(zhuǎn)變?yōu)閂ague函數(shù)值。假設(shè)利用Gaussian函數(shù)處理過的關(guān)鍵字特征屬性值,其模糊隸屬的值為V={v1,v2,v3,v4,vx},其值是按重要程度進(jìn)行排序,v1是最重要的值,v2是次重要的,v2的值也可以看著是對(duì)v1值的反對(duì),v1-v2的值是真支持度值,v1是含未知信息的支持度,是最大支持度,所以,用(v1-v2,v1)表示特征屬性的Vague函數(shù)值,按此思路,轉(zhuǎn)換為Vague函數(shù)集為
V={(v1-v2,v1),(v2-v3,v2),(v3-v4,v3),(v4-vx,v4)}(2)
1.4 推薦排序
約定I為待推薦文獻(xiàn)集合,表示為I={I1,I2,I3,…,Im},文獻(xiàn)集I中的每個(gè)文獻(xiàn)Ii(i=1,2,…,m)的n個(gè)關(guān)鍵詞屬性構(gòu)成向量集KIi={Ki1,Ki2,Ki3,…,Kin},能唯一表示文獻(xiàn)Ii的特征,文獻(xiàn)特征的Vague函數(shù)集為
Xkp(Ii)={lt;tk1(Ii),1-fk1(Ii)gt;,lt;tk2(Ii),1-fk2(Ii)gt;…lt;tkn(Ii),1-fkn(Ii)gt;}(3)
其中,tkn(Ii)表示文獻(xiàn)特征的真支持度,fkn(Ii)表示文獻(xiàn)特征的假支持度,ukn(Ii)表示文獻(xiàn)特征的猶豫度,三者之間的關(guān)系為ukn(Ii)=1-tkn(Ii)-fkn(Ii)。
定義Sj(Ik,Ii)為文獻(xiàn)Ik與Ii關(guān)于特征屬性Kj的相似度,根據(jù)文獻(xiàn)[9-10]求出相似度,進(jìn)而求出文獻(xiàn)Ik與Ii的相似度為
S(Ik,Ii)=∑nj=1Sj(Ik,Ii),0≤S(Ik,Ii)≤1(4)
文獻(xiàn)的評(píng)分值由下載量和引用決定,并且占比重不同,由于文獻(xiàn)發(fā)表時(shí)間的不同,下載量和引用需要進(jìn)行處理,該文按年均進(jìn)行處理,定義文獻(xiàn)Ii的評(píng)分值為r(Ii),
r(Ii)=ε×Cd(Ii)-mindmaxd-mind+φ×Cy(Ii)-minymaxy-miny(5)
其中,0lt;εlt;1,0lt;φl(shuí)t;1,且φgt;ε,Cd(Ii)是文獻(xiàn)Ii的年均下載量,mind是文獻(xiàn)年均下載量的最小值,maxd是文獻(xiàn)年均下載量的最大值;Cy(Ii)是文獻(xiàn)Ii的年均引用量,miny是文獻(xiàn)年均引用量的最小值,maxy是文獻(xiàn)年均引用量的最大值。利用權(quán)重加總對(duì)文獻(xiàn)推薦,公式為R(Ik)=r(Ii)S(Ik,Ii),依據(jù)R(Ik)的大小對(duì)文獻(xiàn)進(jìn)行排序推薦。
2 實(shí)驗(yàn)
2.1 數(shù)據(jù)來(lái)源
以篇名作為主題條件,在知網(wǎng)中輸入“藏文”關(guān)鍵詞,可以查詢到1 741篇中文期刊藏文研究文獻(xiàn)(截止到2021年5月22日),本文采集了373篇文獻(xiàn)進(jìn)行推薦研究,采集的文獻(xiàn)表示為F={f1,f2,…,f373}。
2.2 實(shí)驗(yàn)流程
首先,研究者在F集中挑選一篇感興趣文獻(xiàn)下載,例如f9,提取文獻(xiàn)f9中的關(guān)鍵字并依據(jù)重要度進(jìn)行排序,在采集的文獻(xiàn)庫(kù)F中查找與f9有相同關(guān)鍵字的文獻(xiàn),結(jié)果進(jìn)入推薦集的為R={f108,f111,f116,f127,f150,f335,f347};然后,對(duì)推薦集R中的每個(gè)文獻(xiàn)進(jìn)行關(guān)鍵字排序,計(jì)算關(guān)鍵詞的模糊隸屬度并轉(zhuǎn)換為Vague函數(shù);最后,利用劉永志等提出Vague的相似計(jì)算相似度并給出推薦順序。具體流程如圖1所示。
2.3 推薦集關(guān)鍵詞排序
文獻(xiàn)的關(guān)鍵詞一般3到8個(gè),作者在挑選關(guān)鍵字時(shí)都非常謹(jǐn)慎,一般都能選擇體現(xiàn)本研究?jī)?nèi)容的關(guān)鍵詞匯,但對(duì)關(guān)鍵詞的排序不太重視,所以,我們需要對(duì)關(guān)鍵詞進(jìn)行排序,以體現(xiàn)關(guān)鍵詞的重要程度。如標(biāo)號(hào)為f9“基于KNN算法的藏文文本分類關(guān)鍵技術(shù)研究”[9]關(guān)鍵詞為“KNN算法; 藏文文本; 特征選擇; 文本分類”,利用前面第2節(jié)的理論對(duì)關(guān)鍵字按重要程度重新排序?yàn)椤安匚奈谋?KNN算法;文本分類;特征選擇”。此順序更能體現(xiàn)文章的核心內(nèi)容,為相似性度量打下基礎(chǔ)。我們對(duì)進(jìn)入推薦集的文獻(xiàn)按關(guān)鍵字重要性進(jìn)行排序,具體如表1所示。
2.4 關(guān)鍵詞模糊隸屬度和Vague函數(shù)值
取α=1.25,利用第1.3節(jié)和第1.4節(jié)知識(shí)得到推薦集各文獻(xiàn)關(guān)鍵詞特征模糊隸屬度取值,并與f9關(guān)鍵詞模糊隸屬度取值有相同的放在一行如表2所示,進(jìn)行Vague轉(zhuǎn)換,其轉(zhuǎn)換值如表3所示。
2.5 相似性和推薦順序
利用文獻(xiàn)[6-7]提出的Vague相似性,計(jì)算出推薦集中與f9的相似度如表4所示。
利用下載和被引確定權(quán)重,取φ=0.6,ε=0.4,mind=9,maxd=50,miny=0.2,maxy=3,最小和最大的取值原則是比推薦集最大值略大,比最小值略小,這樣可以避免出現(xiàn)評(píng)分值為0的情況,運(yùn)用式(5)計(jì)算結(jié)果如表5所示。
利用R(Ik)=r(Ii)S(Ik,Ii),計(jì)算推薦值(保留3位小數(shù))如下:
R(f108)=0.007×0.656=0.005
R(f111)=0.764×0.661=0.505
R(f116)=0.176×0.656=0.116
R(f127)=0.069×0.671=0.046
R(f150)=0.053 7×0.678=0.364
R(f335)=0.337×0.932=0.314
R(f347)=0.35×0.656=0.229
根據(jù)推薦值,其推薦順序?yàn)镽(f111)gt;R(f150)gt;R(f335)gt;R(f347)gt;R(f116)gt;R(f127)gt;R(f108),該推薦順序綜合了特征值重要度、被引數(shù)量和下載量信息,其推薦順序不僅體現(xiàn)了文獻(xiàn)的相關(guān)性,還體現(xiàn)了文獻(xiàn)的引用量和下載量,通過該方法能把好的文獻(xiàn)推薦給讀者。
3 結(jié)論
本文以Vague相似性技術(shù)為基礎(chǔ),以文獻(xiàn)研究推薦為例,從關(guān)鍵詞排序、模糊隸屬度轉(zhuǎn)換、結(jié)合年均下載量和年均引用,對(duì)進(jìn)入推薦集的文獻(xiàn)進(jìn)行推薦排序。實(shí)驗(yàn)結(jié)果表明,推薦順序不僅體現(xiàn)了文獻(xiàn)的相關(guān)性,還提現(xiàn)了文獻(xiàn)的引用量和下載量,能把高質(zhì)量文獻(xiàn)推薦給讀者,并在一定程度上解決了內(nèi)容推薦特征屬性表示難的問題和冷啟動(dòng)問題,對(duì)Vague值的轉(zhuǎn)換上也提出了新思路,為文獻(xiàn)內(nèi)容推薦提供了新的方法。
參考文獻(xiàn):
[1]李琳, 唐守廉. 融合內(nèi)容表示的度量排序?qū)W習(xí)推薦模型[J]. 電子學(xué)報(bào), 2020, 48(8): 1615-1622.
[2] 孫雨生, 朱金宏, 李亞奇. 國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦研究進(jìn)展: 核心內(nèi)容[J]. 現(xiàn)代情報(bào), 2020, 40(8): 156-165.
[3] 劉昱康, 于學(xué)軍. 基于互信息的魯棒跨域推薦系統(tǒng)[J]. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022, 39(4): 75-80.
[4] 臧振春, 惠嫻斐, 崔春生. 基于Vague集的電子商務(wù)購(gòu)物決策的模型及應(yīng)用研究[J]. 系統(tǒng)科學(xué)與數(shù)學(xué), 2017, 37(12): 2375-2388.
[5] 臧振春, 崔春生. 基于Vague集理論一維屬性: 需求匹配的知識(shí)推薦算法研究[J]. 運(yùn)籌與管理, 2020, 29(8): 112-119.
[6] 劉永志, 皮德常, 饒緒黎. Vague相似性度量新方法[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2020, 50(5): 263-267.
[7] LIU Y Z, PI D C. A new method for measuring the similarity of Vague sets and its application in fault diagnosis[C]//Artificial Intelligence and Security, 6th International Conference, ICAIS 2020, Hohhot, China, July 17-20, 2020. Berlin:Springer,2020:539-548.
[8] ZENEBE A, NORCIO A F.Representation, similarity measures and aggregation methods using fuzzy sets for content-based recommender systems[J]. Fuzzy Sets and Systems, 2009(160): 76-94.
[9] 賈會(huì)強(qiáng). 基于KNN算法的藏文文本分類關(guān)鍵技術(shù)研究[J]. 西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版) ,2011, 32(3): 24-29.
[10]江濤, 于洪志, 徐濤. 互聯(lián)網(wǎng)藏文內(nèi)容安全檢測(cè)過濾系統(tǒng)研究[J]. 信息網(wǎng)絡(luò)安全, 2009(10): 47-48.
[11]珠杰, 李天瑞, 劉勝久. 基于條件隨機(jī)場(chǎng)的藏文人名識(shí)別技術(shù)研究[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)), 2016, 52(2): 289-299.
[12]王維蘭, 丁曉青, 祁坤鈺. 藏文識(shí)別中相似字丁的區(qū)分研究[J]. 中文信息學(xué)報(bào), 2002(4): 60-65.
[13]才讓叁智. 藏文搜索引擎中的分詞算法研究[J]. 西藏大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 28(2): 53-57.
[14]安見才讓, 拉毛措, 孫琦龍. 互聯(lián)網(wǎng)藏文信息輿情分析系統(tǒng)設(shè)計(jì)[J]. 微處理機(jī), 2017, 38(2): 56-58.
[15]艾金勇. 面向信息處理的藏文文本規(guī)范化方法研究[J]. 西北師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 53(2): 52-56.
[16]王維蘭, 丁曉青, 陳力, 等. 印刷體現(xiàn)代藏文識(shí)別研究[J]. 計(jì)算機(jī)工程, 2003(3): 37-38.
(責(zé)任編輯:曾 晶)
Research on Literature Recommendation Based on Vague Similarity
LIU Yongzhi*1,2,3, WU Gang2, CAI Zangtai3
(1.School of Alibaba Big Data, Fuzhou Polytechnic, Fuzhou 350108, China; 2.College of Information Engineering, Tarim University,
Alar 843300, China; 3.Key Laboratory of Tibetan Information Processing, Ministry of Education, Xining 810007, China)
Abstract:
In order to improve the efficiency of literature comprehensive recommendation, a literature recommendation method based on Vague similarity is proposed. Firstly, this method uses the literature database to retrieve the documents of interest to users as the collection of documents to be recommended. Then, according to the proposed method, the keywords in the literature are reordered, the fuzzy membership degree of keywords is calculated, and the keywords are converted to Vague values. Finally, using Vague similarity to measure the relevance of documents, and combining the average annual downloads and average annual citations, the documents entering the recommendation set are recommended and sorted for users to choose. Experiments show that the algorithm not only uses the keyword similarity, but also incorporates the references and downloads that are important to the literature as the recommendation parameters, and the comprehensive recommendation effect is obvious.
Key words:
literature; similarity; recommend; Vague technology
收稿日期:2022-06-07
基金項(xiàng)目:藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室/青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室資助項(xiàng)目(2020Z003);青海省科技廳資助項(xiàng)目(2020-ZJ-704);福州職業(yè)技術(shù)學(xué)院人才引進(jìn)項(xiàng)目(FZYRCQD201901)
作者簡(jiǎn)介:劉永志(1973—),男,教授,碩士生導(dǎo)師,研究方向:數(shù)據(jù)挖掘、藏文信息處理,E-mail:y_zliu@163.com.
通訊作者:劉永志,E-mail:y_zliu@163.com.