繆 峰,賈華丁,熊于寧
(西南財經(jīng)大學 經(jīng)濟信息工程學院,成都 610074)
近年來,隨著互聯(lián)網(wǎng)技術、信息技術、移動通信和硬件技術的發(fā)展,使用移動智能設備上網(wǎng)的人數(shù)已經(jīng)超過使用普通電腦上網(wǎng)人數(shù),同時針對性地也出現(xiàn)了豐富多彩的各種移動網(wǎng)絡服務。但是移動智能設備存在著顯示界面小、電源持續(xù)使用時間短、輸入輸出能力有限等問題,從而使得移動用戶難以實時獲取自己所真正需求的服務,造成了嚴重的移動信息過載或移動信息迷失等問題[1]。移動推薦系統(tǒng)的目的是從過載的信息中識別出用戶感興趣的內容,解決上述問題。其近年來已成為推薦系統(tǒng)研究領域最為活躍的課題之一[2-3],而找到跟目標用戶興趣相似的鄰居集是其中非常關鍵的一個環(huán)節(jié)[4]。
傳統(tǒng)的近似鄰居集選取方法忽略了服務之間的相似性,從而遺漏部分具有相似興趣的用戶。部分研究者提出根據(jù)標簽、分類或評分來計算服務之間的相似性,但是在移動服務提供平臺中存在分類較粗、標簽缺失、評分矩陣稀疏等問題,從而使得現(xiàn)有方法無法直接應用到移動服務方面。服務介紹是提供移動服務必須的一個內容,其說明服務的功能和作用。為此,本文基于服務介紹內容,通過短文本相似度計算方法求出服務之間的相似性,從而將服務相似度考慮進用戶相似計算中,找出真正具有相似興趣的用戶集,針對冷啟動等原因造成目標用戶近似鄰居集數(shù)量過于龐大的問題,提出一種分步篩選用戶鄰居集的方法。
用戶相似度的度量方法主要分為2種:一種是Correlation相似度方法,即通過用戶對項目的評分來計算,余弦相似度、Pearson系數(shù)、歐幾里德距離相似度、斯皮爾曼等級關聯(lián)法都屬于此類[5];另一種是Relevance相似度方法,即通過用戶對相同項目的瀏覽、使用等來計算,如Jaccard方法、對數(shù)似然相似度法等[6-7]。傳統(tǒng)的相似度度量方法隨著項目數(shù)量的不斷增大導致評分矩陣稀疏,且沒有考慮服務之間的相似性,使得用戶之間的相似度計算結果不夠準確。例如2個用戶分別使用了“愛奇藝”和“優(yōu)酷”2個服務,傳統(tǒng)方法認為2個用戶使用的是不同的項目,不具有相似性。但從興趣角度出發(fā),2個用戶都體現(xiàn)出了對影音方面的興趣,應具有相似性。越來越多的學者意識到了這個問題,開始了相關研究。有些學者考慮從項目類別方面計算服務相似度,部分文獻簡單認為2個服務同屬一個類別則相似度為1,否則為0。文獻[8]通過構建類別樹從多層次多類別上考慮項目的相似性。這些方法要求項目的類別劃分較細致,而在移動服務平臺中,類別的劃分較粗糙一般只有一個層次,因此,利用類別的方式來計算移動服務之間的相似度是不適合的。另外的學者考慮從項目的屬性方面來分析項目相似性。其中部分文獻使用項目評分來計算項目相似度,如文獻[7]通過將(項目的評分次數(shù))/(項目所屬類型中所有項目被評分的總次數(shù))得到項目之間的興趣度特征向量,再代入絕對指數(shù)相似性計算公式,計算2個項目之間的興趣度相似性。然后將其與傳統(tǒng)的用戶相似度計算公式相結合。但是通常用戶對項目的評分矩陣稀疏,少量的評分數(shù)據(jù)不能準確的體現(xiàn)出項目之間的相似度。這種情況在移動服務方面表現(xiàn)的特別明顯,例如安卓市場平臺中的“微信”評分次數(shù)(2016/10/30統(tǒng)計)。文獻[9-10]構建項目與常注標簽的關聯(lián)矩陣,得到項目的標簽特征向量,通過余弦相似度方法計算不同物品之間的標簽向量的相似程度,從而描述不同物品之間的相似度。但是很多的移動服務平臺中并沒有標注服務的標簽,因此,這種方法也不適用于移動服務的相似度計算中。綜上所述,由于移動服務存在分類較粗、相關屬性缺失等特點,現(xiàn)有的項目相似度計算方法不適用于移動服務方面。
服務介紹是發(fā)布服務時必不可少的一個項目,其說明了該服務的功能和作用。例如安卓市場中“我愛作文大全(1.0)”的介紹:“作文大全是一款旨在幫助學生更好的學習如何寫作的應用軟件,我們收錄了近年高考滿分作文,高中優(yōu)秀作文,中考滿分作文、初中優(yōu)秀作文供學生鑒賞,還給喜歡寫作的同學們提供了大量的素材,以便學生們能寫出更加優(yōu)秀的作文出來。適用于小學,初中,高中學生參考,再也不用花錢買紙質作文材料了?!毕嗨频姆掌涮峁┑墓δ芎妥饔靡矐撌窍嗨频?這就體現(xiàn)在不同服務的介紹內容也應該是相似的。因此本文通過分析服務介紹內容之間的相似度來度量服務之間的相似度。服務介紹通常是較短的一段文字或幾句話,因此傳統(tǒng)的針對長文本的文本相似度度量方法不適用于此種情況。針對短文本相似度的計算方法現(xiàn)有研究主要分為:
1)基于詞典的方法[11-12],其通常的做法是將短文本分解成多個詞,然后去掉無用的停用詞,再基于語義詞典計算詞與詞之間的語義相似度,最后將詞與詞的語義相似度綜合起來得到文本與文本的語義相似度。
2)基于大規(guī)模文本集進行統(tǒng)計的方法,如具有代表型的潛在語義分析法(Latent Semantic Analysis,LSA),LSA能夠找出詞與詞之間的潛在聯(lián)系,獲取詞在文本上下文中的一些知識。
3)基于描述特征的方法[13],該類方法的核心在于選擇合適的特征值來表示文本,如文獻[13]從問題短文本中抽取實詞作為最初特征集,通過熵表示特征詞權重,再通過聚類的方式得到最后的特征集。
4)借助互聯(lián)網(wǎng)資源的方法[14-15],該類方法通過借助互聯(lián)網(wǎng)上的資源如wiki百科、百度百科、搜索引擎等來分析文本相似性。例如2個詞通過搜索引擎查找后返回的網(wǎng)頁數(shù)量,或通過2個詞在百科中的鏈接情況。在這些方法中,基于詞典的方法是目前運用最為廣泛且十分有效的方法。
本節(jié)首先分析了基于服務介紹屬性的相似度計算方法,然后將得到的服務相似度納入到用戶相似度計算中,給出了一個用戶相似度計算方法。根據(jù)計算出的用戶相似度,本文提出了一個分步篩選近似鄰居集的方法。
文獻[13]提出了一種結合統(tǒng)計相似度和語義相似度的方法來計算答案之間的相似度,這種方法既結合了傳統(tǒng)的基于統(tǒng)計計算相似度方法的優(yōu)點,又考慮了短文本自身的特性,更全面衡量了答案的相似度。但該方法在處理關鍵詞數(shù)量較多的短文本環(huán)境下存在一些不足,主要體現(xiàn)在2個方面:
1)在統(tǒng)計相似度計算中對所有關鍵詞賦予一樣的權重,未考慮關鍵詞對短文本的重要度。現(xiàn)有研究表明短文本中出現(xiàn)次數(shù)較多的關鍵詞在相似度計算中應具有較高的權重。例如在上述“我愛作文大全(1.0)”服務中提取的關鍵詞“作文”。
2)文獻[13]提出的雙向語義相似度計算方法未考慮服務之間關鍵詞數(shù)量相差較大的情況,使得計算結果偏向關鍵詞越少的服務,從而使結果產(chǎn)生偏差。比如在“影音”類別下新增一個服務S,其簡介內容非常短,最后提取的關鍵詞集合為{節(jié)目,電影,播放,視頻}。這些關鍵詞在影音類別下是非常常見的關鍵詞,最后結果會發(fā)現(xiàn)服務S與影音類別下的其他服務之間都會具有較高的相似度,這明顯是不合理的。
本文利用“安卓市場”中的數(shù)據(jù)進行實驗也表明了這一點,如關鍵詞數(shù)量相差較大而功能不同的2個服務3245(和訊基金)和4391(手機無線管理)的語義相似度計算結果為0.818 153。服務的介紹內容越詳細,表示對該服務的功能描述越全面,其在語義相似度計算中應給于更高的重視。
本文提出一種改進的移動服務融合相似度計算方法(Comprehensive Mobile Services Similarity Calculation Method,CMSSCM)。其具體過程如下:
步驟1將服務介紹進行分詞,提取出能夠表現(xiàn)出服務功能和作用的關鍵詞集。
本文采用曾獲得多項獎項,具有微博分詞、新詞發(fā)現(xiàn)等功能的NLPIR漢語分詞系統(tǒng)(又名ICTCLAS2013)對服務介紹進行中文分詞及詞性標注。分詞后得到的詞語集合中更關注的是能夠體現(xiàn)出服務功能和作用的關鍵詞。通過對服務介紹和已有關鍵詞研究工作分析,發(fā)現(xiàn)關鍵詞一般是以名詞為主的具有實際意義的詞語。所以,將得到的詞語集合中的介詞、助詞、代詞、動詞等過濾掉。最后得到服務介紹的關鍵詞集合:
NS_Ni={NAi1(n1),NAi2(n2),…,NAim(nm)}
其中,NA代表關鍵詞,nm代表關鍵詞出現(xiàn)的次數(shù)。
步驟2基于余弦相似度方法計算服務之間的統(tǒng)計相似度SIMstatistic。
首先根據(jù)服務介紹的關鍵詞集合構建服務的特征向量。假設有服務I和J,其關鍵詞集合分別為NS_Ni和NS_NJ。其合集為NS_NIJ=NS_Ni∪NS_NJ。服務I和J的特征向量VI和VJ基于NS_NIJ來構建,其中向量的維度等于合集中詞的個數(shù),每一維對應合集中的一個詞。如果一個關鍵詞在短文本中出現(xiàn)次數(shù)較多,則更能體現(xiàn)出短文本的主題,如上述服務“我愛作文大全(1.0)”中的“作文”關鍵詞。將向量中對應的分量的值等于該詞在服務介紹中出現(xiàn)的次數(shù),如果沒有出現(xiàn)過則等于0。
例如2個服務關鍵詞集合NS_Ni={高考作文(2),作文(3),應用軟件(1),小學(1),高中(1)}和NS_Nj={作文(3),記敘文(1),應用文(2)},則NS_NIJ={高考作文,作文,應用軟件,小學,高中,記敘文,應用文}。因此,這2個服務特征向量的維度為7,它們的向量分別為:
Vi={2,3,1,1,1,0,0}
Vj={0,3,0,0,0,1,2}
然后,基于2個向量Vi和Vj用余弦相似度計算它們的統(tǒng)計相似度:
(1)
步驟3基于語義詞典計算2個服務的語義相似度SIMsemantic。
知網(wǎng)(HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。本文選擇知網(wǎng)作為語義詞典,利用文獻[16]算法計算詞匯間的相似度scm。本文認為一個服務的介紹內容越詳細,提取的關鍵詞數(shù)量越多,表明對該服務的功能描述越全面,因此,在語義相似度計算中應給予更高的重視?;诖?本文提出了改進的語義相似度計算方法如下:
(2)
步驟4將統(tǒng)計相似度和語義相似度結合,計算整體相似度。其定義如下:
SIMall(i,j)= (1-β)SIMstatistic(i,j)+
βSIMsematic(i,j)
(3)
其中,β是介于0與1之間的參數(shù),它決定語義相似度對整體相似度的貢獻。
有學者認為一個用戶對其他非共同評價物品的評價數(shù)目不應該影響到兩者之間的相似度,從而提出了一種非對稱相似系數(shù),其計算公式如下:
(4)
上述公式忽略了服務之間的相似性,從而無法發(fā)現(xiàn)具有相似興趣的用戶。假設有用戶A和B,A下載的服務集{手機鈴聲大全,摩安衛(wèi)士標準版,3D開獎結果};B下載的服務集{免費手機鈴聲大全,江民手機安全管家,福彩3D};利用式(4)求出的相似度結果為0,從例子中可以看出雖然A和B下載的相同服務集為空,但是他們具有相似的興趣?;诖?將上述提出的服務相似度方法CMSSCM考慮到移動用戶的相似度計算中,提出移動用戶有向相似度計算方法(Mobile User DirectionalSimilarity Calculation Method,MUDSCM),其公式為:
(5)
在傳統(tǒng)的近似鄰居集選取方法中,一般會采取設定閾值或固定鄰居大小,或兩者結合的方法進行選取。但這2種方法無法解決冷啟動等問題。當一個新用戶進入平臺后,由于其剛開始下載的服務數(shù)量較少,利用本文的方法會產(chǎn)生大量具有強相似度的近似用戶,因此有必要對近似鄰居進一步的篩選。篩選的思路是認為目標用戶會有很大概率跟隨大部分近似用戶的興趣方向。因此,本文通過對近似鄰居集進行聚類,找出大部分用戶所在的分類,認為該類代表了目標用戶最可能感興趣的方向,該類下的用戶相比于其他類而言更適合作為目標用戶的近似鄰居。
AP(Affinity Propagation)聚類是2007年在Science雜志上提出的一種新的聚類算法。本文選擇AP聚類算法作為篩選用戶近似鄰居的原因主要有2個:第1個是AP聚類支持不對稱的相似度;第2個是AP算法不需要事先指定聚類數(shù)目。
基于以上思路,本文提出了一種分步篩選近似鄰居的方法。具體步驟如下:
步驟1通過指定用戶相似度閾值SUMw,將與目標用戶相似度高于閾值的用戶加入待選集D1;如果D1小于或等于指定鄰居集大小K,則篩選結束;返回D1作為最終近似鄰居集;否則進入下一步。
步驟2指定服務相似度閾值SIMw,將D1中的用戶與目標用戶利用式(5)重新計算相似度。在重新計算過程中如果2個服務的相似度小于閾值SIMw,則將其置為0。重新計算后的相似度將降低,再根據(jù)第一步的方法進行篩選得到待選集D2。
步驟3設定Preference、阻尼因子和迭代次數(shù),利用AP方法對D2集進行聚類,找出聚類用戶數(shù)最多的類別,將該類別中的近似鄰居以相似度降序排列,篩選出K個作為最終的近似鄰居集。
本文選取2類數(shù)據(jù)集作為實驗數(shù)據(jù),并將結果與傳統(tǒng)的方法進行對比,以驗證本文提出方法的有效性。具體如下:
1)服務相似度計算方法度量。為了驗證本文提出的結合統(tǒng)計相似度和語義相似度的綜合服務相似度計算方法(Comprehensive Mobile Services Similarity Calculation Method,CMSSCM),通過爬蟲程序獲取安卓市場應用(http://apk.hiapk.com/apps) 18個類別下共8 242個服務作為實驗數(shù)據(jù)集。將8 242個服務介紹進行分詞過濾得到服務關鍵詞集。分別利用關鍵詞重疊法(Keywords Overlapping Method,KOM)、余弦法(Cosine Similarity method,CSM)和本文的CMSSCM方法計算服務相似度并進行對比分析。
2)用戶相似度計算方法度量。由于服務平臺的真實用戶日志記錄很難獲取,因此現(xiàn)有的研究普遍通過模擬數(shù)據(jù)的方式作為實驗數(shù)據(jù)集。如文獻[10]通過自己設定的3個規(guī)則,模擬“Mobile Market”平臺的用戶日志信息。本文通過隨機對西南政法大學的學生做調查問卷,最終獲取了417名學生使用手機APP的數(shù)據(jù),將其作為實驗數(shù)據(jù)。將Jaccard方法、本文提出的用戶有向相似度計算方法(Mobile User Directional Similarity Calculation Method,MUDSCM)以及式(5)變形如式(6)的方法(MUDSCM-B)進行結果對比分析,驗證其有效性。
(6)
3)分步篩選用戶近似鄰居集方法。在用戶數(shù)據(jù)集中模擬一個剛進入的下載服務數(shù)較少的用戶,通過VB+SQL對其近似鄰居集實現(xiàn)AP聚類。在聚類過程中取不同的Preference和阻尼因子參數(shù),分析聚類結果,篩選出用戶最終的近似鄰居集。
結果分析具體如下:
1)服務相似度中β參數(shù)的選取
在服務相似度計算式(3)中,語義相似度在整個相似度中所占的比例是一個介于0~1之間的參數(shù)。由于語義相似度運算量非常大,因此本文只選取影音類別下的488個服務進行實驗。分別選取β值為0.9、0.8、0.7、0.6、0.5、0.4、0.3、0.2,計算得到每個服務在本類中最相似的服務ID及相似度值。
通過結果分析,發(fā)現(xiàn)如果β值取值過高,會夸大服務之間的相似度,使結果產(chǎn)生偏差。例如當計算“蜻蜓FM”服務,β為0.9和0.8時,跟它相似度最大的服務為“DJ舞曲大全”,而其他β值計算出的相似度最高的服務為“悅聽FM-廣播電臺收音機”,因此,選擇合適的β值對于服務相似度的計算至關重要。本文通過計算β取不同值時的服務匹配比例來選取β值,其結果如圖1所示。
圖1 β取不同值時的匹配情況
實驗結果表明,當β=0.6時,匹配比例最大。這符合現(xiàn)有的研究成果,即認為語義信息比統(tǒng)計信息更重要,β值應大于0.5。
2)服務相似度計算結果分析
圖2列出了關鍵詞重疊法(Keywords Overlapping Method,KOM)、余弦法(Cosine Similarity Method,CSM)和本文的CMSSCM方法在TopN條數(shù)據(jù)下服務相似度平均值的對比結果。
圖2 在TopN條數(shù)據(jù)下服務相似度平均值對比
為了度量3種方法的準確度,本文首先根據(jù)服務的主要功能對服務進行手工標注,標注類型說明如表1所示。
表1 6種服務類型標注說明
如果目標服務找到的具有最大相似度的服務也有同樣類型的標注,即認為是正確的。利用KOM、CSM和CMSSCM方法進行實驗,其結果如圖3所示。其中,線上數(shù)字表示相似度。
圖3 在各標注類型下的準確率和服務相似度平均值
實驗結果表明,CMSSCM方法只在標注類型4中準確率低于KOM方法,其原因是在于該類型下的某些服務在其服務介紹中過于突出細節(jié)方面的功能而忽略了服務的主要關鍵特征,使得CMSSCM方法在匹配時傾向于尋找跟其細節(jié)更相似的服務,從而使結果產(chǎn)生偏差。整體而言,CMSSCM方法相比于KOM和CSM方法,具有更好的準確度和相似度值。
3)用戶相似度結果分析
將用戶實驗數(shù)據(jù)做前期處理后,得到了3種用戶相似度計算方法得到的相似度區(qū)間分布,如圖4所示。
圖4 用戶相似度區(qū)間分布情況
通過對實驗數(shù)據(jù)的人工對比分析,發(fā)現(xiàn)大部分學生都具有較相似的興趣。例如都下載了英語學習、詞典、課程表、音樂、車票、電影等方面的APP。但是利用Jaccard方法計算的用戶相似度普遍分布在[0.1,0.3],MUDSCM-B方法普遍分布在[0.2,0.4]區(qū)間,都未能體現(xiàn)出學生之間的強相似性;而本文提出的MUDSCM方法則體現(xiàn)了這一點。
表2列出了編號UUID=14的目標用戶分別按3種方法求取的前3名相似度最高的用戶及相似度,其中,UUID=14的目標用戶的服務ID集合為{2007,2006,4741,4440,1032,2023,4448,1034,4659}。
表2 Jaccard、MUDSCM-B和MUDSCM方法下3名相似度最高的用戶及其相似度
在表2中,括號里的數(shù)字代表相似度排名,括號外的值表示具體的相似度值,如0.93(2)代表使用MUDSCM方法求出的與目標用戶相似度最大2的用戶為UUID=33,其相似度值為0.93。從結果中可以看出,Jaccard和MUDSCM-B方法優(yōu)先選擇跟目標用戶相似且服務數(shù)量較少的用戶作為相似用戶,而服務數(shù)量較大的用戶將被篩除掉。MUDSCM方法則忽略服務數(shù)量因素,只從跟目標用戶使用服務最相似的角度的來選擇近似鄰居。因此,利用MUDSCM方法選擇的相似用戶結果會囊括Jaccard和MUDSCM-B方法。從表2結果也可以看出,Jaccard和MUDSCM-B前3位的用戶在MUDSCM方法中的相似度也較高,排名也較靠前。雖然這會導致其結果中具有大量強相似度的用戶,但是從推薦系統(tǒng)的角度出發(fā),這種方法(MUDSCM)更有效。
4)分步篩選近似鄰居集實驗結果分析
使用MUDSCM方法會產(chǎn)生大量具有強相似度的用戶集,因此,需要對其進行篩選以得到最后的近似鄰居集。為了驗證本文提出的分步篩選近似鄰居集方法的有效性,模擬了一個剛進入平臺的用戶UUID=5,其服務ID集合為{2006,2007,3000,4448,5907,3477};選取用戶相似度閾值SUMw=0.6、指定鄰居集大小K=10、服務相似度閾值SIMw=0.4,通過前2步篩選后的相似用戶數(shù)量還有59個。
第3步通過AP聚類算法,分別選取Preference={中值,最小值,最大值,平均值},阻尼因子lam=0.5對這59個用戶進行聚類。結果顯示,當Preference取最小值0.6時,聚集的最大類的中心點在UUID=51用戶處,其比例為22%,高于中值(20.3%)、最大值(3.3%)和平均值(13.6%)。因此,將該類下的用戶按照與目標用戶UUID=5的相似度降序排列選出TopK個用戶作為目標用戶的最終近似鄰居集。
本文通過對移動服務的介紹,進行短文本相似度計算分析,從而度量移動服務之間的相似度,從推薦的角度出發(fā),將服務相似度納入到移動用戶的相似度計算中,提出一種有向相似度計算方法?;谝苿佑脩舻呐d趣,忽略平臺中新舊用戶對相似度的影響,有效地發(fā)現(xiàn)用戶之間的真實相似性。針對冷啟動所導致的強相似用戶數(shù)量過大問題,給出一種分步篩選近似鄰居集的方法。然而,在服務介紹中,如果出現(xiàn)對服務的描述不準確、側重于細節(jié)方面的描述、出現(xiàn)一些新興詞語等情況,會使得計算結果出現(xiàn)偏差,因此,下一步將針對這些問題展開研究。
[1] FENG Yuanyuan,AGOSTO D E.Overwhelmed by smartphones a qualitative investigation into mobile information overload[J].Proceedings of the American Society for Information Science & Technology,2014,51(1):1-2.
[2] CHIU P H,KAO Y M,LO C C.Personalized blog content recommender system for mobile phone users[J].International Journal of Human-Computer Studies,2010,68(8):496-507.
[3] 孟祥武,胡 勛,王立才,等.移動推薦系統(tǒng)及其應用[J].軟件學報,2013,24(1):91-108.
[4] 李杰亮.基于數(shù)據(jù)挖掘技術的移動用戶手機推薦系統(tǒng)[D].南京:南京大學,2014.
[5] WANG Y,WU J,WU Z,et al.Popular items or niche items:flexible recommendation using cosine patterns[C]//Proceedings of IEEE International Conference on Data Mining Workshop.Washington D.C.,USA:IEEE Press,2015:205-212.
[6] LU Meilian,QIN Zhen,CAOYiming,et al.Scalable news recommendation using multi-dimensional similarity and jaccard-kmeans clustering[J].Journal of Systems & Software,2014,95(9):242-251.
[7] 李 聰,梁昌勇,董 珂.基于項目類別相似性的協(xié)同過濾推薦算法[J].合肥工業(yè)大學學報(自然科學版),2008,31(3):360-363.
[8] 李小慧.基于Jaccard項目類別相似性的個性化推薦算法研究[D].長沙:中南大學,2010.
[9] 竇羚源,王新華,孫 克.融合標簽特征和時間上下文的協(xié)同過濾推薦算法[J].小型微型計算機系統(tǒng),2016,37(1):48-52.
[10] 王洪明.基于本體和標簽的用戶偏好提取系統(tǒng)的設計與實現(xiàn)[D].北京:北京郵電大學,2011.
[11] 翟延冬,王康平,張東娜,等.一種基于WordNet的短文本語義相似性算法[J].電子學報,2012,40(3):617-620.
[12] 張 科.基于《知網(wǎng)》義原空間的文本相似度計算研究與實現(xiàn)[D].重慶:重慶大學,2013.
[13] 宋萬鵬.短文本相似度計算在用戶交互式問答系統(tǒng)中的應用[D].合肥:中國科學技術大學,2010.
[14] SHIRAKAWAM,NAKAYAMA K,HARA T,et al.Wikipedia-based semantic similarity measurements for noisy short texts using extended naive Bayes[J].IEEE Transactions on Emerging Topics in Computing,2015,3(2):1.
[15] MARTINEZ G J.An overview of textual semantic similarity measures based on web intelligence[J].Artificial Intelligence Review,2014,42(4):935-943.
[16] 王小林,王 東,楊思春,等.基于《知網(wǎng)》的詞語語義相似度算法[J].計算機工程,2014,40(12):177-181.