• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于關(guān)鍵詞語義類型和文獻(xiàn)老化的學(xué)術(shù)論文推薦

      2021-01-15 13:17:40熊回香孟璇葉佳鑫
      現(xiàn)代情報(bào) 2021年1期

      熊回香 孟璇 葉佳鑫

      收稿日期:2020-11-04

      基金項(xiàng)目:國(guó)家社會(huì)科學(xué)基金一般項(xiàng)目“融合知識(shí)圖譜與深度學(xué)習(xí)的在線學(xué)術(shù)資源挖掘與推薦研究”(項(xiàng)目編號(hào):19BTQ005)。

      作者簡(jiǎn)介:熊回香(1966-),女,教授,博士生導(dǎo)師,研究方向:網(wǎng)絡(luò)信息組織與檢索。孟璇(1994-),男,碩士研究生,研究方向:網(wǎng)絡(luò)信息組織與檢索。葉佳鑫(1993-),男,博士研究生,研究方向:網(wǎng)絡(luò)信息組織與檢索。

      摘 要:[目的/意義]從關(guān)鍵詞語義類型和學(xué)術(shù)文獻(xiàn)老化兩個(gè)維度出發(fā)挖掘?qū)W術(shù)論文價(jià)值,為學(xué)者推薦符合其研究需求并在時(shí)間維度上具有較大參考意義的學(xué)術(shù)論文。[方法/過程]首先,將學(xué)術(shù)論文關(guān)鍵詞按語義類型進(jìn)行劃分;隨后,基于共現(xiàn)關(guān)系計(jì)算同類型關(guān)鍵詞間相似度,基于關(guān)鍵詞相似度得到論文在語義類型上的相似度;然后,借用文獻(xiàn)老化思想,計(jì)算不同類型論文的時(shí)間價(jià)值;最后,結(jié)合論文在語義類型上的相似度及時(shí)間價(jià)值,生成論文推薦列表從而進(jìn)行推薦工作。[結(jié)果/結(jié)論]實(shí)證結(jié)果表明,使用該方法推薦的論文,一方面與學(xué)者研究方向相符;另一方面在時(shí)間維度上也具有較大價(jià)值,推薦的論文質(zhì)量較高。

      關(guān)鍵詞:關(guān)鍵詞;語義類型;文獻(xiàn)老化;學(xué)術(shù)論文推薦

      DOI:10.3969/j.issn.1008-0821.2021.01.002

      〔中圖分類號(hào)〕G252.62 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2021)01-0013-11

      Recommendation of Academic Papers Based on Keyword

      Semantic Type and Literature Obsolescence

      Xiong Huixiang Meng Xuan Ye Jiaxin

      (School of Information Management,Central China Normal University,Wuhan 430079,China)

      Abstract:[Purpose/Significance]In order to recommend academic papers for scholars the value of academic papers is explored from the two dimensions of keyword semantic type and academic literature obsolescence,and these papers meet their research needs and have greater reference significance in the time dimension are recommended for.[Method/Process]First,the keywords of academic papers were divided into four types;then,the similarity between keywords of the same type was calculated based on the co-occurrence relationship,and the similarity of the papers in semantic types was obtained based on the keyword similarity;then,calculated the time value of different types of papers using the idea of literature obsolescence;finally,combined the similarity and time value of the papers in semantic types to generate a recommendation list of papers for scholars.[Result/Conclusion]The empirical result showed that,on the one hand,the papers recommended by this method were consistent with the research direction of scholars,on the other hand,they also had great value in the time dimension and high quality.

      Key words:keyword;semantic type;literature obsolescence;academic paper recommendation

      科學(xué)技術(shù)的不斷發(fā)展,使得各學(xué)科領(lǐng)域內(nèi)的科研成果的數(shù)量呈指數(shù)增長(zhǎng),而海量科研成果的出現(xiàn)在豐富學(xué)者所需學(xué)術(shù)資源的同時(shí),也造成了資源檢索困難,尤其是在科學(xué)研究的過程中查詢和引用相關(guān)論文具有很大難度,學(xué)者難以在短時(shí)間內(nèi)精準(zhǔn)定位最具參考價(jià)值的學(xué)術(shù)論文。為緩解科研人員的信息過載與信息迷航等問題,論文推薦等個(gè)性化服務(wù)技術(shù)受到了學(xué)術(shù)界的廣泛關(guān)注。

      學(xué)術(shù)論文推薦是指根據(jù)學(xué)者個(gè)性化信息為學(xué)者推送符合其偏好的學(xué)術(shù)論文信息。對(duì)于學(xué)者而言,具有較高參考價(jià)值的推薦論文需要達(dá)到兩點(diǎn)要求:第一,特征價(jià)值。推薦論文所呈現(xiàn)的特征需要符合學(xué)者興趣及其研究方向;第二,時(shí)間價(jià)值。推薦論文要具備一定的新穎性,有一定的參考意義。然而,目前大多數(shù)學(xué)術(shù)論文推薦方法的研究重點(diǎn)主要集中在對(duì)學(xué)者偏好及論文內(nèi)容特征的相關(guān)度計(jì)算上,以盡可能挖掘?qū)W者和論文間的潛在關(guān)聯(lián)為目標(biāo),卻較少側(cè)重于對(duì)論文本身價(jià)值的挖掘,即從不同維度分析論文的特征價(jià)值和時(shí)間價(jià)值。為了更好地挖掘論文自身價(jià)值,本文從論文關(guān)鍵詞的語義類型和文化老化規(guī)律出發(fā),一方面利用共詞分析計(jì)算同一語義類型關(guān)鍵詞的相似度,挖掘?qū)W者在研究主題、研究范圍與理論技術(shù)方法等維度上所需論文;另一方面,結(jié)合文獻(xiàn)在不同語義類型維度的老化特征,確定各語義類型的老化權(quán)重系數(shù),對(duì)論文進(jìn)行綜合打分并排序,從而為學(xué)者推薦既符合其研究需求,又具有較高時(shí)間價(jià)值的論文。

      3 推薦模型框架

      本文借助關(guān)鍵詞語義劃分理論和文獻(xiàn)老化理論,將關(guān)鍵詞劃分成4種語義類型,采用共現(xiàn)法對(duì)關(guān)鍵詞進(jìn)行向量表示,計(jì)算同類型關(guān)鍵詞相似度,進(jìn)而挖掘論文關(guān)聯(lián),提高推薦效果。同時(shí)引入文獻(xiàn)老化思想,在考慮單篇候選論文時(shí)效性的同時(shí),分析不同語義類型關(guān)鍵詞的文獻(xiàn)老化特征,確定各語義類型的文獻(xiàn)老化權(quán)重,衡量不同語義類型的文獻(xiàn)在時(shí)間維度上的價(jià)值,從而為學(xué)者推薦既符合其研究需求,又具有較高時(shí)間價(jià)值的論文。本文提出的基于關(guān)鍵詞語義類型與文獻(xiàn)老化的論文推薦模型框架如圖1所示。

      本研究可分為以下幾個(gè)步驟:第一,將每篇論文的關(guān)鍵詞按其語義類型劃分為研究主題、研究范圍、理論技術(shù)方法、其他4類,并按類型進(jìn)行匯總,得到每個(gè)語義類型下關(guān)鍵詞集合;第二,著重對(duì)研究主題、研究范圍、理論技術(shù)方法這3類進(jìn)一步研究,根據(jù)關(guān)鍵詞的共現(xiàn)關(guān)系,計(jì)算關(guān)鍵詞間相似度;第三,借助文獻(xiàn)老化思想,根據(jù)論文年齡計(jì)算文獻(xiàn)老化權(quán)重;第四,綜合考量關(guān)鍵詞相似度與文獻(xiàn)老化因素,計(jì)算學(xué)者已有論文與候選論文間的相關(guān)性并將其進(jìn)行排序,從而實(shí)現(xiàn)論文推薦。

      3.1 關(guān)鍵詞語義類型劃分

      在推薦過程中,從學(xué)者科研需求角度出發(fā),一部分學(xué)者在文獻(xiàn)調(diào)研時(shí)圍繞預(yù)計(jì)研究的主題展開查找,需要針對(duì)研究主題給學(xué)者推薦論文;一部分學(xué)者會(huì)先從某一理論方法或某一技術(shù)模型出發(fā),了解理論技術(shù)細(xì)節(jié)的同時(shí),查看其他學(xué)者將這些理論技術(shù)運(yùn)用在哪些場(chǎng)景中;還有一部分學(xué)者可能對(duì)自己的研究主題或者要用的理論技術(shù)方法比較模糊,他們往往會(huì)針對(duì)某一特定的研究對(duì)象或者研究范圍,查看在這一研究范圍內(nèi)其他學(xué)者都做了哪些研究。由于研究領(lǐng)域關(guān)鍵詞外延較廣,子知識(shí)點(diǎn)關(guān)鍵詞又較為具體,因而本文將這兩類關(guān)鍵詞統(tǒng)一劃分為“其他類”,不對(duì)這兩類進(jìn)行分析。本文按照表1相應(yīng)標(biāo)準(zhǔn)對(duì)關(guān)鍵詞的語義類型進(jìn)行劃分。

      例如,論文“基于Kano模型的高校智慧圖書館功能需求研究”的關(guān)鍵詞是“高校智慧圖書館”“功能需求”“Kano模型”。從標(biāo)題中可以得知該論文研究?jī)?nèi)容是圍繞“功能需求”展開研究的,因而“功能需求”屬于研究主題類型關(guān)鍵詞;“基于Kano模型”表明該文是利用Kano模型進(jìn)行研究的,因此“Kano模型”關(guān)鍵詞屬于理論技術(shù)方法類型;該論文的研究對(duì)象是針對(duì)高校智慧圖書館的,因此關(guān)鍵詞“高校智慧圖書館”屬于研究范圍類型。

      為了保證關(guān)鍵詞語義劃分的準(zhǔn)確性和客觀性,在對(duì)關(guān)鍵詞語義類型進(jìn)行劃分后,再由5名本領(lǐng)域同事對(duì)劃分結(jié)果進(jìn)行獨(dú)立檢查,并針對(duì)有爭(zhēng)議的劃分進(jìn)行集中討論,力求通過不同語義類型的關(guān)鍵詞,能夠無歧義地揭示論文研究的主要內(nèi)容,最終討論后得出一致的劃分結(jié)果。

      3.2 基于共現(xiàn)關(guān)系的關(guān)鍵詞相似度計(jì)算

      根據(jù)表1將關(guān)鍵詞按照語義類型劃分后,在同語義類型關(guān)鍵詞中,可以直接得到兩篇論文的關(guān)系,如“基于序列模式的科技文獻(xiàn)中知識(shí)元抽取研究”和“基于深度學(xué)習(xí)的文本中細(xì)粒度知識(shí)元抽取方法研究”的研究主題關(guān)鍵詞都為“知識(shí)元抽取”,兩篇論文的關(guān)聯(lián)性一目了然。為進(jìn)一步挖掘論文間的潛在關(guān)聯(lián),本文基于關(guān)鍵詞共現(xiàn)對(duì)關(guān)鍵詞相似度進(jìn)行計(jì)算。

      共詞分析法最早是由法國(guó)文獻(xiàn)計(jì)量學(xué)家于20世紀(jì)70年代中后期提出的,其思想來源于文獻(xiàn)計(jì)量的引文耦合與共被引概念。1986年Callon M等[18]對(duì)該理論與方法進(jìn)行完善?,F(xiàn)如今共詞分析法發(fā)展已經(jīng)較為成熟,應(yīng)用十分廣泛。而關(guān)鍵詞共現(xiàn)法作為共詞分析法應(yīng)用之一,一般用來發(fā)現(xiàn)熱點(diǎn)主題和挖掘詞間關(guān)聯(lián)。但傳統(tǒng)關(guān)鍵詞共現(xiàn)存在“同量不同質(zhì)”,詞對(duì)關(guān)聯(lián)缺乏語義性等問題[19],基于此,本文在傳統(tǒng)關(guān)鍵詞共詞分析的基礎(chǔ)上,借助關(guān)鍵詞語義類型,加入語義共現(xiàn)關(guān)系計(jì)算關(guān)鍵詞相似度,即同語義類型關(guān)鍵詞之間的相似度是基于當(dāng)前類別的關(guān)鍵詞與其他兩類關(guān)鍵詞的共現(xiàn)關(guān)系得到的。以研究范圍關(guān)鍵詞為例,具體步驟如下:

      首先,構(gòu)建研究范圍關(guān)鍵詞共現(xiàn)矩陣。研究范圍關(guān)鍵詞在研究主題維度的共現(xiàn)矩陣可表示為A,研究范圍關(guān)鍵詞在理論技術(shù)方法維度的共現(xiàn)矩陣可表示為B。

      其中,m為研究范圍關(guān)鍵詞個(gè)數(shù),n為研究主題關(guān)鍵詞個(gè)數(shù),c為理論技術(shù)方法關(guān)鍵詞個(gè)數(shù)。以A矩陣為例,則該矩陣第i行向量可以表示為:

      vi=(ai1,ai2,ai3,…,ain)

      其中aij代表研究范圍第i個(gè)關(guān)鍵詞在研究主題類第j個(gè)關(guān)鍵詞上的共現(xiàn)次數(shù),例如,若兩個(gè)關(guān)鍵詞只在一篇論文中共同出現(xiàn)過,則取值為1;若在兩篇論文中共同出現(xiàn),則取值為2。

      其次,利用共現(xiàn)向量構(gòu)建研究范圍關(guān)鍵詞在研究主題上的相似度矩陣ST。

      ST=st11…st1m

      stm1…stmm

      stij代表研究范圍類型中第i個(gè)關(guān)鍵詞與第j個(gè)關(guān)鍵詞的相似度,利用余弦定理對(duì)其進(jìn)行計(jì)算,見式(1)。

      stij=vi·vjvi×vj=∑nk=1aik×ajk∑nk=1a2ik∑nk=1a2jk(1)

      i=1,2,…,m; j=1,2,…,m

      同理可得,研究范圍在理論技術(shù)方法上的相似度矩陣SM。最后,將ST矩陣和SM矩陣中對(duì)應(yīng)位置元素值兩兩求和并平均,得到研究范圍關(guān)鍵詞相似度矩陣S。具體見式(2):

      Sim2=s11…s1m

      sm1…smm=st11+sm112…st1m+sm1m2

      stm1+smm12…stmm+smmm2(2)

      同理,按照上述計(jì)算方法也可得出研究主題關(guān)鍵詞相似度矩陣Sim1和理論技術(shù)方法關(guān)鍵詞相似度矩陣Sim3。

      3.3 文獻(xiàn)老化權(quán)重計(jì)算

      基于文獻(xiàn)老化理論,本文的推薦方法從兩個(gè)角度引入文獻(xiàn)老化權(quán)重。

      一方面針對(duì)候選論文計(jì)算單篇論文的老化權(quán)重,采用文獻(xiàn)[20]的方法,單篇論文老化權(quán)重計(jì)算方法見式(3)、式(4)。

      vi=2T-tlife(3)

      wi=vimax(v)(4)

      式(3)中,T表示文獻(xiàn)半衰期,參考相關(guān)文獻(xiàn)將T取值為6[21],tlife為論文年齡,具體計(jì)算方法為推薦時(shí)間減去論文發(fā)表時(shí)間,精確到天再換算成以年為單位。在實(shí)際推薦過程中發(fā)現(xiàn),較新論文的文獻(xiàn)老化權(quán)重較之較老的論文差異過大,因而通過式(4)進(jìn)行歸一化處理。以半衰期作為參考可以較為準(zhǔn)確地反映論文的老化程度,即論文的發(fā)表年齡離半衰期越近,則論文的時(shí)效價(jià)值越低;反之論文的價(jià)值越高。

      另一方面基于關(guān)鍵詞語義類型的老化特點(diǎn),將一篇論文的老化從研究主題、研究范圍、理論技術(shù)方法3個(gè)視角進(jìn)行分析。從近幾年情報(bào)學(xué)科發(fā)展來看,研究主題的老化速度較慢,仍然圍繞情報(bào)學(xué)理論、網(wǎng)絡(luò)信息組織與檢索、網(wǎng)絡(luò)輿情、競(jìng)爭(zhēng)情報(bào)、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、個(gè)性化推薦等若干主題展開研究;研究范圍的老化速度相較于研究主題而言稍快,從宏觀角度來看主要是由于整個(gè)情報(bào)學(xué)研究背景的變化,從微觀角度上看原因在于新事物的不斷出現(xiàn)導(dǎo)致研究對(duì)象的不斷轉(zhuǎn)換;理論技術(shù)方法的老化速度是最快的,主要原因在于情報(bào)學(xué)科與計(jì)算機(jī)學(xué)科的深度交叉,導(dǎo)致情報(bào)學(xué)越來越多地借助計(jì)算機(jī)學(xué)科中較新的技術(shù)方法解決情報(bào)學(xué)科中的問題。在計(jì)算機(jī)學(xué)科成果日新月異的今天,以技術(shù)方法為驅(qū)動(dòng)的情報(bào)學(xué)科論文也隨之以較快的速度老化?;诖?,本文將3種語義類型的文獻(xiàn)老化權(quán)重依次乘以相關(guān)系數(shù)進(jìn)行調(diào)整,取值為:研究主題η1=0.7,研究范圍η2=0.6,理論技術(shù)方法η3=0.5。

      3.4 論文推薦列表生成

      選取目標(biāo)學(xué)者較新的5篇論文作為目標(biāo)論文,對(duì)第i篇候選論文相對(duì)于第j篇目標(biāo)論文的價(jià)值進(jìn)行打分,計(jì)算方法見式(5)。

      Score(i,j)=wi*∑nk=1ηk*Simk(i,j)(5)

      其中,wi代表候選論文集合中第i篇論文的文獻(xiàn)老化權(quán)重,n=3,代表從3個(gè)維度計(jì)算候選論文價(jià)值。當(dāng)k=1時(shí),η1為研究主題的老化權(quán)重系數(shù),Sim1(i,j)代表第i篇候選論文研究主題類型的關(guān)鍵詞與第j篇目標(biāo)論文研究主題類型的關(guān)鍵詞的相似度;同理,當(dāng)k=2時(shí),η2為研究范圍的老化權(quán)重系數(shù),Sim2(i,j)代表第i篇候選論文研究范圍類型的關(guān)鍵詞與第j篇目標(biāo)論文研究范圍類型的關(guān)鍵詞的相似度;當(dāng)k=3時(shí),η3為理論技術(shù)方法的老化權(quán)重系數(shù),Sim3(i,j)代表第i篇候選論文理論技術(shù)方法類型的關(guān)鍵詞與第j篇目標(biāo)論文理論技術(shù)方法類型的關(guān)鍵詞的相似度。

      最后,選取候選論文與學(xué)者目標(biāo)論文分?jǐn)?shù)的最大值作為該候選論文在該學(xué)者下的最終分?jǐn)?shù),見式(6)。

      Paperscore(i,p)=max(Score(i,k))(6)

      k=1,2,…,M

      Paperscore(i,p)為第i篇候選論文在第p個(gè)學(xué)者下的價(jià)值,M為第p個(gè)學(xué)者下目標(biāo)論文數(shù)量。Score(i,k)為第i篇候選論文對(duì)于第p個(gè)學(xué)者下第k篇目標(biāo)論文的價(jià)值分?jǐn)?shù)。最后對(duì)第p個(gè)學(xué)者下500篇的Paperscore進(jìn)行排序,取Top-N作為推薦列表。

      在實(shí)際推薦過程中,可能出現(xiàn)以下幾種特殊情況:第一,目標(biāo)論文不含有某種語義類型的關(guān)鍵詞。這時(shí)該目標(biāo)論文在該語義類型方面與所有候選論文的相似度都為0;第二,候選論文不含有某種語義類型的關(guān)鍵詞。這時(shí)目標(biāo)論文與該候選論文在該語義類型下相似度為0;第三,目標(biāo)論文或者候選論文在某一語義類型的關(guān)鍵詞數(shù)量大于1。例如:計(jì)算目標(biāo)論文A與候選論文B在理論方法上的相似度,A或者B中理論技術(shù)方法類型的關(guān)鍵詞可能存在多個(gè),為了讓B在理論方法維度上盡可能與A相似,又同時(shí)能突出論文本身的特色關(guān)鍵詞,本文借助TF-IDF和貪婪策略思想提出一種解決思路:首先,在多個(gè)理論方法關(guān)鍵詞中篩選出總論文集合(目標(biāo)論文集+候選論文集)詞頻較低的關(guān)鍵詞,作為論文的核心關(guān)鍵詞,然后基于核心關(guān)鍵詞計(jì)算論文A與論文B的相似度,若有多個(gè)核心關(guān)鍵詞則取相似度最高的詞對(duì)間相似度作為論文的相似度結(jié)果。

      4 實(shí)證結(jié)果及分析

      4.1 數(shù)據(jù)獲取與預(yù)處理

      本文以熊回香、王忠義、易明、余傳明等10位學(xué)者作為學(xué)者集,將每位學(xué)者發(fā)表的較新的5篇論文作為目標(biāo)論文集,如表2所示。根據(jù)目標(biāo)論文關(guān)鍵詞從CNKI數(shù)據(jù)庫(kù)檢索近5年的相關(guān)論文,隨機(jī)進(jìn)行選取得到500篇候選論文,部分如表3所示。針對(duì)目標(biāo)論文及候選論文的每個(gè)關(guān)鍵詞按其語義類型進(jìn)行劃分,同時(shí)對(duì)關(guān)鍵詞進(jìn)行規(guī)范化處理,如對(duì)涉及英文算法模型的大小寫進(jìn)行統(tǒng)一,中英文指代同一對(duì)象的關(guān)鍵詞進(jìn)行統(tǒng)一,得到不同類型關(guān)鍵詞共1 687個(gè),篩除其他類關(guān)鍵詞后,得到研究主題類關(guān)鍵詞407個(gè),研究范圍類關(guān)鍵詞339個(gè),理論技術(shù)方法類關(guān)鍵詞460個(gè),各類關(guān)鍵詞部分如表4所示。

      4.2 評(píng)價(jià)指標(biāo)

      本文從特征價(jià)值與時(shí)間價(jià)值兩方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行量化評(píng)估,即針對(duì)推薦論文的相似度及其時(shí)效性分別進(jìn)行打分,同時(shí)與基于關(guān)鍵詞的文獻(xiàn)聚類推薦方法進(jìn)行分?jǐn)?shù)對(duì)比,以說明本文推薦框架的有效性。

      推薦論文的相似度分?jǐn)?shù)量化步驟如下:首先,在3.4小節(jié)生成的目標(biāo)學(xué)者推薦列表的基礎(chǔ)上,不考慮關(guān)鍵詞語義類型的老化權(quán)重系數(shù)以及候選論文本身的文獻(xiàn)老化權(quán)重,計(jì)算推薦列表中候選論文與學(xué)者的相似度,見式(7)。

      Sim_score(i,j)=∑nk=1Simk(i,j)n(7)

      其中,Sim_score(i,j)代表第i篇候選論文與第j篇目標(biāo)論文的綜合相似度分值,考慮到3個(gè)維度相似度求和后可能出現(xiàn)大于1的情況,因此取其平均值;其余各符號(hào)含義與式(5)相同。

      然后根據(jù)式(6)的思想,選取Sim_score最大值作為候選論文與該學(xué)者的相似度打分,見式(8)。最后,將學(xué)者Top-N推薦列表中的N篇候選論文相似度分?jǐn)?shù)求平均值,作為該學(xué)者的相似度得分,見式(9)。

      Paperscore_sim(i,p)=max(Sim_score(i,k))(8)

      Ascore_sim(p)=∑Nk=1Paperscore_sim(k,p)N(9)

      推薦論文的時(shí)效性量化方法與相似度類似,即Top-N推薦列表中候選論文的文獻(xiàn)老化權(quán)重的平均值,見式(10)。

      Ascore_time(p)=∑Nk=1wkN(10)

      基于關(guān)鍵詞的文獻(xiàn)聚類推薦方法主要思想是根據(jù)文獻(xiàn)的關(guān)鍵詞對(duì)文獻(xiàn)進(jìn)行0~1向量表示,進(jìn)而得到文獻(xiàn)間余弦相似度。最后根據(jù)式(8),得到候選論文與學(xué)者相似度,排序取Top-N生成推薦列表。其特征價(jià)值與時(shí)間價(jià)值的量化與本文推薦方法相同。

      4.3 推薦結(jié)果及分析

      根據(jù)關(guān)鍵詞不同的語義類型得到關(guān)鍵詞共現(xiàn)矩陣后,依據(jù)式(1)和式(2)依次得到研究主題關(guān)鍵詞相似度矩陣,研究范圍關(guān)鍵詞相似度矩陣及理論技術(shù)方法關(guān)鍵詞相似度矩陣,如表5~7所示。

      從以上3個(gè)表可見,相似度矩陣較為稀疏,其本質(zhì)在于部分作者在使用關(guān)鍵詞時(shí)的隨意性,例如:論文“科技文獻(xiàn)資源中方法知識(shí)元的抽取研究”的研究主題關(guān)鍵詞是“自動(dòng)抽取”,而實(shí)際上準(zhǔn)確地說應(yīng)為“知識(shí)元抽取”,從而導(dǎo)致多篇論文雖然研究主題一致,但研究主題關(guān)鍵詞卻不一樣的情況出現(xiàn),進(jìn)而計(jì)算得到的相似度矩陣較為稀疏。

      根據(jù)式(3)和式(4)可得候選論文的文獻(xiàn)老化權(quán)重值,如表8所示。

      根據(jù)式(5)和式(6),針對(duì)候選論文對(duì)于學(xué)者下的5篇目標(biāo)論文的價(jià)值進(jìn)行綜合打分,并將分?jǐn)?shù)從高到低排序取前8名作為學(xué)者推薦列表。

      根據(jù)式(7)~(10)對(duì)本文推薦方法與基于關(guān)鍵詞的文獻(xiàn)聚類推薦方法的特征價(jià)值和時(shí)間價(jià)值進(jìn)行量化評(píng)估并比較,如表9所示。

      從表9中可以看出,相較于傳統(tǒng)的基于關(guān)鍵詞的文獻(xiàn)聚類論文推薦方法,在推薦過程中,對(duì)關(guān)鍵詞的語義類型進(jìn)行劃分并引入文獻(xiàn)老化權(quán)重,從整體上能夠較大提高推薦論文與學(xué)者的相似度以及論文本身時(shí)效性價(jià)值。該實(shí)驗(yàn)結(jié)果表明,本文細(xì)化到關(guān)鍵詞所屬語義類型進(jìn)行推薦,更有利于給學(xué)者推薦符合其研究興趣的學(xué)術(shù)論文;同時(shí),引入文獻(xiàn)老化思想,使推薦論文較為貼近當(dāng)前研究熱點(diǎn),有利于學(xué)者產(chǎn)生新思路,形成新知識(shí)。

      5 結(jié) 語

      針對(duì)當(dāng)前基于關(guān)鍵詞進(jìn)行學(xué)術(shù)論文推薦的研究,大多只是從詞匯語義層面進(jìn)行優(yōu)化,卻未考慮不同詞匯在不同文章中所屬的語義類型差異。本文基于關(guān)鍵詞語義類型及文獻(xiàn)老化對(duì)論文推薦工作進(jìn)行優(yōu)化。根據(jù)推薦結(jié)果發(fā)現(xiàn),該推薦方法能夠較好地發(fā)現(xiàn)相關(guān)論文,有利于提高科研學(xué)者的科研效率、拓寬科研視角、把握新的相關(guān)研究風(fēng)向。本文的不足之處在于未考慮關(guān)鍵詞間的同形異義和同義異形問題,使得最終推薦結(jié)果會(huì)受到一定影響;其次,論文關(guān)鍵詞一定程度上的隨意性和不規(guī)范性給關(guān)鍵詞語義類型劃分帶來很大挑戰(zhàn),不同的劃分結(jié)果對(duì)推薦結(jié)果影響較大,可能需要更大的數(shù)據(jù)集才能使得推薦結(jié)果收斂;最后,針對(duì)不同語義類型的文獻(xiàn)老化權(quán)重取值未能作出嚴(yán)謹(jǐn)闡釋。這些問題的解決仍需開展大量的工作,將在未來的研究中逐一進(jìn)行探討。

      參考文獻(xiàn)

      [1]Ohta M,Hachiki T,Akasu A.Related Paper Recommendation to Support Online-browsing of Research Papers[C]//Fourth International Conference on the Applications of Digital Information and Web Technologies,2011:130-136.

      [2]唐浩,劉柏嵩,劉曉玲,等.基于協(xié)同知識(shí)圖譜特征學(xué)習(xí)的論文推薦方法[J].計(jì)算機(jī)工程,2020,46(9):306-312.

      [3]孟偉龍.基于圖模型的論文推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].咸陽:西北農(nóng)林科技大學(xué),2019.

      [4]盧美蓮,張正林,劉智超.MFWT:一種推薦學(xué)術(shù)論文的混合模型[J].北京郵電大學(xué)學(xué)報(bào),2016,39(4):24-29.

      [5]徐勇,司鳳山,吳延輝,等.基于概念泛化的科技文獻(xiàn)推薦算法[J].圖書情報(bào)工作,2012,56(21):101-108.

      [6]Qi J,Ohsawa Y.Matrix Plane Model:A Novel Measure of Word Co-occurrence and Application on Semantic Relatedness[C]//2015 IEEE International Conference on Data Mining Workshop(ICDMW).IEEE,2015:1246-1257.

      [7]Aouicha M B,Taieb M A H,Hamadou A B.Taxonomy-based Information Content and Wordnet-wiktionary-wikipedia Glosses for Semantic Relatedness[J].Applied Intelligence,2016:45(2),475-511.

      [8]Jorge G,Eduardo M.Web-based Measure of Semantic Relatedness[C]//Proceedings of the International Conference on Web Information Systems Engineering(WEBIST).Springer,Berlin,Heidelberg,2008:136-150.

      [9]Asim M,Khusro S.Content Based Call for Papers Recommendation to Researchers[C]//International Conference on Open Source Systems and Technologies(ICOSST).IEEE,2018:42-47.

      [10]譚紅葉,要一璐,梁穎紅.基于知識(shí)脈絡(luò)的科技論文推薦[J].山東大學(xué)學(xué)報(bào):理學(xué)版,2016,51(5):94-101.

      [11]胡昌平,陳果.科技論文關(guān)鍵詞特征及其對(duì)共詞分析的影響[J].情報(bào)學(xué)報(bào),2014,33(1):23-32.

      [12]Gosnell C F.The Rate of Obsolescence in College Library Book Collections By an Analysis of Three Select Lists of Books for College Libraries[D].New York:New York University,1943.

      [13]邱均平.信息計(jì)量學(xué)(三)第三講 文獻(xiàn)信息老化規(guī)律與應(yīng)用[J].情報(bào)理論與實(shí)踐,2000,23(3):237-240,192.

      [14]Burton R E,Kebler R W.The“half-life”of Some Scientific and Technical Literatures[J].American documentation,1960,11(1):18-22.

      [15]Price D J.Citation Measures of Hard Science,Soft Science,Technology,and Nonscience[J].Communication Among Scientists and Engineers,1970:3-22.

      [16]馬費(fèi)成,夏永紅.網(wǎng)絡(luò)信息的生命周期實(shí)證研究[J].情報(bào)理論與實(shí)踐,2009,32(6):1-7.

      [17]Brookes B C.The Growth,Utility,and Obsolescence of Scientific Periodical Literature[J].Journal of Documentation,1970:26(4):283-294.

      [18]Callon M,Courtial J P,Turner W A,et al.From Translations to Problematic Networks:An Introduction to Co-word Analysis[J].Information(International Social Science Council),1983,22(2):191-235.

      [19]巴志超,李綱,朱世偉.共現(xiàn)分析中的關(guān)鍵詞選擇與語義度量方法研究[J].情報(bào)學(xué)報(bào),2016,35(2):197-207.

      [20]賴院根,王星.面向檢索排序的論文重要度測(cè)算[J].情報(bào)理論與實(shí)踐,2009,32(10):78-81.

      [21]周二強(qiáng).SSCI收錄圖書情報(bào)學(xué)期刊2013—2017年被引半衰期變化及其影響因素研究[J].江蘇科技信息,2020,37(12):12-16.

      (責(zé)任編輯:郭沫含)

      长子县| 翁源县| 木兰县| 聂拉木县| 恭城| 正安县| 香格里拉县| 马鞍山市| 马山县| 拉孜县| 宣武区| 东阿县| 资兴市| 通海县| 务川| 宝应县| 新兴县| 泰安市| 乌拉特中旗| 桃江县| 彭泽县| 中牟县| 襄汾县| 永吉县| 佳木斯市| 邓州市| 抚顺县| 曲阳县| 佛坪县| 乐至县| 志丹县| 余庆县| 宁安市| 隆尧县| 霍城县| 武隆县| 鄂州市| 日喀则市| 河北省| 姚安县| 枣庄市|