• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于流形學(xué)習(xí)的文檔重排序方法

    2017-06-01 11:29:54趙文玉周棟
    關(guān)鍵詞:詞項流形集上

    趙文玉,周棟

    (湖南科技大學(xué) 計算機科學(xué)與工程學(xué)院,湖南 湘潭 411201)

    一種基于流形學(xué)習(xí)的文檔重排序方法

    趙文玉,周棟*

    (湖南科技大學(xué) 計算機科學(xué)與工程學(xué)院,湖南 湘潭 411201)

    對第一輪檢索的結(jié)果文檔進行重新排序,以提高頂端結(jié)果的準(zhǔn)確率,一直是信息檢索研究中的基礎(chǔ)和關(guān)鍵熱點問題。文章在考慮文檔與文檔的基礎(chǔ)上,充分考慮了文檔與關(guān)鍵詞項以及詞項與詞項之間的多種關(guān)系,提出了一種基于流形學(xué)習(xí)的檢索結(jié)果重排序的方法。將文檔-文檔,文檔-關(guān)鍵詞項,以及詞項-詞項這三種關(guān)系利用流形學(xué)習(xí)模型進行融合,然后通過正則化框架,在第一輪檢索結(jié)果分?jǐn)?shù)的基礎(chǔ)上,進行文檔重排序。在CLEF數(shù)據(jù)集上進行的實驗表明,與基于圖的文檔重排序,基于LDA模型的文檔重排序等方法相比,文中提出的方法可以更好地提高檢索準(zhǔn)確率。特別是在奧地利圖書館數(shù)據(jù)集中,采用MRR評估方法,文章所提出方法的準(zhǔn)確率比表現(xiàn)最好的基線系統(tǒng)提高了11.78%,比第一輪檢索結(jié)果提高了33.46%。

    文檔重排序;流形學(xué)習(xí);檢索結(jié)果優(yōu)化

    ScienceandTechnology,Xiangtan411201,China)

    0 引言

    信息檢索系統(tǒng)的目標(biāo)在于針對特定用戶的某一信息需求時,實時返回一組滿足此需求的結(jié)果,該組結(jié)果按照相關(guān)性從大到小排序。以往研究表明,在Google等搜索引擎的檢索界面中,很少有用戶會瀏覽到2個頁面以后的結(jié)果[1]。研究人員長期以來的研究也表明,由于查詢詞和文檔存在多義性,信息檢索系統(tǒng)第一輪的搜索結(jié)果通常只能部分地滿足用戶的信息需求[2]。在沒有用戶介入的情況下,有兩種技術(shù)可以很大程度地提高初始結(jié)果的檢索準(zhǔn)確率。一種技術(shù)是查詢擴展,另一種技術(shù)則是文檔重排序。前一種方法的側(cè)重點在于提高搜索的召回率,但在實際應(yīng)用中往往準(zhǔn)確率也有所提高。查詢擴展通常需要額外的資源或需要對文檔集進行二次搜索。因此從實用的角度來說直接對初始結(jié)果進行重排序更有吸引力。同時,重排序以后的結(jié)果可以為其它兩種技術(shù)提供更好的支持。如何讓頂端的結(jié)果更加相關(guān),提高偽相關(guān)反饋的準(zhǔn)確率,目前已經(jīng)成為信息檢索研究中的基礎(chǔ)和關(guān)鍵熱點問題。

    在信息檢索中,為提高文檔檢索結(jié)果的準(zhǔn)確率以及用戶的滿意度,已有不少學(xué)者為此付出努力。目前關(guān)于信息檢索中文檔重排序的研究已有很多,根據(jù)使用的不同信息資源,早年關(guān)于文檔重排序方法可大致分成三類:第一類的研究集中于使用文檔間的關(guān)系來進行檢索結(jié)果的重排序。Balinski等使用文檔間的距離修改最初的相關(guān)性權(quán)重,從而實現(xiàn)重排序[2],Lee等在結(jié)果集上建立了一個層次聚類結(jié)構(gòu),并使用該結(jié)構(gòu)進行結(jié)果重排序[3],Plansangket等提出基于文檔分類實現(xiàn)文檔的排序的方法[5]。第二類的研究借助外部資源來進行文檔重排序。比如,Qu等采用了手工建立詞典的方法[6],Kamps則通過受控詞匯這一途徑實現(xiàn)文檔重排序的目的[7]。第三類的研究使用從文檔和查詢詞中抽取特定的信息來進行重排序。如文獻[8]使用的文檔結(jié)構(gòu)信息等進行文檔重排序,Raviv等利用查詢詞和文檔中詞項信息實現(xiàn)文檔重排序[9]。

    近年的研究趨勢逐漸開始轉(zhuǎn)向分析文檔內(nèi)部結(jié)構(gòu)來實現(xiàn)文檔重排序。文獻[10-13]認(rèn)為由語言模型構(gòu)建的文檔圖能夠很好地對文檔間或者文檔聚類間不對稱的信息關(guān)系進行建模,借助加權(quán)的PageRank或HITS算法,找出圖的中心節(jié)點,實現(xiàn)文檔重排序。陳飛等也考慮可使用HITS算法來進行重排序的可能性[14]。在后續(xù)的研究中,Diaz等提出了一種半監(jiān)督學(xué)習(xí)算法對排序分?jǐn)?shù)進行正則化的處理[15],Deng等進一步改進了這一算法,建立了一張基于文檔內(nèi)容和鏈接的圖進行重排序[16]。除此之外,Yang等提出了一種基于半監(jiān)督學(xué)習(xí)方法,利用文檔內(nèi)部結(jié)構(gòu)進行標(biāo)簽傳播,從而達到文檔重排序的目的[17]。Zhang等提出的基于關(guān)系排序圖,該方法采用改進的向量空間模型計算文檔鏈接[18]。王品等利用句子相似度來進行結(jié)果的重排序[19],而王瑞琴則更關(guān)注用語義信息來進行搜索結(jié)果的重排序[20]。Zhou等使用LDA(Latent Dirichlet Allocation)對第一輪檢索結(jié)果文檔進行重新建模并排序,取得了不錯的實驗效果[21-22]。文獻[23]則融合了不同的模型來實現(xiàn)對文檔的重新排序。Mitra等提出一種雙重向量空間計算查詢詞和文檔之間的相似度[24]。Ermakova等通過利用文本主題捕捉文檔的相關(guān)性進行文檔重排序[25]。

    然而,在近年關(guān)于信息檢索文檔重排序的相關(guān)研究中,在實現(xiàn)文檔重排序時,大多只考慮了文檔間的關(guān)系,并未考慮到文檔和關(guān)鍵詞項間的多重關(guān)系,存在一定的局限性。本文充分考慮并糅合文檔與文檔,文檔與關(guān)鍵詞項以及詞項與詞項等多種關(guān)系,通過正則化框架,在融合第一輪檢索結(jié)果分?jǐn)?shù)的基礎(chǔ)上,進行搜索結(jié)果重新排序。為驗證所提方法的效果,在CLEF*CLEF數(shù)據(jù)集[CP/OL].[2015-11-16].http:∥www.clef-campaign.org數(shù)據(jù)集上進行了一系列信息檢索文檔重排序?qū)嶒?實驗結(jié)果表明,與只考慮文檔間關(guān)系的基線系統(tǒng)比較,本文提出的方法能夠有效提高檢索準(zhǔn)確率。

    1 基于流形學(xué)習(xí)的文檔重排序框架

    流形學(xué)習(xí)指的是從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu)的一種方法[26],即找到高維空間中的低維流形,并求出相應(yīng)的嵌入映射,以實現(xiàn)維數(shù)約簡或者數(shù)據(jù)可視化。流形學(xué)習(xí)是一種半監(jiān)督機器學(xué)習(xí)技術(shù),可以用來對高維非線性數(shù)據(jù)集進行維數(shù)降維,它可以使得高維空間中相鄰的點在低維空間中仍然相鄰,數(shù)據(jù)點的分布也與高維空間中的分布相似。本文將流形學(xué)習(xí)用于文檔重排序中,采用無監(jiān)督方法,糅合文檔與文檔,文檔與關(guān)鍵詞項以及詞項與詞項等多種關(guān)系,通過正則化框架,使得文檔進行重排序后,相似的文檔具有相似的重排序分?jǐn)?shù)。本節(jié)首先定義文檔重排序問題,然后詳細介紹本文提出的基于流形學(xué)習(xí)的文檔重排序模型。為方便閱讀,表1總結(jié)了本文所使用符號及其含義。

    表1 符號及含義說明

    1.1 問題定義

    在某一文檔集D={d1,d2,…,dn},中,針對用戶特定的信息需求q,系統(tǒng)首先返回第一輪檢索結(jié)果y∈D。在通常情況下,該結(jié)果列表的效果并不理想。因此,重排序方法將該結(jié)果列表中的文檔進行重新排序,得到新的結(jié)果列表,以期能將與用戶信息需求最相關(guān)的結(jié)果重新調(diào)整到結(jié)果列表的頂端,提高用戶的滿意度。

    1.2 基于流形學(xué)習(xí)的重排序模型

    本文提出的重排序模型在考慮文檔間關(guān)系的基礎(chǔ)上,進一步考慮了詞項與詞項,文檔與詞項之間的關(guān)系對文檔進行重新建模。其中,為提高文檔重新排序的效率,詞項來源于第一輪檢索返回的文檔結(jié)果列表中最靠前的b個文檔。為構(gòu)造能夠反映文檔與文檔,詞項與詞項,文檔與詞項之間關(guān)系的矩陣,本文采用LDA模型計算語義之間的余弦相似度[21]。關(guān)于LDA模型的介紹已有很多,不再累述,對具體計算方法感興趣的讀者可以參考相關(guān)文獻。文檔與文檔的余弦相似度定義為:

    (1)

    其中,di和dj分別代表第i個文檔和第j個文檔,xi和xj分別代表LDA模型中第i個文檔的主題分布向量和第j個文檔的主題分布向量。反映文檔與文檔之間關(guān)系的矩陣A可表示為Aij=sim(di,dj)。同理,詞項與詞項的余弦相似度定義為:

    (2)

    其中,wi和wj分別代表第i個詞項和第j個詞項,ci和cj分別代表LDA模型中第i個詞項的主題分布向量和第j個詞項的主題分布向量。反映詞項與詞項之間關(guān)系的矩陣M可表示為Mij=sim(wi,wj) .以此類推,文檔與詞項的余弦相似度可定義為:

    (3)

    其中,di和wj分別代表第i個文檔和第j個詞項,xi和cj分別代表LDA模型中第i個文檔的主題分布向量和第j個詞項的主題分布向量。反映文檔與詞項之間關(guān)系的矩陣R可表示為Rij=sim(di,wj) .

    為方便描述文檔與文檔,詞項與詞項,文檔與詞項之前的關(guān)系,定義4個對角矩陣DA,DM,DRA,DRM表示相應(yīng)矩陣A,M,R中第l行對角線上的元素,分別等于矩陣A中第l行的總和,矩陣M第l行的總和,矩陣R中第l行的總和,矩陣R中第l列的總和。

    在本文所提出的目標(biāo)函數(shù)中,表示文檔重新排序后的文檔結(jié)果列表f和前b個文檔中詞項的排名結(jié)果列表g須與A,M,R,y,z的相關(guān)信息保持一致,且要使f和g的分?jǐn)?shù)盡可能最小化,其中,y,z分別表示第一輪檢索返回的文檔結(jié)果列表和查詢詞與前b個文檔中詞項之間的分?jǐn)?shù)排名結(jié)果列表。目標(biāo)函數(shù)如公式(4)所示。

    (4)

    (5)

    目標(biāo)函數(shù)分別對f和g求偏導(dǎo),公式如(6)和(7):

    (6)

    (7)

    為簡化公式,令F=[(1-β-η)I-αSA],G=[(1-α-μ)I-βSM],根據(jù)式(7)可得:

    (8)

    然后將g代入式(6)中,即可得到文檔重新排序的排名分?jǐn)?shù)為:

    (9)

    該方法是在第一輪檢索結(jié)果y的基礎(chǔ)上,運用LDA模型計算文檔與文檔,詞項與詞項,文檔與詞項之間的余弦相似度,以及查詢詞和文檔中詞項之間的分?jǐn)?shù)z,通過構(gòu)造關(guān)系矩陣A,M,R,實現(xiàn)多種關(guān)系的糅合,最后運用流形學(xué)習(xí)實現(xiàn)文檔重排序,具體實施過程如表2所示。

    表2 基于流形學(xué)習(xí)的文檔重排序模型

    2 實驗設(shè)置和評估

    本節(jié)主要介紹實驗數(shù)據(jù)的來源,評估方法,實驗中參數(shù)的調(diào)整以及與其它的基線系統(tǒng)進行比較的結(jié)果。

    2.1 實驗數(shù)據(jù)

    實驗使用的數(shù)據(jù)來源于CLEF,本文采用2009Ad-HocTrack任務(wù)提供的歐洲數(shù)字圖書館數(shù)據(jù),其中三個語料庫的主體語言分別為英語、法語、德語。關(guān)于這三個數(shù)據(jù)集的詳細介紹如表3所示。本文所有搜索實驗由開源軟件Terrier*tervier開源軟件[CP/OL].[2005-07-12].http:∥www.terrier.org完成。在使用Terrier建立索引之前,我們對所有文檔的處理包含分詞、詞干還原和去停用詞等。文檔處理的實例如表4所示。

    表3 文檔數(shù)據(jù)集的統(tǒng)計

    表4 文檔處理實例

    2.2 評估方法

    通常情況下,在文檔重新排序的過程中,考慮到用戶一般只關(guān)注返回的結(jié)果列表的前幾個結(jié)果,因此本文采用如下評估標(biāo)準(zhǔn):

    ?前5個結(jié)果的準(zhǔn)確率(Precision@5或P@5):該方法評價返回檢索結(jié)果中前5個文檔的準(zhǔn)確率。

    ?前10個結(jié)果的準(zhǔn)確率(Precision@10或P@10):該方法評價的是返回檢索結(jié)果中前10個文檔的準(zhǔn)確率。

    ?平均倒數(shù)排名(MeanReciprocalRank或MRR):查詢結(jié)果的倒數(shù)排名是第一個相關(guān)文檔出現(xiàn)位置的倒數(shù),該方法通常被用來評價結(jié)果重排序。

    三種評價方法具體計算過程可參考文獻[27]。給出的結(jié)果表明某一用戶所有查詢詞的平均表現(xiàn)。顯著差異由配對樣本t檢驗測定。

    2.3 參數(shù)設(shè)置

    在本次實驗中,一共有8個參數(shù)需要進行設(shè)置。參數(shù)b為第一輪檢索返回的文檔結(jié)果列表中最靠前的b個文檔,參數(shù)λ為重排序結(jié)果和初始結(jié)果的占重比,參數(shù)k為LDA模型的主題數(shù)目,參數(shù)α控制文檔之間信息的重要性,參數(shù)β控制文檔中詞項之間信息的重要性,參數(shù)γ控制文檔與前b個文檔中詞項之間信息的重要性,參數(shù)μ控制各種信息資源的重要性,參數(shù)η控制文檔重排序的效果。其中,為提高檢索結(jié)果重排序的效率,參數(shù)b設(shè)置為2,主題數(shù)目k的取值范圍設(shè)定為[5,45],遞增區(qū)間長度為5,其它6個參數(shù)的調(diào)整范圍為[0.1,0.9],遞增區(qū)間長度為0.1,且將控制基于流形學(xué)習(xí)文檔重排序模型的五個歸一化參數(shù)α,β,γ,μ,η,設(shè)置為α+β+γ+μ+η=1,對于這五個參數(shù),設(shè)置其中的三個參數(shù)為0.1,調(diào)整另外兩個參數(shù)。

    在實驗過程中,參數(shù)的調(diào)整在一個數(shù)據(jù)集上進行處理,然后應(yīng)用于其它數(shù)據(jù)集。經(jīng)過多次實驗后,實驗結(jié)果表明,λ取值為0.9,k取值為5,α,β,γ,μ,η中任意兩個參數(shù)為0.3或0.4,其它三個參數(shù)為0.1時,流形學(xué)習(xí)模型在文檔重排序中的變現(xiàn)效果最好。

    2.4 實驗結(jié)果及分析

    本實驗根據(jù)不同的語料庫,比較了基于流形學(xué)習(xí)方法和其它文檔重排序方法的效果。選擇的基線系統(tǒng)包括:基于BM25檢索模型,記為InitialResult;文獻[18]提出的基于圖的鄰近關(guān)系的文檔重排序方法,記為Aff;文獻[10]采用的基于語言模型構(gòu)建文檔圖的方法,記為Structline;文獻[21]使用的基于LDA模型實現(xiàn)文檔重排序方法,記為LDA;文獻[17]使用的一種基于半監(jiān)督學(xué)習(xí)方法利用文檔內(nèi)部結(jié)構(gòu)進行標(biāo)簽傳播來實現(xiàn)文檔重排序,記為Yang;本文提出的基于流形學(xué)習(xí)的文檔重排序模型,記為Maniold-learning,實驗結(jié)果見表5。實驗結(jié)果表明,對于不同的語料庫,本文所提出的方法可以有效地提高檢索的準(zhǔn)確率。這一提高在實驗中表現(xiàn)得十分穩(wěn)定。在BL語料庫中,相比于第一輪檢索的結(jié)果,本文所提出方法與第一輪檢索的結(jié)果相比較,從46.37%提高到77.73%(使用MRR的評價標(biāo)準(zhǔn));該方法與最好的基線系統(tǒng)相比,提高了5.83%(使用P@5的評價標(biāo)準(zhǔn));這一結(jié)果表明糅合詞項與詞項,文檔與詞項之間的關(guān)系,能夠增強不同文檔之間的關(guān)聯(lián)性,可以改善檢索系統(tǒng)的性能。

    表5 實驗結(jié)果對照表(*表示與最好基線系統(tǒng)結(jié)果之間的顯著差異)

    在BNF的語料庫中,在其他的文檔重排序方法中,LDA的表現(xiàn)效果最好,Structline方法次之(使用MRR的評價標(biāo)準(zhǔn));采用P@10進行評估時,Yang的表現(xiàn)效果最好,LDA次之。本文所提出的方法與LDA的方法相比較,提高了5.1%(使用MRR的評價標(biāo)準(zhǔn)),本文提出的方法比LDA提高了6.82%(使用P@5的評價標(biāo)準(zhǔn)),可得出本文所提議的方法在檢索結(jié)果準(zhǔn)確率的表現(xiàn)方面更加穩(wěn)定。該方法與最好的基線系統(tǒng)相比,最高提高了5%(使用P@10的評價標(biāo)準(zhǔn))。

    在ONB的語料庫中,LDA方法相對于InitialResult最高提高了10.92%(使用P@10的評價標(biāo)準(zhǔn))。采用MRR進行評估時,本文提出的方法相對于LDA的方法提高了11.78%,相對于InitialResult,提高了33.46%;采用P@5進行評估時,相對于InitialResult,本文提出的方法由25.6%提高到32.8%,采用P@10進行評估時,相對于LDA的方法,提高了2.27%。

    對比不同的語料庫,可以發(fā)現(xiàn),采用MRR以及P@5的評價標(biāo)準(zhǔn)時,ONB數(shù)據(jù)集上的文檔重排序的效果最好,BNF數(shù)據(jù)集上的效果次之,BL數(shù)據(jù)集上的效果最差;采用P@10的評價標(biāo)準(zhǔn)時,BNF數(shù)據(jù)集上的效果比ONB數(shù)據(jù)集上的效果更好,BL數(shù)據(jù)集上的效果仍不理想。這一結(jié)果表明本文所提出的方法在BNF和ONB數(shù)據(jù)集上的表現(xiàn)更加穩(wěn)定,對于法語和德語這兩種語言更加敏感。

    對以上的結(jié)果進行分析,在不同的語料庫中,采用不同的評估標(biāo)準(zhǔn)時,基于流形學(xué)習(xí)模型的文檔重排序方法在考慮文檔與文檔的關(guān)系之外,還考慮了詞項與詞項,文檔與詞項這兩種關(guān)系,可以大大增強文檔之間的聯(lián)系,提高文檔與文檔之間的相似性,因此能夠有效地提高檢索結(jié)果的準(zhǔn)確率,改善用戶的檢索體驗。

    3 總結(jié)

    文檔重新排序是在第一輪檢索結(jié)果的基礎(chǔ)上,根據(jù)用戶的興趣愛好,采用一定的高效模型或者算法,將用戶最感興趣的內(nèi)容優(yōu)先置于檢索結(jié)果列表的頂端,提高檢索結(jié)果的準(zhǔn)確率和用戶滿意度。以往的研究大多集中于研究文檔與文檔之間的關(guān)系,存在一定的局限性,本文提出一種基于流形學(xué)習(xí)的文檔重排序模型。與以往的文檔重排序方法不同,該方法將文檔與文檔,詞項與詞項,文檔與詞項等多種關(guān)系融合起來,能夠有效地提高文檔重排序的效率。在大規(guī)模信息檢索數(shù)據(jù)集上的實驗結(jié)果表明,本文所提方法能夠有效地提高檢索結(jié)果的準(zhǔn)確率。在未來的工作中將考慮糅合更多與文檔相關(guān)的信息,并融合其它高效的算法和模型,提高文檔重排序的性能以及檢索結(jié)果的準(zhǔn)確率。

    [1]ZhangY,JansenBJ,SpinkA.TimeSeriesAnalysisofaWebSearchEngineTransactionLog[J].Information Processing & Management,2009,45(2):230-245.DOI.org/10.1016/j.ipm.2008.07.003.

    [2] 康熠華,蘇貴斌,關(guān)瑩.Web信息檢索模型中的相似度計算方法研究[J].軟件導(dǎo)刊,2015,14(10):9-11.DOI:10.11907/rjdk.151727.

    [3]BalińskiJ,DaniowiczC.Re-rankingMethodBasedonInter-documentDistances[J].Information Processing & Management,2005,41(4):759-775.DOI.org/10.1016/j.ipm.2004.01.006.

    [4]LeeKS,ParkYC,ChoiKS.Re-rankingModelbasedonDocumentClusters[J].Information Processing & Management,2001,37(1):1-14.DOI.org/10.1016/S0306-4573(00)00017-0.

    [5]PlansangketS,GanJQ.Re-rankingGoogleSearchReturnedwebDocumentsusingDocumentClassificationScores[J].Artificial Intelligence Research,2016,6(1):59.DOI.org/10.5430/air.v6n1p59.

    [6]QuY,XuG,WangJ.RerankMethodbasedonIndividualThesaurus[C]∥ProceedingsoftheProceedingsoftheSecondNTCIRWorkshoponResearchinChinese&JapaneseTextRetrievalandTextSummarizationTokyo,Japan,2001.NationalInstituteofInformatics.

    [7]KampsJ.ImprovingRetrievalEffectivenessbyRerankingDocumentsbasedonControlledVocabulary[C]∥ProceedingsoftheProceedingsof26thEuropeanConferenceonIRResearch,ECIR2004Sunderland,UK,April5-7,2004,2004,283-295.https:∥doi.org/10.1007/978-3-540-24752-4-21.

    [8]LukRWP,WongKF.Pseudo-relevanceFeedbackandTitlere-rankingforChineseInformationRetrieval[C]∥ProceedingsoftheWorkingNotesoftheFourthNTCIRWorkshopMeetingTokyo,Japan,2004.NationalInstituteofInformatics.

    [9]RavivH,KurlandO,CarmelD.DocumentRetrievalUsingEntity-basedLanguageModels[C]∥Proceedingsofthe39thInternationalACMSIGIRconferenceonResearchandDevelopmentinInformationRetrieval.ACM,2016:65-74.DOI.org/10.1145/2911451.2911508.

    [10]KurlandO,LeeL.PageRankWithoutHyperlinks:StructuralRerankingUsingLinksInducedbyLanguageModels[J].ACMTransactionsonInformationSystems(TOIS),2010,28(4):18.DOI:10.1145/1852102.1852104.

    [11]KurlandO,LeeL.RespectMyAuthority!:HITSWithoutHyperlinks,UtilizingCluster-basedLanguageModels[C]∥ProceedingsoftheProceedingsofthe29thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrievalSeattle,Washington,USA,2006.ACM,83-90.DOI:10.1145/1148170.1148188.

    [12]KurlandO,KrikonE.TheOppositeofSmoothing:ALanguageModelApproachtoRankingQuerySpecificDocumentClusters[J].JArtifIntellRes.(JAIR),2011,41:367-395.DOI.org/10.1145/1390334.1390366.

    [13]MeisterL,KurlandO,KalmanovichIG.Re-rankingSearchResultsUsinganAdditionalRetrievedList[J].Information Retrieval,2011,14(4):413-437.DOI.org/10.1007/s10791-010-9150-8.

    [14] 陳飛,張敏,劉奕群,等.基于HITS算法的查詢結(jié)果多樣化方法[J].山東大學(xué)學(xué)報(理學(xué)版),2011,46(5):44-48.

    [15]DiazF.RegularizingadHocRetrievalScores[C]∥theProceedingsofthe14thACMInternationalConferenceonInformationandKnowledgeManagementBremen,Germany,2005.ACM,672-679.DOI:10.1145/1099554.1099722.

    [16]DengH,LyuMR,KingI.EffectiveLatentSpaceGraph-basedRe-rankingModelwithGlobalConsistency[C]∥theProceedingsoftheSecondACMInternationalConferenceonWebSearchandDataMiningBarcelona,Spain,2009.ACM,212-221.DOI:10.1145/1498759.1498829.

    [17]YangL,JiD,ZhouG,et al.DocumentRe-rankingUsingClusterValidationandLabelPropagation[C]∥ProceedingsoftheProceedingsofthe15thACMinternationalconferenceonInformationandknowledgemanagementArlington,Virginia,USA,2006.ACM,690-697.DOI:10.1145/1183614.1183713.

    [18]ZhangB,LiH,LiuY,et al.ImprovingWebSearchResultsusingAffinityGraph[C]∥Proceedingsofthe28thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval,Salvador,Brazil,2005.ACM.504-511.DOI:10.1145/1076034.1076120.

    [19] 王品,黃廣君.信息檢索中的句子相似度計算[J].ComputerEngineering,2011,37(12).DOI:10.3969/j.issn,1000-3428.2011.12.013.

    [20] 王瑞琴.基于語義處理技術(shù)的信息檢索模型[J].情報學(xué)報,2012,31(1):9-17.DOI:10.3772/j.issn.1000-0135.2012.01.002.

    [21]ZhouD,WadeV.LatentDocumentRe-ranking[C].IntheProceedingsofthe2009ConferenceonEmpiricalMethodsinNaturalLanguageProcessing:Volume3-Volume3Singapore,2009.AssociationforComputationalLinguistics,1571-1580.DOI.org/10.3115/1699648.1699704.

    [22]BleiDM,NgAY,JordanMI.LatentDirichletAllocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.

    [23]ZhouD,LawlessS,MinJ,et al.Dual-spaceRe-rankingModelforDocumentRetrieval[C]∥theProceedingsofthe23rdInternationalConferenceonComputationalLinguistics:PostersBeijing,China,2010.AssociationforComputationalLinguistics,1524-1532.

    [24]MitraB,NalisnickE,CraswellN,et al.ADualEmbeddingSpaceModelforDocumentRanking[J].arXiv Preprint arXiv:1602.01137,2016.

    [25]ErmakovaL,MotheJ.DocumentRe-rankingBasedonTopic-commentStructure[C]∥ResearchChallengesinInformationScience(RCIS),2016IEEETenthInternationalConferenceon.IEEE,2016:1-10.DOI.org/10.1109/rcis.2016.7549352.

    [26]TenenbaumJB,DeSilvaV,LangfordJC.AGlobalGeometricFrameworkforNonlinearDimensionalityReduction[J].Science,2000,290(5500):2319-2323.DOI.org/10.1126/science.290.5500.2319.

    [27]Baeza-YatesR,Ribeiro-NetoB.ModernInformationRetrieval:TheConceptsandTechnologyBehindSearch(2ndEdition)[M].Addison-WesleyProfessional,2011:944.

    A Document Re-Ranking Based on Manifold-learning Method

    ZHAO Wenyu,ZHOU Dong*

    (SchoolofComputerScienceandEngineering,HunanUniversityof

    Document re-ranking is one of hot research areas in Information Retrieval so as to improve precision of top-ranked documents based on the first round retrieval results.We take the relationships between documents, between words in documents, between documents and words into consideration and propose a manifold-learning method for document re-ranking.The method incorporate the relationships between documents, between words in documents, between documents and words by a manifold-learning model, and then integrate them into a normalized framework to re-rank documents based on the initial results.The experiments are conducted on CLEF dataset. Comparing with representative baselines such as those based on graphs or the LDA model,this method can better improve precision.The method achieves 11.78% higher precision than the best performed baseline and 33.48% higher precision than the initial ranking results measured by MRR in Austrian National Library dataset.

    document re-ranking;manifold learning;retrieval results optimization

    10.13451/j.cnki.shanxi.univ(nat.sci.).2017.01.005

    2016-11-20;

    2016-12-09

    國家自然科學(xué)基金(61300129);湖南省教育廳資助科研項目(16K030);湖南省研究生科研創(chuàng)新資助項目(CX2016B575);教育部留學(xué)回國人員科研啟動基金(教外司留[2013]1792)

    趙文玉(1993-),女,湖南衡陽人,碩士生,主要研究方向為信息檢索、自然語言處理,E-mail:719727262@qq.com

    *通信作者:周棟(ZHOU Dong),E-mail:dongzhou1979@hotmail.com

    TP391

    A

    0253-2395(2017)01-0027-08

    猜你喜歡
    詞項流形集上
    Cookie-Cutter集上的Gibbs測度
    緊流形上的Schr?dinger算子的譜間隙估計
    鏈完備偏序集上廣義向量均衡問題解映射的保序性
    迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
    Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
    自然種類詞項二難、卡茨解決與二維框架
    復(fù)扇形指標(biāo)集上的分布混沌
    基于多故障流形的旋轉(zhuǎn)機械故障診斷
    幾道導(dǎo)數(shù)題引發(fā)的解題思考
    英語詞項搭配范圍及可預(yù)見度
    新津县| 大安市| 峨眉山市| 平原县| 安龙县| 禄劝| 盐边县| 雷山县| 南木林县| 塔城市| 扎兰屯市| 奉化市| 和顺县| 浮梁县| 莱州市| 广昌县| 安远县| 梁山县| 大同县| 时尚| 乌什县| 贡嘎县| 紫金县| 东明县| 新田县| 兴城市| 屏东市| 丹凤县| 兖州市| 九龙城区| 贵定县| 修水县| 论坛| 南江县| 宜春市| 清苑县| 四会市| 中阳县| 灵山县| 交口县| 青冈县|