• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融入文檔詞權重的跨境民族文化文本檢索方法*

    2021-05-08 06:10:14龍小龍
    通信技術 2021年4期
    關鍵詞:文檔跨境檢索

    龍小龍

    (1.昆明理工大學,云南 昆明 650500;2.云南省人工智能重點實驗室,云南 昆明 650500)

    0 引言

    信息檢索的傳統(tǒng)模型通常是根據(jù)匹配信號的準確程度來評價查詢和文檔之間相關性的。也就是說,相關性分數(shù)是由文檔中查詢詞的頻率決定的。由于語義匹配信號被忽略,模型面臨典型的術語不匹配問題[1]。近年來在許多NLP任務中,深度神經(jīng)網(wǎng)絡取得了非常不錯的效果。同時,深度神經(jīng)網(wǎng)絡也被應用于信息檢索,稱為神經(jīng)信息檢索,對檢索模型中的單詞重要性進行建模具有重要意義。在傳統(tǒng)的檢索模型中,逆文檔頻率成為測量文檔詞重要性的重要指標[2]。通常這些模型只在意和查詢詞相同的文檔詞,因此它們一般只測量逆文檔頻率的重要程度。近年來,把查詢和文檔的語義匹配進行建模正在被神經(jīng)檢索模型應用。因此,與查詢詞有關的詞也被用來衡量相關性。對于跨境民族文化領域來說,文檔詞對文檔檢索具有非常重要的作用,而這些文檔詞的重要性被目前的神經(jīng)檢索模型忽視,這在相關性判斷中是至關重要的,因此通用的神經(jīng)檢索模型對跨境民族文化領域的文本檢索效果并不好。下面是具體的案例。

    查詢:介紹傣族的傳統(tǒng)節(jié)日,比如開門節(jié)。

    文本A的一個片段:潑水節(jié)是傣族、泰語民族以及東南亞地區(qū)的傳統(tǒng)節(jié)日,潑水節(jié)在每年4月12—15日,節(jié)日會舉辦3~4天。

    文本B的一個片段:流行于整個傣族地區(qū)的傣族舞是傣族古老的民間舞,也是傣族人民最喜愛的舞蹈。

    當兩段文本A、B都有與查詢詞相同的實體“傣族”的時候,文檔詞對于檢索結果的精度十分重要,考慮到傣族和潑水節(jié)在查詢中提供的語義環(huán)境,文檔詞“潑水節(jié)”的重要性應該大于“傣族舞”,因此在不強調文檔詞重要性的情況下,很容易出現(xiàn)匹配錯誤。當強調文檔詞的重要性時,它將提高檢索的精度。

    針對跨境民族文化領域文本所具有的特點,本文從檢索精度出發(fā),在建模查詢和文檔之間的相關性時考慮了文檔詞的重要性,用于對跨境民族文化領域文本檢索。具體來說,CETR模型是以查詢和文檔的原始文本詞嵌入為輸入,通過Bi-LSTM提取其上下文特征,且把查詢與文檔的隱向量構建成一個相似矩陣,再把文檔詞的權重嵌入到相似矩陣中以形成一個新的矩陣。通過CNN提取相似矩陣中的特征,不僅可以捕獲匹配信號,還可以捕獲文檔詞的重要性,然后把CNN提取的特征矩陣應用于Max-pooling層,得到最強的關聯(lián)信號,并投影到多層感知器的神經(jīng)網(wǎng)絡中,得到最終的匹配得分。

    本文進行了對比實驗,驗證本文模型的有效性。在跨境民族文化領域數(shù)據(jù)集中測試了本文的模型。實驗結果表明,和現(xiàn)有的檢索模型相比,CETR模型在檢索精度上具有明顯的提升。

    1 相關工作

    文本檢索指的是通過用戶輸入的關鍵詞或句子使用檢索算法從海量的文本數(shù)據(jù)中獲得用戶所需要的文本信息。目前的文本檢索模型主要分為兩大類:傳統(tǒng)文本匹配模型和基于深度學習的語義匹配模型。

    傳統(tǒng)文本匹配模型主要包括布爾模型[3]、向量空間模型[4]等模型。傳統(tǒng)的文本匹配模型存在比較大的問題,它們在運用關鍵詞進行檢索時,檢索結果并不準確,只能粗糙地檢索出用戶所需要的部分文本。

    早期的研究主要集中在基于語義表示的文本匹配模型上,這些模型通過學習良好的文本語義表示,并且在查詢和文本的語義表示空間中進行匹配。Shen等人[5]提出了CLSM模型,通過詞的n-gram和卷積池化操作來捕獲上下文關系,彌補DSSM上下文特征捕捉不足的問題。Huang等人[6]提出了DSSM模型,其核心思想是把用戶輸入的查詢數(shù)據(jù)以及待檢索的文檔分別進行詞向量表示,然后把這二者的詞向量分別映射到兩個維度相同的語義空間,再對這兩個語義空間進行Cosine相似度計算,通過相似度值來判斷這兩個文本的相關性,以此來達到信息檢索的目的。覃遵躍等人[7]提出對XML數(shù)據(jù)采用關鍵字檢索,通過用戶查詢意圖與LCA相關性兩個規(guī)則建立節(jié)點評分公式,以此提高排名的準確性。馬小霞等人[8]提出了一種基于領域本體的文本信息檢索模型,利用領域本體對主題標引和實體關系標引進行指導,進一步提高了信息檢索系統(tǒng)的性能。Palangi等人[9]提出了LSTMSM模型,使用LSTM神經(jīng)網(wǎng)絡來對文本進行全局上下文特征進行提取,以此來彌補CLSM無法捕獲較遠距離上下文特征的缺點。章露露等人[10]利用分布式神經(jīng)語言概率模型訓練低維詞向量,以此來擴展查詢詞,豐富查詢詞的語義信息,提高檢索的準確率。

    基于交互的文本匹配模型的思想是首先將文本中的詞語映射為低維表示的詞向量,然后通過對兩個句子之間的單元進行匹配產(chǎn)生相似度向量,最后學習相似度向量中的信息產(chǎn)生相關度得分。如:Pang等人[11]提出MatchPyramid模型,首先構造一個表示詞與詞之間相似性的匹配矩陣,并將其視為圖像,然后用CNN逐層提取特征。Gong等人[12]提出了DIIN模型,同時采用了詞向量、字向量來進行詞語表征,然后對詞、字向量進行交互,并且利用CNN與LSTM來做特征提取。汪琦凡等人[13]提出利用引文上下文語義構建一個引文網(wǎng)絡,然后通過排序算法找出重要文獻,以達到提升檢索效率和效果的目的。Guo等人[14]提出了DRMM模型,首先對查詢和文檔的每個詞項建立局部交互關系,然后把變長的局部交互轉變?yōu)槎ㄩL的匹配直方圖,利用前饋網(wǎng)絡學習層次匹配模式,對查詢中的每個詞項計算匹配分數(shù)。趙偉強等人[15]提出一種雙循環(huán)遷移排序學習方法,該方法基于生成對抗網(wǎng)絡,直接將源域數(shù)據(jù)映射到目標域數(shù)據(jù)中,實驗表明該方法比主流方法有更好的效果。Xiong等人[16]提出一種基于核函數(shù)的文檔排序神經(jīng)網(wǎng)絡模型K-NRM,首先構建查詢與文檔的相似矩陣,然后使用 RBF Kernel 進行 Kernel Pooling,取 log 相加后接一個全鏈接進行二分類,以分類的結果來判斷文本的匹配程度。Tan[17]等人提出MWAN模型,采用了GloVe模型進行詞向量表示,然后利用BiGRU升級網(wǎng)絡提取文本特征。

    關于民族文本檢索方法的研究,袁軍[18]利用語義Web與Web服務技術以提高分散、無序的已有民族文化網(wǎng)絡資源在Internet上的檢索效率與共享;隗昊[19]通過構建民族節(jié)日領域本體來對利用SVM技術獲取的民族節(jié)日相關文本進行檢索;張俊波[20]針對本體模型與數(shù)據(jù)庫模型之間存在著巨大的差距問題,通過將數(shù)據(jù)庫與本體庫進行融合,對民族信息資源的語義檢索進行了研究。

    通過實驗得知,現(xiàn)有的檢索模型在跨境民族文化文本檢索任務上效果不理想,存在許多匹配錯誤的問題,其中MatchPyramid模型精度最高。通過對跨境民族文化領域的語料進行分析發(fā)現(xiàn),該語料有以下特點,查詢句中的實體在文檔中存在較大的概率重復性。當查詢句的實體在多條文檔中同時出現(xiàn)時,只考慮查詢詞的權重顯然不夠,而現(xiàn)有的檢索模型包括MatchPyramid模型只考慮到了查詢詞的重要性。因此,結合語料特點,本文在MatchPyramid模型上融入文檔詞的權重,即考慮每個文檔詞對檢索的貢獻程度,并在輸入端對查詢詞和文檔詞進行初步的特征提取,以此來提高跨境民族文化領域文本檢索的精度。

    2 融入文檔詞權重的跨境民族文本檢索模型

    通過以上分析,本文提出了CETR模型來提高跨境民族文本檢索的精度。本文的模型分為4個部分。第一部分使用的是Bi-LSTM網(wǎng)絡對q-term和d-term進行上下文編碼,在每個位置上拼接前向和后向的LSTM的隱層狀態(tài),然后構建q-term與d-term的交互矩陣。為了強調文檔詞的重要性,將文檔詞的權重添加到當前的交互矩陣中,形成一個新的交互矩陣。第二部分是利用CNN對交互矩陣進行特征抽取,然后使用Max-pooling池化層,選擇查詢維度最強的信號作為下一層的輸入。第三部分是用全連接對CNN的結果進行轉換,使用softmax函數(shù)得到最終分類概率。其模型框架如圖1所示。

    在CETR模型中,查詢詞和文檔通過Word2vec進行詞向量表示,即Q={Q1,Q2,…,QM}和D={D1,D2,…,DM}分別表示查詢和文檔的詞向量,通過Bi-LSTM后,其隱向量分別q={q1,q2,…,qM}為和d={d1,d2,…,dM}。將文本匹配的輸入表示為匹配交互矩陣m,則上述每個元素mij表示基本交互,即qi和dj的相似度,qi表示查詢文本中的第i個字的隱向量,dj表示文檔中的第j個字的隱向量,其中M表示查詢的長度,N表示文檔的長度,模型公式如下所示:

    式中,gqi和gdj分別表示查詢詞和文檔詞的權重,wqi和wdj分別為對應神經(jīng)節(jié)點的權值,查詢詞權重是由softmax計算出來的,文檔詞權重是由公式(1)計算出來的,rk為第k個核的大小,dk和分別表示對應池化內核的寬度和長度。CETR模型使用余弦相似度作為交互運算符。然后在交互矩陣上用CNN進行特征提取,第k個核W(1,k)掃描整個交互矩陣并生成特征圖Z(k),然后通過Max-pooling來得到交互矩陣的最強特征。

    圖1 融入文檔詞權重的文本檢索模型框架

    2.1 交互矩陣

    首先查詢和文檔的初始向量是通過Word2vec得到的,通過Bi-LSTM后得到各自的隱向量,再通過IDF計算出文檔詞中每個字的權重,并融入文檔詞隱向量中,最后計算出查詢詞隱向量和融入文檔詞權重的文檔詞隱向量之間的相似度,并且形成交互矩陣。

    2.2 卷積層和多層神經(jīng)網(wǎng)絡

    類似于CNN在圖像識別中可以根據(jù)提取出的基本視覺模式進行抽象,CETR模型中的層次卷積也可以從詞級匹配中獲取重要的短語級交互,并進行進一步合成。由于不同查詢詞的重要性不同,本文使用權重系數(shù)來區(qū)分它。權重越大,查詢中的單詞越重要。CETR模型使用加權網(wǎng)絡計算不同查詢詞的權重系數(shù)。對于多層神經(jīng)網(wǎng)絡,CETR模型構建了多層神經(jīng)網(wǎng)絡。基于神經(jīng)網(wǎng)絡強大的數(shù)據(jù)擬合和學習能力,逐一提取特征.隨著網(wǎng)絡的逐漸深入,提取的特征越來越抽象。由于每個查詢的重要性不同,多層神經(jīng)網(wǎng)絡的輸出結合查詢重要性得到最終的分數(shù),用于文檔排序。

    2.3 匹配得分和訓練

    本文使用多層感知機(Multi-Layer Perception,MLP)來生成匹配的final分數(shù)。s0和s1為對應類的匹配分數(shù),Z為層次卷積的輸出,Wi為第i個MLP層的權值。σ為激活函數(shù)。利用softmax函數(shù)輸出屬于各類的概率,以交叉熵作為訓練的目標函數(shù),其中y(i)是第i個訓練實例的標簽。公式如下:

    3 實 驗

    本文與幾個經(jīng)典模型進行了比較,闡述了實驗過程、結果和分析。本文所用的數(shù)據(jù)集是跨境民族領域的文檔,由網(wǎng)絡爬蟲從網(wǎng)站上采集,用戶的點擊作為文檔排序的依據(jù),包括8 000個文檔和800個查詢,一個查詢對應10個文檔,其中包含正負文檔。訓練數(shù)據(jù)與測試數(shù)據(jù)的比例為15:1,即有7 500條訓練數(shù)據(jù)和500條測試數(shù)據(jù)。

    3.1 對比實驗

    對比基線模型,CETR模型的檢索效果有很大的提升,模型在跨境民族文化數(shù)據(jù)集中的實驗結果如表1所示??梢姡瑐鹘y(tǒng)的模型BM25比以表示為中心的模型(包括DSSM、CDSSM、ARC-I)精度更高。在所有以交互為中心的模型中,MatchPyramid模型的檢索效果最好且強于所有以表示為中心的模型。

    本文在實驗中使用NDCG、p@n和MAP作為評價模型檢索精度的指標,對照最佳深度學習基線模型的改進。CETR模型NDCG@10提高了約9.7%,P@1提高了約8.9%,MAP提高了約9.8%。由此說明了本文的模型在面向跨境民族文化領域檢索任務上的優(yōu)越性。

    3.2 消融實驗

    表2顯示了以表示為中心的模型(DSSM、CDSSM、ARC-I)、以交互為中心的模型(DRMM、ARC-II、MatchPyramid、K-NRM)和本文的模型CETR在通用數(shù)據(jù)集MQ2007上的實驗效果。

    可以看出,CETR模型和性能最好的模型K-NRM在通用數(shù)據(jù)集MQ2007上檢索精度相當,都優(yōu)于所試驗的其他模型,但并沒有明顯的提高。和表1對比可以看出,CETR模型在跨境民族文化領域數(shù)據(jù)集的檢索精度相比于其他模型有很大的提高,因此可以說它是專門為跨境民族文化領域文本檢索而設計的模型。

    表1 不同檢索模型在跨境民族領域數(shù)據(jù)集上的比較

    表2 不同檢索模型在數(shù)據(jù)集MQ2007上的比較

    4 結語

    本文介紹了用于檢索特定領域文本的CETR模型,由于跨境民族文化領域文本的特殊性,此模型強調了文檔詞在檢索任務中的重要性,并用Bi-LSTM對文本進行初步的特征提取,再通過CNN對其交互矩陣進行進一步的特征提取,利用Maxpooling在消除噪聲的同時提取出最強信號。模型的每個部分都可以并行化,使得產(chǎn)生大規(guī)模的商業(yè)產(chǎn)品成為可能。由于CETR是字詞級的,未來將考慮在模型中添加短語級和句子級匹配,深入研究對跨境民族文化領域文本檢索有利的因素,并將其引入新模型。

    猜你喜歡
    文檔跨境檢索
    有人一聲不吭向你扔了個文檔
    跨境支付兩大主流渠道對比談
    中國外匯(2019年20期)2019-11-25 09:54:56
    在跨境支付中打造銀企直聯(lián)
    中國外匯(2019年14期)2019-10-14 00:58:28
    2019年第4-6期便捷檢索目錄
    關于促進跨境投融資便利化的幾點思考
    中國外匯(2019年21期)2019-05-21 03:04:14
    基于RI碼計算的Word復制文檔鑒別
    專利檢索中“語義”的表現(xiàn)
    專利代理(2016年1期)2016-05-17 06:14:36
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    跨境直投再“松綁”
    中國外匯(2015年11期)2015-02-02 01:29:27
    不讓他人隨意下載Google文檔
    電腦迷(2012年4期)2012-04-29 06:12:13
    鄂托克旗| 稷山县| 柘荣县| 龙山县| 东方市| 马公市| 麻栗坡县| 大新县| 海晏县| 凭祥市| 都安| 加查县| 望都县| 五河县| 大关县| 秦安县| 汾阳市| 西丰县| 余姚市| 石楼县| 临邑县| 许昌市| 茶陵县| 内丘县| 循化| 咸丰县| 荣成市| 鄯善县| 固安县| 恩施市| 望奎县| 河源市| 昌平区| 木兰县| 都昌县| 二连浩特市| 柳江县| 中超| 平凉市| 金乡县| 阿克|