• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    文本相似度計算研究進展綜述

    2019-03-18 07:00:58王寒茹張仰森
    關(guān)鍵詞:維基百科句型語義

    王寒茹,張仰森

    (北京信息科技大學 計算機學院,北京 100192)

    0 引言

    文本相似度計算是自然語言處理任務(wù)的基石,對后續(xù)的文本處理起著非常關(guān)鍵的作用。文本相似度一般指文本在語義上的相似程度,被廣泛應(yīng)用于自然語言處理任務(wù)的各個領(lǐng)域。在機器翻譯領(lǐng)域,它可以作為翻譯精確度的評價準則;在搜索引擎領(lǐng)域,可用于衡量檢索文本與被檢索文本之間的相似程度;在自動問答領(lǐng)域,可用來評定問題與答案之間的語義匹配度;在抄襲檢測領(lǐng)域,通過相似度計算可以檢測出兩段文本的抄襲程度;在文本聚類方面,相似度閾值可以作為聚類標準;在自動文摘中,相似度可以反映局部信息擬合主題的程度。

    根據(jù)相似度計算方法的特點,文本相似度可以分為字面匹配相似度、語義相似度和結(jié)構(gòu)相似度。字面相似度一般采用Jaccard距離、最小編輯距離、最長公共子串等基本方法進行文本相似度計算。語義相似度可以從基于統(tǒng)計和基于規(guī)則兩方面進行考慮;結(jié)構(gòu)相似度計算的關(guān)鍵在于分析文本的句法結(jié)構(gòu)。

    1 基于字面匹配的方法

    基于字面匹配的相似度算法只是單純從詞形上考慮文本的相似度,認為“形似即義似”。車萬翔等[1]采用編輯距離計算相似度,用詞語代替單個漢字或字符作為基本編輯單元;俞婷婷等[2]根據(jù)k(n-gram窗口的大小)個字符在文本中出現(xiàn)的頻率及其所占權(quán)重,用Jaccard距離計算2個文本間的相似度;李圣文等[3]利用公共字符串的信息熵評價文本相似度。

    實際上基于字面匹配的文本相似度計算方法具有很大的局限性,原因包括:

    1)語言的多義同義問題。同一個詞在不同的語境下,可以表達不同的語義,例如“蘋果”既可以表示水果,也可以表示科技公司;同理,相同的語義也可以由不同的詞表達,例如“的士”、“計程車”都可以表示出租車。

    2)語言的組合結(jié)構(gòu)問題。詞是自然語言中的最小語義單位,由詞可以組成句子和篇章,不同的詞序可以表達不同的語義,如“深度學習”和“學習深度”;更進一步,還存在句法結(jié)構(gòu)問題,例如“從北京到上海高鐵”和“從上海到北京高鐵”雖然含有的詞語完全相同,但其語義完全不同。

    文本相似度的計算不能只停留在字面匹配的層面,更需要語義層面的匹配,這涉及到語義的表示和計算的問題。現(xiàn)有的算法分別從統(tǒng)計和規(guī)則兩方面進行考慮。

    2 基于統(tǒng)計的經(jīng)驗主義方法

    基于統(tǒng)計的經(jīng)驗主義思想源于Harris在1954年提出的分布假設(shè)(distributional hypothesis)。這個假設(shè)認為具有相似上下文的詞,應(yīng)該具有相似的語義。其計算完全依賴于語料庫,根據(jù)詞匯在文本中的共現(xiàn)頻率衡量其語義相似度。目前,根據(jù)語料將文本表示成計算機可操作的向量形式,是利用統(tǒng)計方法計算文本相似度的主要思路。基于構(gòu)建向量的方式不同,有向量空間模型(vector space model,VSM)、主題模型以及神經(jīng)網(wǎng)絡(luò)模型3種表示方式。

    2.1 基于向量空間模型

    VSM將文檔看成相互獨立的特征項組(T1,T2,…,Tn),并根據(jù)其在文檔中的重要程度賦予其一定的特征項權(quán)重W;將(T1,T2,…,Tn)看作一個n維坐標系中的坐標軸,(W1,W2,…,Wn)為相應(yīng)的坐標值。這樣由特征項組(T1,T2,…,Tn)構(gòu)成了一個文檔向量空間,采用空間向量間的余弦相似度計算文本相似度。

    VSM的缺陷在于:①對于大規(guī)模語料,VSM會產(chǎn)生高維稀疏矩陣,導致計算復(fù)雜度增加;②VSM假設(shè)文本中的各個特征詞獨立存在,割裂了詞與詞之間的關(guān)系以及段落間的層次關(guān)系。因而用向量空間進行文本相似度計算時,通常改進TF-IDF的計算方法以提高精確度。例如,張奇等[4]將文本用3個向量(V1,V2,V3)表示,V1中的每一維代表特征詞的TF-IDF值,V2根據(jù)一個bi-gram是否出現(xiàn)取值0或1,V3使用tri-gram信息,取值同V2,用回歸模型將3對向量相似度綜合得到句子的相似度;華秀麗[5]等利用TF-IDF選擇特征項,利用知網(wǎng)計算文本的語義相似度。

    2.2 基于主題模型

    針對VSM中高維向量空間,一詞多義和多詞一義的問題,學者們提出了各種主題模型。如潛在語義分析模型和潛在狄利克雷分布模型,在詞和文檔之間加入主題的概念,對文本隱含主題進行建模。兩篇文檔是否相關(guān)不僅僅取決于字面上的詞匯重復(fù),更重要的是挖掘文字背后的語義關(guān)聯(lián)。

    Deerwester等[6]于1990年提出潛在語義分析模型 (latent semantic analysis,LSA),該算法的基本思想是對大型語料庫中的詞語進行統(tǒng)計分析產(chǎn)生詞條-文檔矩陣,并采用奇異值分解(SVD)技術(shù)剔除不重要的奇異值,從而去除文本的“噪音”,將文本從稀疏的高維詞匯空間映射到低維的潛在語義空間,在低維語義空間上使用余弦距離計算文本相似度。這樣做的優(yōu)點在于兩個相關(guān)的文本即使沒有相同的詞匯也能獲得相似的向量表示,更加符合文本本身的關(guān)系。由于LSA算法過高的計算成本,LSA并沒有得到大規(guī)模的應(yīng)用。

    Blei等[7]于2013年提出隱含狄利克雷分布模型(latent dirichlet allocation,LDA)。它是一種對離散數(shù)據(jù)主題信息進行建模的方法,可以用來識別大規(guī)模文檔集或語料庫中的主題信息。文本的相似度通過計算與之對應(yīng)的主題概率分布來實現(xiàn)。由于短文本的代表詞少,LDA對于短文本的主題挖掘并不一定能達到預(yù)期效果,因而更適用于長文本。例如王振振等[8]利用LDA建立文本主題空間,增強文本的向量表示。LDA對文檔的主題建模,僅保留本質(zhì)信息,有助于高效處理大規(guī)模文檔。

    2.3 基于神經(jīng)網(wǎng)絡(luò)模型

    隨著深度學習在圖像、語音方面取得的進展,學者們又把目光轉(zhuǎn)向了利用深度學習模型進行自然語言處理的工作。如DSSM、ConvNet、Tree-LSTM、Siamese LSTM[9-13]都是在對詞語或者句子建模的基礎(chǔ)上得到詞向量或者句向量,并選擇合適的距離公式進行相似度計算。

    利用神經(jīng)網(wǎng)絡(luò)模型進行文本的相似度計算有2個思路。以句嵌入為例,一是直接將句子表示成句向量,如Ryan Kiros等[14]采用seq2seq框架,借鑒word2vec的skip-gram的方法,通過一句話來預(yù)測這句話的上一句和下一句,在模型的encoder層生成句向量,decoder進行上下文的向量預(yù)測;二是從詞的角度出發(fā),組合句子中的詞向量得到句向量,如Arora等[15]對一個句子中所有的詞向量進行加權(quán)平均得到句向量,并采用SVD或PCA方法進行修正,在句子的相似度計算方面取得的效果比較好;Kusner等[16]最小化2個句子中詞向量的全局距離之后,用EMD算法來計算句子的相似度;肖和等[17]利用神經(jīng)網(wǎng)絡(luò)模型結(jié)合上下文信息,學習單詞在語境中的向量表示,在依存句法樹中分析句子中各個詞語的依存關(guān)系,得到整個句子的句義表示。

    3 基于規(guī)則的理性主義方法

    基于規(guī)則的理性主義方法是采用人工構(gòu)建的、具有規(guī)則體系的知識庫進行文本相似度計算。根據(jù)知識庫中定義的規(guī)則,將詞匯分解成概念,這樣詞匯間的相似性度量就可以轉(zhuǎn)化為相似性最高的概念間的相似度。

    知識庫中概念的組織形式,如概念間的上下位關(guān)系、同義、反義關(guān)系以及樹狀概念層次體系中的不同要素(節(jié)點之間的路徑長度、局部網(wǎng)絡(luò)密度、節(jié)點在樹形圖中的深度、節(jié)點包含的信息量等)都可以作為詞匯的特征項進行相似度計算。按照知識庫的種類劃分,常用的語義詞典包括《知網(wǎng)》(HowNet)、《同義詞詞林》、WordNet等,常用的web語料庫有維基百科、百度百科等。

    3.1 基于《知網(wǎng)》的詞語相似度計算

    《知網(wǎng)》是一個以漢語和英語所表示的概念為描述對象,以揭示概念間的關(guān)系、概念所具有的屬性間的關(guān)系為基本內(nèi)容的常識知識庫?!吨W(wǎng)》采用嵌套式結(jié)構(gòu),把復(fù)雜概念層層分解,直到能用一組義原來表述。《知網(wǎng)》本質(zhì)上是一種概念樹結(jié)構(gòu),這個結(jié)構(gòu)比較符合人的思維方式,近些年來得到學者們的廣泛研究和應(yīng)用。基于《知網(wǎng)》的詞語相似度計算思想如下:

    1)詞語的整體相似度計算。對于2個詞語w1、w2,w1對應(yīng)的m個義項(概念)分別為s11,s12,…,s1 m,w2對應(yīng)的n個義項(概念)分別為s21,s22,…,s2n,詞語之間的相似度可以用詞語分解所得概念之間相似度的最大值來表示:

    (1)

    2)概念相似度計算。在知網(wǎng)中,一個概念可以用4種特征來描述,分別為第一基本義原描述、其他基本義原描述、關(guān)系義原描述、關(guān)系符號描述。基于“整體相似度等于部分相似度之和”的思想,概念相似度等于各個特征相似度的加權(quán)和。由于各個特征對概念的影響程度不同,部分相似性在整體相似性中所占的權(quán)重也不一樣,概念相似度計算方法為

    (2)

    式中β為權(quán)重。

    3)義原相似度計算。對于2個義原的相似度,劉群等[18]提出的義原相似度的計算方法為

    (3)

    式中,dis(p1,p2)為p1、p2之間的路徑長度;α為一個可調(diào)節(jié)參數(shù),表示相似度為0.5時的路徑長度。吳健等[19]提出節(jié)點深度對義原的相似度有一定的影響。義原相似度計算方法為

    (4)

    式中dp1、dp2分別為節(jié)點p1、p2的節(jié)點深度。

    3.2 基于WordNet的詞語相似度計算

    WordNet以同義詞集合為基本構(gòu)建單位,每一個同義詞集合代表一個詞匯的基本概念,并在概念之間建立了上下位關(guān)系、同義關(guān)系、反義關(guān)系以及整體部分關(guān)系。

    目前基于WordNet的詞匯語義相似度計算方法如表1所示。

    3.3 基于《同義詞詞林》的詞語相似度計算

    《同義詞詞林》將所有的詞組織在1個或幾個樹狀的層次結(jié)構(gòu)中,類似于WordNet的組織形式。由于國外已經(jīng)有很多專家對WordNet做了詳細研究,因而與其結(jié)構(gòu)相似的《同義詞詞林》未來得到廣泛應(yīng)用的潛力很大。

    表1 基于WordNet的詞語相似度計算方法

    陳宏朝等[32]使用《同義詞詞林》基于路徑與深度的方法進行詞語相似度計算,在MC30測試集上得到皮爾森相關(guān)系數(shù)為0.856。彭琦等[33]基于信息內(nèi)容的方法,在MC30測試集上得到皮爾森相關(guān)系數(shù)為0.899。

    3.4 基于維基百科/百度百科的相似度計算

    維基百科是目前最大的百科全書,每個頁面都有一個主題,頁面之間通過鏈接相互訪問。相對于《知網(wǎng)》、WordNet等知識庫,維基百科知識描述全面,覆蓋范圍廣泛,更新速度迅速,因而得到學者們的青睞。

    維基百科具有很好的結(jié)構(gòu)化信息,可以將維基百科看作2個巨大的網(wǎng)絡(luò):①由頁面構(gòu)成的網(wǎng)絡(luò)(頁面網(wǎng)),每個節(jié)點代表一個頁面,節(jié)點之間的連接線代表頁面之間的鏈接;②由類別組成的網(wǎng)絡(luò)(類別網(wǎng)),每個節(jié)點代表維基百科的一個類別,連接線代表2個節(jié)點之間存在子類和父類的關(guān)系。

    基于維基百科的代表算法有以下3種:

    Strube等[34]提出WikiRelate!算法,它將基于WordNet的經(jīng)典算法重新基于維基百科的類別網(wǎng)實現(xiàn),用維基百科的文檔類型結(jié)構(gòu)、文檔內(nèi)容分別代替WordNet的概念層次結(jié)構(gòu)、詞匯定義。Gabrilovich等[35]提出顯性語義分析法(explicit semantic analysis,ESA),該方法類似于向量空間模型,首先構(gòu)建語義解析器,將每個維基百科的概念頁面用TF-IDF(或其他特征抽取方法)表示成一個概念向量,每個值表示相對應(yīng)的詞語與這個概念的相關(guān)程度,通過比較2個概念向量的相似性判斷詞匯的語義相似度。相比于WikiRelate!算法,ESA效果更加突出。此外,Milne[36]利用了維基百科頁面之間的鏈接信息,基于向量模型計算語義相關(guān)性,效果不如ESA。

    百度百科作為最大的中文百科全書,相似度計算方法有以下2種:詹志建等[37]對百度詞條的百科名片、詞條正文、開放分類和相關(guān)詞條4 部分分別求相似度,通過部分相似度加權(quán)得到整體相似度;尹坤等[38]將百度百科看成一個巨大的有向圖,基于圖論的思想計算相似度,通過2個詞條所在文檔之間的鏈接關(guān)系來衡量2個詞條的相似度。

    4 基于句法分析的方法

    句法分析是一種句子結(jié)構(gòu)分析方法,借助句子的依存關(guān)系進行句法分析。依存關(guān)系主張核心動詞(支配成分)為句子的中心成分,支配句子中的其他成分(從屬成分),支配成分與從屬成分之間形成某種依存關(guān)系。依存句法可以通過長距離的搭配信息,反映出句子中各成分間的語義修飾關(guān)系,與句子成分的物理位置無關(guān)。

    4.1 基于骨架依存樹的方法

    穗志方[39]于1998年提出用骨架依存樹的方法計算句子相似度,開辟了用骨架依存樹進行相似度計算的先河。利用依存結(jié)構(gòu)進行句子間的相似度計算,關(guān)鍵在于如何獲得句子各成分間的語義依存信息。實際上這種方法并不需要考慮所有的依存關(guān)系,只需要判斷對句子結(jié)構(gòu)相似有決定性作用的依存關(guān)系即可,利用依存關(guān)系計算句子相似度的方法為

    (5)

    4.2 基于語義角色標注的方法

    語義角色標注是一種淺層的語義分析技術(shù),把句子中的某些語法成分標注為給定謂語動詞的論元(語義角色),如施事、受事、事件、地點等。

    田堃等[40]提出語義角色標注的漢語句子相似度算法。該方法以謂語動詞為核心,在動詞相似的基礎(chǔ)上,比較相同標簽下的角色相似度。計算方法如下:

    1)整體相似度計算。對于包含p個謂詞的句子S1和包含q個謂詞的句子S2,分別擁有包含p和q個標注句型,S1的標注句型集合為T(S1)={T11,T12,…,T1p},S2的標注句型集合為T(S2)={T21,T22,…,T2q},2個句子間的相似度計算方法為

    (6)

    式中(T1i,T2j)為標注句型的匹配對。

    2)標注句型的相似匹配算法。謂語動詞是句子的核心,是動作的發(fā)出者,它的相似度雖然不能完全代替句型之間的相似度,但在很大程度上能夠區(qū)分標注句型間是否具有一定的相似性,因而可以通過謂語動詞的相似匹配來判斷標注句型的相似匹配程度。

    設(shè)句子S1中第i個謂詞和S2中的第j個謂詞之間的相似度為simij,謂詞之間的相似度矩陣為

    (7)

    式中m、n是2個句子中的謂詞個數(shù),因而也是2個句子中的標注句型數(shù)。假設(shè)m≤n,2個句子間的m對謂語匹配關(guān)系的算法分為以下3步:

    ①找到句子中最大的元素simpq=max(simij|1≤i≤m,1≤j≤n),這樣得到S1中第p個謂詞和S2中的第q個謂詞之間的謂語匹配對。

    ②刪除矩陣A中simpq所在的行和列;

    ③循環(huán)執(zhí)行前2步直到矩陣A中的行數(shù)或列數(shù)為0。

    3)標注句型間的相似度計算。對于一個含有m個語義角色的標注句T,用v表示它的動詞,e(S)={e1,e2,…,em}表示S中所有論元成分的集合,r(S)={r1,r2,…,rm}表示S中所有角色標簽的集合。則標注句型T可以表示為一個3元組(v,e(S),r(S))。

    標注句型T1、T2的相似度為

    sim(T1,T2)=β×sim(v1,v2)+(1-β)×

    (8)

    式中:m和n分別為句型T1、T2中包含的標注句型數(shù);sim(v1,v2)為2個動詞v1、v2間的詞語相似度;sim(ei,ej)為2個論元ei、ej間的相似度;β為謂詞相似度在全句中所占的權(quán)重,這里取β=0.5,即對謂詞和語義角色的相似度各賦予0.5的權(quán)重。

    5 結(jié)束語

    雖然在學術(shù)界,相似度計算已經(jīng)取得豐碩的研究成果,但是隨著自然語言處理技術(shù)的發(fā)展,對相似度計算所能達到的精確度也提出了較高的要求。基于以上論述,未來的研究方向值得從以下兩方面考慮:

    第一,計算方法的單一導致計算結(jié)果非線性偏高,基于混合建模的相似度算法將日漸豐富?;诮y(tǒng)計的方法能夠反映文本在語義、語用方面的相似性和差異,但受語料庫的質(zhì)量影響較大,尤其是在對于特定領(lǐng)域進行文本相似度計算時,語料庫的質(zhì)量對結(jié)果的精確度至關(guān)重要?;谝?guī)則的相似度計算方法能夠彌補語料庫的數(shù)據(jù)稀疏和噪聲問題,但規(guī)則制定受人的主觀影響較大,如果規(guī)則庫不能及時更新,規(guī)則的不完善將導致不能達到預(yù)期結(jié)果?;诰浞?qū)動的方法從句法結(jié)構(gòu)的方面刻畫句子的相似度,但一般不適用于長句,隨著句子長度的增加算法的準確率、復(fù)雜度均呈現(xiàn)下降趨勢。目前已有的研究表明混合方法能在一定程度上彌補單一方法的不足,提高相似度計算方法的精確度。

    對于多種不同的方法,融合方法主要為加權(quán)和回歸,加權(quán)的方法對于權(quán)重的選擇也是一個問題,采取回歸的方法需要考慮不同方法的不同特征。融合方法的選擇應(yīng)該簡潔高效,避免陷入單純追求準確率的提高而忽略其復(fù)雜性和實用性的“黑洞”。

    所以關(guān)于使用何種技術(shù)融合以及采用哪幾種算法融合還有待深入研究,如果尋找到最佳結(jié)合點,混合方法在未來必定取代現(xiàn)有的方法,成為一大發(fā)展趨勢。

    第二,基于深度學習的建模方法將成為新的發(fā)展熱點。隨著神經(jīng)網(wǎng)絡(luò)在語音、圖像等領(lǐng)域都大幅度超越傳統(tǒng)算法,詞向量、卷積神經(jīng)網(wǎng)絡(luò)、長短時記憶以及注意力模型等都被用于文本相似度計算中,在訓練的過程中挖掘文本的潛在語義特征,可以解決人工構(gòu)造特征而造成的特征不足問題;并且用向量表示文本符合人的認知,因此在大數(shù)據(jù)量的情況下利用神經(jīng)網(wǎng)絡(luò)的方法進行文本處理將會成為今后的又一大發(fā)展方向,其在篇章相似度的計算方面將會大展身手。

    猜你喜歡
    維基百科句型語義
    維基百科影響司法
    英語世界(2023年10期)2023-11-17 09:18:46
    維基百科青年
    英語文摘(2021年8期)2021-11-02 07:17:46
    語言與語義
    “上”與“下”語義的不對稱性及其認知闡釋
    強調(diào)句型的it和引導詞it有什么區(qū)別?
    APP
    認知范疇模糊與語義模糊
    IBM的監(jiān)視
    意林(2014年2期)2014-02-11 11:09:17
    高中英語表示比較和對照關(guān)系的句型
    語義分析與漢俄副名組合
    外語學刊(2011年1期)2011-01-22 03:38:33
    定陶县| 内丘县| 青冈县| 金平| 亚东县| 河间市| 沛县| 定南县| 洞口县| 共和县| 克山县| 齐河县| 朝阳市| 荔波县| 安仁县| 霍山县| 贵定县| 冕宁县| 呼玛县| 洱源县| 元谋县| 东台市| 姚安县| 兴化市| 微山县| 庄河市| 营山县| 光山县| 南郑县| 五寨县| 惠东县| 连城县| 汤阴县| 应用必备| 孙吴县| 丹棱县| 云龙县| 博爱县| 巴彦淖尔市| 高陵县| 盐津县|