• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語義依存關(guān)系匹配的漢語句子相似度計(jì)算

      2014-04-21 05:55:54汪衛(wèi)明梁東鶯
      關(guān)鍵詞:計(jì)算方法詞義關(guān)聯(lián)

      汪衛(wèi)明,梁東鶯

      (深圳信息職業(yè)技術(shù)學(xué)院教學(xué)督導(dǎo)室,廣東 深圳 518172)

      基于語義依存關(guān)系匹配的漢語句子相似度計(jì)算

      汪衛(wèi)明,梁東鶯

      (深圳信息職業(yè)技術(shù)學(xué)院教學(xué)督導(dǎo)室,廣東 深圳 518172)

      在中文信息處理中,句子相似度計(jì)算是一項(xiàng)基礎(chǔ)而核心的研究課題,長(zhǎng)期以來一直是人們研究的一個(gè)熱點(diǎn)和難點(diǎn)。句子相似度計(jì)算在實(shí)際中有著廣泛的應(yīng)用,它的研究狀況直接決定著其他一些相關(guān)領(lǐng)域的研究進(jìn)展,如信息檢索的相似句子匹配、自動(dòng)問答的問題匹配與答案抽取等,句子相似度計(jì)算都是非常重要的環(huán)節(jié)。本文提出了一種基于依存關(guān)系匹配的句子相似度計(jì)算方法,利用詞語內(nèi)在概念和詞語相互依存關(guān)系計(jì)算句子之間的相似度。結(jié)果表明,該算法能顯著提高返回結(jié)果的準(zhǔn)確率。

      依存關(guān)系;關(guān)系匹配;詞義相似度;依存關(guān)系相似度;自然語言處理

      1 句子相似度的計(jì)算方法

      目前,關(guān)于句子相似度的計(jì)算方法種類很多,從總體上看主要有以下幾類:基于詞語共現(xiàn)統(tǒng)計(jì)的方法、基于語義詞典的方法、基于語法結(jié)構(gòu)關(guān)系的方法以及基于詞語排序的計(jì)算方法。國(guó)內(nèi)學(xué)者從不同方面(如向量空間模型、語義距離、語義依存、公共短語等)來計(jì)算句子的相似度,下面分別介紹相關(guān)研究人員采用的不同方法。

      1.1 基于詞語共現(xiàn)的方法

      基于詞語共現(xiàn)統(tǒng)計(jì)的方法是一種最基本的方法,將文檔看成詞語的集合,不需要對(duì)文本內(nèi)容進(jìn)行深層理解,只是通過詞語共同的出現(xiàn)次數(shù)來計(jì)算句子相似度[1,2]。計(jì)算句子的相似度,等價(jià)于計(jì)算句子之間關(guān)鍵詞的相似度,比較兩個(gè)詞之間的相似度。有些研究人員在此基礎(chǔ)上作了改進(jìn),考慮不同詞性的詞語的重要性,設(shè)置了不同的權(quán)重[3]。但歸根結(jié)底,這是一種詞頻統(tǒng)計(jì)的方法,只考慮詞語的統(tǒng)計(jì)特性,沒有考慮詞語的內(nèi)在含義,因此實(shí)際效果較為一般。

      1.2 基于語義詞典的方法

      基于語義詞典的方法主要是借助知網(wǎng)、同義詞詞林[4]等較為成熟的語義詞典資源,根據(jù)其中的語義分類體系,采用一定的方式計(jì)算詞語之間的詞義相似度,再通過詞義相似度計(jì)算句子間的語義相似度[5,6]。這種該種方法充分考慮了句子中每個(gè)詞的內(nèi)在語義信息,對(duì)于計(jì)算句子相似性有一定的提高。但由于詞典的不全面和詞義消歧準(zhǔn)確率的限制,也給計(jì)算帶來了一定的誤差。

      1.3 基于公共短語的句子相似度計(jì)算

      在現(xiàn)有的幾種計(jì)算方法中,句子相似度計(jì)算的粒度一般是詞語。在漢語句子中,詞語是句子表達(dá)的基本粒度,基于詞語匹配的方法是一種自然的選擇。但是,這種基于詞語的計(jì)算方法視句子為詞語的組合,沒有考慮句子內(nèi)部的組合關(guān)系,因此無法準(zhǔn)確的反映句子的內(nèi)在信息組合。基于公共短語的計(jì)算方法是在詞語粒度的基礎(chǔ)上,更看重詞語的組合對(duì)句子相關(guān)性的區(qū)分[7,8],然而這種分析方法受句子中詞語表達(dá)選擇的影響較大,意思相近的句子在詞語選擇上有很小的變化相似度可能會(huì)差別很大,通常只是在專業(yè)性較強(qiáng)的領(lǐng)域內(nèi)比較有效。

      1.4 基于語義依存的句子相似度計(jì)算

      依存句法是由法國(guó)語言學(xué)家L.Tesnier提出,對(duì)計(jì)算語言學(xué)產(chǎn)生了深遠(yuǎn)的影響,通過分析句子內(nèi)部成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)[9]。語義依存句法分析在一定程度上可以準(zhǔn)確的反映出句子中各成分之間的修飾關(guān)系,它可以獲得長(zhǎng)距離的搭配,并跟句子成分的物理位置無關(guān)。斯坦福大學(xué)自然語言研究室的依存句法分析器和國(guó)內(nèi)哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院智能內(nèi)容管理實(shí)驗(yàn)室的依存句法分析器,準(zhǔn)確率都能達(dá)到 85%以上。

      語義依存關(guān)系能夠比較準(zhǔn)確的反映句子成分之間的搭配關(guān)系,李彬、趙妍妍等人利用句子的關(guān)鍵依存關(guān)系進(jìn)行相似度匹配,利用句子的語義依存關(guān)系進(jìn)行句子理解[10],但其中僅僅利用依存關(guān)系中的詞語相同與否計(jì)算依存關(guān)系相似度,無法真實(shí)準(zhǔn)確的反映句子內(nèi)在的語義關(guān)系。

      2 語義依存關(guān)系分析

      通過對(duì)句子進(jìn)行語義依存關(guān)系分析,可以比較準(zhǔn)確的得到各個(gè)成分之間的依存關(guān)系。首先利用依存關(guān)系分析工具處理句子,得到其中的依存關(guān)系結(jié)果,然后在利用語言學(xué)的知識(shí)對(duì)其中的語義依存關(guān)系進(jìn)行擴(kuò)展,從而更加準(zhǔn)確的理解句子。

      2.1 語義依存關(guān)系樹

      本文采用了哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院智能內(nèi)容管理實(shí)驗(yàn)室所做的依存句法分析器。對(duì)于如下句子分析得到各自的依存關(guān)系:

      (1) 張某醉酒后駕駛追尾,造成乘車人當(dāng)場(chǎng)死亡的交通事故。

      圖1 句子(1)語義依存關(guān)系樹Fig.1 Dependency tree of sentence 1

      (2) 江寧區(qū)發(fā)生一起醉酒駕車導(dǎo)致的交通事故,事故造成3人身亡。

      圖2 句子(2)語義依存關(guān)系樹Fig.2 Dependency tree of sentence 2

      通過語義依存關(guān)系分析,可以得到句子中各個(gè)詞語直接的組合關(guān)系,同時(shí),也包含了每個(gè)實(shí)體詞語的語義表示,如駕駛的詞林Hf01,比較準(zhǔn)確的反映了詞語的具體含義,這些都對(duì)句子的準(zhǔn)確理解提高了幫助。

      2.2 依存關(guān)系篩選

      句子語義依存關(guān)系分析可以得到詞語之間的相互關(guān)系,但不少關(guān)系對(duì)于句子的理解作用不大。在哈工大LTP依存句法標(biāo)注體系中,共有主謂關(guān)系(SBV)、動(dòng)賓關(guān)系(VOB)、介賓關(guān)系(POB)、動(dòng)補(bǔ)結(jié)構(gòu)(CMP)等共計(jì)25種依存關(guān)系。

      一個(gè)句子中存在的各種語義關(guān)系其重要性和相互間的關(guān)聯(lián)程度不一,不能統(tǒng)一對(duì)待。在文章[10]中,作者采用的詞性分類的方法,按照依存關(guān)系中兩個(gè)詞語的詞性對(duì)句子中的依存關(guān)系進(jìn)行了簡(jiǎn)單分析,主要選取VN、VV、NN用于句子相似度的計(jì)算。

      但這種方法將語法依存關(guān)系這種語義信息豐富的關(guān)系表達(dá)式退化成詞性搭配的組合,短語之間的語義關(guān)系沒有充分利用。我們提出了一種基于關(guān)系匹配的依存關(guān)系相似度計(jì)算方法,在計(jì)算兩個(gè)依存關(guān)系的相似度時(shí),不僅僅考慮詞語之間的關(guān)聯(lián),還要考慮依存關(guān)系類別的影響,這種計(jì)算方法考慮了構(gòu)成一個(gè)依存關(guān)系的所有三個(gè)元素,因此計(jì)算上更為準(zhǔn)確。

      在漢語句子中,主謂賓在句子語義表達(dá)上起起支配作用,我們首先篩選出主謂關(guān)系(SBV)、動(dòng)賓關(guān)系(VOB)、介賓關(guān)系(POB)等表示句子總體框架的語義關(guān)系。另外,并列關(guān)系(COO)、定中關(guān)系(ATT)、同位關(guān)系(APP)都是非常重要的修飾關(guān)系,也需要納入計(jì)算中來。在基于關(guān)系匹配的依存關(guān)系分析中,共有6種語義關(guān)系用于相似度計(jì)算。

      2.3 依存關(guān)系關(guān)聯(lián)分析

      表面上看,6種語義關(guān)系表達(dá)的含義差別很大,計(jì)算語義關(guān)系相似性時(shí)只需要考慮同種類型的語義關(guān)系,無需考慮彼此之間的聯(lián)系。但由于漢語概念關(guān)系表達(dá)上的多樣性,各種語義關(guān)系在知識(shí)表達(dá)上會(huì)有一定的關(guān)聯(lián)。同時(shí),語義依存關(guān)系分析上的局限性,語義關(guān)系分析可能會(huì)產(chǎn)生一定的錯(cuò)誤。這些情況都決定了必須要考慮關(guān)系之間的關(guān)聯(lián)。

      2.3.1 主謂賓關(guān)系分析

      主謂賓關(guān)系,這里指的是主謂關(guān)系(SBV)、動(dòng)賓關(guān)系(VOB),由于這兩種關(guān)系與定中關(guān)系(ATT)在知識(shí)表達(dá)上存在較大的關(guān)聯(lián),有時(shí)候甚至出現(xiàn)類別錯(cuò)分的情況,需要仔細(xì)研究它們?cè)陉P(guān)系表達(dá)上的關(guān)聯(lián)。

      例如,在句子中出現(xiàn)的,在以下的三個(gè)短句子中,“汽車”和“駕駛”、 “駕駛”和“技術(shù)”之間的依存關(guān)系如下:

      (3) 汽車駕駛技術(shù)的發(fā)展。

      SBV(駕駛,汽車)VOB(駕駛,技術(shù))

      (4) 老李駕駛汽車的技術(shù)很好。

      VOB(駕駛,汽車)ATT(駕駛,技術(shù))

      (5) 老李駕駛的汽車很新。

      ATT(駕駛,汽車)

      從中可以看到,“汽車”和“駕駛”之間存在三種不同的依存關(guān)系,而按照文獻(xiàn)[10]給出的方法視作VN組合同樣對(duì)待,勢(shì)必會(huì)造成匹配上的不準(zhǔn)確。

      仔細(xì)看看這三個(gè)依存關(guān)系,句子(3)給出的“SBV(駕駛,汽車)”依存關(guān)系并不準(zhǔn)確,實(shí)際上這里正確的依存關(guān)系應(yīng)該是“VOB(駕駛,汽車)”。這是漢語語義分析中現(xiàn)有方法不可避免出現(xiàn)的錯(cuò)誤,也就是說動(dòng)賓關(guān)系可能被錯(cuò)誤的理解成主謂關(guān)系。實(shí)際上,還會(huì)存在另外一種錯(cuò)誤,將定中關(guān)系(ATT)分析成動(dòng)賓關(guān)系(VOB),例如,句子(3)中,“駕駛”和“技術(shù)”之間的關(guān)系應(yīng)該是定中關(guān)系而不是動(dòng)賓關(guān)系。如此說來,由于漢語詞語表達(dá)的特殊性,SBV、VOB、ATT三種關(guān)系都可能出現(xiàn)錯(cuò)誤分析的情況,簡(jiǎn)單的用詞性分類(VN組合)的方法更加準(zhǔn)確。其實(shí)不然,因?yàn)榉治龀鰜淼腟BV關(guān)系可能應(yīng)該是VOB關(guān)系,但不可能是ATT關(guān)系;同時(shí),分析出來的VOB關(guān)系也不可能是SBV關(guān)系。

      事實(shí)上,除了以上列出的SBV、VOB、ATT關(guān)系分析錯(cuò)誤,還會(huì)出現(xiàn)詞語詞性分析錯(cuò)誤的情況,進(jìn)而導(dǎo)致關(guān)系類別的錯(cuò)誤。

      2.3.2 修飾關(guān)系分析

      修飾關(guān)系有并列關(guān)系(COO)、定中關(guān)系(ATT) 、同位關(guān)系(APP)、介賓關(guān)系(POB)四種。由于介賓關(guān)系由介詞和另一個(gè)短語關(guān)聯(lián)而成,與其它三種關(guān)系差別較大。在考慮彼此間的關(guān)聯(lián)時(shí),只考慮并列關(guān)系(COO)、定中關(guān)系(ATT) 、同位關(guān)系(APP)。其中,同位關(guān)系和并列關(guān)系都表示一種平行關(guān)系,在語義表達(dá)上非常相近,在關(guān)系計(jì)算時(shí)視為同一種關(guān)系,如將同位關(guān)系歸入并列關(guān)系。定中關(guān)系與它們之間的關(guān)聯(lián)需要統(tǒng)計(jì)處理。

      表1 依存關(guān)系關(guān)聯(lián)矩陣Tab.1 Dependency relation matrix

      2.3.3 關(guān)系關(guān)聯(lián)矩陣

      在分析依存關(guān)系之間的關(guān)聯(lián)后,可以知道,依存關(guān)系之間存在著復(fù)雜的語義關(guān)聯(lián)。為了準(zhǔn)確的分析關(guān)系之間的關(guān)聯(lián),我們進(jìn)行了半自動(dòng)化的依存關(guān)系評(píng)測(cè)。我們從一組新聞中隨機(jī)篩選了20000個(gè)句子,首先自動(dòng)篩選出某種短語組合的所有語義關(guān)系,統(tǒng)計(jì)語義關(guān)系分析中的錯(cuò)誤,進(jìn)而人工評(píng)測(cè)依存關(guān)系之間的關(guān)聯(lián)程度,建立語義依存關(guān)聯(lián)表,如表1所示。

      3 基于關(guān)系匹配的句子相似度計(jì)算

      與英語句子相比,一個(gè)漢語句子往往由多個(gè)子句組成,通常所包含的信息量更大,這給句子相似度計(jì)算帶來了麻煩。文獻(xiàn)[3]提出了一種關(guān)鍵詞加權(quán)的改進(jìn)方法,根據(jù)詞語的詞性賦予不同的權(quán)重,但詞性不能夠準(zhǔn)確反映詞語在句子中的重要性。我們提出一種基于關(guān)系匹配分析的句子相似度計(jì)算方法,句子相似度的計(jì)算在傳統(tǒng)概念相似度計(jì)算的基礎(chǔ)上,充分考慮兩個(gè)句子的內(nèi)在的依存關(guān)系關(guān)聯(lián),即詞義相似度和依存關(guān)系相似度計(jì)算相結(jié)合。

      3.1 詞義相似度

      詞語語義相似度的研究相對(duì)較為成熟,并且已經(jīng)應(yīng)用于自動(dòng)問答、機(jī)器翻譯、文本聚類和詞義排歧等領(lǐng)域[11-13]。詞語相似度計(jì)算不是本文研究的重點(diǎn),本文利用《哈工大同義詞詞林?jǐn)U展版》,根據(jù)其中詞語之間的語義距離,計(jì)算相互之間的相似度。如表2所示,表中編碼位是按照從左到右的順序排列。

      表2 哈工大同義詞詞林?jǐn)U展版編碼規(guī)則表Tab.2 HIR tongyici cilin code rules

      中科院劉群的基于<知網(wǎng)>的詞語相似度計(jì)算是當(dāng)前比較有代表性的計(jì)算詞語相似度的方法之一[18],通過詞語節(jié)點(diǎn)之間的距離計(jì)算它們之間的相似度,其公式為:

      由于不同詞性的詞語之間關(guān)系不大,因此在詞義相似度計(jì)算時(shí),我們只計(jì)算同種詞性詞語之間的相似度。對(duì)于給定的一種詞性(以動(dòng)詞為例),假設(shè)、、…、是句子中所有的動(dòng)詞,、、…、是句子中所有的動(dòng)詞,則句子和的動(dòng)詞相似度可以計(jì)算為:

      3.2 依存關(guān)系相似度

      考慮到,詞語相似度計(jì)算的是一對(duì)詞語之間的相似度,而語義相似度為兩對(duì)詞語之間的相似度,其數(shù)值相對(duì)詞語相似度較小,無法準(zhǔn)確體現(xiàn)語義關(guān)系的重要性。為此,我們?cè)谏鲜龉剑?)的基礎(chǔ)上進(jìn)行了改進(jìn):

      由于兩個(gè)句子包含的依存關(guān)系很多,兩兩計(jì)算所有關(guān)系之間的相似度,計(jì)算量很大;而現(xiàn)實(shí)中,即使兩個(gè)非常相似的句子,有關(guān)聯(lián)的依存關(guān)系也非常有限。為了減少?zèng)]有必要的計(jì)算,我們規(guī)定只有兩個(gè)句子中的詞語對(duì)之間相似度超過一定的閾值,才計(jì)算相關(guān)聯(lián)的關(guān)系相似度。簡(jiǎn)單起見,我們限定和、和同義詞詞林編碼同屬一個(gè)中類,即編碼前兩位相同時(shí),才需要計(jì)算關(guān)系相似度。

      在一個(gè)句子中,共有5種語義關(guān)系(主謂關(guān)系、動(dòng)賓關(guān)系、定中關(guān)系、并列關(guān)系和介賓關(guān)系,其中同位關(guān)系與并列關(guān)系合并),設(shè)定各種的權(quán)重分別為、、、和。從句子依存關(guān)系的分別來看,動(dòng)賓關(guān)系、定中關(guān)系對(duì)于句子的語義表達(dá)起主要作用,而介賓關(guān)系是一種輔助關(guān)系,權(quán)重最低。根據(jù)這些分析,我們?cè)O(shè)定、、、和,如果某一項(xiàng)不存在則權(quán)重為0,。兩個(gè)句子的語義依存關(guān)系相似度可以計(jì)算為:

      3.3 句子整體相似度

      按上述方法對(duì)句子進(jìn)行關(guān)鍵詞抽取并對(duì)不同詞性的詞賦予不同的權(quán)重后,可以從詞義和語義關(guān)系2個(gè)方面計(jì)算句子的相似度。

      4 實(shí)驗(yàn)結(jié)果與分析

      由于漢語中沒有句子相似度檢索用的標(biāo)準(zhǔn)測(cè)試集,所以我們自行構(gòu)造實(shí)驗(yàn)所需的句子集合。本文實(shí)驗(yàn)所用的測(cè)試集共有30000個(gè)句子,其中,人工選擇了網(wǎng)絡(luò)上財(cái)經(jīng)、娛樂、體育、科技、文化、旅游等20個(gè)子類共計(jì)25000個(gè)句子,另外有5000個(gè)句子為從新聞中隨機(jī)選擇的句子得到作為噪音集。

      為驗(yàn)證語義依存匹配方法的有效性,與VSM模型進(jìn)行了比較。從20個(gè)子類隨機(jī)選出10個(gè)子類用于比較,每個(gè)子類隨機(jī)選擇10個(gè)句子用于實(shí)驗(yàn)評(píng)測(cè)。評(píng)價(jià)由5個(gè)大學(xué)生采用評(píng)價(jià)機(jī)制完成,對(duì)前15個(gè)答案句子進(jìn)行評(píng)測(cè),按相關(guān)性分為三類:A準(zhǔn)確,B相關(guān),C不相干。評(píng)價(jià)指標(biāo)有評(píng)價(jià)準(zhǔn)確了(MAP),召回率(Recall)和F1值。

      從上述實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文采用的方法同類標(biāo)準(zhǔn)集句子返回比例和返回句子的得分要遠(yuǎn)遠(yuǎn)高于TF+IDF方法,綜合利用依存結(jié)構(gòu)能夠提高實(shí)驗(yàn)結(jié)果的正確率。

      另外,我們對(duì)語義依存匹配方法在各類句子的表現(xiàn)進(jìn)行了分析,發(fā)現(xiàn)該方法對(duì)旅游類、體育類的句子檢索結(jié)果提升最為明顯,其中旅游類句子查詢準(zhǔn)確率有24.8%的提升。分析其中的原因,因?yàn)檫@類句子包含的介賓關(guān)系較多,在VSM的方法中沒法利用,而在語義依存匹配的方法中介賓關(guān)系則是一個(gè)有用的匹配元素。

      表3 實(shí)驗(yàn)結(jié)果Tab.3 Experiment result

      5 結(jié)束語

      本文采用了一種基于詞義匹配和依存關(guān)系分析的漢語句子相似度計(jì)算方法,該方法把句子詞義信息同依存文法分析結(jié)合起來,更加準(zhǔn)確地反映了句子的內(nèi)在含義。在計(jì)算依存樹之間的相似度時(shí),本方法按照語義依存關(guān)系分類匹配,這樣使計(jì)算的時(shí)間復(fù)雜度大大降低,最后我們進(jìn)行了該方法與VSM方法之間的對(duì)比試驗(yàn),實(shí)驗(yàn)結(jié)果證明該方法要優(yōu)于VSM方法。

      (References)

      [1]呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(bào):自然科學(xué)版,2003.vol.24,no.6,531-534.LV Xueqiang,REN Feiliang,HUANG Zhidan,et al.Sentence similarity model and the most similar sentence search algorithm[J].Journal of Northeastern Univ (natural science),2003,24 (6):531-534.(in Chinese)

      [2]楊曉明,羅振聲.模式匹配在中文問答系統(tǒng)中的應(yīng)用研究[J].科學(xué)技術(shù)與工程,2006,6 (3):319-322.YANG Xiaoming,LUO Zhensheng,Application of pattern matching in Chinese question answering[J].Science Technology and Engineering.2006,6 (3):319-322.(in Chinese)

      [3]裴婧,包宏.漢語句子相似度計(jì)算在FAQ中的應(yīng)用[J].計(jì)算機(jī)工程,2009,35 (17):27-29.PEI jing,BAO Hong.Application of Chinese sentence similarity computation in FAQ[J].Computer Engineering,2009,35 (17):27-29.(in Chinese)

      [4]梅家駒,竺一鳴,高蘊(yùn)琦,等.同義詞詞林[M].上海:上海辭書出版社,1983.MEI Jiaju,ZHU Yiming,Gao Yunqi,et al.Synonyms[M].Shanghai:Shanghai Lexicographical Publishing House,1983.(in Chinese)

      [5]張玉娟.基于知網(wǎng)的句子相似度計(jì)算的研究[D],北京:中國(guó)地質(zhì)大學(xué),2006.ZHANG Yujuan.Researches of Sentences Similarity Computation Method Based on Hownet[D].Beijing:China Univ of Geosciences,2006.(in Chinese)

      [6]劉青磊,顧小豐.基于《知網(wǎng)》的詞語相似度算法研究[J].中文信息學(xué)報(bào),2010,24 (6):31-36.LIU Qinglei,GU Xiaofeng.Study on Hownet-based word similarity algorithm[J].Journal of Chinese Information Processing,2010,24 (6):31-36.(in Chinese)

      [7]蘇振魁,田園.基于公共子串的文本相似度計(jì)算模型[J],中文科技論文在線,2007.(1):54-57.SU Zhenkui,TIAN Yuan.Text similarity computing model based on common substrings[J].Sciencepaper Online.2007.(1):54-57.(in Chinese)

      [8]馮凱,王小華,諶志群.基于動(dòng)態(tài)規(guī)劃的漢語句子相似度算法[J],計(jì)算機(jī)工程 vol.39,no.2,2013 FENG Kai,WANG Xiaohua,ZHAN Zhiqun.Chinese sentence similarity algorithm based on dynamic programming[J].Computer Engineering,2013,39 (2).(in Chinese)

      [9]劉海濤.依存語法和機(jī)器翻譯[J].語言文字應(yīng)用,1997.vol.3,pp.89-93.LIU Haitao.Denpendency grammar and machine translation[J].Language Application,1997,(3):89-93.(in Chinese)

      [10]李彬,劉挺,秦兵,李生.基于語義依存的漢語句子相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用研究,2003,12:35-36.LI Bing,LIU Ting,QIN Bing,LI Sheng .Chinese sentence similarity computing based on semantic dependency parsing[J].Application Research of Computers,2003,12:35-36.(in Chinese)

      [11]田久樂,趙蔚.基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2010,(6):602-608.TIAN Jiule,ZHAO Wei.Words similarity algorithm based on tongyici cilin in semantic web adaptive learning system[J].J Jilin Univ (information science ed.),2010,(6):602-608.(in Chinese)

      [12]朱禮軍,陶蘭,劉慧.領(lǐng)域本體中的概念相似度計(jì)算[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2004.32(11):148-149.ZHU Lijun,TAO,Lan,LIU Hui.Calculation of concept similarity in domain ontology[J].Journal of South China Univ of Technology,2004,32(11):148-149.(in Chinese)

      Chinese sentence similarity computing based on semantic dependency matching

      WANG Weiming,LIANG Dongying
      (Teaching-supervision Office,Shenzhen Institute of Information Technology,Shenzhen 518172,P.R.China.)

      Sentence similarity computation is the base and core research topics of Chinese literature information processing.It has a wide range of applications,restricting the development of certain domain,such as sentence matching in information retrieval,answer extraction in question answering.This paper introduces a method of sentence similarity computation based on lexical similarity and sentence dependency matching.Experiments prove that this algorithm improves accuracy of system.

      dependency;dependency matching;lexical similarity;dependency similarity;natural language processing

      TP391.2

      :A

      1672-6332(2014)01-0056-06

      【責(zé)任編輯:高潮】

      2014-3-15

      廣東省自然科學(xué)基金(S2011010006118),深圳市科技項(xiàng)目(JCYJ20130401095947222)。

      汪衛(wèi)明(1982-),男(漢),安徽懷寧人,講師,博士,主要研究方向:自然語言處理、信息檢索、自動(dòng)問答;E-mail:wangwiming@gmail.com

      猜你喜歡
      計(jì)算方法詞義關(guān)聯(lián)
      浮力計(jì)算方法匯集
      西夏語“頭項(xiàng)”詞義考
      西夏研究(2020年1期)2020-04-01 11:54:26
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      詞義辨別小妙招——看圖辨詞
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      隨機(jī)振動(dòng)試驗(yàn)包絡(luò)計(jì)算方法
      不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
      字意與詞義
      語言與翻譯(2014年3期)2014-07-12 10:31:59
      一種伺服機(jī)構(gòu)剛度計(jì)算方法
      大冶市| 萝北县| 成安县| 普安县| 高唐县| 女性| 平谷区| 丰县| 高邮市| 桐城市| 怀集县| 天津市| 昔阳县| 海丰县| 基隆市| 清河县| 赤城县| 邮箱| 兴海县| 南郑县| 嘉黎县| 东兴市| 易门县| 乐山市| 浏阳市| 湘阴县| 海丰县| 塔城市| 察隅县| 钟祥市| 建始县| 邵阳市| 栾川县| 将乐县| 赣榆县| 宜君县| 永康市| 巴青县| 清涧县| 杂多县| 哈尔滨市|