• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合依存關(guān)系與同義詞詞林的相似度計(jì)算

      2020-01-10 06:49:48付鵬斌陳帥帥楊惠榮李建君
      關(guān)鍵詞:計(jì)算方法語義編碼

      付鵬斌,陳帥帥,楊惠榮,李建君

      (北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

      0 引 言

      語義相似度是給定一組文本,評(píng)價(jià)這一組文本之間內(nèi)容表達(dá)相似程度的量度[1]。語義相似度出自計(jì)算語言學(xué)領(lǐng)域,目前廣泛應(yīng)用于自然語言處理中的Web信息可信分析、搜索引擎、Web服務(wù)發(fā)現(xiàn)、文本聚類研究和標(biāo)識(shí)釋義等領(lǐng)域[2]。

      在語義相似度的研究方法中,主要分為基于詞向量的語義距離相似度計(jì)算方法和基于語法結(jié)構(gòu)的語義相似度計(jì)算方法。其中,基于詞向量的語義距離相似度計(jì)算,是將文本中的詞頻轉(zhuǎn)化為詞向量的形式,然后在詞向量的基礎(chǔ)上計(jì)算空間距離的長(zhǎng)度,以此來表示文本的語義距離相似度。目前,主流的詞向量轉(zhuǎn)化方法是TF-IDF(term frequency-inverse document frequency)方法,TF-IDF方法是計(jì)算出文本中詞的詞頻集合[3]。而使用TF-IDF方法將中文文本轉(zhuǎn)化成詞向量,比較不同詞向量在線性空間中的相似度有余弦距離、歐氏距離、概率分布距離(K-L距離)等方法。文獻(xiàn)[4]使用向量空間模型計(jì)算文本的語義相似度,使用TF-IDF算法將文本轉(zhuǎn)化為詞向量,然后將這些詞向量映射到文本向量空間,這樣就將一組文本之間的匹配問題轉(zhuǎn)化為求向量空間的距離問題。但是,基于向量空間模型的語義相似度只是單純地計(jì)算詞向量之間的空間距離,沒有考慮句子中詞語的詞序和句子的結(jié)構(gòu)信息對(duì)句子語義的影響。文獻(xiàn)[5]使用基于詞性信息的改進(jìn)TF-IDF算法去計(jì)算每個(gè)詞向量之間的權(quán)重系數(shù),然后將這些權(quán)重系數(shù)應(yīng)用到向量空間和馬爾可夫模型中,分別計(jì)算它們的語義相似度,最終獲得整體的語義相似度。但是,文獻(xiàn)[5]沒有精確地反映出每個(gè)詞向量之間的語義關(guān)聯(lián),如果在詞向量中同時(shí)考慮到語義結(jié)構(gòu),那么該方法在文本語義相似度中有更好的表現(xiàn)。

      在基于語法結(jié)構(gòu)的語義相似度計(jì)算方法中,應(yīng)用最廣泛的語法結(jié)構(gòu)是依存句法結(jié)構(gòu)。依存句法是法國(guó)語言學(xué)家L. Tesnier[6]提出的,這種句法結(jié)構(gòu)將句子的內(nèi)部成分之間的依賴關(guān)系更加清楚地呈現(xiàn)到開發(fā)者的面前。語義依存關(guān)系能準(zhǔn)確反映句子成分之間的搭配關(guān)系,李彬[7]利用句子的關(guān)鍵依存關(guān)系來匹配相似度,但是只使用依存關(guān)系中的詞來計(jì)算依賴關(guān)系的相似性,不能準(zhǔn)確地反映句子的內(nèi)部語義關(guān)系。文獻(xiàn)[8]對(duì)中文依存句法樹進(jìn)行研究和分析,提出一種細(xì)粒度依存關(guān)系的相似度計(jì)算方法,該方法基于依存句法樹中的各節(jié)點(diǎn)的詞語、詞性以及它們之間的依賴關(guān)系及其重要性權(quán)重等多個(gè)特征值,給出了兩個(gè)依存句法結(jié)構(gòu)的相似度計(jì)算方法。但是,文獻(xiàn)[8]計(jì)算復(fù)雜度特別大, 當(dāng)文本的句長(zhǎng)特別大時(shí),消耗的時(shí)間較多,影響文本的語義相似度計(jì)算的效率。

      而目前針對(duì)基于依存關(guān)系的語義相似度計(jì)算方法中,只考慮文本中詞語的詞序信息和句子的結(jié)構(gòu)信息,而忽略文本中單個(gè)詞語之間的詞義信息。因此,文中在基于依存關(guān)系的語義相似度計(jì)算方法的基礎(chǔ)上,增加了基于同義詞詞林的詞語語義相似度計(jì)算方法,較好地解決上述問題,彌補(bǔ)以上不足。

      1 相關(guān)技術(shù)

      1.1 依存關(guān)系圖

      定義1:依存關(guān)系圖Rs=(Vs,Es),Vs為圖中所有頂點(diǎn)的集合,Es為圖中所有相鄰邊的集合。且滿足條件:?e∈Es,?u,v∈Vs(u≠v),使得e=(u,v)。

      依存關(guān)系圖是根據(jù)標(biāo)注關(guān)系連接分詞的,圖中的每個(gè)頂點(diǎn)表示的是一個(gè)分詞,子節(jié)點(diǎn)表示文本的依存詞,父節(jié)點(diǎn)表示文本的中心詞,子節(jié)點(diǎn)是依賴于父節(jié)點(diǎn),它們直接使用連接弧來反映它們之間的依存關(guān)系。其中依存關(guān)系的標(biāo)志類型有15種[9],如表1所示。

      表1 依存句法分析標(biāo)注關(guān)系

      1.2 同義詞詞林

      《同義詞詞林》[10]是以樹狀的形式將所有的詞語編織在一起,將所有的詞語可以分為大類、中類和小類這三類形式。為了更能細(xì)化各個(gè)詞語之間的語義關(guān)系,《同義詞詞林》將小類又細(xì)分為詞群和原子詞群。詞群是將小類中的詞語根據(jù)詞語之間的詞義相關(guān)性和詞義相似性進(jìn)行劃分,而原子詞群又在詞群的基礎(chǔ)上進(jìn)行劃分,每個(gè)原子詞群之間的詞語相關(guān)性特別的接近而且詞義相似性幾乎相同。根據(jù)上述分析,可以將《同義詞詞林》分為5層樹狀結(jié)構(gòu),它們以編碼的形式進(jìn)行體現(xiàn)。第一層的編碼形式使用英文大寫字母表示;第二層的編碼形式使用英文小寫字母表示;第三層的編碼形式使用兩位阿拉伯?dāng)?shù)字表示;第四層使用英文大寫字母表示;第五層使用兩位阿拉伯?dāng)?shù)字表示。同時(shí)為了體現(xiàn)第五層的詞義相關(guān)性和詞義相似性,單獨(dú)增加一位編碼進(jìn)行標(biāo)記,標(biāo)記有3種,分別是“=”、“#”、“@”,其中“=”代表“相等”、“同義”;“#”代表“不等”、“同類”,屬于相關(guān)詞語;“@”代表“自我封閉”、“獨(dú)立”,它在詞典中既沒有同義詞,也沒有相關(guān)詞。具體的編碼描述如下:

      <詞義編碼>=<大類><中類><小類><詞群><原子詞群><標(biāo)記>

      例如:編碼“Ba01A02=”的詞語類別為“物質(zhì) 質(zhì) 素”,它的編碼描述見圖1。

      編碼位12345678符合Ba01A02=符號(hào)類別大類中類小類詞群原子詞群標(biāo)記層數(shù)第一層第二層第三層第四層第五層

      圖1 測(cè)試用例的編碼描述

      2 依存關(guān)系與同義詞詞林相結(jié)合的語義相似度計(jì)算方法

      文獻(xiàn)[11]提出一種基于句法依存分析的路徑相似度計(jì)算方法,該方法首先對(duì)文本進(jìn)行句法依存分析,獲得依存樹,然后在依存樹中提取關(guān)系路徑,最后進(jìn)行路徑間相似度的計(jì)算。

      文獻(xiàn)[12]提出并實(shí)現(xiàn)了一種基于同義詞詞林的詞語相似度計(jì)算方法,該方法從詞語的語義出發(fā),根據(jù)詞語的義項(xiàng)在同義詞詞林的位置和編碼,計(jì)算出詞語的相似度。

      文獻(xiàn)[11]只考慮文本中詞語的詞序信息和句子的結(jié)構(gòu)信息,而忽略文本中單個(gè)詞語之間的詞義信息。而文獻(xiàn)[12]只是從詞語的語義出發(fā),沒有考慮文本的句子結(jié)構(gòu)。因此文中提出了使用依存關(guān)系與同義詞詞林相結(jié)合的語義相似度計(jì)算方法,建立了一種結(jié)合依存關(guān)系與同義詞詞林的語義相似度模型,如圖2所示。該模型以哈工大自然語言處理平臺(tái)為基礎(chǔ),將文本A和文本B進(jìn)行中文分詞、詞性標(biāo)注、語法分析和語義分析等包裝,最終獲得依存關(guān)系圖;在依存關(guān)系圖的基礎(chǔ)上提取關(guān)系路徑;使用基于《同義詞詞林》的詞匯語義相似度和基于搭配對(duì)的關(guān)系路徑計(jì)算文本之間的語義相似度。

      圖2 依存關(guān)系與同義詞詞林相結(jié)合的語義相似度模型

      2.1 依存關(guān)系圖中的關(guān)系路徑提取

      定義2:關(guān)系路徑p可以表示為從依存關(guān)系圖的節(jié)點(diǎn)v0開始,到節(jié)點(diǎn)vn結(jié)束中間所經(jīng)過的一系列邊es?Es和頂點(diǎn)vs?Vs所構(gòu)成的集合。且滿足以下兩個(gè)條件:

      連接性:?i:(vi-1,vi)∈Es∨(vi,vi-1)∈Es;

      無環(huán)性:?i?j:i≠j→vi≠vj。

      傳統(tǒng)的計(jì)算文本之間語義相似度的方法是通過對(duì)詞語之間的語義相似度進(jìn)行加權(quán)求和,而文中在計(jì)算語義相似度時(shí)加入了依存句法結(jié)構(gòu),所以可以將計(jì)算文本之間的語義相似度轉(zhuǎn)化為求關(guān)系路徑間詞語的加權(quán)之和。關(guān)系路徑即通過遍歷依存關(guān)系圖,獲得圖中任意兩個(gè)頂點(diǎn)之間的通路,并根據(jù)通路得到兩個(gè)頂點(diǎn)之間的依存關(guān)系,它可以表示文本中詞語之間直接或間接的關(guān)系。每一個(gè)依存關(guān)系表示一個(gè)直接的語義關(guān)系,而一條關(guān)系路徑表示兩個(gè)詞語之間非直接的語義關(guān)系。因?yàn)殛P(guān)系路徑是整個(gè)句子的一部分,所以可以通過不同文本間對(duì)應(yīng)的關(guān)系路徑的相似度來計(jì)算出文本間的相似度[13]。

      通過下面的算法流程在依存關(guān)系圖中提取關(guān)系路徑[14]。

      (1)算法輸入:依存關(guān)系圖Rs=(Vs,Es),Vs為圖中所有頂點(diǎn)的集合,Es為圖中所有相鄰邊的集合。且滿足條件:?e∈Es,?u,v∈Vs(u≠v),使得e=(u,v);

      (2)初始化頂點(diǎn)集合S為空集,初始化關(guān)系路徑集合C為空集;

      (3)?x∈Vs,將x添加到S中;

      (4)若(?u∈S)∧(?v∈Vs-S)滿足(u,v)∈Es∨(v,u)∈Es,則將v添加到集合S中;

      (5)尋找S中所有節(jié)點(diǎn)之間存在的路徑P=,vi,vj,vn∈S。令P'=,vn,vj,vi∈S。若(P?C)∧(P'?C),則將P添加到關(guān)系路徑集合C中;

      (6)若S≠Vs,轉(zhuǎn)到3。否則,算法結(jié)束,返回關(guān)系路徑集合C。

      2.2 基于同義詞詞林的詞語語義相似度計(jì)算

      根據(jù)《同義詞詞林》的分析可得,若是兩個(gè)詞語的編碼形式在第一層上有所區(qū)別,則說明兩個(gè)詞語不在同一個(gè)大類中,它們之間的詞義幾乎沒有相關(guān)性,如果在第一層的編碼相同,說明它們之間的詞義具有相似性,具體的相似性大小可以根據(jù)下方的算法流程進(jìn)行計(jì)算。文中采用的算法定義是:在樹形結(jié)構(gòu)中,兩個(gè)詞語的語義相似性與它們所處的層級(jí)成反比,對(duì)于標(biāo)記位進(jìn)行特殊處理[15]。具體的詞語語義相似度計(jì)算方法如下方的算法流程所示:

      (1)算法輸入:兩個(gè)詞語S1和S2;

      (2)查詢同義詞詞林,分別獲得詞語S1和S2的編碼形式code1和code2;

      (3)遍歷code1和code2,如果code1和code2的編碼形式都相同,則SenseSim(S1,S2)=1,同時(shí)返回到第5步,反之,到第3步;

      (4)如果code1和code2的編碼形式除標(biāo)記位相同,若標(biāo)記位等于“=”符號(hào)或“@”符號(hào),則SenseSim(S1,S2)=1,否則,SenseSim(S1,S2)=0.5,同時(shí)返回到第5步,反之,到第4步;

      (5)如果code1和code2的編碼形式的前i-1位編碼都相同,而第i位編碼不同,確定i在同義詞詞林樹狀結(jié)構(gòu)中的層數(shù)j(其中層數(shù)j的獲得在1.2小節(jié)中有介紹),則SenseSim(S1,S2)=1/(12-(2*j));

      (6)返回詞語語義相似度SenseSim(S1,S2)。

      2.3 關(guān)系路徑間語義相似度計(jì)算

      通常情況下,計(jì)算文本的語義相似度是通過計(jì)算詞語之間的語義相似度的加權(quán)求和。類似地,計(jì)算路徑間語義相似度,可以將2.1小節(jié)中提取的關(guān)系路徑轉(zhuǎn)化為計(jì)算詞語語義相似度計(jì)算的方法,但是這種計(jì)算方法不能完全體現(xiàn)詞語之間的無歧義性的依存關(guān)系,以及詞語之間的直接或間接依存關(guān)系[16]。因此,可以使用式1表示關(guān)系路徑pi:

      pi=<,…,,…,

      >,i=1,2,…,n

      (1)

      其中,wi為關(guān)系路徑pi上的一個(gè)頂點(diǎn);ri為指向頂點(diǎn)wi的有向邊的依存關(guān)系。

      則兩條關(guān)系路徑Pi和Pj的語義相似度可以用式2計(jì)算得到。

      S(Pi,Pj)=

      (2)

      表2 依存關(guān)系的權(quán)重

      2.4 結(jié)合依存關(guān)系與同義詞詞林的語義相似度計(jì)算

      設(shè)文本A的關(guān)系路徑集合中最大的一條關(guān)系路徑的長(zhǎng)度為max_path_count_A,文本B的關(guān)系路徑集合中最大的一條關(guān)系路徑的長(zhǎng)度為max_path_count_B,設(shè)length(p)為關(guān)系路徑p(p∈ΠA∪p∈ΠB)的長(zhǎng)度,且0

      其中關(guān)系路徑集合T1和T2滿足下面的規(guī)則:

      關(guān)系路徑集合T1和T2中的關(guān)系路徑一一對(duì)應(yīng),構(gòu)建x*y維的相似度矩陣MAB(i),具體的計(jì)算方法[18]如下:

      (3)

      (2)使用式4計(jì)算關(guān)系路徑集合T1和T2的語義相似度Xwss(i),Xwss(i)具體表示關(guān)系路徑長(zhǎng)度i在關(guān)系路徑集合T1、T2上的語義相似度,具體計(jì)算過程如下:

      (4)

      (3)Xwss(AB)表示文本A和文本B之間的加權(quán)語義相似度,具體的計(jì)算過程如下:

      (5)

      (4)計(jì)算所得的Xwss(AB),就是文中所求的文本語義相似度。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      采用陜西省某重點(diǎn)中學(xué)2019屆高二年級(jí)共1 038名學(xué)生的第二學(xué)期歷史期末考試試題作為實(shí)驗(yàn)數(shù)據(jù)集,一共采集了2 076條文本數(shù)據(jù),每條文本數(shù)據(jù)包括學(xué)生答案、教師給分、該試題總分,及該題的標(biāo)準(zhǔn)答案。從實(shí)驗(yàn)數(shù)據(jù)集中選取典型的236條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),使用文中基于改進(jìn)的依存關(guān)系的文本相似度算法,以及胡寶順[11]和田久樂[12]提出的相似度方法分別在實(shí)驗(yàn)數(shù)據(jù)上計(jì)算相似度,最后比較它們?cè)谠u(píng)價(jià)指標(biāo)上的效果。

      3.2 實(shí)驗(yàn)結(jié)果與分析

      文中引入了偏差率和平均偏差率分析它們之間的顯著效果。偏差率是表示各種方法計(jì)算的相似度和標(biāo)準(zhǔn)相似度(文中使用專家標(biāo)記的相似度)之間的偏差,局部反映了文本之間語義相似度的穩(wěn)定程度和正確性。而平均偏差率是從整體上去反映文本之間語義相似度的穩(wěn)定程度和正確性。偏差率和平均偏差率的具體計(jì)算過程分別如式6和式7所示:

      (6)

      平均偏差率=

      (7)

      其中,由于計(jì)算的相似度范圍在[0,1] 之間,所以相似度的總量度恒等于1。

      對(duì)文中的相似度方法和胡寶順的相似度計(jì)算方法繪制折線圖,具體如圖3所示。

      圖3 方法對(duì)比(1)

      對(duì)文中的相似度方法和田久樂的相似度計(jì)算方法繪制折線圖,具體如圖4所示。

      圖4 方法對(duì)比(2)

      通過分析圖3和圖4可得:在圖3中,基于依存關(guān)系與同義詞詞林相結(jié)合的語義相似度計(jì)算方法相比胡寶順的相似度方法在偏差率上有了小幅度的降低;在圖4中,文中方法相比田久樂的相似度方法在偏差率上有了大幅度的降低,同時(shí)文中方法相比田久樂的相似度方法在折線圖上的上下幅度波動(dòng)明顯較小,說明文中方法的穩(wěn)定性相有了明顯的提高。通過分析可得,文中的相似度方法和胡寶順的相似度方法都使用了依存關(guān)系計(jì)算文本的相似度,在計(jì)算相似度的過程中增加了語序結(jié)構(gòu),計(jì)算所得的文本相似度更能反映出語義層面的含義,所以兩種相似度方法在偏差率和穩(wěn)定性上的差別不是很大。但是文中方法在胡寶順的方法的基礎(chǔ)上增加了基于同義詞詞林的詞語語義相似度,在計(jì)算文本的相似度過程中不僅考慮了語義結(jié)構(gòu),而且還考慮了詞形之間的詞義信息,所以相比較胡寶順的方法在相似度的偏差率上有了小幅度的降低。但是田久樂的相似度計(jì)算方法是基于同義詞詞林計(jì)算文本的相似度,只考慮了詞形的詞義信息,忽略了語義結(jié)構(gòu)對(duì)文本相似度的影響,所以田久樂的相似度計(jì)算方法不僅在偏差率上還是在穩(wěn)定性上都不如文中的相似度計(jì)算方法。

      使用式7分別計(jì)算文中相似度方法、胡寶順的相似度方法和田久樂的相似度方法的平均偏差率,文中相似度方法的平均偏差率為13.83%,略低于胡寶順相似度方法的平均偏差率14.36%,明顯低于田久樂相似度方法的平均偏差率32.92%。因此,提出的結(jié)合依存關(guān)系與同義詞詞林的語義相似度計(jì)算方法,不但可以縮小與標(biāo)準(zhǔn)相似度之間的偏差率,同時(shí)可以提高該方法的穩(wěn)定性。

      4 結(jié)束語

      筆者針對(duì)語義相似度計(jì)算方法的研究,設(shè)計(jì)了一種基于依存關(guān)系與同義詞詞林相結(jié)合的語義相似度計(jì)算方法,并在某高中歷史科目中進(jìn)行實(shí)驗(yàn)驗(yàn)證。通過實(shí)驗(yàn)分析可得,該方法的準(zhǔn)確率相比較基于同義詞詞林的語義相似度和基于依存關(guān)系的語義相似度有了一定的提高。但是,筆者發(fā)現(xiàn)該方法雖然對(duì)于所有學(xué)科都能使用,但是由于各學(xué)科中的差異性,所以造成計(jì)算的精確性不是很高。在今后的研究中,可以根據(jù)不同的學(xué)科選擇不同的相似度方法進(jìn)行相似度計(jì)算,這樣可以大大地提高相似度的精度。

      猜你喜歡
      計(jì)算方法語義編碼
      浮力計(jì)算方法匯集
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      《全元詩》未編碼疑難字考辨十五則
      語言與語義
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      Genome and healthcare
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      隨機(jī)振動(dòng)試驗(yàn)包絡(luò)計(jì)算方法
      不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
      認(rèn)知范疇模糊與語義模糊
      仁布县| 成安县| 朔州市| 广东省| 荣成市| 搜索| 芒康县| 靖远县| 大洼县| 建始县| 大姚县| 法库县| 栖霞市| 吉林省| 安庆市| 莱西市| 慈溪市| 临清市| 巧家县| 台湾省| 博湖县| 彭泽县| 甘肃省| 广州市| 泗阳县| 房山区| 盘山县| 定兴县| 巴马| 尉犁县| 三原县| 宁波市| 儋州市| 徐州市| 明星| 台北县| 乌海市| 黄山市| 平罗县| 淮安市| 页游|