• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合語(yǔ)義和結(jié)構(gòu)的短文本相似度計(jì)算

      2018-08-21 02:07:28倪高偉
      關(guān)鍵詞:度量短文語(yǔ)義

      倪高偉,李 濤,劉 崢

      (南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210046)

      0 引 言

      短文本在移動(dòng)短消息、即時(shí)消息、BBS標(biāo)題、新聞標(biāo)題、在線聊天記錄、博客評(píng)論、新聞評(píng)論等領(lǐng)域中應(yīng)用廣泛。其主要特點(diǎn)是長(zhǎng)度很短,不超過(guò)200個(gè)字符。如日常使用的手機(jī)短信,往往不超過(guò)70個(gè)字,以及BBS標(biāo)題和新聞標(biāo)題不超過(guò)30個(gè)字。短文本通常具有以下特征[1-2]:

      (1)稀疏性:短文本通常只包含幾個(gè)到十幾個(gè)字,不能提供足夠的共現(xiàn)詞或共享上下文作為一個(gè)好的相似度度量,因此難以提取有效的語(yǔ)言特征。

      (2)即時(shí)性:短文本立即發(fā)送并實(shí)時(shí)接收。此外,數(shù)據(jù)流量非常大。

      (3)非規(guī)范性:短文本描述簡(jiǎn)潔,多為名詞性短語(yǔ)拼接,包含大量的口頭用語(yǔ),同時(shí)有很多拼寫(xiě)錯(cuò)誤,如非標(biāo)準(zhǔn)的詞語(yǔ)。

      (4)噪聲和分布不平衡性:一些應(yīng)用背景(如網(wǎng)絡(luò)安全)需要處理大量的短文本數(shù)據(jù)。然而,在大規(guī)模的數(shù)據(jù)中,往往只關(guān)注其中的小部分(檢測(cè)對(duì)象)。因此,在某些應(yīng)用背景下有用實(shí)例是很有限的,同時(shí)大量的噪聲數(shù)據(jù)也導(dǎo)致了訓(xùn)練樣本的分布不平衡。

      (5)大規(guī)模數(shù)據(jù)和標(biāo)簽瓶頸:很難手動(dòng)標(biāo)記所有的大規(guī)模實(shí)例,同時(shí)有限標(biāo)記的實(shí)例只能提供有限的信息。

      詞袋(bag of words,BOW)和術(shù)語(yǔ)頻率信息(term frequency-inverse document frequency,TF-IDF)是常見(jiàn)表示文檔的方法。因短文本共現(xiàn)詞很少,這些方法通常不適合計(jì)算文檔距離,同時(shí)也不能捕獲單個(gè)詞之間的距離。有許多方法試圖通過(guò)學(xué)習(xí)潛在的低維向量表示文檔來(lái)規(guī)避這個(gè)問(wèn)題,如潛在語(yǔ)義索引(latent semantic indexing,LSI)[3-4]特征化BOW特征空間,以及潛在狄利克利分布(latent Dirichlet allocation,LDA)[5-6]通過(guò)概率將相似詞組合成主題,并將文檔表示為這些主題的分布。與此同時(shí),關(guān)于BOW/TF-IDF有許多變種算法[7-8]。相比于BOW,這些方法產(chǎn)生了更連貫的文檔向量,但它們通常不會(huì)改進(jìn)BOW在基于距離的任務(wù)(例如k近鄰分類(lèi)器)上的經(jīng)驗(yàn)性能。

      1 基于Word2Vec的短文本相似度計(jì)算

      2013年,Mikolov等[9-11]發(fā)表的三篇關(guān)于詞向量的論文,通過(guò)捕獲詞語(yǔ)之間的語(yǔ)義相似性開(kāi)發(fā)了Word2Vec。此后,研究者們廣泛應(yīng)用這樣的詞向量來(lái)改善自然語(yǔ)言處理的狀態(tài),如詞性標(biāo)記[12]、標(biāo)簽預(yù)測(cè)[13]和關(guān)鍵詞提取[14]等。為將詞向量轉(zhuǎn)化為表示大部分語(yǔ)義信息的文本向量,研究者在文本中選擇平均化或最大化詞向量[15-16],或者通過(guò)多層感知器[17]、聚類(lèi)[18]等方法。這些方法雖取得了不錯(cuò)的效果,但由于非信息詞的影響,很難捕獲更多的文本語(yǔ)義信息。

      因此,為了基于詞向量獲得最佳的文本向量表示,Kusner等[19]將詞向量與EMD[20]相聯(lián)系,用來(lái)度量文檔距離,提出了WMD(word mover’s distance)算法以及犧牲精度降低復(fù)雜度的WCD(word centroid distance)和RWMD(relaxed word mover’s distance)這兩種算法。該算法利用了詞向量高質(zhì)量的語(yǔ)義能力,利用了詞語(yǔ)統(tǒng)計(jì)信息過(guò)濾掉非信息詞,相對(duì)于其他算法(如LSI、LDA),在KNN文本分類(lèi)中取得了較低的錯(cuò)誤率。然而,除了語(yǔ)義上的相似度,Li Yuhua等[21]證明了短文本的語(yǔ)法結(jié)構(gòu)對(duì)短文本相似度同樣有著重要的影響。廖志芳等[22]通過(guò)分析中文短文本特征,提出了基于語(yǔ)法語(yǔ)義的短文本相似度算法,但過(guò)度依賴(lài)于外部語(yǔ)義知識(shí)庫(kù),無(wú)法適應(yīng)實(shí)時(shí)、大量、多變的短文本。

      在上述研究的基礎(chǔ)上,文中提出了一種考慮到句子中隱含的語(yǔ)義信息和詞序信息的算法,將EMD求解線性規(guī)劃中運(yùn)輸問(wèn)題的最優(yōu)解應(yīng)用于度量?jī)蓚€(gè)短文本的相似度,利用Word2Vec訓(xùn)練高質(zhì)量詞向量用于度量語(yǔ)義相似性,不需要依賴(lài)外部知識(shí)庫(kù),同時(shí)考慮語(yǔ)句詞組順序?qū)ο嗨贫鹊呢暙I(xiàn),可進(jìn)一步提高短文本分類(lèi)的準(zhǔn)確率和召回率。

      2 基于語(yǔ)義和結(jié)構(gòu)的短文本相似度計(jì)算

      2.1 短文本詞序位置相似度計(jì)算

      考慮一對(duì)短文本Sen1和Sen2,如:

      Sen1:He is very naughty, but he has a good academic record.

      Sen2:He has a good job, but he is very mischievous.

      由于這兩個(gè)句子含有相同或相近的詞,基于BOW的方法得出Sen1和Sen2非常相似。然而由于Sen1和Sen2的詞序,憑人的主觀判斷Sen1和Sen2在很大程度上不相似。因此,計(jì)算短文本相似度的算法應(yīng)該考慮詞序的影響。

      對(duì)于例句Sen1和Sen2,分別進(jìn)行分詞并去掉停用詞,從而得到若干個(gè)詞組或者短語(yǔ),記作向量T1和T2,并得到它們的并集T:

      T1={he very naughty but has good academic record}

      T2={he has good job but very mischievous}

      T={he very naughty but has good academic record job mischievous}

      為T(mén)1和T2中的每個(gè)單詞分配唯一的索引號(hào),索引號(hào)為該詞在句子中出現(xiàn)的順序號(hào)。例如T1中“naughty”的索引為3,T2中“mischievous”的索引為7。在計(jì)算次序相似度時(shí),基于并集T分別給出T1和T2的詞語(yǔ)順序向量r。以T1為例,對(duì)于T中的每個(gè)詞語(yǔ)ωi,試圖從T1找到與其相同或相似的詞,具體過(guò)程如下:

      (1)如果T1中存在相同的詞語(yǔ),就用T1中該詞的索引號(hào)填寫(xiě)r1,否則查找T1中最相似的詞語(yǔ)ω';

      (2)如果ωi與ω'之間的相似度大于預(yù)定的閾值,則將ω'在T1中的索引號(hào)填寫(xiě)到r1的對(duì)應(yīng)位置;

      (3)如果兩個(gè)步驟失敗,則r1對(duì)應(yīng)的位置填寫(xiě)0。

      應(yīng)用上述過(guò)程之后,T1和T2的詞語(yǔ)順序向量分別為r1和r2,得到:

      r1={1 2 3 4 5 6 7 8 8 3}

      r2={1 6 7 5 2 3 0 4 4 7}

      因此,詞序向量是句子所攜帶的基本結(jié)構(gòu)信息。處理詞語(yǔ)順序的任務(wù)就是測(cè)量?jī)删湓捲~語(yǔ)順序的相似度,Li Yuhua等[21]提出了一種衡量?jī)蓚€(gè)句子詞序相似度的方法。

      (1)

      文中提出一種衡量單詞相對(duì)位置距離的方法,稱(chēng)為偏移量。

      s(ωi,ωj)=

      (2)

      其中,ωi為T(mén)1中第i個(gè)單詞,ωj為T(mén)2中第j個(gè)單詞;T.indexOf(ω)為單詞ω在T中的下標(biāo),如T.indexOf(naughty)=3,r1[T.indexOf(naughty)]=3,r2[T.indexOf(naughty)]=7;len(T1)和len(T2)分別為T(mén)1和T2的長(zhǎng)度。

      從式2可知,兩個(gè)文本中相似的單詞相對(duì)位置越遠(yuǎn),s(ωi,ωj)越大。

      2.2 結(jié)合語(yǔ)義和結(jié)構(gòu)的短文本相似度計(jì)算

      EMD算法在計(jì)算短文本相似度問(wèn)題和運(yùn)輸規(guī)劃問(wèn)題上有個(gè)極大的不同點(diǎn),運(yùn)輸規(guī)劃問(wèn)題中工廠或倉(cāng)庫(kù)是不考慮順序的,而短文本中的單詞是有位置順序的,因此希望語(yǔ)義上相似的兩個(gè)詞在短文本中的位置也是相似的。如上文中提到的例子,對(duì)于包含相同或相似單詞的兩個(gè)句子,由于單詞的位置順序差異,兩個(gè)句子表達(dá)了完全相反的語(yǔ)義。結(jié)合短文本的特點(diǎn),同時(shí)考慮短文本語(yǔ)義和結(jié)構(gòu),提出一種基于EMD的短文本相似度度量方法。

      圖1 短文本分布

      (3)

      式3模型的復(fù)雜度為o(p3logp),其中p表示標(biāo)準(zhǔn)化詞袋(normalized bag-of-words,nBOW)的長(zhǎng)度,即數(shù)據(jù)集中不同單詞的數(shù)目(去掉停用詞)。EMD算法在運(yùn)輸規(guī)劃問(wèn)題的應(yīng)用中,假設(shè)貨物的總重量等于倉(cāng)庫(kù)的總?cè)萘俊.?dāng)不考慮倉(cāng)庫(kù)的容量,即在運(yùn)輸貨物時(shí)只往離工廠最近的倉(cāng)庫(kù)運(yùn)送。該策略應(yīng)用到文本相似度度量方法中,只向離單詞i最近的單詞j轉(zhuǎn)移,同時(shí)只需計(jì)算離單詞i最近的單詞j之間的偏移量s(i,j)。

      對(duì)式3去掉第3個(gè)約束條件,可以得到:

      (4)

      同時(shí)矩陣T應(yīng)該定義為:

      (5)

      當(dāng)然在運(yùn)輸規(guī)劃問(wèn)題上也可以去掉工廠中貨物量的限制,不斷將貨物運(yùn)輸?shù)絺}(cāng)庫(kù)中,直到倉(cāng)庫(kù)滿為止。在短文本相似度度量問(wèn)題上,往往希望無(wú)論哪一個(gè)短文本被視為工廠,都應(yīng)該計(jì)算得到相同的值。因此總是將兩個(gè)短文本中較長(zhǎng)者作為工廠。原因有如下兩點(diǎn):一是希望計(jì)算結(jié)果是對(duì)稱(chēng)的,即無(wú)論順序如何,計(jì)算相似性時(shí)都應(yīng)得到相同的分?jǐn)?shù);二是為了不遺漏單詞。假設(shè)有兩個(gè)文本,其中一個(gè)短文本中的單詞集合是另一個(gè)短文本單詞集合的子集。若將較短的文本作為工廠,將得到一個(gè)完美的分?jǐn)?shù)。反之,若把最長(zhǎng)的文本作為工廠,文本之間的不一致性就會(huì)因具體的需要對(duì)得分產(chǎn)生影響。

      3 實(shí)驗(yàn)與分析

      在已有的一些相關(guān)研究中,目前還沒(méi)有合適的標(biāo)準(zhǔn)文本數(shù)據(jù)集來(lái)評(píng)估句子(或短文本)相似性。因?yàn)檎Z(yǔ)言的解釋是主觀的,同時(shí)缺乏更深層次的語(yǔ)境信息,所以構(gòu)建合適的數(shù)據(jù)集需要對(duì)語(yǔ)言發(fā)言者進(jìn)行大規(guī)模的心理學(xué)研究,以便包括不同的文化背景。這樣一個(gè)大的研究超出了本文的范圍,但為了評(píng)估該短文本相似性度量方法,使用10個(gè)自定義短文本作為初步數(shù)據(jù)集。

      在文本分類(lèi)任務(wù)上,選擇3個(gè)有監(jiān)督的短文本數(shù)據(jù)集:SearchSnippets,由Phan等[23]利用預(yù)先定義好的8個(gè)領(lǐng)域短語(yǔ)詞在搜索引擎中檢索出的文本片段作為短文本,其領(lǐng)域包括商業(yè)、計(jì)算機(jī)、健康和教育等;StackOverflow,技術(shù)問(wèn)答社區(qū)StackOverflow數(shù)據(jù)中選取20類(lèi)不同標(biāo)簽的問(wèn)題標(biāo)題作為短文本,其標(biāo)簽包含SVN、Oracle、Bash和Apache等;Biomedical,國(guó)際知名生物醫(yī)學(xué)類(lèi)平臺(tái)BioASQ的官方數(shù)據(jù)中選取20類(lèi)MeSH主題下的論文標(biāo)題作為短文本,共搜集到20 000條數(shù)據(jù),其主題包含Aging、Chemistry、Cats和Erythrocytes等。

      表1展示了每個(gè)數(shù)據(jù)集的樣本個(gè)數(shù)、詞典大小、最長(zhǎng)句子長(zhǎng)度、平均句子長(zhǎng)度和類(lèi)別個(gè)數(shù)。采用Word2Vec算法的Skip-gram模型對(duì)短文本數(shù)據(jù)集進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練語(yǔ)料的特點(diǎn),將上下文窗口大小設(shè)置為3,向量維度為100,學(xué)習(xí)速率為0.025,采樣閾值為0.001,單詞的最低出現(xiàn)次數(shù)為3。

      表1 數(shù)據(jù)集特征

      與其他4種計(jì)算短文本相似度的方法在KNN分類(lèi)中比較準(zhǔn)確率和召回率。

      (1)TF-IDF[8]:由單詞的統(tǒng)計(jì)信息表示文本;

      (2)LSI[5]:對(duì)使用BOW表示的文本信息進(jìn)行奇異值分解獲得語(yǔ)義特征空間;

      (3)LDA[24]:一種文檔主題生成模型,可以得到文檔到主題的分布,主題到單詞的分布。

      (4)RWMD[19]:將詞向量與EMD相聯(lián)系,用來(lái)度量文檔距離。

      3.1 短文本相似度計(jì)算方法實(shí)驗(yàn)對(duì)比

      表2展示了5種短文本相似度計(jì)算方法的實(shí)驗(yàn)對(duì)比,如序號(hào)1和序號(hào)2測(cè)試句子對(duì),兩個(gè)短文本含有相同的單詞集合,只是詞語(yǔ)的相對(duì)順序有所差別,憑人的主觀判斷兩個(gè)短文本所表達(dá)的意思差別很大,但傳統(tǒng)的短文本相似度度量方法(如TF-IDF、LSI、LDA、RWMD)計(jì)算兩個(gè)短文本的相似度結(jié)果為1,即它們完全相同,這顯然是不合理的。序號(hào)1,序號(hào)2和序號(hào)3測(cè)試句子對(duì)文中提出的方法計(jì)算結(jié)果分別為0.562 4,0.643 3,0.506 4,相對(duì)于傳統(tǒng)方法有著明顯的改進(jìn),更加符合人的主觀判斷。

      當(dāng)兩個(gè)短文本共現(xiàn)詞很少或沒(méi)有共現(xiàn)詞時(shí),如序號(hào)4、5測(cè)試語(yǔ)句對(duì),基于統(tǒng)計(jì)信息的方法(如IF-IDF)明顯不能捕獲語(yǔ)義信息。雖然LSI和LDA相比于TF-IDF得到了一個(gè)不錯(cuò)的效果,但相比于基于Word2Vec的方法,仍舊不能獲得更多的語(yǔ)義信息。RWMD和文中提出的方法在共現(xiàn)詞很少的情況下,可以獲得更多的語(yǔ)義信息,計(jì)算短文本相似度結(jié)果更準(zhǔn)確。

      表2 五種方法短文本相似度實(shí)驗(yàn)對(duì)比

      3.2 文本分類(lèi)實(shí)驗(yàn)對(duì)比

      圖2和圖3展示了5種短文本相似度度量方法應(yīng)用在3個(gè)數(shù)據(jù)集上的KNN文本分類(lèi)的準(zhǔn)確率和召回率。相比于TF-IDF,雖然LDA和LSI產(chǎn)生了更連貫的文檔向量,但它們通常不會(huì)改進(jìn)BOW在KNN上的經(jīng)驗(yàn)性能?;赪ord2Vec的算法在文本分類(lèi)任務(wù)上明顯比傳統(tǒng)方法有著較高的準(zhǔn)確率和召回率。相比于RWMD算法,文中算法考慮了文本的語(yǔ)法結(jié)構(gòu),在文本分類(lèi)中保持了較高的準(zhǔn)確率,同時(shí)召回率略高于RWMD算法。

      圖2 分類(lèi)準(zhǔn)確率對(duì)比

      圖3 召回率對(duì)比

      4 結(jié)束語(yǔ)

      短文本相似度計(jì)算在事件檢測(cè)、新聞推薦、搜索引擎和自動(dòng)問(wèn)答等多個(gè)領(lǐng)域有著非常廣泛的應(yīng)用。目前的文本相似度計(jì)算技術(shù)在長(zhǎng)文本領(lǐng)域取得了比較好的性能,但是短文本字?jǐn)?shù)較少、不能提供足夠的共現(xiàn)詞或共享上下文、數(shù)量多、即時(shí)性強(qiáng),傳統(tǒng)的文本相似度技術(shù)并不一定適用。文中將EMD算法與Word2Vec相結(jié)合,同時(shí)考慮短文本的詞序結(jié)構(gòu)對(duì)計(jì)算相似性的影響,提出度量不同文本中兩個(gè)詞語(yǔ)的相對(duì)位置的方法。實(shí)驗(yàn)結(jié)果表明,該方法能夠獲取大部分的文本語(yǔ)義信息,并且在文本分類(lèi)實(shí)驗(yàn)結(jié)果中擁有比較好的準(zhǔn)確率和召回率。

      猜你喜歡
      度量短文語(yǔ)義
      有趣的度量
      模糊度量空間的強(qiáng)嵌入
      語(yǔ)言與語(yǔ)義
      迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
      KEYS
      Keys
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
      認(rèn)知范疇模糊與語(yǔ)義模糊
      短文改錯(cuò)
      嵊泗县| 怀化市| 十堰市| 苏尼特左旗| 逊克县| 禹城市| 乌苏市| 北海市| 额济纳旗| 烟台市| 内黄县| 北票市| 崇义县| 宜黄县| 枞阳县| 兰西县| 鹤岗市| 逊克县| 古蔺县| 阿坝| 南宫市| 永胜县| 泌阳县| 盐津县| 峨山| 崇左市| 萨迦县| 醴陵市| 民权县| 邻水| 祁门县| 武强县| 民勤县| 上饶市| 桃园市| 郯城县| 隆回县| 建始县| 石狮市| 大理市| 苏尼特左旗|