• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于結(jié)巴分詞的領(lǐng)域自適應(yīng)分詞方法研究

      2023-06-01 13:43:26玲,程
      計(jì)算機(jī)仿真 2023年4期
      關(guān)鍵詞:結(jié)巴分詞詞組

      邢 玲,程 兵

      (1. 中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院,北京 100190;2. 中國科學(xué)院大學(xué),北京 10049)

      1 引言

      分詞作為文本數(shù)據(jù)處理的前期工作,對后續(xù)任務(wù)結(jié)果的好壞起著至關(guān)重要的作用。中文文本相比英文文本要復(fù)雜,英文文本中單詞和單詞之間有空格作為分隔符,而中文文本中最小可分割單位為句子,句子是由字序列組成,但是單個(gè)字不代表一個(gè)詞語,因此將字序列切分為詞語即分詞,是一個(gè)值得研究的問題。中文分詞算法主要分為三種,分別是基于詞典的分詞算法、基于統(tǒng)計(jì)的分詞算法和基于語義理解的分詞算法。

      基于詞典的分詞算法,在分詞前給定詞典,通過將待分詞文本與詞典進(jìn)行匹配,根據(jù)規(guī)定的匹配算法得到詞序列。按照掃描文本的順序,常用的匹配算法有正向最大匹配算法,逆向最大匹配算法,雙向最大匹配算法。另外,詞典的結(jié)構(gòu)設(shè)計(jì)影響著匹配效率,常見的詞典結(jié)構(gòu)設(shè)計(jì)基于整詞二分[1]、基于Trie索引樹[1]、基于逐字二分[1]、基于雙字哈希機(jī)制[2]以及它們的改進(jìn)形式[3,4]。由于直接和詞典中詞進(jìn)行匹配,基于詞典的分詞算法準(zhǔn)確率較高。然而詞典無法窮盡所有詞語,比如新詞“新冠病毒”不在詞典中,這意味著詞典是不完備的。將不在詞典中的詞稱為未登錄詞,包括人名、地名、機(jī)構(gòu)名稱、縮略詞、領(lǐng)域詞語、新詞。未登錄詞較多的情況下,基于詞典分詞算法的準(zhǔn)確率會隨之下降。

      基于統(tǒng)計(jì)的分詞算法,分為有監(jiān)督分詞方法和無監(jiān)督分詞方法。有監(jiān)督分詞方法主要是基于字標(biāo)注的機(jī)器學(xué)習(xí)算法,該方法將對字序列進(jìn)行分詞轉(zhuǎn)化為對字序列進(jìn)行位置標(biāo)注問題。漢字的邊界位置標(biāo)注方法包括2位標(biāo)記、4位標(biāo)記等[5]。通常利用4位標(biāo)記進(jìn)行研究,B表示開始位置、M表示中間位置、E表示結(jié)束位置及S表示單字構(gòu)詞[5]。利用人工標(biāo)注語料集學(xué)習(xí)模型參數(shù),將學(xué)習(xí)好的模型對字序列文本進(jìn)行預(yù)測,得到字位置標(biāo)注。常見的用于分詞的機(jī)器學(xué)習(xí)模型有隱馬爾科夫模型(HMM)[6]、最大熵模型(ME)[7]、條件隨機(jī)場模型(CRF)[8]。該方法可以較好的解決未登錄詞問題,但是需要大規(guī)模人工標(biāo)注語料作為訓(xùn)練數(shù)據(jù)。無監(jiān)督分詞方法利用字串在未標(biāo)注語料中的統(tǒng)計(jì)信息構(gòu)建良度[9],經(jīng)典的良度標(biāo)準(zhǔn)有子串頻率[10]、描述長度增益[10]、鄰接多樣性[10]和分支信息熵[10]。該方法不需要對語料庫進(jìn)行人工標(biāo)注,但是僅僅依賴于無監(jiān)督分詞方法進(jìn)行分詞,得到的準(zhǔn)確率通常較低。

      基于語義理解的分詞方法,結(jié)合待切分文本的語義信息,模仿人的閱讀理解方式進(jìn)行分詞。深度學(xué)習(xí)算法考慮了上下文信息,可以更好的理解語義,因此CNN[11]、LSTM[12]等被引入到分詞任務(wù)中。詞向量模型將詞表示為向量,將詞語數(shù)學(xué)化,可以更好表示詞語語義,因此詞向量模型如Word2Vec[13]、Glove[14]以及近幾年提出的動(dòng)態(tài)詞向量訓(xùn)練模型如Elmo[15]、Bert[16]等被應(yīng)用到分詞任務(wù)中。但是這些算法比較復(fù)雜,對計(jì)算機(jī)要求較高?,F(xiàn)在基于語義理解的分詞算法還不是很成熟,有待發(fā)展。

      以上三種分詞方法并不是割裂的,將它們進(jìn)行整合,可以提高分詞準(zhǔn)確率。結(jié)巴分詞是將詞典分詞和統(tǒng)計(jì)分詞方法結(jié)合起來的分詞工具。結(jié)巴分詞基于一個(gè)具有將近35萬個(gè)詞的詞典,為了實(shí)現(xiàn)高效查找詞語,構(gòu)建前綴樹存儲這些詞語,對于待分詞文本,根據(jù)前綴樹,構(gòu)建有向無環(huán)圖,利用動(dòng)態(tài)規(guī)劃算法,找到路徑最短的切分方式。對于不在詞典中的詞語,利用統(tǒng)計(jì)分詞方法中的HMM算法,對這些詞語進(jìn)行字序列位置標(biāo)注,根據(jù)標(biāo)注結(jié)果進(jìn)行分詞。這樣一方面基于詞典可以進(jìn)行有效分詞,另一方面對未登錄詞也可以進(jìn)行識別切分。但是,對于未登錄詞分詞后得到的詞語大部分詞長為2,對于人名,地名,機(jī)構(gòu)組織,專業(yè)領(lǐng)域詞語等詞長大于2的詞語分詞效果不是很好。比如對于金融領(lǐng)域“羊群效應(yīng)”這個(gè)領(lǐng)域詞組,結(jié)巴分詞結(jié)果為“羊群”和“效應(yīng)”這兩個(gè)詞,這是不合理的。

      將“羊群效應(yīng)”作為一個(gè)詞進(jìn)行切分稱為領(lǐng)域分詞。領(lǐng)域分詞是指將領(lǐng)域中的專有領(lǐng)域詞組作為整體切分出來,通常的分詞算法將一個(gè)領(lǐng)域詞組切分為幾個(gè)詞,這是不規(guī)范的,甚至?xí)?dǎo)致理解偏差。已知,領(lǐng)域詞組通常只是出現(xiàn)在所在領(lǐng)域,屬于低頻詞,因此領(lǐng)域分詞是一個(gè)具有挑戰(zhàn)但是重要的研究領(lǐng)域。

      張梅山等[17]通過將詞典信息以特征方式融入到統(tǒng)計(jì)分詞模型來實(shí)現(xiàn)領(lǐng)域自適應(yīng)性。該方法依賴于領(lǐng)域詞典信息,嚴(yán)格來說沒有完全實(shí)現(xiàn)領(lǐng)域自適應(yīng)分詞。韓冬煦等[18]將卡方統(tǒng)計(jì)量特征和邊界熵特征加入到訓(xùn)練模型中,并結(jié)合自學(xué)習(xí)和協(xié)同學(xué)習(xí)策略進(jìn)行訓(xùn)練,改善了分詞方法領(lǐng)域適應(yīng)性。該方法本質(zhì)上將無監(jiān)督統(tǒng)計(jì)分詞方法與有監(jiān)督統(tǒng)計(jì)分詞方法結(jié)合起來,對于不同領(lǐng)域需要重新訓(xùn)練模型,比較耗費(fèi)時(shí)間。張立邦等[9]首先利用通用詞典對語料進(jìn)行初步切分,利用EM算法不斷更新切分結(jié)果,直到切分結(jié)果不再變化。然后利用左右分支信息熵構(gòu)建良度,對切分結(jié)果進(jìn)行調(diào)整,從而到達(dá)識別電子病歷中未登錄詞的目的。該方法本質(zhì)上是將詞典分詞方法與無監(jiān)督統(tǒng)計(jì)分詞方法結(jié)合起來,在對切分結(jié)果利用無監(jiān)督方法調(diào)整時(shí),針對電子病歷特征定義了相應(yīng)規(guī)則,對于其它領(lǐng)域分詞不具有適用性。杜麗萍等[19]利用改進(jìn)的互信息算法與少量基本規(guī)則結(jié)合,從語料中發(fā)現(xiàn)新詞,將新詞加載到漢語詞法分析系統(tǒng)ICTCLAS中,從而改善漢語詞法分析系統(tǒng)ICTCLAS。該方法在發(fā)現(xiàn)新詞過程中,只是考慮了詞的凝聚度,沒有考慮詞的自由度。馮國明等[20]將詞典、統(tǒng)計(jì)、深度學(xué)習(xí)三者結(jié)合起來,學(xué)習(xí)分詞算法。該方法沒有考慮詞典存儲結(jié)構(gòu)問題,同時(shí)利用深度學(xué)習(xí)算法,模型計(jì)算復(fù)雜度較高。宮法明等[21]以自適應(yīng)馬爾科夫模型為基礎(chǔ),結(jié)合領(lǐng)域詞典和互信息,以語義和詞義約束校準(zhǔn)分詞,實(shí)現(xiàn)對石油領(lǐng)域?qū)I(yè)術(shù)語和組合詞的精確識別。該方法需要提前構(gòu)建石油領(lǐng)域詞典,不能用于其它領(lǐng)域分詞,領(lǐng)域遷移性較差。

      針對以上問題,本文在結(jié)巴分詞基礎(chǔ)上,提出領(lǐng)域自適應(yīng)分詞方法。由于結(jié)巴分詞對詞長大于2的領(lǐng)域詞組分詞效果較差,本文提出的領(lǐng)域自適應(yīng)分詞方法主要利用無監(jiān)督分詞方法識別詞長大于2的領(lǐng)域詞組,從而使得結(jié)巴分詞無需加載人工定義詞典,可以實(shí)現(xiàn)領(lǐng)域自適應(yīng)分詞。該方法首先利用結(jié)巴分詞方法對文本進(jìn)行分詞;其次基于標(biāo)準(zhǔn)化點(diǎn)互信息[22]和詞頻統(tǒng)計(jì)[23]兩種方式計(jì)算相鄰詞合成為一個(gè)詞組的凝聚度,設(shè)定凝聚度閾值,選擇符合條件的詞組;接著利用左右信息熵[24]計(jì)算選出詞組的自由度,設(shè)定自由度閾值,選擇符合條件詞組;最后利用本文提出的詞性約束規(guī)則去掉不符合構(gòu)詞規(guī)則的詞組,盡可能得到正確的領(lǐng)域詞組。將得到的領(lǐng)域詞組作為結(jié)巴分詞中自定義詞典加入到結(jié)巴詞庫中,再次利用結(jié)巴分詞對文本進(jìn)行分詞,實(shí)現(xiàn)領(lǐng)域自適應(yīng)分詞。本文接下來安排如下:第二節(jié)介紹相關(guān)知識;第三節(jié)介紹本文提出的領(lǐng)域自適應(yīng)分詞方法;第四節(jié)介紹實(shí)驗(yàn)部分;第五節(jié)介紹基于區(qū)分領(lǐng)域的領(lǐng)域自適應(yīng)分詞評價(jià)方法;第六節(jié)是結(jié)論。

      2 相關(guān)知識

      2.1 詞組凝聚度的計(jì)算

      給定兩個(gè)詞語,它們組成一個(gè)詞組的可能性越大,稱它們凝聚度越大。本文用兩個(gè)分?jǐn)?shù)公式來計(jì)算詞語之間的凝聚度。

      第一個(gè)分?jǐn)?shù)公式基于標(biāo)準(zhǔn)化點(diǎn)互信息[22]給出。分?jǐn)?shù)公式如下

      Score1(w_a,w_b)=

      (1)

      第二個(gè)分?jǐn)?shù)公式基于詞語出現(xiàn)頻數(shù)以及共現(xiàn)詞語頻數(shù)來定義的[23],公式如下

      ×(count(w_a,w_b)-mincount)

      ×count(vocab_words)

      (2)

      其中,count(w_a)表示詞語a在語料中出現(xiàn)的次數(shù);count(w_b)表示詞語b在語料中出現(xiàn)的次數(shù);count(w_a,w_b)表示詞語a與詞語b共現(xiàn)的次數(shù);count(vocab_words)表示語料庫去掉重復(fù)詞后的詞語個(gè)數(shù);mincount表示設(shè)定的兩個(gè)詞語共現(xiàn)次數(shù)的閾值,當(dāng)兩個(gè)詞語共現(xiàn)次數(shù)小于這個(gè)值時(shí),則舍去由這兩個(gè)詞組成的詞組,被用來作為減少出現(xiàn)偶見詞組的可能。該分?jǐn)?shù)的取值范圍大于0。

      設(shè)定凝聚度閾值,如果組合詞組凝聚度分?jǐn)?shù)大于閾值,則選出該詞組,否則,舍棄該詞組。計(jì)算得到的詞組分?jǐn)?shù)值越大,說明詞語a與詞語b組成詞組的凝聚度越大,該詞組越有可能被當(dāng)作領(lǐng)域詞組識別出來。

      2.2 詞組自由度的計(jì)算

      考慮兩個(gè)詞語是否可以構(gòu)成一個(gè)詞組,一方面考慮它們的凝聚度,即這兩個(gè)詞語組合成一個(gè)詞組的黏合性,這個(gè)度量可以利用2.1中式(1)或者式(2)來定義;另一方面需要考慮所構(gòu)成詞組的自由度,即該詞組左右出現(xiàn)的緊鄰字是否具有多樣性。通常來說,一個(gè)詞語的上下文是不固定的,可以和多種字結(jié)合。本文用左右信息熵[24]來度量詞組的自由度。左右信息熵的公式如下:

      左熵:

      (3)

      右熵:

      (4)

      其中,W表示一個(gè)詞組;leftW表示W(wǎng)左邊所有緊鄰字的集合;rightW表示W(wǎng)右邊所有緊鄰字的集合;p({w,W}|W)表示字w緊鄰詞組W左邊的概率,通過統(tǒng)計(jì)詞頻來計(jì)算,等于字w緊鄰詞組W左邊的頻數(shù)與W左邊所有緊鄰字的頻數(shù)之和的比值;

      p( {W,w}|W)表示字w緊鄰詞組W右邊的概率,等于字w緊鄰詞組W右邊的頻數(shù)與W右邊所有緊鄰字的頻數(shù)之和的比值。

      取min(EL(W),ER(W))作為詞組W的自由度,用來和設(shè)定的自由度閾值比較,如果大于閾值則說明詞組W的左右緊鄰字比較多樣,W可以看作一個(gè)詞組,否則W不能作為一個(gè)詞組。自由度越大,該詞組被識別出來的可能性越大。

      2.3 詞性搭配規(guī)則

      由凝聚度和自由度兩個(gè)統(tǒng)計(jì)度量識別領(lǐng)域詞組的同時(shí),也會引入一些嚴(yán)格意義上不是領(lǐng)域詞組的組合。比如由詞語“上”和詞語“顯著”組成的詞組“上顯著”,該詞組的凝聚度分?jǐn)?shù)和自由度分?jǐn)?shù)大于所設(shè)置的凝聚度閾值和自由度閾值,因此詞組“上顯著”會被當(dāng)作領(lǐng)域詞組識別出來,顯然,這是不合理的詞組組合。根據(jù)短語結(jié)構(gòu)類型[25]提出了針對結(jié)巴分詞中詞長大于2的未登錄詞的詞性搭配規(guī)則,實(shí)現(xiàn)了對詞組的約束,從而盡可能篩選出標(biāo)準(zhǔn)詞組。本文中的詞性是按照北大詞性標(biāo)注集來定義的。本文提出的詞組詞性搭配規(guī)則如附錄1所示。

      3 領(lǐng)域自適應(yīng)分詞方法

      3.1 領(lǐng)域詞組識別

      在結(jié)巴分詞的前提下,首先利用凝聚度公式計(jì)算結(jié)巴分詞后相鄰詞語組成詞組的凝聚度,通過凝聚度閾值選出詞組候選詞;其次利用自由度公式對候選詞組計(jì)算其自由度,根據(jù)自由度閾值再次選出候選詞組;最后根據(jù)本文規(guī)定的詞組詞性搭配規(guī)則,從候選詞組中選出領(lǐng)域詞組。凝聚度和自由度用來確定可能是固定搭配的詞組,詞性約束進(jìn)一步過濾掉不規(guī)范詞組,從而得到規(guī)范的領(lǐng)域詞組。領(lǐng)域詞組識別流程如圖1所示。

      圖1 領(lǐng)域詞組識別流

      3.2 領(lǐng)域自適應(yīng)分詞方法

      將利用凝聚度、自由度、詞性約束得到的領(lǐng)域詞組作為結(jié)巴分詞自定義詞典參與分詞,從而實(shí)現(xiàn)領(lǐng)域自適應(yīng)分詞。算法流程如圖2所示。

      圖2 領(lǐng)域自適應(yīng)分詞算法流程

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1 數(shù)據(jù)介紹

      本文中用到的數(shù)據(jù)來自中國知網(wǎng),下載金融領(lǐng)域的100篇論文,這些論文主要集中于投資和證券學(xué)科;法律領(lǐng)域的100篇論文,這些論文主要集中于訴訟法與司法制度學(xué)科。將每篇PDF文獻(xiàn)轉(zhuǎn)化為txt格式,利用正則表達(dá)式對txt格式文獻(xiàn)進(jìn)行處理,得到只含有標(biāo)點(diǎn)符號,英文字母,數(shù)字,中文的文檔,然后將相同領(lǐng)域的文檔整合為一個(gè)文檔集。將該文檔集以標(biāo)點(diǎn)符號為分隔符進(jìn)行切分,得到以行為單位的金融和法律領(lǐng)域文檔集。

      4.2 參數(shù)設(shè)置

      當(dāng)按照標(biāo)準(zhǔn)化點(diǎn)互信息(NPMI)即式(1)計(jì)算詞組凝聚度時(shí),分?jǐn)?shù)取值范圍為[-1,1],當(dāng)分?jǐn)?shù)閾值取-1時(shí),沒有起到任何篩選作用;分?jǐn)?shù)閾值取1時(shí),閾值太大,導(dǎo)致篩選詞組個(gè)數(shù)為0。因此選取3個(gè)具有代表性閾值,閾值分別取-0.5,0,0.5;當(dāng)按照詞頻統(tǒng)計(jì)方法即式(2)計(jì)算詞組凝聚度分?jǐn)?shù)時(shí),由于文獻(xiàn)[23]閾值默認(rèn)值為10,因此本文閾值分別取5, 10, 15。利用左右信息熵計(jì)算自由度,當(dāng)閾值取0.1時(shí),得到詞組個(gè)數(shù)同閾值取0.5時(shí)相差不大。當(dāng)閾值取1.5時(shí),得到的詞組個(gè)數(shù)同閾值取1時(shí)相差不大。當(dāng)閾值取2.5時(shí),詞組個(gè)數(shù)同閾值取2時(shí)相差不大,且此時(shí)詞組個(gè)數(shù)不是很多,因此自由度閾值分別取0.5, 1, 2。

      4.3 領(lǐng)域分詞評價(jià)方法

      本文利用自己構(gòu)建的金融與法律領(lǐng)域文本對領(lǐng)域分詞進(jìn)行研究,沒有現(xiàn)有的領(lǐng)域分詞評價(jià)標(biāo)準(zhǔn)可以利用。由于本文是將領(lǐng)域自適應(yīng)分詞方法同結(jié)巴分詞的領(lǐng)域分詞結(jié)果進(jìn)行比較,基于此前提,重新定義評價(jià)方法精確率與召回率計(jì)算公式,如式(5)與(6)所示。

      (5)

      (6)

      其中,count(W總)表示領(lǐng)域詞組標(biāo)準(zhǔn)庫中詞數(shù);W表示對文本進(jìn)行領(lǐng)域分詞的結(jié)果;count(W總∩W)表示領(lǐng)域分詞結(jié)果中屬于領(lǐng)域詞組標(biāo)準(zhǔn)庫中詞的個(gè)數(shù)。以下給出W總與W的計(jì)算方式。

      領(lǐng)域詞組標(biāo)準(zhǔn)庫W總計(jì)算:將利用式(1)計(jì)算凝聚度(凝聚度閾值取-0.5,自由度閾值取0.1)與利用式(2)計(jì)算凝聚度(凝聚度閾值取0.001,自由度閾值取0.1)進(jìn)行領(lǐng)域自適應(yīng)分詞的結(jié)果分別記為W11,W12;將直接利用結(jié)巴詞庫對相同領(lǐng)域文檔集進(jìn)行分詞的結(jié)果記為W2。如果詞語w∈{W11∪W12∪W2}且w?{W11∩W12∩W2},則將w加入到詞庫中,通過人工查找詞庫中正確詞組作為領(lǐng)域詞組標(biāo)準(zhǔn)庫,記為W總。具體流程圖如圖3所示。

      圖3 領(lǐng)域詞組標(biāo)準(zhǔn)庫構(gòu)建流程圖

      領(lǐng)域分詞結(jié)果W計(jì)算:領(lǐng)域自適應(yīng)分詞結(jié)果記為W1,直接利用結(jié)巴分詞的結(jié)果記為W2,如果詞語w?{W1∩W2}且w∈W1,將w加入到Wdic,Wdic記為領(lǐng)域自適應(yīng)分詞算法下領(lǐng)域分詞結(jié)果;如果詞語w?{W1∩W2}且w∈W2,則將w加入到W結(jié)巴,W結(jié)巴記為結(jié)巴分詞下領(lǐng)域分詞結(jié)果。具體流程圖如圖4所示:

      圖4 領(lǐng)域分詞結(jié)果獲取流程圖

      4.4 實(shí)驗(yàn)結(jié)果及分析

      將凝聚度與自由度不同閾值參數(shù)組合得到的領(lǐng)域詞組作為自定義詞典加入到結(jié)巴詞庫中,對相應(yīng)領(lǐng)域文本實(shí)現(xiàn)領(lǐng)域自適應(yīng)分詞。將得到的領(lǐng)域分詞結(jié)果同不加自定義詞典分詞后的領(lǐng)域分詞結(jié)果進(jìn)行比較。

      實(shí)驗(yàn)結(jié)果:

      根據(jù)定義的精確率與召回率的計(jì)算方法,列出領(lǐng)域自適應(yīng)分詞算法與直接用結(jié)巴分詞算法進(jìn)行領(lǐng)域分詞的精確率及召回率。表1表示金融領(lǐng)域結(jié)果,表2表示法律領(lǐng)域結(jié)果。下表中,參數(shù)第一列表示凝聚度閾值,閾值參數(shù)為-0.5,0,0.5表示利用式(1)計(jì)算凝聚度,閾值參數(shù)為5,10,15表示利用式(2)計(jì)算凝聚度。第二列表示自由度閾值;加詞典表示領(lǐng)域自適應(yīng)分詞,不加詞典表示直接利用結(jié)巴分詞;正確詞數(shù)表示領(lǐng)域分詞結(jié)果中屬于領(lǐng)域詞組標(biāo)準(zhǔn)庫中詞的個(gè)數(shù)。

      表1 金融領(lǐng)域自適應(yīng)分詞與結(jié)巴分詞對于領(lǐng)域分詞的精確率、召回率

      表2 法律領(lǐng)域自適應(yīng)分詞與結(jié)巴分詞對于領(lǐng)域分詞的精確率、召回率

      實(shí)驗(yàn)結(jié)果分析:

      總體來看,結(jié)巴分詞對于領(lǐng)域分詞來說,準(zhǔn)確率和召回率遠(yuǎn)遠(yuǎn)低于本文提出的領(lǐng)域自適應(yīng)分詞算法。

      通過表1與表2中精確率和召回率可以看出,當(dāng)凝聚度分?jǐn)?shù)閾值不變時(shí),隨著自由度閾值越大,識別的領(lǐng)域詞組越少,此時(shí),領(lǐng)域自適應(yīng)分詞精確率越高,召回率越低;對于同一凝聚度計(jì)算公式來說,當(dāng)自由度閾值不變時(shí),凝聚度分?jǐn)?shù)閾值越大,識別的領(lǐng)域詞組越少,領(lǐng)域自適應(yīng)分詞精確率越高,召回率越低;基于NPMI即式(1)與詞頻統(tǒng)計(jì)即式(2)計(jì)算詞組凝聚度,當(dāng)最終識別詞組個(gè)數(shù)相差不大時(shí),利用式(2)識別領(lǐng)域詞組得到的精確率與召回率均高于式(1),說明將NPMI與左右信息熵搭配,比詞頻統(tǒng)計(jì)與左右信息熵搭配識別領(lǐng)域詞組的效果差。

      通過表1與表2中正確詞數(shù)可以看出,領(lǐng)域自適應(yīng)分詞算法切分出來的領(lǐng)域詞組遠(yuǎn)遠(yuǎn)多于結(jié)巴分詞切分出來的領(lǐng)域詞組;通過領(lǐng)域分詞詞數(shù)可以看出,領(lǐng)域自適應(yīng)分詞得到總詞數(shù)多于結(jié)巴分詞總詞數(shù),這是因?yàn)轭I(lǐng)域自適應(yīng)分詞得到的詞組長度一般大于2,重復(fù)詞比較少;結(jié)巴分詞分出來的詞中大部分詞長為2,重復(fù)詞比較多,因此去重后剩余詞數(shù)較少。

      領(lǐng)域自適應(yīng)分詞由于加入了領(lǐng)域詞組,從而調(diào)整了分詞切分位置,可以將領(lǐng)域詞組作為整體識別出來,相比于結(jié)巴分詞,領(lǐng)域自適應(yīng)分詞算法提高了領(lǐng)域分詞準(zhǔn)確率與召回率。因此本文提出的領(lǐng)域自適應(yīng)分詞算法是有效的。

      5 基于區(qū)分領(lǐng)域的領(lǐng)域自適應(yīng)分詞評價(jià)方法

      為了從不同角度證明領(lǐng)域自適應(yīng)分詞算法的有效性,本文基于區(qū)分領(lǐng)域給出了領(lǐng)域自適應(yīng)分詞的評價(jià)方法。對于不同的兩個(gè)領(lǐng)域,利用分詞算法對文本進(jìn)行分詞后,度量這兩個(gè)領(lǐng)域分詞后文本的距離,如果距離越大,稱該分詞方法區(qū)分領(lǐng)域的效果越好,即該分詞方法能夠有效實(shí)現(xiàn)領(lǐng)域分詞?;诖烁拍?本文提出了一種基于word2vec[23]的度量方法,用來對領(lǐng)域自適應(yīng)分詞算法區(qū)分領(lǐng)域的效果進(jìn)行評價(jià)。

      5.1 基于word2vec的度量方法

      將利用領(lǐng)域自適應(yīng)分詞算法得到的金融領(lǐng)域分詞結(jié)果記為W金融dic,法律領(lǐng)域分詞結(jié)果記為W法律dic;將直接利用結(jié)巴分詞得到金融領(lǐng)域分詞結(jié)果記為W金融jieba,法律領(lǐng)域分詞結(jié)果記為W法律jieba。利用word2vec求解詞向量,在此基礎(chǔ)上給出領(lǐng)域自適應(yīng)分詞方法區(qū)分領(lǐng)域效果的度量方法:距離差度量法。公式如下

      difference=

      distance(vector(W金融dic),vector(W法律dic))

      -distance(vector(W金融jieba),vector(W法律jieba))

      (7)

      其中

      distance(vector(W金融),vector(W法律))

      vector(W金融)與vector(W法律)指金融領(lǐng)域文本與法律領(lǐng)域文本的向量表示,通過對相應(yīng)領(lǐng)域文本分詞后求解所有詞語向量的平均值得到,即

      式(7)表示利用領(lǐng)域自適應(yīng)分詞算法對金融和法律領(lǐng)域進(jìn)行分詞后,這兩個(gè)領(lǐng)域文本距離與利用結(jié)巴分詞算法對金融和法律領(lǐng)域分詞后文本距離的差值。如果這個(gè)差值大于0,表示利用領(lǐng)域自適應(yīng)分詞算法分詞后,區(qū)分領(lǐng)域的效果優(yōu)于利用結(jié)巴分詞。這個(gè)差值越大,說明領(lǐng)域自適應(yīng)分詞算法區(qū)分領(lǐng)域效果越好。

      5.2 區(qū)分領(lǐng)域的效果分析

      利用領(lǐng)域自適應(yīng)分詞算法分別對金融領(lǐng)域、法律領(lǐng)域文本分詞,得到詞典大小分別為292621、260845;直接利用結(jié)巴分詞算法對金融領(lǐng)域、法律領(lǐng)域文本分詞,得到詞典大小分別為354325、316261。本文利用Word2vec中skip-gram模型[26]來訓(xùn)練詞語向量,上下文窗口大小參數(shù)設(shè)置為5,向量維度設(shè)置為500維。利用5.1中定義的距離差度量法,有

      difference=distance(vector(W金融dic),vector(W法律dic))-

      distance(vector(W金融jieba),vector(W法律jieba))

      =1.002-0.9852=0.0168

      可以看出,利用領(lǐng)域自適應(yīng)分詞后區(qū)分領(lǐng)域的效果優(yōu)于結(jié)巴分詞區(qū)分領(lǐng)域的效果,說明領(lǐng)域自適應(yīng)分詞算法相比于結(jié)巴分詞有效實(shí)現(xiàn)了領(lǐng)域分詞。

      6 結(jié)論

      本文提出了一種領(lǐng)域自適應(yīng)分詞算法,在結(jié)巴分詞的基礎(chǔ)上,利用標(biāo)準(zhǔn)化點(diǎn)互信息及詞頻統(tǒng)計(jì)方法計(jì)算相鄰詞語組成詞組的凝聚度,左右信息熵計(jì)算詞組的自由度,詞性約束篩選規(guī)范詞組,將最后得到的領(lǐng)域詞組作為自定義詞典加入到結(jié)巴詞庫中參與分詞,從而完善了結(jié)巴分詞。通過在100篇金融領(lǐng)域文章和100篇法律領(lǐng)域文章上進(jìn)行實(shí)驗(yàn),說明該方法可以有效發(fā)現(xiàn)領(lǐng)域詞組。利用精確率和召回率對領(lǐng)域分詞結(jié)果進(jìn)行評價(jià),發(fā)現(xiàn)相比結(jié)巴分詞,領(lǐng)域自適應(yīng)分詞算法提高了領(lǐng)域分詞的準(zhǔn)確率和召回率。最后提出了一種基于區(qū)分領(lǐng)域的領(lǐng)域自適應(yīng)分詞評價(jià)方法,利用word2vec獲取詞向量,通過定義距離差度量公式來進(jìn)行評價(jià),實(shí)驗(yàn)結(jié)果表明,領(lǐng)域自適應(yīng)分詞算法區(qū)分領(lǐng)域效果優(yōu)于結(jié)巴分詞,即該算法能夠有效進(jìn)行領(lǐng)域分詞。

      由于領(lǐng)域自適應(yīng)分詞算法是在結(jié)巴分詞基礎(chǔ)上識別領(lǐng)域詞組,如果結(jié)巴分詞切分錯(cuò)誤,則導(dǎo)致得到的領(lǐng)域詞組是錯(cuò)誤的,因此在下一步工作中,可以考慮直接對文本識別領(lǐng)域詞組,從而避免引進(jìn)錯(cuò)誤領(lǐng)域詞組。該算法對結(jié)巴分詞后相鄰詞語進(jìn)行組合,對于單字與雙字組合的詞組識別結(jié)果不是很好,會將不規(guī)則詞組別識別出來;對于雙字詞語組合,會出現(xiàn)結(jié)合順序前后紊亂情況。在下一步工作中,可以通過其它約束方法來盡量規(guī)避這兩種情況的發(fā)生。對于基于區(qū)分領(lǐng)域的評價(jià)方法,本文直接求解文本所有詞向量平均值來表征文本,在下一步工作中,可以提出其它向量計(jì)算方式來表征文本,從而提高評價(jià)方法的精確度。

      猜你喜歡
      結(jié)巴分詞詞組
      Video Star Gets Job Promoting Tourism
      結(jié)巴分詞在詞云中的應(yīng)用
      值得重視的分詞的特殊用法
      結(jié)巴俠
      副詞和副詞詞組
      張亮:扼住命運(yùn)的結(jié)巴
      海峽姐妹(2014年2期)2014-02-27 15:08:49
      高考分詞作狀語考點(diǎn)歸納與疑難解析
      自信讓我不再結(jié)巴了
      論英語不定式和-ing分詞的語義傳承
      赣榆县| 筠连县| 时尚| 称多县| 镇巴县| 天镇县| 新密市| 郸城县| 元朗区| 城市| 古交市| 铁力市| 宁远县| 共和县| 岗巴县| 平昌县| 肇庆市| 碌曲县| 麻江县| 邻水| 佛山市| 永仁县| 中江县| 随州市| 昌宁县| 新郑市| 昭觉县| 新津县| 黄冈市| 萍乡市| 阿拉善左旗| 定襄县| 凤庆县| 南昌县| 雷州市| 沅陵县| 蛟河市| 息烽县| 介休市| 万年县| 南充市|