• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于拼音相似度的中文諧音新詞發(fā)現(xiàn)方法

      2023-09-27 06:31:04李瀚臣張順香朱廣麗王騰科
      計(jì)算機(jī)應(yīng)用 2023年9期
      關(guān)鍵詞:個(gè)字符字符串諧音

      李瀚臣,張順香*,朱廣麗,王騰科

      (1.安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001;2.合肥綜合性國(guó)家科學(xué)中心 人工智能研究院,合肥 230088)

      0 引言

      新詞識(shí)別,即識(shí)別通用詞典中的未收錄詞,通過(guò)上下文信息、詞構(gòu)造特點(diǎn)等構(gòu)造規(guī)則或模型以達(dá)到識(shí)別新詞的目的,可用于發(fā)現(xiàn)網(wǎng)絡(luò)新詞、專有名詞、舊詞新用等。在微博等社交網(wǎng)站,主要用戶為年輕群體,這些用戶群體擁有創(chuàng)新性的見解與表達(dá)能力,產(chǎn)生了一系列的網(wǎng)絡(luò)新詞。然而,新詞的產(chǎn)生速度快、語(yǔ)法語(yǔ)用靈活,諸如諧音梗中使用同音近音漢字、英文或數(shù)字組合代替原本舊詞,這些詞的創(chuàng)造難度低,沒(méi)有固定的組合規(guī)則,組成方式多樣,易于產(chǎn)生與傳播,導(dǎo)致使用現(xiàn)有的基于規(guī)則和統(tǒng)計(jì)的新詞識(shí)別方法發(fā)現(xiàn)諧音新詞的準(zhǔn)確率不高、難以解釋諧音新詞的含義等問(wèn)題。準(zhǔn)確識(shí)別文本中的諧音新詞,及時(shí)發(fā)現(xiàn)這些詞并擴(kuò)充至中文詞典,有助于理解評(píng)論者的真實(shí)意見,方便有關(guān)部門對(duì)輿論及時(shí)管控,生產(chǎn)者可根據(jù)用戶的真正反饋來(lái)更新產(chǎn)品,完善營(yíng)銷策略。

      為了構(gòu)建一個(gè)發(fā)現(xiàn)諧音詞的新詞識(shí)別方法,需考慮以下幾點(diǎn):1)如何將候選新詞轉(zhuǎn)換成發(fā)音相近的漢語(yǔ)拼音來(lái)與舊詞拼音比較。2)如何判斷并找出和諧音詞最相近的舊詞,根據(jù)判別結(jié)果判斷候選新詞是否為諧音新詞。

      基于以上考慮,本文提出一種中文諧音新詞發(fā)現(xiàn)方法,引入新舊詞拼音比較,通過(guò)拼音相似度判斷候選詞是否為諧音新詞,以提高諧音新詞識(shí)別的準(zhǔn)確率。中文諧音新詞發(fā)現(xiàn)方法的框架如圖1 所示。首先,對(duì)微博評(píng)論文本進(jìn)行預(yù)處理,進(jìn)行編碼格式的統(tǒng)一、特殊與重復(fù)字符串的過(guò)濾;然后,基于內(nèi)部與外部的統(tǒng)計(jì),使用互信息計(jì)算預(yù)選新詞內(nèi)部結(jié)合度,結(jié)合鄰接熵確定候選新詞邊界;接著,將新詞轉(zhuǎn)換成發(fā)音相近的漢語(yǔ)拼音,與中文詞典中的舊詞拼音比較,找出發(fā)音最相似的對(duì)比結(jié)果;最后,根據(jù)最相似結(jié)果是否超過(guò)閾值判斷候選詞是否為諧音新詞,并找出諧音新詞對(duì)應(yīng)的原有詞。本文的主要工作包括:

      圖1 本文方法框架Fig.1 Framework of the proposed method

      1)提出一種改進(jìn)的候選新詞統(tǒng)計(jì)方法,用于發(fā)現(xiàn)新詞。該方法通過(guò)綜合左右鄰接熵的值來(lái)計(jì)算候選新詞鄰接字符的不確定性,根據(jù)候選新詞內(nèi)外部統(tǒng)計(jì)的綜合得分發(fā)現(xiàn)新詞。

      2)提出一種基于拼音相似度的諧音新詞發(fā)現(xiàn)方法,用于提高諧音新詞識(shí)別的準(zhǔn)確率。該方法通過(guò)新詞拼音與舊詞拼音的比較,從最相似的比較結(jié)果中發(fā)現(xiàn)諧音新詞。

      1 研究現(xiàn)狀

      早期多采用基于規(guī)則的方法,通過(guò)總結(jié)新詞的構(gòu)詞特點(diǎn)來(lái)建立人工規(guī)則,利用構(gòu)詞模式、詞性規(guī)則、成詞概率等識(shí)別未登錄詞。鄭家恒等[1]根據(jù)漢語(yǔ)構(gòu)詞法建立規(guī)則語(yǔ)料庫(kù),構(gòu)建詞綴表過(guò)濾不同類型模式的垃圾串;崔世起等[2]采用自學(xué)習(xí)的方法建立垃圾詞典和詞綴詞典對(duì)候選新詞進(jìn)行過(guò)濾?;谝?guī)則的方法具有較高的新詞識(shí)別精度,但規(guī)則通常只適用于特定領(lǐng)域,導(dǎo)致該類方法可移植性較差,且建立人工規(guī)則的工作量大、成本高。目前新詞識(shí)別方法主要分為基于統(tǒng)計(jì)的方法、基于規(guī)則與統(tǒng)計(jì)相結(jié)合的方法和基于深度學(xué)習(xí)的方法。

      1.1 基于統(tǒng)計(jì)的方法

      在微博評(píng)論文本的新詞識(shí)別方面,Yang 等[3]采用改進(jìn)互信息篩選出大于2 字組成的候選新詞,再利用鄰接熵確定新詞。在產(chǎn)品評(píng)論方面,Zhu 等[4]通過(guò)互信息與改進(jìn)鄰接熵從產(chǎn)品評(píng)論中發(fā)現(xiàn)潛在詞集,從而有效判斷用戶的隱私偏好;王煜等[5]使用改進(jìn)頻繁樹算法篩選出候選新詞,引入時(shí)間逐點(diǎn)互信息判定候選新詞內(nèi)部結(jié)合度和時(shí)間性,加入時(shí)間特征提高熱點(diǎn)新詞識(shí)別率;Kim 等[6]對(duì)谷歌與蘋果使用的本地化差分隱私(Local Differential Privacy,LDP)進(jìn)行改進(jìn),從而解決一詞多個(gè)LDP report 導(dǎo)致的計(jì)算成本與隱私預(yù)算問(wèn)題;Wu等[7]利用在線資源構(gòu)建俚語(yǔ)情感詞典,有助于俚語(yǔ)情感新詞的識(shí)別與情感分析的任務(wù);Qian 等[8]則針對(duì)傳統(tǒng)分詞技術(shù)難以切分保留新詞的問(wèn)題,提出一種基于詞嵌入的方法,結(jié)合詞嵌入和頻繁N-gram 串完成新詞發(fā)現(xiàn);Shang[9]將相似度和互信息組合為相似度增強(qiáng)互信息,提出了一種基于相似度判斷的新詞發(fā)現(xiàn)算法。針對(duì)諧音新詞的識(shí)別,目前有Chung等[10]采用混合數(shù)字與符號(hào)的中文諧音新詞發(fā)現(xiàn)方法BNShCNs(Blended Numeric and symbolic homophony Chinese Neologisms),針對(duì)臺(tái)灣批踢踢(PTT)在線社區(qū)文本發(fā)現(xiàn)數(shù)字諧音詞,采用無(wú)監(jiān)督方法獲得候選新詞。

      1.2 基于規(guī)則與統(tǒng)計(jì)相結(jié)合的方法

      趙志濱等[11]通過(guò)構(gòu)建領(lǐng)域句法詞典,結(jié)合詞向量技術(shù)實(shí)現(xiàn)了領(lǐng)域新詞發(fā)現(xiàn)。張爽等[12]基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型,提出了一種依存句法與語(yǔ)義信息結(jié)合的相似性計(jì)算模型(similarity computing model based on Dependency Syntax and Semantics,DSSCNN),融合相似度判斷以更有效地發(fā)現(xiàn)新詞。針對(duì)社交媒體內(nèi)容中的新詞,Zalmout 等[13]提出了一種無(wú)監(jiān)督的方法來(lái)檢測(cè)Reddit 評(píng)論數(shù)據(jù)中的新詞,而且并不依賴于并行訓(xùn)練數(shù)據(jù)。Li 等[14]針對(duì)相鄰兩字的凝固度導(dǎo)致錯(cuò)誤分詞的情況,提出了一種基于N-gram 模型和多特征頻率的新詞發(fā)現(xiàn)算法。在新情感詞提取方面,Zhang 等[15]提出了一種基于序列標(biāo)注和句法分析的數(shù)據(jù)處理方法,從產(chǎn)品評(píng)論中獲取新情感詞的候選集。在英文新詞識(shí)別方面,Ryskina 等[16]從語(yǔ)義分布、語(yǔ)義稀疏性的內(nèi)部因素和技術(shù)文化變化的外部因素綜合考慮英文新詞識(shí)別。

      1.3 基于深度學(xué)習(xí)的方法

      針對(duì)金融市場(chǎng)的分析,Yan 等[17]提出了SD-SPP(Source Diversity-Significance of Principal Patterns),使用動(dòng)態(tài)特征描述上下文模式相似性進(jìn)行新詞識(shí)別。針對(duì)twitter 等社交媒體中的新詞,Sarna 等[18]提出一種從社交媒體信息中提取關(guān)鍵詞的新方法,根據(jù)現(xiàn)有的字典和概率找到每個(gè)域的新單詞。而McCrae[19]針對(duì)形容詞-名詞形式的新詞,采用預(yù)訓(xùn)練的語(yǔ)言模型進(jìn)行識(shí)別,并與單個(gè)嵌入詞進(jìn)行比較。Liang等[20]提出了邊緣似然法和獨(dú)立領(lǐng)域的中文新詞檢測(cè),有效提高了中文新詞邊界和域外數(shù)據(jù)發(fā)現(xiàn)新詞的準(zhǔn)確率。Wang[21]將未標(biāo)記數(shù)據(jù)與統(tǒng)計(jì)方法結(jié)合,并將標(biāo)記數(shù)據(jù)與隱馬爾可夫模型相結(jié)合來(lái)增強(qiáng)新詞識(shí)別效果。

      基于以上研究分析,現(xiàn)有方法雖然可以有效識(shí)別中文新詞,但仍有不足之處。現(xiàn)有中文新詞識(shí)別方法很少考慮諧音新詞,在分詞階段采用針對(duì)新詞識(shí)別的分詞方法將諧音新詞切分成多個(gè)舊詞,導(dǎo)致諧音新詞的識(shí)別率不高。本文將候選新詞與中文詞典中的詞轉(zhuǎn)換成拼音,進(jìn)行相似度比較,判斷比較結(jié)果中與舊詞相似度最大的候選詞是否為諧音新詞,從而提高諧音新詞識(shí)別準(zhǔn)確率。

      2 微博評(píng)論文本候選新詞的確定

      微博面向年輕用戶群體,里面的評(píng)論文本具有創(chuàng)新性、靈活性,評(píng)論新詞涉及領(lǐng)域廣、構(gòu)詞模式自由,微博評(píng)論文本分詞效果直接影響預(yù)選新詞的獲取效果,進(jìn)而影響后續(xù)新詞識(shí)別的準(zhǔn)確率。本文預(yù)選新詞獲取的流程如圖2 所示。

      圖2 微博評(píng)論文本預(yù)選新詞的獲取Fig.2 Candidate new word acquisition from Weibo comment text

      2.1 文本預(yù)處理

      微博評(píng)論文本中含有大量表情符號(hào)、特殊字符串等不利于分詞的無(wú)用信息,需要經(jīng)過(guò)預(yù)處理。

      1)將文本字符轉(zhuǎn)換為UTF-8 編碼。

      2)過(guò)濾掉微博文本中網(wǎng)址鏈接、@用戶名等特殊字符串。

      3)過(guò)濾掉微博文本中重復(fù)聚集字符串,如“!??!”“???”“……”等。

      4)查找文本中連續(xù)的數(shù)字和英文字母,并將它們作為單字,防止一個(gè)詞中英文字母和數(shù)字的數(shù)量超過(guò)最大詞窗口導(dǎo)致分詞錯(cuò)誤的問(wèn)題。

      5)采用N-gram 模型對(duì)文本進(jìn)行切分,考慮到目前諧音詞多是4 字以內(nèi)的組成形式,本文的N-gram 最大詞窗口取4,以減少4 字諧音詞未被正確切分的情況。

      6)對(duì)于切分后得到的詞,用詞典過(guò)濾掉已有的詞。

      2.2 候選新詞獲取

      對(duì)預(yù)處理后的文本采用互信息和改進(jìn)鄰接熵進(jìn)行候選新詞篩選。互信息表示兩個(gè)對(duì)象間相互依賴的程度,可表示字與字、字與詞之間的相關(guān)性,相關(guān)性越大,字與字、字與詞的成詞概率越大,依賴程度越高。本文采用平均互信息(Average Mutual Information,AMI)來(lái)表示字或詞x、y之間的相關(guān)性,如式(1)所示:

      其中:n表示x,y組成的候選詞的長(zhǎng)度;p(x)、p(y)表示字或詞x、y單獨(dú)出現(xiàn)在文本中的概率;p(x,y)表示x與y同時(shí)出現(xiàn)在文本中的概率;AMI(x,y) 表示x與y的相關(guān)聯(lián)程度。當(dāng)AMI(x,y)>0 時(shí),表示x與y相互關(guān)聯(lián),AMI(x,y)越大,兩者關(guān)聯(lián)程度越高,越有可能成為新詞。

      使用左右鄰接熵來(lái)確定新詞左右邊界。鄰接熵可以衡量候選新詞的左右鄰接字符的不確定性,不確定性越大,說(shuō)明左右鄰接字符包含的信息越多,成詞的概率越高。左、右鄰接熵分別如式(2)、(3)所示。

      其中:N(wi,w)表示wi與w同時(shí)出現(xiàn)的次數(shù);N(wj,w)表示wj與w同時(shí)出現(xiàn)的次數(shù);N(w)表示w出現(xiàn)的次數(shù)。

      考慮因式(2)或式(3)值過(guò)大或過(guò)小,導(dǎo)致候選新詞鄰接熵偏大的情況,假如新詞的左鄰接熵遠(yuǎn)低于右鄰接熵,而作求和運(yùn)算得到的鄰接熵值會(huì)偏大,容易將它劃分為新詞。為減少此類情況出現(xiàn),本文采用一種改進(jìn)的鄰接熵來(lái)表示左右鄰字的豐富程度,綜合左右鄰接熵來(lái)計(jì)算候選新詞鄰接字符的不確定性,如式(6)所示??紤]到HL(w)與HR(w)可能相等,本文改進(jìn)鄰接熵中的分母,采用來(lái)避免分母為0 的情況。

      得到平均互信息與鄰接熵兩個(gè)評(píng)估指標(biāo)后,對(duì)候選新詞進(jìn)行打分,當(dāng)分?jǐn)?shù)超過(guò)閾值時(shí),將它視為新詞。候選新詞的總體得分計(jì)算式如式(7)所示。

      其中:α表示平均互信息的權(quán)重;β表示鄰接熵的權(quán)重。

      3 諧音新詞識(shí)別

      諧音詞具有與原有詞相同的含義,組成形式靈活多樣,較為常見的有中文諧音字詞、英文單詞或數(shù)字替換原字詞組成新詞。為了提高諧音新詞識(shí)別的準(zhǔn)確率,便于含有諧音詞的評(píng)論文本的情感分析,本文將候選諧音新詞轉(zhuǎn)化成漢語(yǔ)拼音,與中文詞典舊詞的漢語(yǔ)拼音比較,從候選諧音新詞中找出候選諧音新詞。對(duì)于含有數(shù)字的諧音新詞,如484(是不是)、521(我愛(ài)你)、886(拜拜咯),每個(gè)數(shù)字都對(duì)應(yīng)一個(gè)原有字從而構(gòu)成諧音詞,因此對(duì)于1~9 的數(shù)字本文同樣采用將其轉(zhuǎn)換成漢語(yǔ)拼音的方式。

      針對(duì)含有英文單詞的諧音新詞,考慮到諧音詞組成的靈活性與易傳播性,通常不會(huì)采用復(fù)雜生僻的英文單詞作為諧音詞,因此本文準(zhǔn)備了包含3 000 個(gè)常用單詞的英文詞典,并保留單詞長(zhǎng)度在3~5 的常用英文單詞,約1 200 個(gè),如表1 所示。如候選諧音新詞“duck 不必”,將英文單詞duck 對(duì)應(yīng)的音標(biāo)[d?k]轉(zhuǎn)換成漢語(yǔ)拼音[da-ke],通過(guò)計(jì)算新詞拼音[da-ke-bu-bi]和舊詞拼音之間的編輯距離與相似度,找到滿足條件的舊詞拼音[da-ke-bu-bi],對(duì)應(yīng)舊詞“大可不必”,則該詞“duck 不必”為諧音新詞,其對(duì)應(yīng)的是中文詞典中的原有詞“大可不必”。首先,調(diào)用函數(shù)庫(kù)將候選諧音新詞與英文詞典中的單詞轉(zhuǎn)換成拼音;其次,計(jì)算候選諧音新詞拼音與中文詞典原有詞拼音的編輯距離;最后,將兩種拼音進(jìn)行相似度比較,找出相似度最高的比較結(jié)果,并對(duì)找出的諧音新詞標(biāo)注其對(duì)應(yīng)的原有詞。

      表1 英文詞典例子Tab.1 Examples of English dictionary

      算法1 諧音新詞識(shí)別的算法。

      輸入 候選諧音新詞w1,中文詞典chinese.xlsx,英文詞典english.xlsx;

      輸出 諧音新詞與它對(duì)應(yīng)的舊詞。

      3.1 詞語(yǔ)拼音的轉(zhuǎn)換與距離計(jì)算

      本文引入一種新的諧音新詞識(shí)別的方法,以識(shí)別包含英文單詞和數(shù)字的諧音新詞。在將候選諧音新詞與中文詞典舊詞轉(zhuǎn)換成拼音s1與s2后,需要計(jì)算兩個(gè)字符串之間的距離。由于是針對(duì)諧音新詞的識(shí)別,不僅要考慮拼音字符串中各個(gè)字符出現(xiàn)的次數(shù),還需要考慮拼音字符串中各個(gè)字符的位置順序,因此本文采用兩種拼音字符串之間的編輯距離Dis(s1,s2),如式(8)所示??傮w思路如下:

      1)s1的第i個(gè)字符與s2的第j個(gè)字符相同時(shí),即無(wú)需對(duì)s1的第i個(gè)字符進(jìn)行操作就能和s2的第j個(gè)字符一致,則edit(i,j)=edit(i-1,j-1),即與s1的前i-1 個(gè)字符到s2的前j-1 個(gè)字符需要操作的次數(shù)一致。

      2)s1的第i個(gè)字符與s2的第j個(gè)字符不同時(shí),需考慮以下三種操作:

      ①刪除操作。edit(i,j)=edit(i-1,j)+1 表 示s1的 前i-1 個(gè)字符已經(jīng)轉(zhuǎn)換為s2的前j個(gè)字符,則在s1的第i個(gè)字符位置只需進(jìn)行一步刪除操作。

      ②插入操作。edit(i,j)=edit(i,j-1)+1 表 示s1的 前i個(gè)字符已經(jīng)轉(zhuǎn)換為s2的前j-1 個(gè)字符,則在s1的第i個(gè)字符位置只需進(jìn)行一步插入操作,插入一個(gè)與s2的第j個(gè)字符相同的字符。

      ③替換操作。edit(i,j)=edit(i-1,j-1)+1 表示s1的前i-1 個(gè)字符已經(jīng)轉(zhuǎn)換為s2的前j-1 個(gè)字符,則在s1的第i個(gè)字符位置只需進(jìn)行一步替換操作,替換一個(gè)與s2的第j個(gè)字符相同的字符。

      對(duì)于s1與s2其中一個(gè)的字符串長(zhǎng)度為0 時(shí),它們的編輯距離為另一個(gè)的字符串長(zhǎng)度大小。由于本文考慮的是候選諧音新詞字符串與中文詞典舊詞字符串的編輯距離計(jì)算,理論上不存在其中一個(gè)長(zhǎng)度為0 的情況。

      其中:i表示候選諧音新詞拼音字符串s1的下標(biāo),從1 開始;j表示中文詞典舊詞拼音字符串s2的下標(biāo),從1 開始表示當(dāng)前候選諧音新詞拼音字符串s1的下標(biāo)為i對(duì)應(yīng)的字符表示當(dāng)前中文詞典舊詞拼音字符串s2的下標(biāo)為j對(duì)應(yīng)的字符;edit(i,j)與Disi,j(s1,s2)表示長(zhǎng)度為i的當(dāng)前候選諧音新詞的拼音字符串s1和長(zhǎng)度為j的當(dāng)前中文詞典舊詞拼音字符串s2之間的編輯距離。

      算法2 候選諧音新詞拼音與舊詞拼音編輯距離的算法。

      輸入 候選諧音新詞w1,詞典舊詞w2;

      輸出 候選諧音新詞拼音字符串s1與其對(duì)應(yīng)的舊詞拼音字符串s2的編輯距離Dis(s1,s2)。

      3.2 拼音相似度比較

      經(jīng)過(guò)3.1 節(jié)候選諧音新詞與中文詞典舊詞的拼音轉(zhuǎn)換后,計(jì)算出當(dāng)前候選諧音新詞拼音與各個(gè)中文詞典舊詞拼音的編輯距離Dis(s1,s2),然后通過(guò)本節(jié)計(jì)算候選新詞拼音與中文詞典舊詞拼音之間的相似度Sim(s1,s2),如式(9)所示:

      其中:n1為候選新詞拼音字符串s1的長(zhǎng)度;n2為中文詞典舊詞拼音字符串s2的長(zhǎng)度。s1與s2之間的編輯距離Dis(s1,s2)越小,s1與s2之間越相似,它們的相似度Sim(s1,s2)越大。

      本文保留相似度Sim(s1,s2)最大時(shí)對(duì)應(yīng)的候選新詞,并與閾值進(jìn)行比較,若超過(guò)閾值,則將該候選諧音新詞判定為諧音新詞。當(dāng)多個(gè)候選新詞找到對(duì)應(yīng)的舊詞,且這些候選新詞在文本中相鄰出現(xiàn),則將這些候選新詞合并,并認(rèn)為由這些候選新詞共同組成一個(gè)候選諧音新詞??紤]到諧音詞讀音與原詞讀音多為同音或近音,本文優(yōu)先考慮同音詞與近音詞作為候選諧音新詞。

      4 實(shí)驗(yàn)與結(jié)果分析

      本文的實(shí)驗(yàn)環(huán)境如下:采用Windows 10 版本,64 位操作系統(tǒng),CPU 為12 代i5 12400F,GPU 為NVIDIA GeForce RTX 3060 12 GB,16 GB 內(nèi)存,數(shù)據(jù)讀取采用MySQL,編程語(yǔ)言為Python3.7。選取的數(shù)據(jù)集如下:

      數(shù)據(jù)集1 本文爬取的當(dāng)下微博熱門話題的評(píng)論數(shù)據(jù)集,包含類別、話題、內(nèi)容、評(píng)論、情感極性等微博語(yǔ)料,選取其中10 000 條評(píng)論文本數(shù)據(jù)。

      數(shù)據(jù)集2 北理工NLPIR 大數(shù)據(jù)搜索挖掘?qū)嶒?yàn)室的微博評(píng)論數(shù)據(jù)集,包含500 萬(wàn)條微博語(yǔ)料,隨機(jī)抽取其中10 000條評(píng)論文本數(shù)據(jù)。

      表2 列舉了兩個(gè)數(shù)據(jù)集中的部分內(nèi)容。

      表2 實(shí)驗(yàn)數(shù)據(jù)舉例Tab.2 Examples of experimental data

      4.1 評(píng)價(jià)指標(biāo)

      實(shí)驗(yàn)采用準(zhǔn)確率P(Precision)、召回率R(Recall)和F1 分?jǐn)?shù)F作為評(píng)價(jià)指標(biāo),如式(10)~(12)所示。

      其中:N為實(shí)驗(yàn)獲得的諧音新詞總個(gè)數(shù);M為微博語(yǔ)料中存在的諧音新詞總個(gè)數(shù)。

      4.2 實(shí)驗(yàn)方法

      本文的具體實(shí)驗(yàn)操作如下。

      步驟1 數(shù)據(jù)預(yù)處理。過(guò)濾掉數(shù)據(jù)集中重復(fù)和特殊的字符串,對(duì)文本進(jìn)行分字與分詞處理,得到分詞后的數(shù)據(jù)。

      步驟2 基于統(tǒng)計(jì)的新詞識(shí)別。數(shù)據(jù)經(jīng)預(yù)處理后,計(jì)算詞的互信息得到候選新詞,改進(jìn)鄰接熵確立新詞邊界,得到新詞。

      步驟3 諧音新詞識(shí)別。將所有新詞與中文詞典中的詞轉(zhuǎn)換成拼音,采用編輯距離找出相似度最大的新詞與詞典中的詞,若相似度超過(guò)閾值,則將新詞判定為諧音新詞。

      為了驗(yàn)證本文諧音新詞發(fā)現(xiàn)方法的有效性,設(shè)置對(duì)比實(shí)驗(yàn),對(duì)比方法如下:

      1)BNShCNs[10]:利用無(wú)監(jiān)督方法獲取候選新詞,通過(guò)詞嵌入向量篩選出數(shù)字諧音新詞。

      2)DSSCNN[12]:基于字粒度根據(jù)統(tǒng)計(jì)量獲取候選新詞,并通過(guò)新詞與歷史表達(dá)的句法結(jié)構(gòu)與上下文語(yǔ)義計(jì)算語(yǔ)句相似度來(lái)獲取新詞。

      為了驗(yàn)證改進(jìn)的外部統(tǒng)計(jì)篩選新詞以及拼音相似度比較對(duì)整體諧音新詞發(fā)現(xiàn)方法效果起作用,分別改變這兩個(gè)部分的方法,其他部分保持不變。設(shè)置消融實(shí)驗(yàn)進(jìn)行對(duì)比。

      1)改進(jìn)內(nèi)外部統(tǒng)計(jì)(方法1):不進(jìn)行新詞與詞典舊詞的拼音相似度比較,對(duì)微博評(píng)論文本預(yù)處理后,結(jié)合平均互信息與改進(jìn)鄰接熵的綜合得分來(lái)獲取諧音新詞。

      2)內(nèi)外部統(tǒng)計(jì)+拼音相似度比較(方法2):在預(yù)選新詞的外部統(tǒng)計(jì)階段,對(duì)左右鄰接熵求和來(lái)判斷其值是否超過(guò)閾值來(lái)劃分該詞是否為新詞,再采用新詞與詞典舊詞的拼音相似度比較方法獲取諧音新詞。

      4.3 實(shí)驗(yàn)結(jié)果及分析

      根據(jù)4.2 節(jié)的實(shí)驗(yàn)方法,本文進(jìn)行如下實(shí)驗(yàn)。

      1)在數(shù)據(jù)集1 上,不同方法獲取諧音新詞的實(shí)驗(yàn)結(jié)果如表3 所示。本文方法在數(shù)據(jù)集1 上的F1、準(zhǔn)確率、召回率比BNShCNs 提高了1.75、0.51 和2.91 個(gè)百分點(diǎn)。BNShCNs 能更好地識(shí)別數(shù)字諧音新詞,而數(shù)據(jù)集1 還含有中英文諧音新詞,導(dǎo)致該方法對(duì)諧音新詞識(shí)別的總體效果下降。相較于DSSCNN,本文方法的F1、準(zhǔn)確率、召回率提高了5.81、5.27與6.31 個(gè)百分點(diǎn)。

      表3 不同方法在數(shù)據(jù)集1、2上的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.3 Comparison of experimental results of different methods on dataset 1 and 2 unit:%

      2)在數(shù)據(jù)集2 上,不同方法獲取諧音新詞的實(shí)驗(yàn)結(jié)果如表3 所示。本文方法的召回率比BNShCNs 高0.26 個(gè)百分點(diǎn),但準(zhǔn)確率和F1 降低了1.62 和0.66 個(gè)百分點(diǎn)。可能是本文方法在數(shù)據(jù)集2 上獲得的諧音新詞較多,但與數(shù)據(jù)集上相符的諧音新詞較少,導(dǎo)致和BNShCNs 相比在準(zhǔn)確率和F1 上有所下降。相較于DSSCNN,本文方法的準(zhǔn)確率、召回率和F1 提高了4.24、5.77 和5.02 個(gè)百分點(diǎn)。

      本文方法在兩個(gè)數(shù)據(jù)集上的結(jié)果均高于DSSCNN 方法,這可能是DSSCNN 方法雖然能有效識(shí)別新詞,但沒(méi)有針對(duì)諧音新詞的識(shí)別,導(dǎo)致該方法在本實(shí)驗(yàn)結(jié)果中的諧音新詞識(shí)別效果不好。各方法在數(shù)據(jù)集2 上的實(shí)驗(yàn)結(jié)果普遍較低,這可能是該數(shù)據(jù)集非針對(duì)包含諧音新詞的評(píng)論文本收集,導(dǎo)致各方法在本實(shí)驗(yàn)結(jié)果的諧音新詞識(shí)別效果整體有所下降。

      3)消融實(shí)驗(yàn)的結(jié)果如表4 所示。本文方法在數(shù)據(jù)集1 上的F1、準(zhǔn)確率、召回率比方法1 高出了12.60、12.08 和13.09個(gè)百分點(diǎn)。因?yàn)榉椒? 缺少對(duì)諧音新詞的篩選,將所有識(shí)別出的新詞作為諧音新詞的識(shí)別結(jié)果,導(dǎo)致諧音新詞識(shí)別的準(zhǔn)確率不高。相較于方法2,本文方法的F1、準(zhǔn)確率、召回率提高了10.18、10.12 和10.23 個(gè)百分點(diǎn)。這是由于部分候選新詞的左鄰接熵或右鄰接熵過(guò)小,但左右鄰接熵之和大于閾值,被錯(cuò)誤篩選成新詞,影響了諧音新詞識(shí)別結(jié)果。

      表4 中文諧音新詞發(fā)現(xiàn)方法的消融實(shí)驗(yàn)結(jié)果 單位:%Tab.4 Ablation experimental results of Chinese new homophonic word discovery method unit:%

      從表3~4 可以看出:融入拼音相似度比較的諧音新詞識(shí)別方法在準(zhǔn)確率、召回率和F1 上均有一定提升;使用改進(jìn)的外部統(tǒng)計(jì)方法識(shí)別新詞在一定程度上提高了諧音新詞識(shí)別的效果。諧音新詞識(shí)別的準(zhǔn)確率得到提升的重要原因是本文方法考慮了平均互信息與改進(jìn)鄰接熵的綜合得分來(lái)獲取新詞,并利用拼音相似度對(duì)諧音詞拼音與舊詞拼音比較,找出與舊詞發(fā)音最相似的諧音新詞,有利于諧音新詞的識(shí)別。

      5 結(jié)語(yǔ)

      為了豐富諧音新詞的語(yǔ)義信息,提高諧音新詞識(shí)別的準(zhǔn)確率,本文提出一種諧音新詞發(fā)現(xiàn)方法。通過(guò)對(duì)分詞后的文本計(jì)算平均互信息得到候選新詞,利用改進(jìn)鄰接熵篩選出新詞,并將拼音的相似度比較應(yīng)用于諧音新詞識(shí)別方法,提高了諧音新詞識(shí)別的準(zhǔn)確率。

      實(shí)驗(yàn)結(jié)果表明,在微博評(píng)論文本的諧音新詞識(shí)別方面,使用中文拼音進(jìn)行相似度比較能提高諧音新詞的識(shí)別效果。未來(lái)將基于本文方法,結(jié)合深度學(xué)習(xí)Bi-LSTM-CRF(Bidirectional Long Short-Term Memory Conditional Random Field)利用上下文信息識(shí)別低頻新詞,從而對(duì)諧音新詞的識(shí)別效果進(jìn)一步改進(jìn),推進(jìn)中文新詞識(shí)別等研究。

      猜你喜歡
      個(gè)字符字符串諧音
      勇闖長(zhǎng)龍陣
      《諧音詞里的民俗》
      諧音詞的規(guī)則
      絕妙的數(shù)字燈謎
      不讓長(zhǎng)文件名成為“絆腳石”
      電腦迷(2014年8期)2014-04-29 07:37:40
      一種新的基于對(duì)稱性的字符串相似性處理算法
      依據(jù)字符串匹配的中文分詞模型研究
      一種針對(duì)Java中字符串的內(nèi)存管理方案
      工資報(bào)表計(jì)算機(jī)軟件論述
      卷宗(2011年9期)2011-05-14 17:51:19
      庖丁解牛,小說(shuō)按章分割
      乡宁县| 河津市| 万全县| 涿鹿县| 桃园市| 儋州市| 西贡区| 泽普县| 永修县| 玉溪市| 府谷县| 台安县| 本溪| 称多县| 嵩明县| 绥宁县| 德昌县| 东阿县| 资兴市| 定边县| 成武县| 札达县| 赫章县| 仙桃市| 常宁市| 北海市| 习水县| 海门市| 芷江| 罗田县| 阳新县| 平江县| 济源市| 潜山县| 广河县| 磐石市| 钟山县| 栖霞市| 陇川县| 化德县| 历史|