• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于上下文相關(guān)的未知實體詞識別方法

    2016-11-01 06:44:08黃文茜
    電子科技大學學報 2016年5期
    關(guān)鍵詞:歧義分詞文檔

    夏 虎,黃文茜

    ?

    基于上下文相關(guān)的未知實體詞識別方法

    夏 虎1,2,黃文茜2

    (1. 電子科技大學大數(shù)據(jù)研究中心 成都 611731;2. 電子科技大學互聯(lián)網(wǎng)科學中心 成都 611731)

    現(xiàn)有的未知實體詞識別方法主要針對人名、地名、機構(gòu)名等具有特定結(jié)構(gòu)的實體詞進行識別,而隨著電子商務(wù)和社交網(wǎng)絡(luò)的快速發(fā)展,出現(xiàn)了大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞。針對該問題,提出兩種基于上下文相關(guān)的未知詞識別算法,通過計算詞(字)和詞(字)之間的上下文相關(guān)性,得到其潛在組合的支持度,并通過過濾模塊過濾掉錯誤的組合,實現(xiàn)具有非確定型結(jié)構(gòu)的未知實體詞識別。實驗表明,該算法具有較高的準確率,并且可以通過調(diào)整參數(shù)適應(yīng)不同的應(yīng)用場景。

    關(guān)聯(lián)規(guī)則; 上下文相關(guān); 未知詞識別; 詞義消歧

    命名實體是文本中承載信息的重要語言單位,命名實體的識別在網(wǎng)絡(luò)信息抽取、網(wǎng)絡(luò)內(nèi)容分析和知識工程等領(lǐng)域都占有非常重要的地位。傳統(tǒng)的命名實體識別主要針對人名、地名、機構(gòu)名以及產(chǎn)品命名實體等具有特定結(jié)構(gòu)的實體詞[1]。然而,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞,例如電子商務(wù)中大量出現(xiàn)的新商品名稱、網(wǎng)絡(luò)用語“醬紫(這樣子)、斑竹(版主)”等,這類未知詞結(jié)構(gòu)多樣,沒有特定的規(guī)律,用傳統(tǒng)的未知詞識別方法難以有效識別。

    目前未知詞識別領(lǐng)域的研究主要有3種方法:基于統(tǒng)計的方法、基于規(guī)則的方法以及兩者結(jié)合的方法。基于統(tǒng)計的方法認為:如果若干個相鄰的字或詞經(jīng)常同時出現(xiàn),它們則可能是一個新詞。這種方法簡單高效易實現(xiàn),但需要大量訓練數(shù)據(jù),而且由于未考慮不同詞的構(gòu)詞能力[2]和構(gòu)詞模式,識別的準確率不高?;谝?guī)則的方法通過標注詞典和成詞規(guī)則來識別新詞,這些規(guī)則往往需要專家針對特定領(lǐng)域來具體制定,該方法準確率高,但規(guī)則制定費時費力,且不同領(lǐng)域需要重新制定相應(yīng)規(guī)則,領(lǐng)域適應(yīng)性差。針對上述兩種方法中的問題,越來越多的研究者采用統(tǒng)計與規(guī)則相結(jié)合的思路,取得了許多顯著的成果,本文采用的基于上下文相關(guān)的算法即為其中一種。

    一個字或詞的上下文是指出現(xiàn)在它前后的那些字或詞,在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們越有可能是一個“未知詞”,例如“清倉/圣/麗/奴/時尚/女/挎包”、“橫款/圣/麗/奴/兩用/包”、“高級/提花布/深/咖/圣/麗/奴/女/挎包”的分詞結(jié)果可以看出,“麗”的上下文信息中總是包括“圣”和“奴”,也就是說“圣”、“麗”、“奴”3個字經(jīng)常依此順序共同出現(xiàn),而“圣麗奴”整體并沒有固定的上下文信息,因此本文認為“圣麗奴”有較大概率為一個未知實體詞。

    以上述理論為基礎(chǔ),本文提出了兩種基于上下文信息進行未知詞識別的方法。其中,基于最大組合的上下文相關(guān)算法(MC)利用統(tǒng)計的手段,獲取由二元組、三元組、四元組、五元組構(gòu)成的候選未知實體詞集,然后利用上下文信息對候選未知實體詞進行支持度過濾、歧義過濾和最大組合過濾,獲取真正的未知實體詞。

    進一步,本文提出了一種基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC),在FP樹構(gòu)建和頻繁模式挖掘過程中加入各“項”(分詞后的字或詞)在文中出現(xiàn)的下標信息,利用此信息保證挖掘出的頻繁模式中各項在文中的相鄰關(guān)系以及前后順序。從而避免了傳統(tǒng)FP-growth算法不能保證挖掘出各項之間原始的相鄰關(guān)系和前后順序而不適合用于未知實體詞識別的問題。

    實驗結(jié)果表明,在某電子商務(wù)網(wǎng)站的2 000個商品網(wǎng)頁源文件上進行的3個類別數(shù)據(jù)集上,本文的兩種方法均能有效地對結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞進行識別,具有較高的準確率。

    1 相關(guān)研究

    文獻[3]提出了一種基于角色標注的中文未登錄詞識別通用方法。該方法依據(jù)角色,即未登錄詞的內(nèi)部組成成分、上下文及句子中的其他成分來識別未登錄詞。算法簡單可行,具備較好的準確率和召回率,尤其適用于中國人名和音譯名的識別。

    文獻[4]提出了一種隱馬爾科夫模型(hidden Markov model, HMM)和一個基于HMM的塊標注器,并在此基礎(chǔ)上建立了命名實體識別系統(tǒng)(NER)以識別姓名、時間以及數(shù)字量。系統(tǒng)整合了四方面的證據(jù):詞語包含的簡單且確定性的內(nèi)部特征,如大寫、數(shù)字、觸發(fā)器等內(nèi)部語義特征以及外部上下文特征。該系統(tǒng)在蛋白基因(MUC-6和MUC-7)的英文命名實體識別任務(wù)中分別達到了96.6%和94.1%的準確率。

    文獻[5]提出了一種基于支持向量機(SVM)的命名實體識別系統(tǒng)。該系統(tǒng)從文檔中提取名稱、數(shù)字信息并將其分類成人名、組織名以及日期。該系統(tǒng)取得了較高的準確率,并且解決了傳統(tǒng)SVM效率不高的問題。文獻[6]則提出利用SVM進行生物醫(yī)學命名實體識別。該系統(tǒng)采用了字詞緩存以及HMM狀態(tài)兩個新特征,在GENIA語料庫上取得了令人滿意的結(jié)果。

    文獻[7]提出了一種組合分類器的實驗框架以識別命名實體。該框架組合了4個不同的分類器:魯棒的線性分類器、最大熵模型、遷移學習及隱馬爾科夫模型。文獻[8]提出基于最大熵模型的命名實體識別系統(tǒng),該系統(tǒng)直接利用整篇文檔的全局信息來分類每一個具體的詞,并且僅使用了一個分類器而不是二級分類器。

    文獻[9]提出了一種基于網(wǎng)絡(luò)資源的未登錄詞擴展識別方法。該方法利用統(tǒng)計的思想,以左右鄰信息判斷未登錄詞邊界,對已識別出的二元候選未登錄詞進行擴展,找出具有更完整語義的不限長度復(fù)合未登錄詞。該方法簡單高效,但沒有充分考慮不同詞的構(gòu)詞能力和構(gòu)詞模式,容易因成詞率低的高頻詞引發(fā)擴展錯誤,因此準確率不高。

    文獻[10]提出了一種基于統(tǒng)計和規(guī)則的未登錄詞識別方法。該方法將文本分詞后的碎片切分形成臨時詞典,再利用規(guī)則和詞頻對其賦以不同的權(quán)值,最后用貪心算法得到碎片的最長路徑,從而識別出未登錄詞,并進一步利用互信息提取若干個詞組成未登錄詞(組)。該方法能正確識別出碎片中的大部分未登錄詞,但是識別正確性依賴于分詞性能且對人名的識別規(guī)則不夠完善。

    文獻[11]提出先將文本進行分詞,再利用N-Grams方法得到候選未登錄詞集,之后通過概率統(tǒng)計的手段從中識別出未登錄詞。但這種方法在各個閾值的設(shè)定、中文詞組的確定規(guī)則以及噪音字的選取方面仍需進一步完善。

    綜上所述,目前未知詞識別的研究對象主要集中在人名、地名、機構(gòu)名或者產(chǎn)品命名實體等具有特定結(jié)構(gòu)的實體詞上,對于近幾年網(wǎng)絡(luò)中出現(xiàn)的大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞的研究較少,本文特針對該問題提出兩種識別方法。

    2 基于最大組合的上下文相關(guān)算法(MC算法)

    一個字或詞的上下文是指出現(xiàn)在它前后的那些字或詞,在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們越有可能是一個“未知詞”。本文算法充分利用字詞的上下文關(guān)系統(tǒng)計獲取候選未知詞集,然后通過支持度過濾、歧義過濾以及最大組合過濾篩選出最終的未知詞,具體流程如下:

    1) 對于輸入文檔集中的任一文檔,首先將文本中“,、。;:”5種標點替換為換行符得到文檔;

    2) 對文檔分詞,得到文檔,將中的每個詞/字作為基本單位“項”,對于每一行文本,統(tǒng)計該行相鄰項之間形成的元組(2≤≤5)出現(xiàn)的次數(shù)count,形成集合<元組, count>;

    3) 將中具有相同元組的count值合并,作為該元組在文檔中的總支持度,并過濾掉count

    4) 進行歧義過濾(參考2.1節(jié))及最大組合過濾(參考2.2節(jié)),得到最終識別出的未知實體詞;

    5) 相同未知詞可能出現(xiàn)在單一文檔的不同位置,也可能出現(xiàn)在文檔集的任一文檔中,因此需要針對所有文檔遍歷完后得到的組合集totalPat中再進行一遍歧義過濾和最大組合過濾。最后得到的結(jié)果保存在未知詞集unKnown中,算法結(jié)束。

    2.1 歧義過濾

    歧義過濾是指若識別出兩個“歧義組合”,僅保留count值最大的未知詞組合。歧義組合定義如下:

    定義1 歧義組合

    如圖1所示,在“施華洛世奇水晶鏈墜”的分詞字符串中,“世奇”和“奇水晶”就是一對歧義組合,兩種劃分方式必然只有一種正確。根據(jù)“世奇”與“奇水晶”在全文中的支持度,可以過濾掉支持度較低的“奇水晶”這樣的錯誤組合。

    2.2 最大組合過濾

    最大組合過濾是指若識別出若干個具有“歧義父子串關(guān)系”的組合,則保留歧義父串而去掉歧義子串。歧義父子串關(guān)系定義如下。

    定義2 歧義父子串

    如圖2所示,在“施華洛世奇水晶鏈墜”的分詞字符串中,“施華洛世奇”與“施華洛世”、“華洛世奇”、“華洛世”等具有相同的支持度,構(gòu)成了歧義父子串關(guān)系,根據(jù)最大組合過濾規(guī)則只保留“施華洛世奇”這一歧義父串組合。

    2.3 MC算法總結(jié)

    基于最大組合的上下文相關(guān)算法MC利用統(tǒng)計信息構(gòu)造候選未知詞集,然后通過支持度過濾、歧義過濾以及最大組合過濾,刪除候選未知詞集合中絕大部分錯誤的候選詞,從而識別出正確的未知實體詞。

    MC算法簡單高效,可以有效識別出網(wǎng)頁中的未知實體詞。MC算法的主要思想是認為在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們越有可能是一個“未知詞”。而關(guān)聯(lián)規(guī)則算法是挖掘數(shù)據(jù)項共同出現(xiàn)關(guān)系的經(jīng)典算法。因此,下文基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法FPC提出利用關(guān)聯(lián)規(guī)則挖掘字詞間的共現(xiàn)關(guān)系來識別未知實體詞。

    3 基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC算法)

    FP-growth算法[12]是一種高效的關(guān)聯(lián)規(guī)則挖掘算法,但是由于未保證挖掘出的頻繁模式中各項間的相鄰關(guān)系和前后順序而不適合直接用做未知詞識別。本文提出的基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法改進了FP-growth算法,在FP樹構(gòu)造過程以及頻繁模式挖掘過程均充分利用了文檔中各項出現(xiàn)位置的下標信息,有效地保證了所挖掘頻繁模式中的各項間具備正確的相鄰關(guān)系以及前后順序,亦即保證了識別出的未知詞在上下文意義上的正確性。

    與MC算法類似,本文算法首先對輸入文檔集中的每一個文檔d進行文本切分處理,即將其中的“、,。;:”5種標點換為換行符得到文檔,分詞后得到文檔。中每一個分詞后的單位稱為“項”,每一行稱為一條“事務(wù)記錄”。為了存儲每個項在文檔中出現(xiàn)的所有位置的下標,將每一項的數(shù)據(jù)結(jié)構(gòu)定義為,其中name是該項的名字,index是該項在文檔中出現(xiàn)的位置編號數(shù)組,flag是排序的標志,用于將之后挖掘出的頻繁模式按照在文中出現(xiàn)的先后順序排序。對于文檔,F(xiàn)PCTree構(gòu)造與頻繁模式挖掘的過程如下。

    1) FPCTree的構(gòu)造

    ①掃描文檔,得到頻繁1項集,對它們的支持度計數(shù),統(tǒng)計index信息,將頻繁1項集按照支持度遞減排序,若支持度相同,則按照各項在文中出現(xiàn)的先后順序排序。刪除支持度小于minSup的項,得到1項集。

    ③第二次掃描文檔,每條事務(wù)記錄中的項按照1中的順序排序,設(shè)排序后的頻繁項表為,其中為頻繁項表的第一項,為頻繁項表中的剩余項。調(diào)用函數(shù)遞歸的將每一項加入到FP樹中。執(zhí)行過程如下:首先判斷的兒子節(jié)點中是否存在的同名節(jié)點,即存在一兒子節(jié)點,滿足。若存在,則節(jié)點的count計數(shù)加1,將節(jié)點index數(shù)組中的所有下標加入到節(jié)點的index數(shù)組中去;若不存在,則創(chuàng)建一個新節(jié)點,將其count值設(shè)為1,鏈接到它的父節(jié)點,并通過nextHomonym鏈接到下一個同名節(jié)點。將加入到的子節(jié)點數(shù)組中。

    2) 從FPCTree中挖掘候選頻繁模式

    對1中的每一項item執(zhí)行以下步驟:

    ①生成條件模式基。利用nextHomonym信息,找到所有item同名節(jié)點的祖先路徑,路徑上所有節(jié)點count值均設(shè)為item的count值。

    ②構(gòu)建條件FP樹。將條件模式基作為事務(wù)記錄生成條件FP樹。

    ③對于條件FP樹中的每一條長路徑生成項的任意組合方式,得到組合集。過濾掉中支持度小于minSup的組合,得到組合集。對于中的每一個組合,利用各項的index信息判斷組合的上下文順序是否正確。若正確,則獲取該組合的支持度,并且將該組合按照在文中出現(xiàn)的先后順序排序;若不正確,刪掉該組合。得到候選頻繁模式集Pat。

    ④挖掘出所有item的候選頻繁模式后,將相同的模式合并。

    ⑤識別出文檔中的候選未知詞集Pat后,同MC算法一樣,仍然需要在文檔內(nèi)部以及文檔間進行歧義過濾與最大組合過濾,得到最終的未知詞集unKnown,算法結(jié)束。

    4 實驗與分析

    4.1 實驗數(shù)據(jù)和工具

    本文利用爬蟲程序采集了某電商網(wǎng)站2 000個商品源文件,涉及項鏈、涼鞋、包、羽絨服、帽子、連衣裙、圍巾、燈飾、針織衫和牛仔褲等10個類別的商品,每個類別中商品數(shù)量均為200。按商品類別等比例選取其中1 000份作為數(shù)據(jù)集1,剩余1 000份作為數(shù)據(jù)集2。

    實驗首先針對網(wǎng)頁進行數(shù)據(jù)預(yù)處理,去除包括網(wǎng)頁標簽在內(nèi)的無效字段,處理過程非本文重點,在此不再贅述。

    為檢驗本文算法對不同分詞工具的適應(yīng)性,實驗過程分別采用MMAnalyzer和IKanalyzer[13]進行測試。本文實驗采用Precision(準確率)和Recall(召回率)作為評價指標。

    4.2 實驗過程及結(jié)果

    1) 不同數(shù)據(jù)集結(jié)果比較

    表1為MC算法和FPC算法使用不同分詞工具在不同數(shù)據(jù)集上識別效果。對于每一個(算法,分詞工具,數(shù)據(jù)集)的組合,隨著支持度閾值min_sup閾值的增加,Precision和Recall也不斷變化,表1中所有結(jié)果均選取最佳識別效果時的準確率召回率。其中MMAnalyzer和IKAnalyzer分詞工具分別簡寫為MM和IK。

    表1 不同數(shù)據(jù)集上的結(jié)果

    由上表可以看出:對于MC算法、FPC算法、MMAnalyzer分詞工具、IKAnalyzer分詞工具的任意組合,均有較好的準確率和召回率。

    2) 不同分詞工具結(jié)果比較

    觀察兩個算法在分別使用兩個分詞工具時識別結(jié)果的好壞,實驗結(jié)果如圖3所示。

    由圖中可以看出,MC算法和FPC算法在兩個分詞工具上Precision和Recall的走勢一致,Precision隨著最小支持度參數(shù)min_Sup的增加而呈現(xiàn)上升趨勢,在min_Sup=3時突變到一個高點,并在min_Sup>3后趨于穩(wěn)定;Recall隨著min_Sup的增加而呈現(xiàn)下降趨勢,在min_Sup=4時突變到0%附近,并在之后穩(wěn)定于0%。

    準確率突變點的存在是因為電商網(wǎng)站商品網(wǎng)頁經(jīng)過數(shù)據(jù)預(yù)處理后的待識別的未知詞支持度普遍大于等于3,而其他候選未知詞中錯誤的未知詞的支持度普遍小于3,從而導致當min_Sup<3時識別出許多錯誤的未知詞并拉低準確率。召回率突變類似。

    MC算法和FPC算法在使用IKAnalyzer分詞工具時,均可以得到更好的準確率和召回率。這主要是由于算法1和算法2均先對輸入文本進行了分詞處理,分詞的效果將直接影響到未知詞識別的效果。如果分詞工具將一個待識別未知詞的某一部分和其他詞分到了一起,則通過兩個算法都無法識別出正確的未知詞。例如,若未知詞(其中、、為單字或者字串)被分成了和,則經(jīng)過算法1和算法2都無法識別出,而分成和則可以很容易地被兩個算法識別出來。IKAnalyzer分詞工具比MMAnalyzer分詞工具更能避免此類錯誤的分詞結(jié)果,故而具備更高的準確率,又由于在同等情況下能識別出更多的未知詞而具備更高的召回率。算法表現(xiàn)仍然依賴于分詞效果,粒度越細的分詞工具理論上將獲得越好的表現(xiàn)。

    3) 算法的對比

    將使用相同分詞工具時兩個算法的結(jié)果進行對比,如圖4所示。

    由圖4可以看出, FPC算法準確率明顯優(yōu)于MC算法,但召回率則明顯弱于MC算法。由于本文所述的未知詞識別更為強調(diào)較高的準確率,因此本文實驗最終選取minSup=3,犧牲部分召回率換取令人滿意的準確率。

    綜合整個對比分析過程,本文實驗中最終未知詞識別的最佳組合方式為:FPC算法,IKAnalyzer分詞工具,min_Sup=3。

    5 結(jié)束語

    本文針對網(wǎng)絡(luò)中新出現(xiàn)的大量未知實體詞,提出了兩個未知詞識別算法:基于最大組合的上下文相關(guān)算法(MC)和基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC)。兩個算法均充分利用了字詞的上下文關(guān)系信息,可以有效識別專有領(lǐng)域具有非確定型結(jié)構(gòu)的未知實體詞,對于只能識別具有特定結(jié)構(gòu)實體詞的現(xiàn)有算法是一個很好補充。

    實驗表明,本文算法具有較高的準確率。同時,算法可通過調(diào)整支持度閾值參數(shù)min_sup,從而適應(yīng)不同的應(yīng)用場景,具備一定的通用性。

    本文兩個算法中均用到了歧義過濾和最大組合過濾,然而兩種過濾方法均不能完全保證過濾的正確性,如何充分利用詞的構(gòu)詞模式和構(gòu)詞能力形成新的過濾方法是下一步的研究內(nèi)容之一。另外,網(wǎng)頁噪聲處理有多種不同的方法,多種方法對于未知詞識別效果的影響也是下階段研究的重要內(nèi)容。

    參 考 文 獻

    [1] 秦文, 苑春法. 基于決策樹的漢語未登錄詞識別[J]. 中文信息學報, 2004, 18(1): 14-19.

    QIN Wei, YUAN Chun-fa. Identification of Chinese unknown word based on decision tree[J]. Journal of Chinese Information Processing, 2004, 18(1): 14-19.

    [2] 王文榮, 喬曉東, 朱禮軍. 針對特定領(lǐng)域的新詞發(fā)現(xiàn)和新技術(shù)發(fā)現(xiàn)[J]. 現(xiàn)代圖書情報技術(shù), 2008, 161(2): 35-40.

    WANG Wen-rong, QIAO Xiao-dong, ZHU Li-jun. New word and technology discovery of specific domain[J]. New Technology of Library and Information Service, 2008, 161(2): 35-40.

    [3]ZHANG K, LIU Q, ZHANG H, et al. Automatic recognition of Chinese unknown words based on roles tagging[C]//In SIGHAN¢02: Proceedings of the First SIGHAN Workshop on Chinese Language Processing. Association for Computational Linguistics.Stroudsburg: ACM Press, 2002: 1-7.

    [4] ZHOU G D, SU J. Named entity recognition using an HMM-based chunk tagger[C]//In ACL '02: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg: ACM Press, 2002: 473-480.

    [5] ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]//In COLING '02: Proceedings of the 19th International Conference on Computational linguistics. Stroudsburg: ACM Press, 2002: 1-7.

    [6] KAZAMA J, MAKINO T, OHTA Y, et al. Tuning support vector machines for biomedical named entity recognition[C]//In BioMed¢02: Proceedings of the ACL-02 Workshop on Natural Language Processing in the Biomedical Domain. Association for Computational Linguistics. Stroudsburg: ACM Press, 2002: 1-8.

    [7] FLORIAN R, ITTYCHERIAH A, JING H, et al. Named entity recognition through classifier combination[C]//In CONLL¢03: Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003. Stroudsburg: ACM Press, 2003: 168-171.

    [8] CHIEU H L, NG H T. Named entity recognition: a maximum entropy approach using global information[C]//In COLING¢02: Proceedings of the 19th International Conference on Computational Linguistics. Stroudsburg: ACM Press, 2002: 1-7.

    [9] 韓艷, 林煜熙, 姚建民. 基于統(tǒng)計信息的未登錄詞的擴展識別方法[J]. 中文信息學報, 2009, 23(3): 24-30.

    HAN Yan, LIN Yu-xi, YAO Jian-min, Study on Chinese OOV identification based on extension[J]. Journal of Chinese Information Processing, 2009, 23(3): 24-30.

    [10] 周蕾, 朱巧明. 基于統(tǒng)計和規(guī)則的未登錄詞識別方法研究[J]. 計算機工程, 2007, 33(8): 196-198.

    ZHOU Lei, ZHU Qiao-ming. Research on recognition method of unknown Chinese words based on statistic and regulation[J]. Computer Engineering, 2007, 33(8): 196-198.

    [11] 韓潔, 周勇, 劉少輝, 等. 基于WWW的未登錄詞識別研究[J]. 計算機科學, 2002, 29(12): 155-156.

    HAN Jie, ZHOU Yong, LIU Shao-hui, et al. WWW-based recognition of non-login words[J]. Computer Science, 2002, 29(12): 155-156.

    [12] HAN J, KAMBER M, PEI J. Data mining: Concepts and techniques[M]. San Francisco: Morgan Kaufmann, 2006.

    [13] WANG Kun-shan. IKAnalyzer[EB/OL]. [2015-01-17]. https://github. com/ wks/ik-analyzer.

    編 輯 蔣 曉

    Unknown Words Recognition Based on Context-Sensitive Algorithm

    XIA Hu1,2and HUANG Wen-qian2

    (1. Big Data Research Center, University of Electronic Science and Technology of China Chengdu 611731; 2. Web Sciences Center, University of Electronic Science and Technology of China Chengdu 611731)

    Existing unknown words recognition methods mainly focus on unknown words with some specific structure, such as names, places and organizations. However, with the booming of e-commerce and social networking, more and more unknown entity words with uncertain structures appear in specific areas. In order to handle this problem, this paper presents two algorithms of unknown words recognition based on context-sensitive method. We first calculate correlations between any two words in sequence to get support of any potential combination, then filter out wrong combinations by filtering module, and achieve the recognition aiming at the non-deterministic structure of unknown words. Experiment results indicate that two algorithms can achieve a high accuracy. Besides, they can adapt to different application scenarios by adjusting the parameters.

    association rules; context-sensitivity; unknown word recognition; word sense disambiguation

    TP181

    A

    10.3969/j.issn.1001-0548.2016.05.022

    2015-02-06;

    2015-06-15

    國家自然科學基金(61250110543);中央高?;究蒲袠I(yè)務(wù)費(ZYGX2013J079, ZYGX2014Z012, ZYGX2011J067);四川省科技項目(2012RZ0002, 2013TD0006)

    夏虎(1981-),男,博士,主要從事數(shù)據(jù)挖掘、復(fù)雜網(wǎng)絡(luò)方面的研究.

    猜你喜歡
    歧義分詞文檔
    有人一聲不吭向你扔了個文檔
    eUCP條款歧義剖析
    中國外匯(2019年12期)2019-10-10 07:26:58
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    English Jokes: Homonyms
    基于RI碼計算的Word復(fù)制文檔鑒別
    值得重視的分詞的特殊用法
    “那么大”的語義模糊與歧義分析
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    高考分詞作狀語考點歸納與疑難解析
    不讓他人隨意下載Google文檔
    電腦迷(2012年4期)2012-04-29 06:12:13
    a级一级毛片免费在线观看| 久久人人精品亚洲av| 免费不卡的大黄色大毛片视频在线观看 | 简卡轻食公司| 国产在视频线在精品| 在线国产一区二区在线| 在线观看av片永久免费下载| 97在线视频观看| 亚洲av免费高清在线观看| 中文字幕制服av| 91狼人影院| 国产高潮美女av| 97超视频在线观看视频| 亚洲精品国产av成人精品| 99热这里只有精品一区| 三级经典国产精品| 国产真实伦视频高清在线观看| 91久久精品国产一区二区三区| 国产亚洲av嫩草精品影院| 国产91av在线免费观看| 少妇高潮的动态图| 亚洲欧美日韩无卡精品| 一级毛片久久久久久久久女| 少妇人妻精品综合一区二区 | 国产高潮美女av| 五月玫瑰六月丁香| 嫩草影院新地址| 亚洲最大成人手机在线| 久久久久性生活片| 成熟少妇高潮喷水视频| 在线播放国产精品三级| 99热这里只有精品一区| 国产 一区 欧美 日韩| av专区在线播放| 插逼视频在线观看| 国产男人的电影天堂91| 久99久视频精品免费| 国产成人a区在线观看| 国产伦一二天堂av在线观看| 欧美最新免费一区二区三区| 欧美日韩精品成人综合77777| 亚洲国产欧美在线一区| 毛片女人毛片| 国产色爽女视频免费观看| 在线观看免费视频日本深夜| 亚洲一级一片aⅴ在线观看| 女人十人毛片免费观看3o分钟| 久久精品久久久久久久性| 小蜜桃在线观看免费完整版高清| 国产亚洲5aaaaa淫片| 九九热线精品视视频播放| 午夜爱爱视频在线播放| 亚洲成av人片在线播放无| 国内少妇人妻偷人精品xxx网站| 久久精品影院6| 99久国产av精品国产电影| 精品人妻一区二区三区麻豆| 欧美三级亚洲精品| av又黄又爽大尺度在线免费看 | 精品欧美国产一区二区三| 久久精品国产鲁丝片午夜精品| 久久久久久久亚洲中文字幕| 在线播放无遮挡| 国产午夜精品论理片| 午夜免费男女啪啪视频观看| 国产探花极品一区二区| 久久久久久久久久久免费av| 日本熟妇午夜| 免费观看在线日韩| 国产精品综合久久久久久久免费| 亚洲成人中文字幕在线播放| 亚洲国产精品sss在线观看| 亚洲精品亚洲一区二区| 村上凉子中文字幕在线| 久久99蜜桃精品久久| 中文欧美无线码| 亚洲国产精品sss在线观看| 日韩制服骚丝袜av| 麻豆国产av国片精品| 国产在线精品亚洲第一网站| 国产探花极品一区二区| 熟妇人妻久久中文字幕3abv| 国产成人freesex在线| 一级黄色大片毛片| av天堂中文字幕网| 婷婷亚洲欧美| 女同久久另类99精品国产91| 日本免费一区二区三区高清不卡| 欧美日韩精品成人综合77777| 九九久久精品国产亚洲av麻豆| 亚洲精品粉嫩美女一区| 一进一出抽搐动态| 免费av观看视频| 日韩精品青青久久久久久| 麻豆国产97在线/欧美| 97热精品久久久久久| 亚洲第一电影网av| 日本黄大片高清| 少妇的逼好多水| 少妇人妻精品综合一区二区 | 亚洲美女视频黄频| 99久国产av精品国产电影| 一级毛片aaaaaa免费看小| 天天躁夜夜躁狠狠久久av| 中文字幕熟女人妻在线| 成人亚洲精品av一区二区| 国语自产精品视频在线第100页| 日韩制服骚丝袜av| 禁无遮挡网站| 99精品在免费线老司机午夜| 2021天堂中文幕一二区在线观| 在线观看美女被高潮喷水网站| 国产精品久久久久久久久免| 欧美三级亚洲精品| 深爱激情五月婷婷| 天堂影院成人在线观看| 免费观看在线日韩| 欧美一区二区国产精品久久精品| 亚洲av不卡在线观看| 网址你懂的国产日韩在线| 亚洲av.av天堂| 99久国产av精品国产电影| 国产激情偷乱视频一区二区| 看非洲黑人一级黄片| 国产精品久久久久久av不卡| 久久久久久久亚洲中文字幕| 日本五十路高清| 日本av手机在线免费观看| 国产v大片淫在线免费观看| 老熟妇乱子伦视频在线观看| 亚洲国产欧美在线一区| 中文字幕精品亚洲无线码一区| 亚洲精华国产精华液的使用体验 | 成人亚洲精品av一区二区| 国产老妇女一区| 中文精品一卡2卡3卡4更新| 日韩 亚洲 欧美在线| 午夜视频国产福利| 草草在线视频免费看| 最后的刺客免费高清国语| 午夜精品一区二区三区免费看| ponron亚洲| 欧美性感艳星| 久久精品国产亚洲av天美| 精品熟女少妇av免费看| 国产精品精品国产色婷婷| 如何舔出高潮| 免费观看在线日韩| 午夜亚洲福利在线播放| 亚洲不卡免费看| 国产一级毛片七仙女欲春2| 男女边吃奶边做爰视频| 久久精品国产鲁丝片午夜精品| 三级国产精品欧美在线观看| 黄色视频,在线免费观看| 特大巨黑吊av在线直播| 1000部很黄的大片| 免费人成视频x8x8入口观看| 联通29元200g的流量卡| 欧美又色又爽又黄视频| 性色avwww在线观看| 亚洲人成网站在线播| 亚洲一区二区三区色噜噜| 一级毛片电影观看 | 亚洲久久久久久中文字幕| 亚洲电影在线观看av| 久久久久久国产a免费观看| 国产v大片淫在线免费观看| 亚洲人成网站在线播放欧美日韩| 国产精品久久久久久av不卡| 变态另类丝袜制服| 亚洲欧美精品专区久久| 哪里可以看免费的av片| 色综合站精品国产| 国产黄色小视频在线观看| 久久久精品欧美日韩精品| 一级二级三级毛片免费看| 欧美zozozo另类| 18禁在线播放成人免费| 在线免费十八禁| 亚洲成人久久爱视频| 高清毛片免费看| 内地一区二区视频在线| 成人一区二区视频在线观看| 日韩在线高清观看一区二区三区| 婷婷精品国产亚洲av| 国产精品一区二区性色av| 国产精品,欧美在线| 校园人妻丝袜中文字幕| 美女cb高潮喷水在线观看| 日本爱情动作片www.在线观看| 男人的好看免费观看在线视频| av女优亚洲男人天堂| 久久久久性生活片| 亚洲在线观看片| 99久久九九国产精品国产免费| 22中文网久久字幕| 精品国产三级普通话版| 国产精品精品国产色婷婷| 午夜福利在线观看吧| 午夜激情福利司机影院| 日本三级黄在线观看| 国产精品人妻久久久久久| 亚洲欧美日韩东京热| 久久精品91蜜桃| 2021天堂中文幕一二区在线观| 日本色播在线视频| 一级毛片电影观看 | 国产成人freesex在线| 国产成人精品久久久久久| 日韩一本色道免费dvd| 免费电影在线观看免费观看| 亚洲精品国产成人久久av| 乱系列少妇在线播放| 啦啦啦观看免费观看视频高清| 人人妻人人澡人人爽人人夜夜 | 青青草视频在线视频观看| 国产精品女同一区二区软件| 欧美在线一区亚洲| 国产淫片久久久久久久久| 夜夜夜夜夜久久久久| 联通29元200g的流量卡| 国产熟女欧美一区二区| 国内揄拍国产精品人妻在线| 久久综合国产亚洲精品| 免费在线观看成人毛片| 真实男女啪啪啪动态图| 成人高潮视频无遮挡免费网站| 欧美一区二区精品小视频在线| av又黄又爽大尺度在线免费看 | 亚洲熟妇中文字幕五十中出| 禁无遮挡网站| 中文字幕久久专区| 国产免费一级a男人的天堂| 精品久久国产蜜桃| 老司机福利观看| ponron亚洲| 亚洲五月天丁香| 日韩成人伦理影院| 亚洲精品粉嫩美女一区| 又黄又爽又刺激的免费视频.| 91aial.com中文字幕在线观看| 亚洲av免费高清在线观看| 黄色配什么色好看| 成人漫画全彩无遮挡| av在线老鸭窝| 3wmmmm亚洲av在线观看| 夜夜夜夜夜久久久久| 国产成人精品久久久久久| 欧美zozozo另类| 中文字幕av在线有码专区| 国产精品一及| 亚洲精品456在线播放app| 国产免费一级a男人的天堂| 免费搜索国产男女视频| 久久精品国产亚洲av涩爱 | 内射极品少妇av片p| 变态另类丝袜制服| 亚洲第一电影网av| 日韩精品有码人妻一区| 女人被狂操c到高潮| 国产精品综合久久久久久久免费| 国内精品宾馆在线| 高清午夜精品一区二区三区 | 成人特级黄色片久久久久久久| а√天堂www在线а√下载| 午夜视频国产福利| 亚洲精品粉嫩美女一区| 亚洲欧美日韩高清在线视频| 色吧在线观看| 成熟少妇高潮喷水视频| 天天躁夜夜躁狠狠久久av| 成人无遮挡网站| 伦精品一区二区三区| 国产成人精品婷婷| 精品久久久久久久久久免费视频| 国产私拍福利视频在线观看| 久久精品国产鲁丝片午夜精品| 欧美日韩在线观看h| 国产成人aa在线观看| 久久久久国产网址| 久久久久久久久大av| 偷拍熟女少妇极品色| 成人特级黄色片久久久久久久| 国产一区二区激情短视频| 一边摸一边抽搐一进一小说| 十八禁国产超污无遮挡网站| 人人妻人人澡欧美一区二区| 欧美xxxx黑人xx丫x性爽| 久久人妻av系列| 麻豆久久精品国产亚洲av| 美女黄网站色视频| 岛国在线免费视频观看| 极品教师在线视频| 国产精品不卡视频一区二区| 夫妻性生交免费视频一级片| 久久欧美精品欧美久久欧美| 欧美精品国产亚洲| 97在线视频观看| 久久韩国三级中文字幕| 国产一级毛片在线| 国产成人freesex在线| 精品久久久久久久久亚洲| 丝袜美腿在线中文| 人妻系列 视频| 大又大粗又爽又黄少妇毛片口| 在线观看av片永久免费下载| 国产高清视频在线观看网站| 久99久视频精品免费| 亚洲国产精品合色在线| 99久久中文字幕三级久久日本| 国产黄色小视频在线观看| 一级av片app| 男的添女的下面高潮视频| 一级毛片我不卡| 九草在线视频观看| 国产黄片视频在线免费观看| 国产成人freesex在线| 国产视频首页在线观看| 欧美潮喷喷水| 在线免费观看的www视频| 免费黄网站久久成人精品| 亚洲乱码一区二区免费版| 成人性生交大片免费视频hd| 国产极品精品免费视频能看的| 免费搜索国产男女视频| h日本视频在线播放| 18禁在线播放成人免费| 亚洲国产日韩欧美精品在线观看| 亚洲欧洲日产国产| av专区在线播放| 91麻豆精品激情在线观看国产| 内地一区二区视频在线| 男女下面进入的视频免费午夜| 国产单亲对白刺激| 亚洲欧美日韩无卡精品| 成人二区视频| 自拍偷自拍亚洲精品老妇| 亚洲欧美中文字幕日韩二区| 麻豆久久精品国产亚洲av| 免费观看的影片在线观看| 国产精品一区二区三区四区免费观看| 综合色丁香网| 色5月婷婷丁香| 久久久久久大精品| a级一级毛片免费在线观看| 哪里可以看免费的av片| 精品国内亚洲2022精品成人| 国产成年人精品一区二区| 精品久久久久久久久久久久久| 久久精品久久久久久噜噜老黄 | 精品欧美国产一区二区三| 在线观看66精品国产| 一个人免费在线观看电影| 亚洲无线观看免费| 国产精品女同一区二区软件| 欧美+日韩+精品| 淫秽高清视频在线观看| 欧美日韩国产亚洲二区| 精品久久久久久久久av| 亚洲人成网站在线观看播放| 天堂√8在线中文| 国产色爽女视频免费观看| 日韩制服骚丝袜av| 国产久久久一区二区三区| 91av网一区二区| 欧美3d第一页| 2021天堂中文幕一二区在线观| 日本撒尿小便嘘嘘汇集6| 日韩一本色道免费dvd| 一进一出抽搐动态| 国产精品久久久久久亚洲av鲁大| 秋霞在线观看毛片| 日本与韩国留学比较| 美女 人体艺术 gogo| 国产爱豆传媒在线观看| 国产黄色视频一区二区在线观看 | 欧美一区二区国产精品久久精品| 精品国内亚洲2022精品成人| 色哟哟·www| 欧美一级a爱片免费观看看| 中文精品一卡2卡3卡4更新| 国产精品麻豆人妻色哟哟久久 | 午夜精品国产一区二区电影 | 久久久久久久午夜电影| 亚洲一区高清亚洲精品| 精品一区二区三区人妻视频| 亚洲婷婷狠狠爱综合网| 欧美日本视频| 亚州av有码| 成人鲁丝片一二三区免费| 国产精品一区二区在线观看99 | 久久人人爽人人片av| 夫妻性生交免费视频一级片| 久久久久久大精品| 久久久久久久久久久丰满| 国产极品天堂在线| 国产成人影院久久av| 精品少妇黑人巨大在线播放 | 亚洲精品国产成人久久av| 亚洲国产精品久久男人天堂| 亚洲精品亚洲一区二区| 亚洲五月天丁香| 中文字幕av在线有码专区| 草草在线视频免费看| 日本撒尿小便嘘嘘汇集6| 亚洲欧美精品自产自拍| 一区二区三区四区激情视频 | 狂野欧美激情性xxxx在线观看| 国产精品野战在线观看| 亚洲无线在线观看| 中文资源天堂在线| 搡老妇女老女人老熟妇| 内射极品少妇av片p| 观看美女的网站| www.av在线官网国产| 岛国在线免费视频观看| 九九在线视频观看精品| 男人和女人高潮做爰伦理| 国内少妇人妻偷人精品xxx网站| 可以在线观看的亚洲视频| ponron亚洲| 三级毛片av免费| 国产三级中文精品| 国产精品一二三区在线看| 最好的美女福利视频网| 国产亚洲欧美98| 亚洲欧美日韩无卡精品| 免费黄网站久久成人精品| 美女国产视频在线观看| 精品久久久久久久久久免费视频| 99热网站在线观看| 亚洲精品456在线播放app| 亚洲精品乱码久久久久久按摩| 国产精品av视频在线免费观看| 色噜噜av男人的天堂激情| 国产美女午夜福利| 国产精品电影一区二区三区| 午夜福利在线在线| 最近中文字幕高清免费大全6| av专区在线播放| 91aial.com中文字幕在线观看| 日本爱情动作片www.在线观看| 黄色欧美视频在线观看| 久久婷婷人人爽人人干人人爱| 少妇人妻精品综合一区二区 | 成人三级黄色视频| 亚洲精品456在线播放app| 精华霜和精华液先用哪个| 日本在线视频免费播放| 国产精品一及| 精品国内亚洲2022精品成人| 久久综合国产亚洲精品| 岛国毛片在线播放| 一边摸一边抽搐一进一小说| 在线观看av片永久免费下载| 秋霞在线观看毛片| avwww免费| 国产 一区 欧美 日韩| 免费电影在线观看免费观看| 久久这里有精品视频免费| 国产一区二区亚洲精品在线观看| 午夜视频国产福利| 嫩草影院新地址| 欧美不卡视频在线免费观看| 97热精品久久久久久| 亚洲欧美精品自产自拍| 韩国av在线不卡| 2022亚洲国产成人精品| 性欧美人与动物交配| 亚洲美女视频黄频| 99热这里只有是精品50| 亚洲国产欧美人成| 一级毛片aaaaaa免费看小| 我的女老师完整版在线观看| 三级毛片av免费| 一本久久中文字幕| 欧美人与善性xxx| 国产蜜桃级精品一区二区三区| 欧美另类亚洲清纯唯美| 最好的美女福利视频网| 亚洲人与动物交配视频| 免费看光身美女| 欧美一区二区国产精品久久精品| 久久久久久久久久久丰满| 亚洲激情五月婷婷啪啪| 少妇的逼好多水| 亚洲不卡免费看| 久久精品国产亚洲av香蕉五月| 99久久人妻综合| 国产伦精品一区二区三区视频9| 亚洲人成网站高清观看| АⅤ资源中文在线天堂| 亚洲人成网站在线观看播放| 在线观看美女被高潮喷水网站| 色综合色国产| 插阴视频在线观看视频| 国产午夜福利久久久久久| 麻豆乱淫一区二区| 久久精品国产自在天天线| 尤物成人国产欧美一区二区三区| 国产精品三级大全| 色5月婷婷丁香| 一边摸一边抽搐一进一小说| 两个人的视频大全免费| 久久久国产成人精品二区| 日韩欧美一区二区三区在线观看| 日韩大尺度精品在线看网址| 日韩成人av中文字幕在线观看| 少妇高潮的动态图| 国产老妇伦熟女老妇高清| 国内少妇人妻偷人精品xxx网站| 婷婷色av中文字幕| 亚洲一级一片aⅴ在线观看| kizo精华| 国产精品久久视频播放| 波多野结衣高清无吗| 国产精品久久电影中文字幕| 国产av不卡久久| 国产探花极品一区二区| 亚洲欧美清纯卡通| 午夜福利高清视频| 久久草成人影院| 97超视频在线观看视频| 欧美高清成人免费视频www| 免费搜索国产男女视频| 国产精品1区2区在线观看.| 国产亚洲精品久久久com| 国产爱豆传媒在线观看| 成人亚洲精品av一区二区| АⅤ资源中文在线天堂| 免费看光身美女| 国产精品久久视频播放| 欧美一区二区精品小视频在线| 99久国产av精品| 国产成年人精品一区二区| 国产欧美日韩精品一区二区| 少妇裸体淫交视频免费看高清| 伦精品一区二区三区| 插阴视频在线观看视频| 精品人妻偷拍中文字幕| 日本在线视频免费播放| 精品久久国产蜜桃| 国产精品1区2区在线观看.| 99在线视频只有这里精品首页| 成人三级黄色视频| 99久久成人亚洲精品观看| 国产av不卡久久| 国产毛片a区久久久久| 毛片一级片免费看久久久久| 国产成人精品久久久久久| 最近2019中文字幕mv第一页| 搡女人真爽免费视频火全软件| 精品久久久久久久久久免费视频| 最近中文字幕高清免费大全6| 你懂的网址亚洲精品在线观看 | 欧洲精品卡2卡3卡4卡5卡区| 97在线视频观看| 亚洲最大成人中文| 精品人妻熟女av久视频| 美女大奶头视频| 高清在线视频一区二区三区 | 岛国在线免费视频观看| 亚洲欧美精品自产自拍| 国产精品久久久久久久久免| 国产成人91sexporn| 尾随美女入室| 亚洲五月天丁香| 亚洲精品乱码久久久久久按摩| 国产91av在线免费观看| 亚洲av成人av| 大香蕉久久网| 成人av在线播放网站| 99久久精品热视频| 中文字幕av在线有码专区| 一区二区三区免费毛片| 亚洲真实伦在线观看| 久久久a久久爽久久v久久| a级毛片a级免费在线| 欧美区成人在线视频| 免费在线观看成人毛片| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 最新中文字幕久久久久| a级一级毛片免费在线观看| 嫩草影院入口| 日本与韩国留学比较| 国产在线精品亚洲第一网站| 搡老妇女老女人老熟妇| 日本免费一区二区三区高清不卡| 国产久久久一区二区三区| av在线天堂中文字幕| 三级国产精品欧美在线观看| 亚洲av电影不卡..在线观看| 国产视频首页在线观看| 日本-黄色视频高清免费观看| 免费看日本二区| 色哟哟·www| 欧美不卡视频在线免费观看| 日韩一区二区三区影片| 日韩三级伦理在线观看| 久久久久国产网址| 一进一出抽搐动态| 亚洲一级一片aⅴ在线观看| 亚洲在久久综合| 国产真实乱freesex| 久久久久久伊人网av| 欧美日韩国产亚洲二区| 好男人在线观看高清免费视频| 亚洲美女视频黄频| 91精品一卡2卡3卡4卡| 99久久精品国产国产毛片| 男女下面进入的视频免费午夜| 午夜免费男女啪啪视频观看| 99久国产av精品国产电影| 久久这里只有精品中国|