• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      條件隨機場圖模型在《明史》詞性標注研究中的應(yīng)用效果探索

      2014-09-22 02:18:40曉,金
      關(guān)鍵詞:明史古漢語分詞

      朱 曉,金 力

      (復(fù)旦大學(xué)生命科學(xué)學(xué)院,上海200433)

      從20世紀50年代起,自然語言處理就伴隨著圖靈機的提出成為計算機科學(xué)家們希望解決的問題之一[1-4].自然語言處理的研究范圍主要包括以下幾類:機器翻譯、自動分詞、詞性標注、語法解析、名詞實體識別以及實體關(guān)系識別.隨著計算機技術(shù)在中國的快速發(fā)展,現(xiàn)代漢語的信息處理研究目前已經(jīng)取得很多成果[5-10].但是,對于現(xiàn)代漢語的前身——古漢語的信息處理研究至今為數(shù)較少.目前只有少數(shù)研究者開展對古漢語語料中人名識別的研究[11],而國際會議上也僅出現(xiàn)一篇對文言文進行分句研究的文獻[12].

      古漢語信息處理研究相對滯后的原因主要有以下幾點:①古漢語的信息化程度比較低.雖然國家已經(jīng)設(shè)立重大項目資助歷史學(xué)家將史書資料轉(zhuǎn)換成電子版,但目前對古漢語的研究大部分還是基于紙質(zhì)書籍,很多疑難漢字甚至都沒有對應(yīng)的計算機編碼.② 古漢語的使用率低.在信息化的互聯(lián)網(wǎng)時代,幾乎不會有人在生活中以及互聯(lián)網(wǎng)上使用古漢語.古漢語信息處理研究帶來的商業(yè)價值較低,因此缺乏吸引力.③古漢語研究與信息處理技術(shù)缺乏有機結(jié)合.目前,大部分資深的古漢語語言學(xué)家對信息技術(shù)方面的了解十分欠缺,而另一方面從事古漢語信息處理的計算機工作者亟需古漢語語言學(xué)家提供大量的語料庫以及語言學(xué)角度的科學(xué)幫助.

      研究者們已經(jīng)發(fā)現(xiàn)不同類型的語料學(xué)習(xí)得到的模型有著顯著的差異.例如,新聞題材的知識模型應(yīng)用到科學(xué)論文中的效率是十分低下的.在古漢語中也存在著各種各樣的體裁:記敘類,如人物傳記、志等;抒情類,如詩賦、辭賦等;議論類以及應(yīng)用類等文體.編年體是中國傳統(tǒng)史書中記載歷史事件的一種體裁,以時間為中心,按年、月、日編排史實.中國著名的史書《春秋》、《資治通鑒》、《二十四史》等都是編年體史書.由于編年體體裁語料的時間線索明確、語法規(guī)整、易于學(xué)習(xí),有利于學(xué)習(xí)模型的建立,因此本研究選用清張廷玉編的《明史》作為語料素材[13].

      詞性標注是序列標記算法在自然語言處理中的應(yīng)用.序列標記算法是基于馬爾可夫性質(zhì)的統(tǒng)計模型.由馬爾可夫性質(zhì)直接轉(zhuǎn)化的序列標記算法是著名的隱馬爾可夫模型(HMM).然而,HMM的最大弱點是對狀態(tài)轉(zhuǎn)移的定義十分局限.隨后根據(jù)需求,研究者又提出了最大熵馬爾可夫模型(MEMM),該方法將最大熵算法中設(shè)置特征規(guī)則的方法借用到序列算法中.但是MEMM在實際應(yīng)用中也存在明顯缺陷,也就是經(jīng)典的標識偏倚問題.條件隨機場模型(Conditional Random Fields,CRF)的提出很好地解決了這個問題[14].條件隨機場模型在現(xiàn)代漢語以及其他語言的詞性標注研究被廣泛應(yīng)用,但是在古漢語詞性標注中的應(yīng)用目前尚沒有.本研究將CRF應(yīng)用于《明史》的詞性標注.

      對于現(xiàn)代漢語而言,分詞(Word Segmentation)具有重要意義[6,10].現(xiàn)代漢語的詞匯可以分為兩大類,單音節(jié)詞與多音節(jié)詞.多音節(jié)詞是兩個或者三個及以上的音節(jié)(字)組成的詞,這些音節(jié)組合形成一個完整語義.但是,這些組合在識別上會出現(xiàn)歧義,因此分詞在現(xiàn)代漢語研究中是非常重要的一個步驟.然而,在古漢語中,文體主要由單音節(jié)詞組成,只有少數(shù)的名詞或動詞以多音節(jié)詞形式出現(xiàn).這類詞多為一些專有名詞,如皇帝的稱號、固定的地名等.除了專有名詞比較難以判別,其他多音節(jié)詞的組合基本符合一定的詞法規(guī)則.因此,對于古漢語分詞而言,我們僅需要對專有名詞進行分詞.本研究將在已分詞與未分詞基礎(chǔ)上探討CRF三種圖模型在古漢語詞性標注中的應(yīng)用.

      1 材料與方法

      1.1 古漢語研究材料

      選取《明史》[13]第十五到第十八本紀進行詞性標注研究.該部分語料包含3 603個句子,20 037個單字,其中非重復(fù)詞2 130個.

      1.2 古漢語研究材料信息化處理

      在對古漢語材料進行詞性標注研究之前,我們首先需要將古漢語語料轉(zhuǎn)換成計算機可處理的編碼.我們選擇以英語語法的10種詞性作為基本詞性,包括名詞、動詞、副詞、形容詞、介詞、連詞、數(shù)詞、代詞、助詞、量詞.為了方便提取時間和人物信息,我們在這套標注系統(tǒng)中新增了時間和姓名相關(guān)的標簽,將專有名詞中的時間以及人名單獨進行標記.將天干、地支、姓氏以及人名作為4類特殊的標記,加上前面的11種標記,一共設(shè)定了15大類標簽.詞性的標簽集合為1:名詞;2:專有名詞;3:動詞;4:形容詞;5:副詞;6:數(shù)詞;7:助詞;8:量詞;9:代詞;10:介詞;11:連詞;12:姓氏;13:天干;14:地支;15:人名.

      在未分詞詞性標注研究中,我們對每個單音節(jié)詞進行信息化處理.在已分詞詞性標注研究中,我們還將對語料中的專有名詞進行分詞,即將多音節(jié)專有名詞作為一個計算機字符處理.

      1.3 詞性標注方法

      在本研究中,我們將基于條件隨機場模型(CRF)的三種圖模型應(yīng)用在古漢語詞性標注研究中[15].條件隨機場是一類鑒別式無向圖概率模型[14].對于一組觀察值x以及一組符合一定條件概率分布的隨機變量y,Lafferty對CRF的圖模型定義如下:給定一個圖G=(V,E),y對于G上的節(jié)點集合V中的每一個節(jié)點v都有一個標簽yv,如果x能夠條件決定yv,并且對于G中的任意點的隨機變量yv滿足馬爾可夫性質(zhì),那么條件分布P(y|x)便是一個條件隨機場模型.根據(jù)隨機場的基礎(chǔ)理論,這個模型的聯(lián)合條件概率被定義為

      其中,fk(·)和gk(·)分別表示邊特征函數(shù)和點特征函數(shù).λk和μk表示待估計的特征函數(shù)權(quán)重.Z表示一個固定的標準化因子.

      1.3.1 條件隨機場模型的特征設(shè)置

      特征設(shè)置的多樣化是CRF的主要優(yōu)勢,對于常規(guī)的文本自動標注系統(tǒng)而言,常用的特征有以下幾種類型:①邊特征:該特征描述條件轉(zhuǎn)移概率.如果假設(shè)序列中只有鄰接的兩個元素存在轉(zhuǎn)移條件,那么CRF圖就是一條條轉(zhuǎn)移鏈.如果假設(shè)序列中的某個元素與周圍n個元素存在轉(zhuǎn)移條件,則整個隨機場成為一張連通圖.n越大計算復(fù)雜度越高,抽提的特征越豐富,但同樣也會帶來過擬合的現(xiàn)象.目前現(xiàn)代漢語使用的最高的n元模板的維度是6.②序列起始特征:記錄著序列標簽的起始狀態(tài),在算法中負責(zé)檢測當前的標簽是否能成為一個起始狀態(tài)標簽.③序列終止特征:記錄著序列標簽的終止狀態(tài),在算法中負責(zé)檢測當前的標簽是否能成為一個終止狀態(tài)標簽.④單詞特征:該特征負責(zé)檢查當前的元素在詞典中的標簽類型以及分布,并按照詞典中已有的標簽分布給當前元素一定的權(quán)重.⑤未登錄詞特征:該特征負責(zé)對詞典中查找不到的元素定義標簽權(quán)重.

      1.3.2 三種圖模型的選擇

      比較三種基于條件隨機場的圖模型在古漢語詞性標注中的應(yīng)用.①無邊圖模型:該模型構(gòu)建的圖不加入邊特征,而只考慮單詞自身的屬性進行詞性判斷,如起始特征、結(jié)束特征以及在訓(xùn)練詞典中的詞性概率等.②完全圖模型:給定一組標簽序列,該模型將構(gòu)建出每一對元素之間的邊,包括該元素與自己的邊特征.當給定訓(xùn)練集后,該模型將使用訓(xùn)練集中的轉(zhuǎn)移概率來設(shè)定邊特征的權(quán)重.③ 嵌套圖模型:在這個圖模型的概念中,一個序列將被視為多個分節(jié)序列.每個分節(jié)之間組成的連通圖被認為是具有馬爾可夫性質(zhì)的隨機場,而每一個分節(jié)被視作一個子序列圖模型.

      1.3.3 交叉檢驗

      采用交叉檢驗方法評估CRF三種圖模型在古漢語詞性標注中的應(yīng)用效果[16].首先,我們將元數(shù)據(jù)平均拆分成10份,每次選擇其中9份作為訓(xùn)練集進行模型學(xué)習(xí),然后利用剩余一份作為測試集進行模型測試.如此重復(fù)選擇不同的訓(xùn)練集和測試集,共進行10次測試.最后,我們通過幾個統(tǒng)計量評估模型測試結(jié)果.①精確性(Precission):指預(yù)測結(jié)果中正確的結(jié)果占全部預(yù)測結(jié)果的比例,描述了預(yù)測模型的可信度;②召回率(Recall):指實際情況中被預(yù)測模型預(yù)測到的結(jié)果比例,描述了預(yù)測模型對現(xiàn)實數(shù)據(jù)的識別率;③Fβ測量值:是對前兩個指標綜合評定的一個得分.具體的公式為

      其中β參數(shù)的設(shè)定表示研究者認為召回率在目標模型中的重要性是精確性的β倍[17].本研究中,我們選擇使用F1測量值.

      2 結(jié)果與分析

      2.1 未分詞詞性標注結(jié)果

      2.1.1 三種模型的詞性標記結(jié)果

      三種CRF圖模型的詞性標注結(jié)果如表1所示,完全圖模型和嵌套圖模型的效率相當,比無邊圖模型的效率稍好一些.

      在15個詞性標記中,天干和地支的識別效率是最高的.這是因為編年體中天干、地支作為一個月里對時間的衡量,形式十分簡單,構(gòu)詞完全固定,因此準確率和召回率均相當高.但在結(jié)果中也存在判斷錯誤的極少個例,大部分情況是將天干地支標注成了專有名詞.另外,數(shù)詞的詞性標注也有很高的效率,因為數(shù)詞是一個觀察值比較固定的詞性.數(shù)詞判別的主要錯誤出現(xiàn)在精確性上,模型通常會將作為其他詞性出現(xiàn)的數(shù)字誤認為是數(shù)詞.

      實驗結(jié)果中形容詞、量詞、連詞的識別效率相對于其他的詞性而言十分低下.其中,量詞和連詞的識別效率十分低下主要是因為數(shù)據(jù)集中量詞和連詞的含量過少,導(dǎo)致模型學(xué)習(xí)不成功.形容詞的識別效率低下則是因為詞性的活用過多,大部分形容詞可以作為名詞使用.反之,不少專有名詞也有形容詞參與構(gòu)成,因此對形容詞進行詞性標注的精確性和召回率都非常低.

      2.1.2 登錄詞與未登錄詞結(jié)果比較

      由于在編年體中一段時間內(nèi)會重復(fù)出現(xiàn)同一件事物,因此在測試集中識別出的姓名、專有名詞等可能是在訓(xùn)練集中已經(jīng)存在的.我們將測試集與訓(xùn)練集共同出現(xiàn)的詞定義為已登錄詞,而將測試集出現(xiàn)、訓(xùn)練集未出現(xiàn)的詞定義為未登錄詞.我們將未登錄詞與已登錄詞分開,檢驗CRF三種圖模型的詞性標注效果.由于大部分詞性標記在訓(xùn)練集中已經(jīng)被覆蓋,因此在本次試驗中我們排除了在訓(xùn)練集中已經(jīng)完整的標記,而僅對剩下的5個標記(名詞、專有名詞、動詞、姓氏、人名)進行檢驗.

      統(tǒng)計結(jié)果如表2所示,總體而言,三種CRF圖模型對未登錄詞的識別效率要比已登錄詞的識別效率低很多.其中,無邊圖模型作為邊特征效率的負對照實驗,其對未登錄詞的識別效率幾乎為0.而完全圖模型和嵌套圖模型對未登錄詞的識別效率要高于無邊圖模型.

      表2 無邊圖模型、完全圖模型和嵌套圖模型對未分詞已登錄詞與未登錄詞詞性標注結(jié)果Tab.2 Part-of-Speech tagging results of no edge,complete and nested graph models on listed and unlisted words in testing set without word segmentation

      在完全圖模型和嵌套圖模型的結(jié)果中,我們發(fā)現(xiàn)兩個模型對未登錄詞中姓氏和人名的識別效率已經(jīng)達到70%.相比于很多未登錄詞詞性標注識別效率低下的結(jié)果而言,該現(xiàn)象表明CRF完全圖模型和嵌套圖模型對于姓氏和人名的推斷能力是比較強的,暗示著編年體中姓氏和人名周圍的詞較其他詞性標簽擁有很好的規(guī)則.

      2.2 已分詞詞性標注結(jié)果

      上一組實驗是基于未分詞的數(shù)據(jù)集,一般在現(xiàn)代漢語中詞性標注是基于分詞之后的語料.而分詞在古漢語中與現(xiàn)代漢語有所不同,只有專有名詞才存在分詞單元的劃分問題,其他的詞都是單音節(jié)詞,每個單字即為一個單獨的分詞單元.因此即使不單獨的進行分詞,詞性標注的結(jié)果仍然可以接受.然而專有名詞的多音節(jié)詞對于其他的詞性的標注效率或多或少有一定的影響.因此在這組實驗中,假設(shè)存在一個強大的專有名詞詞典,已經(jīng)將所有的專有名詞事先劃分開,而我們則在此基礎(chǔ)上進行詞性標注.

      實驗結(jié)果(表3)表明,對專有名詞進行分詞之后三種CRF圖模型對15類詞性標記的識別效率較未分詞前均有小幅的提升.

      表3 無邊圖模型、完全圖模型和嵌套圖模型對專有名詞分詞訓(xùn)練集與測試集詞性標記結(jié)果Tab.3 Part-of-Speech tagging results of no edge,complete and nested graph models on training and testing sets with word segmentation of proper nouns

      我們同樣對未登錄詞與已登錄詞的識別效率進行了一個統(tǒng)計比較,結(jié)果見表4.進行專有名詞分詞之后,三種CRF圖模型對已登錄詞的詞性標注效率明顯提高,但是對于未登錄詞的詞性標記效率卻不盡然.對于未登錄詞,完全圖模型和嵌套圖模型對專有名詞、姓氏以及人名的識別效率較分詞之前有所提升,但是對于名詞以及動詞的識別效率沒有提升.而無邊圖模型對除了專有名詞之外的未登錄詞的識別效率仍然十分低下.

      表4 無邊圖模型、完全圖模型和嵌套圖模型對分詞后已登錄詞與未登錄詞詞性標注結(jié)果Tab.4 Part-of-Speech tagging results of no edge,complete and nested graph models on listed and unlisted words in testing set with word segmentation

      (續(xù)表)

      3 討論

      3.1 古漢語信息化處理的意義

      古漢語作為一門承載了數(shù)千年中華文明的語言,對其進行信息處理研究具有重要的價值.一直以來,對于古漢語資料的研究僅限于語言學(xué)專業(yè)研究者.這在一定程度上限制了中華文華傳承以及當今交叉學(xué)科的發(fā)展.目前已經(jīng)有部分研究者開始重視古漢語的信息化處理,但是目前尚沒有完整的古漢語語料庫以及詞典,亟需語言學(xué)家與計算機信息技術(shù)人員的共同努力探討古漢語信息處理的相關(guān)問題.

      智能地從大量史書中提取信息對很多學(xué)科研究有著重要的輔助作用.例如,史書記載的家譜信息對人類學(xué)研究具有重要意義.目前歷史人類學(xué)家希望依賴分子生物學(xué)的手段去尋找一些歷史考證的線索,其中最具有解釋性的生物學(xué)證據(jù)就是Y染色體的父系進化體系[18].父系在Y染色體上由于沒有同源重組的發(fā)生使得進化足跡趨近于一顆龐大的多叉樹,每一代可能發(fā)生的突變代表著樹中的一個節(jié)點.而中國的父系家族往往都有家譜的記載,也就是說如果家譜中的記載準確并且分子進化樹的構(gòu)建足夠精細,我們就能夠?qū)NA突變與歷史中某個時間甚至某個人對應(yīng).這不僅為解析歷史提供了很好的佐證,同時也為生物進化研究賦予生命力.

      古漢語的語法和詞法特點與現(xiàn)代漢語有相似之處,可能對現(xiàn)代漢語的研究有一些輔助作用.在現(xiàn)代漢語研究中,多數(shù)研究者認為漢語相比于英語更難處理的地方在于漢語語法句法上的靈活性,很難依賴形式語法抽象出一套規(guī)則.古漢語是現(xiàn)代漢語的原型,句法和語法相對規(guī)則化,研究古漢語也許能夠給現(xiàn)代漢語的語法解析帶來啟發(fā).

      3.2 基于條件隨機場的圖模型在古漢語詞性標注中的應(yīng)用

      條件隨機場模型(CRF)與最大熵馬爾可夫模型(MEMM)都是適用于自然語言處理的方法[19].CRF優(yōu)于MEMM之處在于CRF將標簽之間的轉(zhuǎn)移特征以隨機場的圖形式展現(xiàn)出來,抽象為點特征與邊特征[20].點特征描述某一個待標記對象自身觀測值的概率,而邊特征描述待標記對象周邊的標簽對其條件轉(zhuǎn)移概率[15].這樣就解決了MEMM中觀測值的分布概率無法影響模型概率的標簽偏倚問題.條件隨機場模型在現(xiàn)代漢語的信息處理研究中已經(jīng)比較成熟,劉滔等對現(xiàn)代漢語詞性標注的研究結(jié)果展示CRF對非兼類詞(單一詞性)的識別效率高達96%,對兼類詞的識別效率也達到94%[21].

      在本研究中,我們發(fā)現(xiàn)基于條件隨機場的完全圖模型和嵌套圖模型在古漢語詞性標注中的應(yīng)用效果均相當好.我們還探討了古漢語分詞對詞性標注的影響.在現(xiàn)代漢語中,研究者已經(jīng)成功使用分詞系統(tǒng)來輔助實體識別[5],但是在古漢語中還沒有完整的分詞系統(tǒng).在本研究中,我們發(fā)現(xiàn)所選語料中只有專有名詞存在分詞的必要,而其他詞匯基本是單音節(jié)詞.因此,我們比較了專有名詞未分詞與分詞之后三種CRF圖模型對古漢語語料詞性標注的效果,發(fā)現(xiàn)分詞后的詞性標注結(jié)果比未分詞的結(jié)果要好一些.這說明古漢語分詞對提高詞性標注的效率是有幫助的.

      3.3 古漢語詞性標注錯誤的探討

      雖然在古漢語詞性標注的實驗結(jié)果中,整體效率已經(jīng)達到91%以上,但是其中仍然不乏大量錯誤.我們將其總結(jié)為3大類錯誤.

      3.3.1 未登錄詞識別錯誤

      我們對測試集中的已登錄詞與未登錄詞分開探討,發(fā)現(xiàn)三種模型對未登錄詞的識別效果遠遠低于已登錄詞.尤其是無邊圖模型對未登錄詞的識別效果幾乎為0.這可能與無邊圖模型沒有考慮邊特征有關(guān).而且我們發(fā)現(xiàn)分詞對未登錄詞的詞性標注效果也沒有很大提高.例如,在序列“命諸司詳議害民弊政”中,“害”實際上為形容詞,但在測試集里“害”是一個未登錄詞,于是CRF模型依據(jù)邊特征對“害”進行了詞性判斷,考慮到上位單詞“議”是一個動詞,模型錯誤的將“害”標記成名詞.

      3.3.2 詞典中具有多個詞性的單詞詞性判斷錯誤

      詞典里單詞的詞性分布對標注結(jié)果有著較大的影響.如果某個單詞具有多個詞性,而且不同詞性的分布差異很大,則很可能會導(dǎo)致模型將單詞自動標注為分布較大的詞性.如序列“修撰呂柟言大禮未正”中,“正”在編年體中最常出現(xiàn)的組合是“正月”,所以在詞典中“正”作為名詞的頻率要高于其他詞性.而實際上在這個序列中“未正”是一個副詞加上動詞的組合,然而因為“正”的判斷錯誤,模型將兩個單字都標注為名詞.

      3.3.3 強標注轉(zhuǎn)移特征導(dǎo)致錯誤

      描述轉(zhuǎn)移規(guī)則的邊特征同樣也會帶來詞性判斷失誤.這一類錯誤常見于一些出現(xiàn)頻率高的詞性組合,如姓氏和人名的組合、天干和地支的組合等.如序列“永順伯薛斌恭順伯吳克忠領(lǐng)馬隊”,動詞后接一個人物是很常見的句式,而動詞“領(lǐng)”的下位詞又恰好是一個常見的姓氏“馬”,因此模型將“馬”標記為姓氏,將“隊”標記為人名,但是這里“馬隊”顯然代表的是一只騎兵隊伍.又如序列“代府奉國將軍充灼謀反”中,由于“充灼”在訓(xùn)練集中已經(jīng)被觀測為人名,因此“充灼”的上位詞被標注為姓氏.

      這些錯誤有些需要人為修正,例如單詞具有多個詞性導(dǎo)致的錯誤,需要古漢語語言學(xué)專家與計算機信息處理研究人員共同合作對其加以修正.而有些錯誤,例如未登錄詞識別錯誤,可能需要發(fā)展更有效的計算機信息處理方法才能有效解決.總而言之,古漢語信息處理仍然需要古漢語語言學(xué)相關(guān)專家以及計算機信息處理研究人員的共同努力,以期取得長足的發(fā)展.

      我們的研究結(jié)果表明基于條件隨機場的完全圖模型和嵌套圖模型對編年體體裁的《明史》語料的詞性標注效果不錯.但是,對于該方法是否適用于其他體裁的古漢語語料信息化處理,仍然需要研究者進一步探討.

      [1]Turing A.Computing Machinery and Intelligence[J].Mind,1950,59(236):433-460.

      [2]Chowdhury GG.Natural language processing[J].Annual Review of Information Scienceand Technology,2003,37(1):51-89.

      [3]Pereira F C N,Gross B J.Natural Language Processing[M].Cambridge:MIT Press,1994.

      [4]Jurafsky D,Martin J H.Speech and Language Processing:An introduction to Natural Language Processing,Computational Linguistics,and Speech recognition[M].New Jersey:Pearson Education Inc.,2000.

      [5]Gao J,Li M,Wu A,et al.Chinese Word Segmentation and Named Entity Recognition:A Pragmatic Approach[J].Computational Linguistics,2005,31(4):531-574.

      [6]Huang C R,Chen K J,Chang L L.Segmentation standard for Chinese natrual language processing[C]∥Proceedings of the 16thConference on Computational Linguistics.Stroudsburg,1996:1045-1048.

      [7]Jin G, Chen X.The Fourth International Chinese Language Processing Bakeoff:Chinese Word Segmentation,Named Entity Recognition and Chinese POSTagging[C]∥Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing.Hyderabad,India:Association for Computational Linguistics,2008:61-68.

      [8]Levow G A.The Third International Chinese Language Processing Bakeoff:Word Segmentation and Named Entity Recognition[C]∥Proceedings of the 5thSIGHAN Wookshop on Chinese Language Processing.Sydney,Australia:Association for Computational Linguisties,2006:108-117.

      [9]劉開瑛.中文文本自動分詞和標注[M].北京:商務(wù)印書館,2000.

      [10]苗奪謙,衛(wèi)志華.中文文本信息處理的原理與應(yīng)用[M].北京:清華大學(xué)出版社,2007.

      [11]汪青青.先秦人名識別初探[J].文教資料,2009(18):202-204.

      [12]Huang H H,Sun C T,Chen H H.Classical Chinese Sentence Segmentation[C]∥Proceedings of the CIPSSIGHAN Joint Conference on Chinese Language Processing.Beijing,2010:15-22.

      [13]張廷玉.明史[M].北京:中華書局,1974.

      [14]邱 莎,段 玻,申浩如,等.基于條件隨機場的中文人名識別研究[J].昆明學(xué)院學(xué)報,2011,33(6):64-66.

      [15]Lafferty J,McCallum A,Peraira F C N.Conditional Ramdom Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]∥Proceedings of the 18thInternational Conference on Machine Learning.USA:Morgan Karfmann Publishers Inc.,2001:282-289.

      [16]Kohavi R.A Study of Cross Validation and Bootstrap for Accuracy Estimation and Model Selection[C]∥Proceedings of The Fourteenth International Joint Conference on Artificial Intelligence.Montreal,Quebec,Canada,1995:1137-11.

      [17]Chinchor N,Sundheim B.MUC-5 Evaluation Metrics[M].the 5thconference on Message Understanding.1993:69-78.

      [18]Ke Y,Su B,Song X,et al.African Origin of Modern Humans in East Asia:A Tale of 12,000 Y Chromosomes[J].Science,2001,292(5519):1151-1153.

      [19]McCallum A,F(xiàn)reitag D,Pereira F.Maximum Entropy Markov Models for Information Extraction and Segmentation[C]∥Proceedings of the 17thInternational Conference on Machine Learning.USA:Morgan Karfmann Publishers Inc.,2000:591-598.

      [20]Duan H,Zheng Y.A Study on Features of the CRFs-based Chinese Named Entity Recogniztion[J].International Journal of Advanced Intelligence,2011,3(2):287-294.

      [21]劉 滔,雷 霖,陳 犖,等.基于MapReduce的中文詞性標注CRF模型并進行訓(xùn)練研究[J].北京大學(xué)學(xué)報:自然科學(xué)版,2013,49(1):147-152.

      猜你喜歡
      明史古漢語分詞
      古漢語疑問句末“為”字補證
      《明史·藝文志》史部地理類訂誤十一則
      天一閣文叢(2020年0期)2020-11-05 08:28:30
      明史強志立當下 仰望星空展未來
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      上古漢語“施”字音義考
      值得重視的分詞的特殊用法
      《南明史·藝文志》經(jīng)部著錄標準商榷
      天一閣文叢(2014年1期)2014-10-13 08:00:06
      談?wù)劰艥h語的翻譯
      語言與翻譯(2014年1期)2014-07-10 13:06:11
      古漢語中表反問的一組能愿動詞
      語文知識(2014年3期)2014-02-28 21:59:31
      萬斯同在《明史》纂修中的貢獻——天一閣藏萬斯同稿本《明史稿》整理札記
      天一閣文叢(2013年1期)2013-11-06 10:01:17
      板桥市| 开化县| 图木舒克市| 兴海县| 沅江市| 齐齐哈尔市| 昌江| 邹城市| 观塘区| 行唐县| 禄丰县| 凤凰县| 榕江县| 武强县| 民县| 常山县| 昌都县| 佛学| 张家港市| 荥阳市| 辽阳县| 信丰县| 新田县| 徐州市| 建湖县| 凭祥市| 东阳市| 芜湖县| 中牟县| 泽普县| 丘北县| 开江县| 鹤山市| 广平县| 武清区| 中宁县| 体育| 万山特区| 汕头市| 西乌| 洞口县|