臧嬌嬌,荀恩東
(北京語言大學 大數(shù)據(jù)與教育技術研究所,北京 100083)
基于BCC的離合詞離析形式自動識別研究
臧嬌嬌,荀恩東
(北京語言大學 大數(shù)據(jù)與教育技術研究所,北京 100083)
該文從中文信息處理角度對動賓型離合詞自動識別進行研究。通過分析離合詞在實際語料中的使用特點以及離合詞離析成分在大規(guī)模語料庫中的表現(xiàn)形式,從離合詞內(nèi)部入手,形式化地表示離合詞的離析形式,總結(jié)自動識別的規(guī)則,設計基于規(guī)則的自動識別算法。經(jīng)過優(yōu)化后,該算法在20億字的語料中達到了91.6%的正確率。離合詞語素構詞能力強,分詞與詞性標注錯誤,規(guī)則的不完整性,語料本身的錯誤,以及人工標注的疏漏等是影響實驗結(jié)論的主要因素。
離合詞;BCC;離析形式;自動識別
所謂“離合詞”,是指漢語中一種雙音節(jié)結(jié)構,意義凝固,中間可以插入其他成分,可離可合的語言現(xiàn)象。陸志韋先生[1]提出離合詞的概念,認為離合詞是現(xiàn)代漢語研究中的重要問題,并引起學界對該問題的廣泛關注。此后,學者從不同的角度對離合詞進行了廣泛的研究。
1.1 離合詞研究綜述
自20世紀 40年代以來,對離合詞的研究主要經(jīng)歷了兩個階段的發(fā)展:第一個是對離合詞基本問題進行探索的階段,主要涉及離合詞的定義、性質(zhì)、界定、類型等問題的本體研究;第二個階段從20世紀80年代開始,對離合詞的研究進入深入拓展階段。在探討離合詞基本問題的基礎上,離合詞的研究逐漸由本體研究慢慢轉(zhuǎn)向?qū)嶋H應用領域。
隨著計算機技術的進步,離合詞的研究在中文信息處理領域主要包括利用語料庫對離合詞進行統(tǒng)計,自動分詞以及詞性標注中對離合詞的處理策略,漢英機器翻譯中對離合詞的翻譯等。
王海峰、李生等[2]主要研究漢英機器翻譯中離合詞的處理策略問題,基于大規(guī)模的語料庫,對離合詞進行詳細的統(tǒng)計和分析,并提出BT863漢英機器翻譯系統(tǒng)中離合詞的處理策略。王春霞[3]在對大規(guī)模語料考察與分析的基礎上,得到離合詞的離析形式在語料中的出現(xiàn)情況,通過對插入成分的規(guī)律進行總結(jié),最后獲得離合詞的組配模式。史曉東[4]把離合詞分為四種類型,探討離合詞在機器翻譯中的句法分析、意義表示、翻譯策略等問題,并做了初步實現(xiàn)。徐建山[5]基于漢語長距離搭配現(xiàn)象,結(jié)合離合詞的共同特點,實現(xiàn)了一種識別離合詞的算法。任海波等[6]在大規(guī)模語料庫的基礎上對離散度不同的離合詞進行定量分析,并嘗試性地確立漢語普通話中典型離合詞數(shù)量。周衛(wèi)華、胡家全等[7]對動賓式和并列式離合詞的擴展形式進行詳細的分析,在考察分析這兩類離合詞擴展形式特點的基礎上,提出在中文信息處理系統(tǒng)中應該建立離合詞詞庫,并對離合詞的擴展形式做出專門的符號標注。
在離合詞的研究與中文信息處理等領域相結(jié)合后,對離合詞離析形式識別的研究成為了學者們首要考慮的問題。馮向華[8]比較系統(tǒng)地研究離合詞的擴展形式,結(jié)合不同的擴展形式,設計了一個離合詞擴展形式的自動識別程序。雖在某些類型上達到了一定的識別效果,但從整體來看效果卻不是很好。劉博[9]通過分析離合詞擴展形式自身的特點,依據(jù)算法設計了一個現(xiàn)代漢語離合詞擴展形式自動識別系統(tǒng),通過開放的實驗測試,對數(shù)據(jù)進行測試并不斷優(yōu)化,但是其研究并未從整體上對識別的效果進行統(tǒng)計。
1.2 離合詞自動識別的研究應用
中文信息處理主要涉及機器翻譯、自動分詞、信息檢索、自動標注等領域。例如,在漢英機器翻譯中,如果只能識別離合詞的整體形式,而對其“離”的形式無法識別的話,可能會導致在翻譯中無法從整體上理解離合詞的語義,從而影響翻譯的效果。又如,在信息檢索時,如果離合詞的離析形式不能從整體上被識別出來,計算機將會對切分后的內(nèi)容進行查詢,造成檢索時的盲目性。另外,中文分詞作為中文信息處理領域的基礎技術,在離合詞的自動識別中得到了具體應用,同時離合詞的自動識別對中文分詞技術也起到推動作用。
離合詞是現(xiàn)代漢語中比較特殊的語言現(xiàn)象,從語言學本體角度進行的研究較為豐富,而在自然語言處理角度對離合詞的研究逐漸起步,并受到越來越多學者的重視。目前離合詞的研究現(xiàn)狀主要集中在以下幾個方面:在研究內(nèi)容上,本體研究多于應用研究;在研究方法上,定性分析多于定量分析;在研究深度上,統(tǒng)計研究多于識別研究。本文的主要工作是,設計出一種識別的算法,將這種算法應用于某種程序語言,通過編寫程序?qū)崿F(xiàn)對離合詞離析形式的自動識別研究,從而有利于計算機在自動分詞、統(tǒng)計識別、機器翻譯等方面的應用研究。
2.1 離合詞詞表的確定與語料選擇
2.1.1 離合詞詞表的確定
不同學者對離合詞的界定標準不一樣,其數(shù)量沒有固定的統(tǒng)計。本文在前人的研究基礎上,以相關論文和著作為依據(jù),所研究的離合詞主要來自《現(xiàn)代漢語詞典(第5版)》(以下簡稱“現(xiàn)漢”)和《漢語水平詞匯與漢字等級大綱》(以下簡稱“大綱”),并根據(jù)《現(xiàn)漢》(第6版)對所提取的離合詞進行修訂。
《現(xiàn)漢》對離合詞做了形式標記。離合詞的注音在中間加雙斜線“∥”,表示中間可以插入其他成分,如“洗澡 xǐ∥zǎo”。本文借助注音中的“∥”共提取出3 487個離合詞,然后把《大綱》的詞與《現(xiàn)漢》提取的3 487個離合詞進行交集合并,共得到402個離合詞。本文又對402個離合詞進行細化分析。首先刪減了一些動補型離合詞,例如,“提高”、“出來”、“看見”、“抓緊”、“起來”等;其次刪減了一些歧義的詞語,例如,“點心”作離合詞時,在《現(xiàn)漢》中是動詞“吃東西”的含義,但在《大綱》中卻是名詞,表示“一種食品”,與此類似的還有“運氣”、“制服”、“入口”等;最后根據(jù)《現(xiàn)漢》(第6版)中對離合詞標記的變化,又刪減了一些在第五版中存在形式標記“∥”,但在第六版中已經(jīng)取消標記的離合詞,例如,“出席”、“登陸”、“關心”、“突出”、“作文”等;增加了一些在第5版中沒有形式標記,但是在第6版中存在形式標記的詞,例如,“游泳”、“貶值”等。本文最終確定140個離合詞作為識別的對象(附錄1)。
2.1.2 語料的選擇
本文的語料主要來自于北京語言大學大型語料庫BCC中的綜合頻道語料。綜合頻道是一個平衡語料庫,其中包括文學、科技、微博、報刊不同的語體,約20億字。本文利用綜合頻道的語料,通過BCC的檢索模式,得到離合詞離合現(xiàn)象的語言實例。
2.2 離合詞訓練集和測試集的確定2.2.1 人工標注
通過BCC“A*B”的檢索模式,對140個離合詞進行窮盡式檢索。鑒于語料的復雜性和檢索模式的局限性,每個離合詞檢索的語料都包含正確的離析形式和錯誤的離析形式。通過人工標注的方法,對檢索的每個離合詞例句進行標記。人工標記的規(guī)則如下:正確的形式在后面標記為“1”,錯誤的形式在后面標記為“0”。例如,
他剛洗完澡、刮完胡子,身上還殘留著淡淡的芳香。1 (湍梓《相逢不恨晚》)
在這種時候,千萬不能回家睡覺,一睡便覺得萬念俱灰。0(亦舒《城市故事》)
2.2.2 預處理
人工標注之后,對待識別的文本文件進行預處理。離合詞中間插入中間成分的現(xiàn)象,一般在分句中。所以先對語料進行預處理,包括詞性標注和分句處理。在詞性標注的基礎上,再借助“/w”(北大的詞性標注體系,“/w”表示標點符號)詞性符號的標識對語料進行分句。在對原始語料進行分句的時候,主要依據(jù)標點符號,不僅要對整句進行分句,對小句也要分句,即在遇到逗號、句號、問號、冒號、分號、頓號、感嘆號、省略號等標點符號時要進行分句處理。
2.2.3 離合詞離析形式正反例頻率統(tǒng)計
結(jié)合每個離合詞所包含的正確和錯誤離析形式的語料,統(tǒng)計離合詞正確和錯誤離析形式的例句數(shù)。正例數(shù)是離合詞正確離析形式的數(shù)量,錯例數(shù)是離合詞錯誤離析形式的數(shù)量;正例率是離合詞正確離析形式所占的比例,錯例率是離合詞錯誤離析形式所占的比例。以下是兩個計算頻率的公式:
離合詞正例率=離合詞正例數(shù)/離合詞總標注實例數(shù);
離合詞錯例率=離合詞錯例數(shù)/離合詞總標注實例數(shù)。
按照計算公式,得到140個離合詞的正例率。表1是140個離合詞正例率的分布情況:
從表1可以看出離合詞的正例率分布情況有很大的差別,有些離合詞正例率高;有些正例率低,甚至有些離合詞正例率為0,即在本文所使用的語料中沒有出現(xiàn)正確的離析現(xiàn)象。
在統(tǒng)計結(jié)果中,正例率在90%以上的有21個離合詞,所占比例為15%,包括“鞠躬、洗澡、吵架、吃虧、嘆氣”等詞;正例率在80%~90%之間的有14個離合詞,所占比例為10%,包括“泄氣、拼命、散步、鼓掌、告狀”等詞;正例率在10%以下的離合詞有34個,所占比例為24.3%,包括“配套、出神、罷工、探親、出院”等詞。從140個離合詞正例率分布情況可以看出,本文所選擇的140個離合詞具有代表性,每個頻率段的離合詞都有所涉及,并且分布相對均衡。
表1 離合詞正例率的分布情況
在確定測試集和訓練集的過程中,要考慮一些特殊情況。例如,“鞠躬”,在語料中只有正確的實例,所以只能用來作為訓練集;而“集郵”在語料中只有錯誤的實例,所以只能用來作為測試集。除了這些特殊的離合詞,本文根據(jù)每個離合詞的正例率所占比例和分布情況,選取20個離合詞作為訓練集,既包含一些正例率高且離析形式多的離合詞,以便于總結(jié)離析形式;也包括一些正例率低且離析形式少的離合詞。訓練集包括“鞠躬、吃虧、冒險、幫忙、洗澡、打仗、倒霉、分紅、開幕、遭殃、動身、就業(yè)、迎面、到期、聽話、著急、出差、及格、握手、報名”,剩下的120個離合詞作為測試集。
2.3 離合詞離析成分的統(tǒng)計
通過對訓練集中20個離合詞語言實例的分析,對離合詞的插入成分進行提取和統(tǒng)計,然后再結(jié)合人工篩選的過程,進而總結(jié)離合詞的離析形式。比如表2是“幫忙”中間插入成分的統(tǒng)計情況。鑒于其復雜性,只列出其中間插入成分頻數(shù)在前30的情況:
表2 “幫忙”中間成分插入情況
本文對20個離合詞的中間成分進行提取并按照在語料中的詞頻排序,每個離合詞的統(tǒng)計結(jié)果諸如“幫忙”表2的統(tǒng)計模式。鑒于提取的方便和人工篩選的復雜性,在對離合詞中間成分自動提取的過程中,只獲取其中間成分,直接根據(jù)中間成分對離析形式進行總結(jié)。
2.4 離合詞離析形式的分析
對訓練集中的20個離合詞的插入形式進行歸納,主要分為以下幾種類型:
1.插入助詞“了”、“著”、“過”成分
離合詞中間插入“了”、“著”、“過”是最普遍的情況。如:鞠了躬、吃過虧、冒著險等。
2.插入補語
離合詞中間插入補語的情況比較復雜,鑒于本文主要從形式入手,所以本文不把數(shù)量短語列入補語的范疇,而是把數(shù)量短語單獨列出來。插入補語中間成為多為“上、完、起、成、不成、得、不得、不了、不到”等詞。如:幫不上忙、洗完澡、打起仗來等。
3.插入量詞“個”
插入量詞“個”,“個”在量詞中比較特殊,使用比較廣泛。如:報個名、冒個險等。
4.插入數(shù)詞
在離合詞的前后語素間插入數(shù)詞大多是插入“一”的情況,也有插入其他數(shù)詞的情況,如“兩”、“幾”等。如:鞠一躬、打幾仗等。
5.插入量詞
在離合詞的前后語素間插入量詞,可以用來補充說明動作次數(shù),主要是動量詞,包括“次、回、下、遍”等。如:出次差、幫回忙等。
6.插入數(shù)量短語
在離合詞的前后語素間插入數(shù)量短語,用來補充說明動作的數(shù)量或者持續(xù)的時間。如:吃一分虧、洗一趟澡等。
7.插入代詞
離合詞的前后語素間插入代詞,一般分為三種類型:插入人稱代詞、指示代詞、疑問代詞“什么”。如:聽我的話、報這個名、著什么急等。
8.插入名詞/形容詞
在離合詞前后語素之間插入名詞、形容詞作定語,修飾后面的名語素,是比較常見的情況。如:洗冷水澡、倒大霉等。
9.插入結(jié)構助詞“的”
離合詞的前后語素間可以插入結(jié)構助詞“的”。如:洗的澡、吃的虧等。
10.重疊
重疊的情況主要包括以下五種形式:“AAB、A一AB、A了AB、A沒AB、A不AB”。如:鞠鞠躬、幫一幫忙等。
11.離合詞前后語素之間插入復雜成分
以上十種形式主要是離合詞中間插入單一成分的情況,另外還有插入多種成分的情況。當插入成分為“了/著/過+其他成分”這種類型時,例如,“洗了個熱水澡、打了一場辛苦的仗、倒了一次大霉”等。在自動識別過程中將對插入多種形式現(xiàn)象進行詳細的歸納總結(jié)。
3.1 離合詞離析形式的規(guī)則總結(jié)
根據(jù)識別的難度和在大規(guī)模語料中的實際使用情況,對所總結(jié)的離合詞離析形式的識別規(guī)則進行總結(jié)歸納,并轉(zhuǎn)換成機器可以識別的程序化語言。離合詞的插入成分主要有兩種情況:一是插入單一成分;二是插入多種成分。插入多種成分的情況比較復雜,會根據(jù)離析長度和離析成分進行總結(jié)。下面先分析插入單一成分的情況:
3.1.1 插入單一成分的規(guī)則總結(jié)
(1) 插入成分為漢字:A+u+B(u=漢字集合)
根據(jù)上面總結(jié)的10種離析形式,總結(jié)規(guī)則時只考慮語法形式。先把具有明顯特征的漢字提取出來,作為一個集合。例如,“了”、“著”、“過”、“個”、“什么”、“的”等。
(2) 插入成分為詞性:A+p+B(p=詞性集合)
通過對離析形式的總結(jié),插入詞性的情況有以下幾種:r:代詞,n:名詞,v:動詞,a:形容詞,m:數(shù)詞,q:量詞,d:副詞等。
(3) 重疊的形式
重疊形式包括“AAB、A一AB、A了AB、A沒AB、A不AB”,主要是前面動語素的重疊。
3.1.2 插入多種成分的規(guī)則總結(jié)
離合詞插入多種成分數(shù)量比較多,其形式不易總結(jié),而且沒有太多的規(guī)律可遵循,下面先根據(jù)離合詞的離析長度對插入多種成分的長度進行限定。
1.離合詞的離析長度
本文根據(jù)中間長度來確定規(guī)則,表3是140個離合詞的離析長度統(tǒng)計與分析。
表3 離合詞離析形式的長度
從140個離合詞離析長度的分布情況可以看出,離合詞的離析長度主要集中在12個字以內(nèi),多于12個字的出現(xiàn)很少,并且中間修飾的成分比較多。由表3可以看出離合詞中間插入長度為五個字以內(nèi)的所占比例最多。根據(jù)離合詞的這一特點,本文在自動識別中對規(guī)則的總結(jié)主要限定在三個成分內(nèi)。對于個別例句超過三個成分的情況,在自動識別過程中一律用符號“*”處理,對規(guī)則進行總結(jié)時不做細化歸類。如:“那/r 晚/Tg 我/r 睡/v 了/u 一/m 個/q 特別/d 舒服/a 的/u 覺/Ng”,在總結(jié)規(guī)則分別劃分到“睡/v 了/u 一/m 個/q”這個層面,對于后面的成分一律用“*”表示。
2.插入多種成分的總結(jié)
本文在離析長度的基礎上,充分考慮可行性和有效性兩個方面,從自動識別的角度,在對規(guī)則進行總結(jié)時只限定在三個成分以內(nèi)。
(1) A+r+m/q/r/的+B,中間插入成分為代詞,后面加數(shù)詞、量詞、代詞、結(jié)構助詞“的”,例如,“幫這么點忙”、“沾別人的光”等;
(2) A+n+m/q/的+B,中間插入成分為名詞,后面加數(shù)詞、量詞、結(jié)構助詞“的”,例如,“生爸爸的氣”、“見老師一面”等;
(3) A+著/了/過+m/q/r/a/n+B,中間插入成分為“了、著、過”,后面加數(shù)詞、量詞、代詞、形容詞、名詞,例如,“吃了這個虧”、“發(fā)著高燒”等;
(4) A+m/q+r/a/n+B,中間插入成分為數(shù)詞或量詞,后面加代詞、形容詞、名詞,例如,“洗個溫水澡”、“吃一大驚”等;
(5) A+d+v/d/u+B,中間插入成分為副詞,后面加動詞、副詞、助詞,例如,“出不了院”、“幫不到忙”等;
(6) A+m+q+B,中間插入成分為數(shù)量短語,例如,“冒一次險”、“沾一回光”等;
(7) A+m+q+a/n+B,中間插入成分為數(shù)量短語,后面加形容詞、名詞等,例如,“聽一次媽媽話”、“睡一個好覺”等;
(8) A+了/過+m+q+B,中間插入成分為“了、過”,后面加數(shù)量短語,例如,“見了一次面”、“嘆了一口氣”等。
根據(jù)對離合詞中間插入成分的總結(jié),本文將其分為四個集合,放在四個文本文件中,分別是:漢字集合、詞性集合、重疊集合、插入多種成分的集合。(具體集合的規(guī)則見附錄2)
3.2 離合詞自動識別的具體過程
在識別過程中,讀入的文本經(jīng)過分詞和詞性標注的預處理,已經(jīng)被切分為相對獨立的成分。下面對離合詞離析形式自動識別的步驟進行具體闡述。
(1) 將測試集中的120個離合詞放入文本文件中,而離合詞是實驗前已事先準備的詞表。實驗過程僅對離合詞的離析形式進行自動識別,而對離合詞本身在語料中的使用情況不作識別標注。離合詞詞表文件讀入程序中;并且120個離合詞的人工標注語料,包括正確和錯誤的離析形式,也讀入程序中。
(2) 離合詞的四個規(guī)則文本文件依次讀入程序中,當分詞和詞性標注的語句經(jīng)過正則表達式時,依據(jù)規(guī)則的判斷進行自動標注。如果匹配到規(guī)則,則機器自動標注為“1”,輸出到一個新的文件里;如果沒有匹配到規(guī)則,則進入到下一個正則表達式中進行匹配。
(3) 識別的基本順序。當人工標注的文本進入正則表達式中時,識別的順序是先識別具有明顯形式標記的漢字,識別不到的話則進入詞性規(guī)則的匹配中;再進入重疊規(guī)則的匹配中;最后進入插入多個成分的規(guī)則中。沒有匹配到的語言實例,機器會自動標記為“0”,輸出到一個新的文件里。
例如,“不是/c 怒目而視/n 就是/v 和/c 他/r 大/d 吵/v 一/m 架/q”,符合“A+m+B”的規(guī)則,被自動標注為“1”;“睡夢/n 中/f 一/m 覺/Ng 醒來/v”不符合所有的規(guī)則,便被自動標注為“0”。
4.1 正確率和召回率的計算結(jié)果
本文運用Perl程序語言進行自動識別標注,并通過人工標注與自動識別標注的結(jié)果來計算正確率與召回率,式(1)和式(2)是計算公式。
(1)
(2)
以下是120個離合詞的正確率和召回率:
表4 120個離合詞的正確率
表5 120個離合詞的正確率與召回率
如表4所示,120個離合詞總的正確率在79.3%左右,其中自動識別為1的正確率為66.8%,自動識別為0的正確率為91.8%。相比來看,自動識別為1的正確率比較低。從表5的數(shù)據(jù)結(jié)果來看,自動識別為1的召回率比正確率要高得多,可能是提取出的語言實例過多導致正確率偏低。下面本文分別從正確率和召回率兩個方面對每個離合詞自動標注的情況進行分析,部分離合詞的實驗數(shù)據(jù)如表6所示。
表6 部分離合詞的正確率和召回率
從表6的統(tǒng)計數(shù)據(jù)可以看出,其中“睡覺”、“搞鬼”、“沾光”、“告狀”、“散步”、“操心”這六個離合詞的正確率均達到90%以上,但是只有“搞鬼”、“操心”兩個詞的召回率在90%以上。而“見面”、“丟人”的這兩個詞的正確率比較低,分別為63.5%和37.3%。離合詞“畢業(yè)”的召回率達到100%,但是正確率卻只有89.2%。
在測試集的120個離合詞中正確率在90%以上的只有21個,所占比例僅為17.5%;而召回率在90%以上的有82個詞,所占的比例為68.3%。下面對具體離合詞的標注結(jié)果和數(shù)據(jù)語料進行研究,以分析自動識別正確率低的原因。
4.2 離合詞正確率和召回率低的原因4.2.1 提取規(guī)則過于寬泛
從表6的統(tǒng)計數(shù)據(jù),本文還發(fā)現(xiàn)一種特殊的現(xiàn)象,就是自動識別的句子數(shù)量遠遠多于人工標注的句子數(shù)量。如“見面”、“丟人”?!耙娒妗比斯俗?的語言實例為6 342句,而自動提取的結(jié)果卻有8 716句,所以導致兩個詞的正確率比較低。結(jié)合表5的數(shù)據(jù),分析出正確率偏低的原因之一是在自動識別過程中,存在很多把錯誤實例標成正確實例的情況,導致自動提取的數(shù)量大大增加。為了驗證不是個例的現(xiàn)象,本文對其他離合詞進行統(tǒng)計。
在120個離合詞中有97個離合詞,自動識別為1的句子數(shù)量多于人工標注的句子數(shù)量,約占80.8%,也就是說80%以上的離合詞出現(xiàn)識別錯誤的情況。分析原因,一方面是語料本身可能出現(xiàn)錯誤;另一方面是對插入多種成分時所總結(jié)的規(guī)則過于寬泛。當離合詞離析形式出現(xiàn)多于兩個或三個成分時,超出規(guī)則長度的成分用“*”代替,導致自動識別過程中標注為1的數(shù)量增加了許多。
本文對120個離合詞自動識別錯誤的數(shù)量進行統(tǒng)計,人工標注為1而自動識別標注為0的例句數(shù)是9 436句,人工標注為0而自動識別標注為1的例句數(shù)為38 621句。自動標注為1的句子數(shù)量所占的比重較大,是導致自動識別正確率比較低的一個重要原因。
4.2.2 離合詞前后語素構詞能力強
通過分析發(fā)現(xiàn),“畢業(yè)”、“沾光”等詞識別標注的正確率比較高。因為離合詞的前后語素中包含黏著語素,它們的動語素“畢”、“沾”為黏著語素,由于其自身的黏著性,它們在實際語言運用多與名語素“業(yè)”、“光”構成離合詞。通過程序中的規(guī)則驗證,其離析形式就很容易被自動識別標注出來。但是,像“干杯”、“當面”等詞,它們的前后語素均為自由語素,而且有些語素還是多音字。由于語素自由性比較大,構詞能力比較強,因而比較容易構成新詞。在自動識別過程中,只識別單個語素,并未做任何限定。從統(tǒng)計數(shù)據(jù)可以看出,包含黏著語素離合詞的識別正確率要高于包含自由語素離合詞的識別正確率。
4.3 程序優(yōu)化的數(shù)據(jù)分析
針對上面的兩個原因,對程序進行優(yōu)化,以提高其自動識別的正確率。針對提取規(guī)則過于寬泛,將正則表達式的規(guī)則讀取限定在四個成分以內(nèi)。具體優(yōu)化過程為:之前總結(jié)的規(guī)則不變,在規(guī)則讀入正則表達式時,對離析長度的限定做了改變。當離合詞中間插入三個成分時,后面再加上一個詞表符號“/”,不對插入成分做具體詞性的處理;而當插入成分為兩個時,要在后面加上兩個詞性符號“/”。
另一方面,優(yōu)化過程中對離合詞的前后語素做了限定,要求分詞結(jié)果獨立,不得與其他語素組合成詞,借用詞性符號“/”對離合詞的語素做了限定。比如“吹/v 什么/r 牛/n”會被規(guī)則“A+什么+B”提取,而“吹/v 什么/r 牛皮/n”則不會被提取。
程序優(yōu)化之后,正確率和召回率得到很大的提升。表7和表8是優(yōu)化之后120個離合詞的正確率和召回率。
表7 120個離合詞的正確率
表8 120個離合詞的正確率與召回率
通過表7和表8與之前的表4和表5對比,可以看出,正確率和召回率都有了很大的提高,尤其是自動識別為1的正確率,由優(yōu)化之前的66.8%提升到優(yōu)化之后的91.6%。
本文又統(tǒng)計了自動標注與人工標注的對比情況。正確的標成錯誤的共有8 246句,而錯誤的標成正確的有6 725,相對之前的38 621句,其數(shù)量大大下降。所有離合詞的語料實例約為23萬多句。加入限定條件對程序進行優(yōu)化后,在一定程度上使很多非離合詞的離析形式被過濾掉。以下是部分離合詞優(yōu)化之后的結(jié)果,具體見表9。
表9 部分離合詞的正確率和召回率
與表6的數(shù)據(jù)結(jié)果相比,以上幾個離合詞自動識別的正確率得到顯著的提高,特別是離合詞“見面”和“丟人”。從120個離合詞離析形式的數(shù)據(jù)結(jié)果來看,正確率在90%以上的離合詞有66個,所占比例為55%;其中正確率為100%的離合詞有13個,如“吵架”、“嘆氣”、“礙事”等。正確率在80%以上的離合詞有92個,所占比例為76.67%。正確率在70%以上的離合詞有98個,所占比例為81.67%。而正確率在50%以下的僅為十個,所占比例為8.3%,其中“集郵”識別的正確率為0?!凹]”在人工標注中沒有正確的例句,所以標1的正確率和召回率均為0,但是標0的正確率卻為100%。這從反面印證了自動識別算法的有效性。
正確率和召回率均為100%的離合詞有六個詞,包括,“畢業(yè)”、“貶值”、“延期”、“減產(chǎn)”、“行賄”、“執(zhí)勤”。有些離合詞正確率高,但是召回率卻比較低,例如,“撥款”正確率為100%,召回率只有35.3%;“礙事”正確率為100%,召回率只有78.5%。分析發(fā)現(xiàn),“撥款”語料中很多出現(xiàn)詞性標注錯誤的情況,如“撥/v 救災/vn 款/n”中“救災”標成動名詞“vn”,所占的比例很大,導致很多例句沒有被提取出來,召回率較低;“礙事”的語料多使用“事兒”,由于對前后語素做了限定,很多例句沒有被提取出來,召回率較低。
正確率在50%以下的離合詞有十個。如:“吹?!?、“行軍”、“起哄”等。除了“集郵”之外,剩下的九個詞在實際語言生活中很少出現(xiàn)離析形式。在它們前后語素中間插入其他成分,很可能不是其離析形式,而又符合提取的規(guī)則,所以導致識別的正確率比較低。如:
(1) “配/v 一/m 套/q 紅寶石/n 鉆/v 飾/v”,符合“A+m+B”的規(guī)則,不是“配套”的離析形式;
(2) “給/p 楊局長/nr 行/v 了/u 個/q 軍/n 禮/Ng ”,符合“A+了+q+B”的規(guī)則,不是“行軍”的離析形式。
此類離合詞的召回率較高,說明這些詞符合規(guī)則的正確語料都被提取出來。有些離合詞的召回率達到100%,如“行軍”正確率為46.2%,而召回率為100%;“起哄”正確率為44%,召回率為100%;“配套”正確率為32.6%,召回率為93.3%。(120個離合詞的正確率和召回率見附錄3)
從識別效果來看,本文的識別結(jié)果與馮向華[8]的結(jié)果相比得到了很大的提升。馮向華設計的程序?qū)χ髦^型及動補型離合詞的識別效果好于動賓型離合詞,對插入成分封閉的離合詞的識別效果好于插入開放成分的離合詞,對插入一個和多個成分的離合詞擴展形式的識別效果區(qū)別不大。而本文主要是對動賓型的離合詞進行自動識別研究,相比動賓型和主謂型的離合詞,其在實際語言生活中更易出現(xiàn)離析形式。從整體來看,本文的識別效果達到91.6%的正確率;并且對插入多個成分識別也達到較高的準確率。例如,“睡覺”、“吃驚”等。
4.4 影響正確率和召回率的主要因素
對程序進行優(yōu)化之后,自動識別的正確率和召回率都得到很大的提升,但是有些離合詞自動識別的正確率仍然比較低。下面是影響正確率和召回率的主要因素。
1.離合詞的前后語素構詞能力比較強
雖在程序優(yōu)化中對離合詞的前后語素做了限定,但仍有個別離合詞存在歧義的情況。正確率在50%以下的離合詞大多是因為前后語素構詞能力強。
2.中文分詞或詞性標注錯誤對自動識別的影響
本文自動識別的方法主要是依據(jù)詞性,如果在分詞處理上出現(xiàn)差錯或是歧義切分,詞性標注錯誤則直接導致自動標注的錯誤。如:“如果/c 當/v 著/u 她/r 的/u 面談/vn 話/n”。
3.插入成分的規(guī)則限定單一
在程序的設計上,插入成分限定在四個以內(nèi),由于插入成分復雜,不宜對超出的成分進行具體詞性的限制,可能導致很多正確的離析形式?jīng)]有被提取出來。
4.語料本身存在的問題
本文所用的語料來自BCC。由于BCC語料內(nèi)容繁多,來源廣泛,語料本身不可避免地存在錯誤,也可能存在錯誤的情況。例如,“什么”寫成“甚么”,便不能被正確識別。
5.人工標注的疏漏
進行人工標注時,有些離合詞離析形式較多,在BCC中的例句數(shù)達到上萬句。人工標注難免會有疏漏,正確率不可能達到百分之百,因此自動識別的正確率和召回率也會受到影響。
本文在大規(guī)模語料的基礎上,對離合詞離析形式進行自動識別,一方面對離合詞的本體研究進行補充和完善;另一方面,同時也為離合詞在中文信息處理方面的研究提供一定的借鑒意義。另外,在識別中所使用的規(guī)則在一定程度上也驗證了離合詞的不同離析形式。本文只選取140個離合詞進行研究,再加上自動識別程序的局限性,對于一些特殊的離合詞還不能進行有效地識別。下一步的工作希望擴展到漢語所有離合詞的研究;其次,在研究方法上可以考慮從離合詞外部因素入手,借助離合詞的上下文進行自動識別研究。
[1] 陸志韋.漢語的構詞法[M].北京:科學出版社,1957:38-40.
[2] 王海峰,李生等.漢英機器翻譯中漢語離合詞的處理策略[J].情報學報,1999,04:303-305.
[3] 王春霞.基于語料庫的離合詞研究[D].北京:北京語言文化大學,2001.
[4] 史曉東.漢英機器翻譯中離合詞的處理[C].黃河燕.全國機器翻譯研討會論文集.北京:電子工業(yè)出版社,2002:69-72.
[5] 徐建山.漢語離合詞和長距離搭配的研究[D].哈爾濱:哈爾濱工業(yè)大學,2003.
[6] 任海波,王剛.基于語料庫的現(xiàn)代漢語離合詞形式分析[J].語言科學,2005,04:81-84.
[7] 周衛(wèi)華,胡家全.中文信息處理中離合詞的處理策略[J].三峽大學學報,2010,06:41-44.
[8] 馮向華.現(xiàn)代漢語文本中離合詞擴展形式的自動識別[D].北京:北京師范大學,2009.
[9] 劉博.基于語料庫的離合詞擴展形式自動識別研究[D].保定:河北大學.2015.
[10] 荀恩東,饒高琦,臧嬌嬌等.大數(shù)據(jù)背景下BCC語料庫的研制[J].語料語言學,2016,01:91-106.
附錄
附錄1 140個離合詞
礙事 罷工 拜年 幫忙 保密 報仇 報名 畢業(yè) 閉幕 貶值 變形 變質(zhì) 撥款 補課 參軍 操心 插嘴 吵架
吵嘴 稱心 吃驚 吃苦 吃虧 抽空 出差 出神 出院 吹牛 辭職 打架 打獵 打仗 打針 帶頭 擔心 當面
搗蛋 搗亂 倒霉 到期 道歉 登記 定性 丟人 懂事 動身 發(fā)燒 放假 放心 放學 分紅 干杯 搞鬼 告狀
鼓掌 掛鉤 掛號 拐彎 害怕 害羞 狠心 化妝 懷孕 灰心 集郵 及格 加油 剪彩 減產(chǎn) 見面 講理 接班
結(jié)果 結(jié)婚 敬禮 就業(yè) 鞠躬 決口 絕望 開刀 開課 開幕 考試 曠工 曠課 勞駕 離婚 理發(fā) 聊天 留意
埋頭 滿月 冒險 納悶 配套 拼命 破產(chǎn) 起草 起床 起哄 請假 請客 讓步 入學 散步 傷心 上當 生氣
升學 失學 失業(yè) 失約 睡覺 探親 嘆氣 提醒 跳舞 聽話 投標 完蛋 握手 洗澡 獻身 泄氣 行賄 行軍
宣誓 延期 要命 移民 迎面 游泳 遭殃 沾光 站崗 照相 爭氣 執(zhí)勤 注冊 著急
附錄2 規(guī)則集合
插入漢字的集合:了、過、過了、著、個、什么、的、上、不上、完、不完、好、不好、起、成、不成、得、不得、不了、不到、一、大、高、悶、透、盡、碎、足
插入詞性的集合:m、q、a、v、n、r、d、f
重疊集合:AAB、A一AB、A了AB、A沒AB、A不AB
插入多種成分的集合:A+r+m/q/r/的+B、A+n+m/q/a/的+B、A+著/了/過+m/q/r/a/n+B、A+m/q+r/a/n+B、 A+d+v/d/u+B、A+m+q+B、A+m+q+a/n+B、A+了/過+m+q+B附錄3 120個離合詞的正確率和召回率
120個離合詞的正確率和召回率詳見網(wǎng)址:
https://pan.baidu.com/s/1c13zAak
Automatic Recognition of Separable Words Based on BCC
ZANG Jiaojiao,XUN Endong
(Institute of Big Data and Language Education,Beijing Language and Culture University,Beijing 100083,China)
This paper conducts a research on the automatic recognition of separable words from the perspective of Chinese information processing.It summarizes recognition rules and design a recognition algorithm considering the separable forms derived from the large-scale corpus.The algorithm achieves 91.6% accuracy after a continuous optimization in the corpus of two billion words.Error analysis reveals that the morphemes with strong word-fromation ability,incorrect word segmentation and POS tagging,incomplete rules,and errors in the corpus accounts for most of the mistakes..
separable words; BCC; separable forms; automatic recognition
臧嬌嬌(1990—),碩士,主要研究領域為計算語言學。E-mail:qiaolidiefei528@163.com荀恩東(1967—),通信作者,教授,主要研究領域為自然語言處理、計算機教育技術。E-mail:edxun@126.com
1003-0077(2017)01-0075-09
2016-09-15 定稿日期:2016-10-20
國家高技術研究發(fā)展計劃(863計劃)(2015AA015409)
文獻標識碼: