郭康平 馮 莉
(1.黑龍江大學文學院;2.黑龍江大學應用外語學院,黑龍江 哈爾濱 150080)
CorpusWordParser是一款創(chuàng)建于2014年且免費使用的語料庫分詞和標注工具和該軟件具有類似分詞標注詞性功能的軟件“NLPIR-ICTCLAS”系統(tǒng)(也可直接稱為“ICTCLAS”),都是由中國科學院計算技術研究所研制的,主要功能包括中文分詞、詞性標注、命名實體識別、新詞識別等等。
首先運用語料分詞標記軟件CorpusWordParser對1954-2021年《政府工作報告》(部分年代有缺失)語料進行分詞并標記詞性。運用Antconc軟件對歷年助詞詞種以及出現(xiàn)的頻次進行統(tǒng)計。發(fā)現(xiàn)CorpusWordParser對部分年份中助詞詞性標記錯誤。此外,ICTCLAS在與CorpusWordParser標注同一句子時,與CorpusWordParser軟件具有共同的錯誤之處。
本文提出的詞性標注錯誤主要依據(jù)詞典、現(xiàn)代漢語教材和相關論文。詞典主要有《現(xiàn)代漢語詞典》(2016)[1]、《現(xiàn)代漢語八百詞》(增訂本1999)[2]、《現(xiàn)代漢語規(guī)范用法大詞典》(2001)[3];《現(xiàn)代漢語》教材主要參考錢乃榮(2001)[4],蘭賓漢、邢向東(2006)[5],郭銳、王理嘉、陸儉明(2012)[6],黃伯榮、廖旭東(2016)[7],邢福義、汪國勝(2019)[8]等等。其他著作主要參考:馬彪(2002)[9],齊滬揚、張誼生、陳昌來(2002)[10]等等。
就助詞詞性標注來看,其錯誤類型主要歸為兩大類。第一類是將實詞性語素或詞標記為助詞;第二類是將助詞標記為其他詞性。
第一類是將實詞性語素或詞標記為助詞,有“動詞標記為助詞、名詞標記為助詞、量詞標記為助詞和介詞、代詞標記為助詞”四小類。
1.動詞標記為助詞
動詞標記為助詞的有“得”和“著”。
(1)得
關于“得”的詞性有三種看法。1)標記“得”是動詞、助詞、助動詞三種詞性的有《現(xiàn)代漢語詞典》[1]、《現(xiàn)代漢語規(guī)范用法大詞典》[3]。2)標記“得”是助詞、動詞兩種詞性的有《現(xiàn)代漢語八百詞》[2]。3)僅僅提及“得”的助詞用法的有黃伯榮、廖旭東(2016)[7]等。筆者認為上述詞典以及教材對“得”的助詞和動詞用法釋義基本相同,可以歸結為:“得1”為動詞詞性,表示完成,得到義;“得2”為結構助詞,用在中心詞和補語中間,是補語的標志。至于表示“需要、允許”義的“得3”,究竟為助動詞或助詞,反映了學術意見的不同,不是軟件自身的問題。因此,本文僅展示該軟件將動詞“得”標記為助詞的例句。
該軟件將動詞“得”標記為助詞。該軟件將“得不到、少勞少得、得大頭、得實惠”等結構中的動詞“得”標記為助詞。黃伯榮、廖旭東(2016)[7]等學者認為助詞“得”是附著在實詞、短語、句子后表示結構關系或動態(tài)等語法意義,是補語標志,而“得不到、少勞少得、得大頭、得實惠”等結構中的“得”一般為中補結構,動賓結構,在句中作謂語或中心語成分,具有“得到”義,因此不是助詞?!冬F(xiàn)代漢語詞典》[1]、《現(xiàn)代漢語八百詞》[2]等認為具有“得到”等意義的“得”是動詞,因此本文認為應該將其判定為動詞。
表1 動詞“得”標記為助詞的錯誤示例
(2)著
關于“著”的詞性有兩種看法。1)認為“著”有助詞和動詞兩種詞性的有《現(xiàn)代漢語詞典》[1]、《現(xiàn)代漢語規(guī)范用法大詞典》[3]、《現(xiàn)代漢語八百詞》[2]。2)僅提及“著”的助詞詞性的有黃伯榮、廖旭東(2016)[7],郭銳、王理嘉、陸儉明(2012)[6]等??梢?,“著”有兩種詞性:“著1”為助詞,表示動作或狀態(tài)的持續(xù);“著2”為動詞,表示強調義。
該軟件將“著重地”“著重點”中的動詞“著”錯誤地標記為助詞?!冬F(xiàn)代漢語詞典》[1]等均認為助詞“著”表示動作或狀態(tài)的持續(xù),例如:他們正談著話。“著重地”“著重點”中的“著”不表示動作或狀態(tài)的持續(xù),但具有“強調”義,因此不是助詞詞性。《現(xiàn)代漢語詞典》[1]認為“著重”是動詞,表示把重點放在某一方面,具有強調意義,因此“著重地”“著重點”中的“著”為動詞。該軟件誤將“著重/地”“著重/點”判定“著/重地”“著/重點”,分詞和標注均是錯誤的。
例句:(1)著/u重地/n發(fā)展/v了/u社會主義/n的/u國營經濟/n和/c各種/r類型/n的/u合作社/n經濟/n(1954)
(2)它/r的/u著/u重點/n,/w是/vl在/p堅持/v六/m項/q政治/n標準/n的/u前提/n下/nd(1978)
2.名詞標記為助詞
名詞標記為助詞的有“地”。
地
關于“地”的詞性有兩種看法。1)認為“地”有助詞和名詞兩種詞性的有《現(xiàn)代漢語詞典》[1]、《現(xiàn)代漢語規(guī)范用法大詞典》[3]。2)認為“地”為助詞詞性的有《現(xiàn)代漢語八百詞》[2],邵敬敏(2001)[11],黃伯榮、廖旭東(2016)[7]等??梢姡暗亍庇袃蓚€:“地1”為名詞,表示土地,地級等;“地2”為結構助詞,用在狀語和中心語之間,是狀語標志。
該軟件將“……等地,因地制宜,因地施肥,地、市、縣”等結構中的名詞“地”錯誤地標注為助詞詞性?!冬F(xiàn)代漢語詞典》[1]等認為“地”作為名詞表示地球、陸地、地區(qū)、地方、路程等意義?!啊鹊亍薄耙虻刂埔恕薄耙虻厥┓省敝小暗亍北硎镜貐^(qū)的意義,而“地、市、縣”等結構中的“地”表示級別意義,因此以上語料中的“地”是名詞。《現(xiàn)代漢語詞典》[1],黃伯榮、廖旭東(2016)[7]認為助詞“地”表示它前面的詞或詞組是狀語,是狀語標志,如“天漸漸地冷了”中“地”為助詞。因此上述語料中的“地”為名詞而非助詞。
例如:(1)如/v變/v堿地/n和/c砂/n地/u為/p良田/n,/w變/v山坡/n地/u為/p梯田/n,(1955)
(2)研究/v因/c地/u改良/v、/w因/c地/u種植/v、/w因/c地/u施肥/v等/v項/q措施/n(1960)
(3)自治區(qū)/n以及/c地/u、/w市/n、/w縣/n和/c基層/n組織/n(1982)
3.量詞標記為助詞和介詞
量詞標記為助詞和介詞的有“所”。
所
對于“所”的詞性主要有四種看法。1)認為“所”有名詞、量詞、助詞三種詞性的有《現(xiàn)代漢語詞典》[1]、《現(xiàn)代漢語規(guī)范用法大詞典》[3]。2)認為“所”為助詞詞性的有《現(xiàn)代漢語八百詞》[2]等詞典,黃伯榮、廖旭東(2016)[7]等教材。3)認為“所”為介詞的有錢乃榮(2001)[4]。4)認為“所”有代詞詞性的有文鋒(1991)[12]。錢乃榮(2001)[4]、文鋒(1991)[12]等認為“所”具有介詞詞性、代詞詞性的例子現(xiàn)均被認為是助詞詞性,如黃伯榮、廖旭東(2016)[7],邢福義、汪國勝(2019)[8]??梢姟八庇腥N詞性:“所1”為名詞,表示處所;“所2”為量詞,用于房屋等建筑;“所3”為助詞,幫助“所+動詞”構成名詞短語。該軟件錯誤地將量詞“所”標記為助詞詞性以及介詞詞性。
第一種錯誤是該軟件將量詞“所”標記為助詞。其表現(xiàn)是將類似于“中央衛(wèi)生部醫(yī)院共有三千零六十八所”中的量詞“所”標注為助詞?!冬F(xiàn)代漢語詞典》釋義[1]及黃伯榮、廖旭東(2016)[7]等人認為助詞“所”用在及物動詞之前,使“所+動詞”成為名詞短語,如:“我所認識的人、所見所聞、各取所需”等結構中的“所”為助詞,可見軟件標準語料中的“所”不是助詞詞性?!冬F(xiàn)代漢語詞典》[1]、《現(xiàn)代漢語規(guī)范用法大詞典》[3]認為“一所學?!敝械摹八笔橇吭~,“所”作為量詞可用于房屋,學校等。因此可以判定“所”是量詞而非助詞。
第二種錯誤是該軟件將量詞“所”標記為介詞。量詞“所”標記為介詞僅有1956年“全國設立的工人技術學校將達192所”這一例語料。而上述詞典和著作中僅僅錢乃榮(2001)[4]認為“所”為介詞,根據(jù)黃伯榮、廖旭東(2016)[7]對介詞定義來判斷,“所”不具有介引功能。因此,該句中的“所”不是介詞而是量詞。
表2 量詞“所”標記的部分錯誤示例
4.代詞標記為助詞
代詞標記為助詞的是“之”。
之
對于“之”的詞性主要有兩種看法。1)認為“之”具有動詞、代詞、助詞三種詞性的有《現(xiàn)代漢語詞典》[1]、《現(xiàn)代漢語規(guī)范用法大詞典》[3]。2)認為“之”是結構助詞的有黃伯榮、廖旭東(2016)[7]等??梢姟爸庇腥N詞性:“之1”為動詞,表示到,該用法來源于古代漢語;“之2”為代詞,代指人或事物;“之3”為助詞,相當于“的”。軟件是將代詞“之”錯誤地標記為助詞。
該軟件將“本政府均愿與之建立外交關系”“輔之以必要的改革”等結構中的代詞“之”錯誤地標記為助詞。《現(xiàn)代漢語詞典》[1]等認為助詞“之”用在定語和中心詞之間,組成偏正詞組,例如:求之不得。黃伯榮、廖旭東(2016)[7]認為結構助詞“之”相當于口語“的”,居定中短語中間,例如:光榮之家。語料中的“之”分別充當動詞“輔”的賓語,代表某個政策,作介詞“與”的賓語,代表某個國家,均具有指代意義,因此“之”不是結構助詞?!冬F(xiàn)代漢語詞典》[1]等認為代詞“之”代替人或事物。所以,語料中的“之”均為代詞。
例如:(1)本/n政府/n均/d愿/vu與/c之/u建立/v外交關系/n。(1954)
(2)使/v之/u逐步/d地/u轉變/v為/p社會主義/n企業(yè)/n,(1955)
(3)輔/v之/u以/p必要/a的/u改革/v。(1981)
將助詞詞性標記為其他詞性的有“助詞標記為動詞、助詞標記為形容詞”兩小類。
1.助詞標記為動詞
助詞標記為動詞的有“等”。
等
對于“等”的詞性主要有三種看法。1)認為“等”有名詞、動詞、量詞、助詞、介詞五種詞性的有《現(xiàn)代漢語詞典》[1]。2)認為“等”具有動詞和助詞兩種詞性主要有《現(xiàn)代漢語八百詞》[3]。3)認為“等”具有助詞詞性的有邵敬敏(2001)[11]、朱軍(2008)[16]等。可見,“等”有五種詞性:“等1”為名詞,表示等級;“等2”為動詞,表示等待,等候;“等3”為量詞,表示類別,種類;“等4”為助詞,用在人稱代詞后表示復數(shù);“等5”為介詞,表示等到。
該軟件將“發(fā)展以糧食等農產品為原料的加工業(yè)、運用信息網絡等現(xiàn)代技術”等句子中的助詞“等”錯誤地標記為動詞?!冬F(xiàn)代漢語詞典》[1]認為動詞“等”表示等候、等待,語料中的“等”不具有動詞含義,但具有列舉未盡之意,因此不是動詞。《現(xiàn)代漢語詞典》[1]、《現(xiàn)代漢語八百詞》[2]、邵敬敏(2001)[11]等認為助詞“等”表示列舉未盡。語料中出現(xiàn)的“糧食等農產品”“網絡等現(xiàn)代技術”中的“等”均表示列舉未盡之意,因此均為助詞詞性。
例如:(1)運用/v信息/n網絡/n等/v現(xiàn)代/nt技術/n,/w推動/v生產/v、/w管理/v和/c營銷/v模式/n變革/v,/w加大/v對/a民生/n等/v薄弱/a環(huán)節(jié)/n的/u支持/v。(2016)
2.助詞標記為形容詞
助詞標記為形容詞的有“一樣”。
一樣
對于“一樣”的詞性大致有四種看法。1)認為“一樣”具有形容詞、助詞兩種詞性的有《現(xiàn)代漢語規(guī)范用法大詞典》[3]、邵敬敏(2001)[11]。2)認為“一樣”只具有形容詞性的有《現(xiàn)代漢語詞典》[1]《現(xiàn)代漢語八百詞》[2]。3)認為“一樣”具有助詞詞性的有黃伯榮、廖旭東(2016)[7]等。4)認為“一樣”具有形容詞、數(shù)量詞組、比況助詞三種詞性的有張誼生(2002)[13]、徐復嶺(1980)[14]??梢?,“一樣”有三種詞性:“一樣1”為形容詞,表示“相等”義;“一樣2”和“似的”一樣是助詞,不能單獨作句子成分;“一樣3”是數(shù)量詞組,例如:一樣東西。
該軟件將“年青的知識分子,正在像雨后春筍一樣地生長起來”“把大田種得像菜園子一樣”中的助詞“一樣”錯誤地標記為形容詞?!冬F(xiàn)代漢語詞典》[1]認為形容詞“一樣”表示沒有差別,語料中“一樣”不表示沒有差別。根據(jù)《現(xiàn)代漢語規(guī)范用法大詞典》[3],黃伯榮、廖旭東(2016)[7]等人的看法,本文認為,“正在像雨后春筍一樣地生長起來”“把大田種得像菜園子一樣”中的“一樣”是助詞而非形容詞。
例如:(1)年青/a的/u知識分子/n,/w正在/d像/p雨后春筍/i一樣/a地/u生長/v起來/vd。(1959)
該軟件將實詞性語素“著”“地”“之”“所”標記為助詞,將助詞“等”“一樣”分別標記為動詞和形容詞等實詞詞性存在識別不清詞性的問題。將“所、一樣”等詞錯誤地標記為介詞、形容詞等詞性,這是由于該軟件的詞性標注參照沒有統(tǒng)一的標準導致的。
本文為了探求此類軟件在助詞分詞和標記詞性方面是否一致,隨機選擇CorpusWordParser標記錯誤的16個例子,用同樣具有漢語分詞和標注詞性功能的“ICTCLAS”系統(tǒng)進行重新分詞和標記詞性,兩款軟件測試結果對比如下:
表3 “CorpusWordParser”與“ICTCLAS”標記結果對比
通過對比發(fā)現(xiàn),漢語分詞和標注軟件均存在詞性標注錯誤的情況?!癐CTCLAS”分詞和標記詞性的正確率高于“CorpusWordParser”。兩款軟件共同的錯誤之處共有五點。
(1)均將“得實惠”中的動詞“得”標記為助詞。
(2)均將“著重/點”劃分為“著/重點”,將動詞“著”標記為助詞。
(3)均將“人多地少”“砂地”中的名詞“地”標記為助詞。
(4)均將“……高等學校已由五百九十八所增加到七百一十五所”中的第一個量詞“所”標記為助詞。
(5)均將“本政府均愿與之建立外交關系”中的代詞“之”標記為助詞。
以CorpusWordParser、ICTCLAS為關鍵詞進行檢索發(fā)現(xiàn)這兩種軟件一直被使用。因此,本文的意義之一是提醒使用此類軟件時要加強人工檢查,才能夠提高詞性標記的準確率。
本文以CorpusWordParser為例總結該類軟件存在的幾點問題,并提出一些改進建議。
(1)從整體來看,漢語分詞和標注軟件對于兼類詞的實詞和虛詞詞性的識別準確性較低。將語料中實詞性的“得”“著”“地”“之”“所”標記為虛詞。將語料中虛詞性的“一樣”“等”標記為實詞。
(2)詞庫不全。該軟件不能將“砂地”“著重”“得實惠”等劃分為詞和短語,說明其所參照的詞庫不全面或詞庫中未涵蓋這些詞。將“我國人多地少”劃分為“我/r國人/n多/a地/u少/a”,可以說明,該軟件的詞庫中沒有“我國”一詞,只有“國人”,或者其所參照的詞庫中“國人”的統(tǒng)計數(shù)據(jù)高于“我國”。以上均顯示出該軟件所參考的語料不全面,詞庫不全的缺點。
(3)判斷標準不一致。第一,分詞標準不一致。該軟件將“人多地少”“少勞少得”等結構分開標記。將“少勞少得”標記為“少/a勞/v少/a得/u”,而與之結構相同的“多勞多得”卻被標記為“多勞多得/i”。第二,詞性標注標準不一致。將“中央衛(wèi)生部醫(yī)院共有三千零六十八所”中的量詞“所”標注為助詞,將“全國設立的工人技術學校將達192所”中量詞“所”標記為介詞。可見,該軟件對于分詞和詞性標注缺乏統(tǒng)一的標準。
對于上述問題,本文給出如下建議。
(1)加強計算機識別實詞和虛詞的能力。可以根據(jù)現(xiàn)代漢語助詞的內在規(guī)律建立漢語助詞庫,將助詞出現(xiàn)的所有用法全部用例句描述出來。
(2)拓展語料空間。解決詞庫不全問題需要參照比現(xiàn)階段范圍更全面,數(shù)量更大的數(shù)據(jù)庫和語料庫,彌補涵蓋詞組不全問題。
(3)提供一致的判斷標準。具體來說,對于“少勞少得”和“多勞多得”判斷標準應該達成一致,或均整體標注為“i”(i代表習用語)或均分開標注。
判斷標準主要依照權威詞典等工具書、學術著作。所以,對于詞典來說,要求詞性概括全面,對于學術著作要求給出有說服力的理由,能在詞性以及用法上給出更具體的解釋。
總的來說,解決上述問題必須要訓練計算機區(qū)分兼類詞的實詞和虛詞詞性,依據(jù)詞典以及數(shù)據(jù)庫分詞和判定詞性,參考更豐富的數(shù)據(jù)庫以彌補詞庫不全的問題。在使用分詞標記軟件標記語篇時,人工檢查仍然是必要的,這應當引起對漢語分詞標記軟件標注使用正確性的注意。
最后,本文贊同徐復嶺(1980)[14]、張誼生(2002)[13]所認為的“一樣”具有助詞、形容詞、數(shù)量詞組三種詞性。“一樣”作為形容詞,表示相同,同樣?!耙粯印弊髦~,表示“像……一樣”?!耙粯印弊鳛閿?shù)量詞組,修飾限定事物,例如:一樣東西。王自強(1998)《現(xiàn)代漢語虛詞詞典》[15]、《現(xiàn)代漢語規(guī)范用法大詞典》[3]均認為“一樣”是助詞?!冬F(xiàn)代漢語詞典》(第7版)[1]認為“一樣”僅為形容詞詞性,未收錄其助詞詞性及數(shù)量詞組。因此,本文建議《現(xiàn)代漢語詞典》(第8版)應該將“一樣”的助詞詞性以及數(shù)量詞收錄進該詞典。