儲琢佳
摘 要:標點符號分析對于篇章分析以及自然語言處理技術的發(fā)展有著重要作用。漢語中最常用的標點符號是逗號,研究其在句子中的作用、使用方法及自動分類等問題,可以有助于漢語篇章分析,促進中文信息處理的基礎研究和應用研究的發(fā)展。
關鍵詞:標點符號識別;逗號分類;篇章分析
中圖分類號:H515;TP391.1 文獻標識碼:A 文章編號:1673-2596(2016)03-0225-02
一、逗號分類與識別的意義
隨著信息化的發(fā)展,機器翻譯、抽取式自動文摘等自然語言處理技術迎來了技術革命。針對自然語言處理系統(tǒng)的研究通常以句子為單位,分析其中的詞法、句法和語義。然而,漢語中豐富的標點符號及其使用方法使得漢語句子較長并且句意復雜,降低了句法分析的正確率。
例如:在這條通往家鄉(xiāng)的路上,翻山,越嶺,渡江,離那里越近,我的心情越復雜,我越發(fā)覺得,生命在不同的地方和不同人的眼中真的是不同。
上面這個復雜的長句包含7個逗號,用途各有不同。第一個逗號是狀語與中心語之間的停頓;第二、三個逗號是并列動賓短語之間的停頓;第七個逗號是謂語與賓語之間的停頓。在“渡江”和“復雜”之后的兩個逗號相當于句子邊界,這兩個逗號前后的主語不同,在中譯英時等同于3個句子。使用Google翻譯器的翻譯如下:“In this journey home on the road, crosses, uphill, cross the river, from where the closer, the more complicated my feelings, I feel more and more, life in the eyes of different places and different people really are different.”
以上翻譯明顯存在語法和語義上的錯誤。Google翻譯只是將這7個逗號分隔成的子句獨立進行翻譯,沒有考慮彼此之間的關系,并將各自的譯文簡單的堆砌,在句法結(jié)構(gòu)與表達的連貫性方面都不符合英文的規(guī)范。由此可見,對文本中逗號的使用方法進行正確的分類、識別可以直接影響機器翻譯對句意的正確判斷,從而影響到譯文的質(zhì)量。
二、標點符號的研究現(xiàn)狀
標點符號是篇章單位分割的重要標志,在自然語言處理系統(tǒng)中已有很多針對標點符號的研究。研究通過理論及實驗證實,通過句內(nèi)切分標點對長句子進行切分有助于輔助句法分析、機器翻譯和篇章消歧等。
Mayer[1]最早從語言學的角度對英文中的標點符號進行了分類,并描述了其功能。Nunberg[2]提出了詞匯語法和文本語法兩個概念,將標點符號視為語言學中獨立的系統(tǒng),奠定了從句法分析的角度研究標點符號的理論基礎。Jones[3]制定了新的標點符號分類方法,將標點分為并列標點和依附標點兩種,并將它們視為依附于臨近句法成分的依附標點,而非句法上的獨立個體。
在漢語方面,Jin等[4]提出了利用逗號劃分漢語長句。文章通過漢語句子的上下文識別逗號左右子句的關系,并通過并列和從屬這兩種關系對逗號進行分類,從而分割句子,對其進行有效的句法分析。黃河燕等[5]利用標點符號將復雜長句進行切分,簡化為多個獨立的簡單句進行翻譯,提高了機器翻譯的準確率。Li等[6]用標點符號對長句子進行切分處理,形成完整的句法分析樹,展示了基于標點符號進行層次化漢語長句結(jié)構(gòu)分析的優(yōu)越性。
三、逗號和子句識別的關系
標點符號是子句的重要形式標志,可分為點號和標號兩大類。漢語中和子句邊界有關的是點號,其中句號、問號、嘆號和分號一定表示子句邊界;而頓號所分隔的語言片段則不可能為子句;另外一些標點(如逗號和冒號)所分隔的語言片段則有可能是子句。
表1基于漢語賓州樹庫(CTB6.0)的統(tǒng)計數(shù)據(jù),給出了漢語中可以作為子句邊界的標點符號的使用頻率。從圖中可見,肯定是子句邊界的句末點號(句號、問號、感嘆號)和句內(nèi)點號(分號)占31.14%;有可能是子句邊界的逗號占67.17%。因此子句識別的關鍵在于判斷逗號是否為子句邊界,可以結(jié)合逗號的具體用法和分類研究其作為子句邊界的情況。
(一)逗號的分類標準及使用方法
根據(jù)Yang and Xue)[7]的逗號分類標準,首先逗號的使用方法可以大體上分為兩類。第一類逗號所連接的兩子句之間存在關系;第二類逗號所連接的兩子句之間不存在關系。第一類又可以分為并列和從屬關系。并列關系包括3種類型(SB、IP_COORD、VP_COORD),從屬關系也包括3種類型(ADJ、COMP與SBJ)。
1.SB(sentence Boundary):用于分割句子邊界的逗號。這類逗號能夠在句子中起到句子邊界的作用。逗號作為句子邊界有兩點要求:逗號前后子句有完整的句法結(jié)構(gòu);具有獨立的句意且逗號前后子句間沒有緊密的句法關系,如例1中的c1和c2。
例1:我省重點合作項目簽約儀式目前舉行,c1其中外商投資項目9個,c2協(xié)議利用外資31億美元,引進城外資金660億元。
此句是很常見的流水句,句中的逗號是流水句中的停頓,句中的3個子句相互獨立,逗號c1和c2相當于句號,可視為句子邊界。
2.IP_COORD(IP Coordination):逗號的左右子句有完整的IP結(jié)構(gòu)但句法上卻不獨立。分割父節(jié)點為非根節(jié)點的并列IP結(jié)構(gòu)的逗號,如c3和c4
例2:改革二十多年來,我們黨在實踐中形成了一整套基本政策,c3實踐證明這些政策符合農(nóng)村實際,c4必須保持穩(wěn)定性和連續(xù)性。
3.VP_COORD(VP Coordination):分割并列動賓短語的逗號。與IP_COORD類逗號相似,此類逗號也是分割嵌套結(jié)構(gòu)中的并列結(jié)構(gòu)。
例3:養(yǎng)成好習慣是良好生活的體現(xiàn),c5也是一個人素養(yǎng)的表現(xiàn)。
4.ADJ(Adjunction):用于分隔附屬從句與主句的逗號。附屬從句指在從屬復合句中擔當句子成分的主謂結(jié)構(gòu)。雖然從句自身的句子結(jié)構(gòu)完整,但它并不能脫離主句部分獨立完整地表達意思。
例4:為了依法推進行政審批制度改革,c6國務院于2013年7月對有關行政法進行了清理,并對25項行政法規(guī)的部分條款予以修改。
5.COMP(Complementation):用于分隔動詞與長賓語的逗號。通常出現(xiàn)在“認為”“提出”“表示”等提示性動詞之后。
例5:所有28位接受調(diào)查的專家都認為,c7澳洲聯(lián)儲至少眼下不會急于進行年內(nèi)第三度降息。
6.SBJ(Sentential Subject):分割句子主語和謂語的逗號。
例6:食品工業(yè)迅速增長,c8已成為國民經(jīng)濟支柱產(chǎn)業(yè)。
7.Other:其他類型。上述6種逗號類型之外的逗號都劃分為其他類型,往往不能標記語篇單元。
根據(jù)子句的定義,我們發(fā)現(xiàn)只有第一種情況中的逗號是子句邊界標點,而后幾種情況中的逗號都是子句內(nèi)部的標點。綜上可知,逗號對于子句分隔十分重要。判斷逗號能否作為子句邊界,實際就是判斷逗號是否表示復句內(nèi)部各分句之間的停頓。
(二)逗號的自動分類方法
目前的逗號自動分類方法較多是基于句法分析。如在加入逗號分類信息的情況下,使用句法分析器對句子進行句法分析得到逗號分類結(jié)果;或在句法分析器進行句法分析的基礎上對句法分析過的句子提取特征建立最大熵逗號分類器。此外,僅利用句子的詞語詞性信息對逗號進行自動分類也取得了較好的效果。具體方法是在分詞與詞性標注的語料中提取上下文特征,包括子句主干特征、當前逗號序號及序號前的逗號分類類別特征、詞匯特征,并采用分類器實現(xiàn)逗號的自動分類。
目前針對自動識別句子邊界的逗號的研究較少。Jin等[8]提出了一種基于逗號的漢語長句分割方法,利用標準句法樹,根據(jù)分割原理抽取訓練和測試樣例,采用謂詞和其他相關特征判斷逗號是否可以進行句子分割。Xue等[9]提出了判斷逗號是否為句子邊界的自動識別方法,利用CTB6.0語料,采用啟發(fā)式規(guī)則,自動標注語料中不同功能的逗號類型并抽取特征進行試驗,結(jié)果證實了這種方法的有效性。
目前,標點符號的分類與識別已經(jīng)引起了眾多研究者的關注。然而,雖然在漢語篇章分析中已有很多研究取得了較大的進展,利用標點符號輔助句子分析的研究仍比較缺乏,從自然語言處理角度對漢語逗號的自動分類研究開展的也很少,現(xiàn)有的大多數(shù)自動句法分析系統(tǒng)也都忽略了標點符號的特殊作用。本文從自然語言處理角度研究了逗號在句子中的作用、使用方法,總結(jié)了逗號的分類問題,希望可以有助于漢語篇章自動分析,豐富和發(fā)展語言學理論,促進中文信息處理基礎研究和應用研究的發(fā)展。
參考文獻:
〔1〕Charles Meyer. A Linguistic Study of American Punctuation[M]. Peter Lang: New York.1987.
〔2〕Geoffrey Nunberg. The Linguistics of Punctuation[M].CSLI Lecture Notes, No. 18, StanfordCA,1990.
〔3〕Jones Bernard. Whats the Point? A (Computational) Theory of Punctuations[D]. PhD thesis, Centre for Cognitive Science, Universito of Edinburgh, Edinburgh, UK, 1997.
〔4〕〔8〕Meixun Jin, Mi-Young Kim, Dong-Il Kim, and Jong-Hyeok Lee. Segmentation of Chinese Long Sentences Using Commas. [C]//In Proceedings of the SIGHANN Workshop on Chinese Language Processing.2004:56-64.
〔5〕黃河燕,陳肇雄.基于多策略分析的復雜長句翻譯處理算法[C].中文信息學報,2002,16(3):1-6.
〔6〕Xing Li, Chengqing Zong. A Hierarchical Parsing Approach with Punctuation Processing for Long Complex Chinese Sentences[A]. In Companion Volume to the Proceedings of Conference including Posters/Demos and Tutorial Abstracts, IJCNLP2005, Jeju Island, Korea, October11-13,2005:9-14.
〔7〕〔9〕Yaqin Yang, Nianwen Xue. Chinese Comma Disambiguation for Discourse Analysis. [C]//Proceedings of Annual.
(責任編輯 賽漢)