段瀟雪
(南京師范大學 文學院,江蘇 南京 210097)
隨著語言學研究的進一步深入,人們越來越認識到語言的本質(zhì)共性是語義性。借助于句法分析的手段,自然語言理解的研究也必須建立在語義理解的基礎上。語言工程對語義分析的迫切要求充分說明要使計算機具有人類的智能和高速的分析能力,就必須進行深度的語義分析。目前現(xiàn)代漢語的語義角色研究取得了一定的成績,但對語義角色的分類和鑒別仍然存在較大的分歧。
“語義格”的提出將語義分析引向深入,然而語義格數(shù)目的不確定也是學者們對這一理論詬病的主要原因。Fillmore(1968)首先提出了6種語義格,之后又增補了10個,但語義格的數(shù)量難以確定,有些NP如何劃類仍存在爭議。顯然這16種格是不夠的,“不能做到相同的格表示相同的關(guān)系,不同的格表示不同的關(guān)系。有些不同的關(guān)系不得不用同一種格描述”(徐烈炯,1995)。Dowty(1991)把題元劃分為兩個大類,即“原型施事”、“原型受事”。然而,語義角色劃分得過于簡單就不能很好地區(qū)分句子的語義特點。同樣這種以原型理論為背景的語義角色劃分是否完全適合于漢語的特點也值得商榷。
事實上用“語義角色”的概念來研究語義也并不只是西方學者的創(chuàng)見。呂叔湘在《中國文法要略》中所提的“起詞”、“止詞”以及14種補詞的區(qū)分,都已經(jīng)蘊含了漢語語法研究的格語法思想。任善銘(1956)認為“施受關(guān)系和結(jié)構(gòu)在句子里本來都存在,兩者的存在本身并沒有抵觸。在認識和分析句子的時候,兩者都應該適當?shù)膽谩薄6÷晿浜偷龋?961)也指出“有各種不同的動詞,因此動詞跟賓語也有各種不同的關(guān)系。就是同一個動詞也常帶各種關(guān)系不同的賓語”,主語與謂語是施事還是受事等等關(guān)系也都考慮在列。然而遺憾的是20世紀80年代之前,學者們并沒有在語義的這條路上走下去。隨著語法研究的深入和語義重要性的提升,80年代以后學者們又重回到了語義研究上來,展開了語義角色的深入討論。80年代胡明揚翻譯了《“格”辨》,譯介了Fillmore的早期格語法理論;之后還有楊成凱對格語法早期和70年代的發(fā)展進行了詳盡的描述;朱德熙區(qū)分了句子中各種成分間的顯性語法關(guān)系和隱性語法關(guān)系。其中隱性語法關(guān)系就包含了施事、受事、工具等。三個平面語法理論提出后,語義成分擺脫了句法成分附庸的地位。徐烈炯、沈陽在譯介西方的格語法理論后,對漢語語義角色問題進行了較為深入的剖析,如《題元理論和漢語配價問題》(1998),詳細討論了題元能否分類,有多少個題元,能否列出題元總表,如何定義題元等問題。孟琮等人在《動詞用法詞典》(1987)中將與動詞相關(guān)的名詞賓語劃分為14個類別,這14個類別僅限于動詞的賓語位置,但與動詞發(fā)生格關(guān)系的體詞性成分的狀語位置并未涉及。魯川、林杏光的《現(xiàn)代漢語語法的格關(guān)系》(1989)中指出“格關(guān)系是諸多的語義關(guān)系的一種,指的是句子的表述中心的謂詞跟周圍的體詞之間的及物性關(guān)系”,“格系統(tǒng)是一棵樹”,共分兩個層次,上層6種,下層18種。邵敬敏在《論漢語語法的語義雙向選擇性原則》(2007)中基于魯川、林杏光的格體系,劃分了7大類24小類的語義角色系統(tǒng)。范曉在《說語義成分》(2003)一文中再次修改動核結(jié)構(gòu)的動元、狀元分類和名核結(jié)構(gòu)的名元、定元。重建后的語義角色體系分為31個小類。陳昌來在《現(xiàn)代漢語語義平面問題研究》(2003)中把漢語的語義格分為26個。
有關(guān)語義角色理論研究的分歧還表現(xiàn)在界定問題上,包括鑒別的標準問題。Fillmore給語義格界定的標準是人類對其周圍發(fā)生的事件所能做出的某些類型的判斷。Jackendoff提出了一個認定代理格的方法,即通過某些短語是否能添加到句子中來判斷。Dowty則認為應該劃分為幾個題元在本質(zhì)上是沒有意義的,他認為應該以事件而不是透視域來鑒別題元角色,而以事件為依據(jù)得出的語義角色能夠獨立于句法功能,保持穩(wěn)定的語義作用。
同樣,中國的語言學者在語義角色的鑒別上方法和原則也不盡相同。林杏光、魯川(1999)通過對漢語格關(guān)系的研究發(fā)現(xiàn),語義角色可以按層級進一步細分。他們認為語義角色系統(tǒng)像一顆樹一樣按層級排列,語義角色之間存在著層次。在這種認知的基礎上,他們采取了層層控制和層層推進的方法界定語義角色類別。畢玉德(2003)在建構(gòu)朝鮮語語義角色體系時歸納了四條語義角色鑒別的原則:基于事件原則;面向語料;句法為本;意念驅(qū)動。
對語義角色研究較多的袁毓林先生在《論元角色的層級關(guān)系和語義特征》(2003)一文中提出了怎樣確定語義角色,如何處理語義角色的模糊性問題以及語義角色的層級設立和動詞在特定句式中增加的論元如何處理等問題。語義角色難免有一定的模糊性,用一種形式化的辦法難以嚴格的定義,那么是否可以采用原型理論,在給出語義角色的典型句法和語義特征的前提下,通過類比歸類的辦法鑒別特征不明顯的語義角色。
語義角色的鑒定是語義角色范疇體系制定的前提,也是檢驗語義角色分類是否合理的指標。有了清晰的鑒定方法,語義角色的研究才能從混沌走向清晰。
在語義研究的過程中,人們越來越意識到單一層面的劃分是不可能把語義角色的范疇描述清楚的,但是句式的多樣性和漢語動詞語義的復雜情況使得語義角色范疇的研究難有一個統(tǒng)一的定論。學者們因認識與需求的不同形成了不同的語義角色層級劃分體系。至今語義角色的數(shù)目和語義范疇體系的明晰之間的矛盾依然存在,建立更加合理的語義角色范疇是語義角色標注的前提,對中文信息處理同樣有重要的意義。
對應于理論層面的研究,近年來面向語義標注語料庫的語義角色劃分也取得了一定的成績,具有代表性的有:
由清華大學、北京大學和魯東大學共同構(gòu)建的事件塊句法語義標注語料庫,標注的關(guān)鍵集中在對物質(zhì)世界、人類社會中的幾大類客觀關(guān)系的實踐內(nèi)容,主要包括:廣義擁有關(guān)系、時空存現(xiàn)關(guān)系和時空變化關(guān)系等方面。
魯東大學承建的現(xiàn)代漢語句法語義信息語料庫,以中小學課文和對外漢語閱讀材料為基礎共加工了包含713430字、28669個句子的語料。以句子為單位標注了每個句子的句法結(jié)構(gòu)和語義信息結(jié)構(gòu)。在語料庫的基礎上,分別提取并建立了句型系統(tǒng)、句模系統(tǒng)和句干系統(tǒng)。該語料庫共設置了24個語義成分標記,7個句法成分標記,以句子為單位進行句法結(jié)構(gòu)和語義結(jié)構(gòu)的標注。
北京語言大學的現(xiàn)代漢語語料的句子級語義標注。該標注語料庫是以HNC理論為指導建立的自上而下的句子語義標注,主要標注句類、語義塊、句蛻。
北大中文網(wǎng)庫是2007年開始建設的一個基于大規(guī)模真實文本的多層次語義關(guān)系標注語料庫,共定義了22個論元角色,分為必有論元和非必有論元。在標注論元信息的同時對句子的主觀信息也進行了標注。北大中文網(wǎng)庫是在詹衛(wèi)東等人開發(fā)的北大漢語句法分析樹庫的基礎上進行的語義信息標注。
哈工大語言技術(shù)平臺(Language Technology Platform,LTP)是哈爾濱工業(yè)大學社會計算與信息檢索研究中心開發(fā)的一套系統(tǒng),提供了一系列的漢語語言處理模塊,其中包括分詞、詞性標注、命名實體識別、依存句法分析、語義消歧和語義角色標注等。該平臺使用的訓練數(shù)據(jù)是Chinese Prop-Bank2.0中的22277個句子?!皵?shù)據(jù)稀疏仍然是困擾語義角色標注的主要問題之一”(劉挺,2011),由此可見,語義角色的精細等級和標注的效率的矛盾是一直存在的。與此同時,哈工大近兩年正在研究“語義依存分析”(Semantic Dependency Parsing,SDP),同時聯(lián)合北京城市大學標注了1萬句中文語義依存分析樹。中文語義依存樹庫是以依存句法理論為基礎,融合依存結(jié)構(gòu)和語義信息,提取句子中所有的修飾詞與核心詞之間的語義關(guān)系。除了分析句子中主要謂詞與其論元的語義關(guān)系外,還涉及了諸如數(shù)量、屬性、頻率等非主要謂詞包含的語義信息。
現(xiàn)代漢語的語義標注研究,除了以上所提到的還有較早建立的SinicaTreeBank(臺灣中央研究院詞庫小組,1986)、句子級語義標注的現(xiàn)代漢語語料庫系統(tǒng)(社科院聲學所、北京師范大學和北京大正語言有限公司研制,1989)。上海師范大學和山西大學聯(lián)合構(gòu)建的Chinese Frame Net,可以看做是Frame Net的漢語對應庫。偏向于工程的語義角色體系還有董振東的知網(wǎng)(HowNet),共有90個語義角色,用義元和角色關(guān)系來描述概念,采用了812類事件義元,并規(guī)定了相應的必備語義角色框架。
現(xiàn)有工程上的語義角色標注系統(tǒng)多數(shù)以句法成分為基本的標注單元,必然依靠句法標注信息,這里不再贅述。
漢語語義角色的研究雖然已經(jīng)在中文信息處理、對外漢語教學等方面取得了一定的成績,但是也存在一定的問題。語義角色的稱謂混亂、語義角色的數(shù)目不定、歸屬上混沌模糊、各角色間的界限不明確等。從學者們對語義角色范疇研究的歷程中可以看出,語義角色的不斷增加說明不同的句式對語義角色有著不同的要求。語義角色范疇研究的困難大致有兩個方面的原因:一是句式的復雜多樣;二是動詞語義的復雜。
首先,語義角色概念稱謂的混亂是亟待解決的問題。不應因為概念的混亂造成研究上的障礙,使得人們對語義分析理論有一種不規(guī)范、不明確的認識。第二,沒有一套準確的語義角色測定標準。在分離和制定語義角色標準的時候,各個學者的標準不同。使得原本就混亂的語義角色劃分更不清晰,有些相同句式中的語義成分被歸為了不同的語義角色。第三,可供計算機處理的可用資源很有限。
針對語義角色范疇研究的困難,增大可供學習的語料庫是解決句式多樣造成范疇研究困難的一條途徑。語料庫的規(guī)模越大,所能涵蓋的句式就更加全面,再給機器學習之后才能更好的完成語義角色的標注。在此基礎上,本文認為面向深層次語義研究的語義角色范疇建立體現(xiàn)出以下的研究趨勢:
1.語義句法理論的建構(gòu)更加注重面向自然語言的處理中語義理解的需要。語義句法的理論研究和語義角色范疇的劃分都是為了對語言進行深層次的語義剖析,解釋語義的生成機制,以期提供更多可供機器學習的語義信息。
2.語義角色范疇的劃分需要基于真實文本的標注驗證。不論是理論上的語義角色體系建構(gòu),還是面向自然語言處理的語義角色劃分,近年來有關(guān)語義角色范疇劃分的一個明顯趨勢就是更多地將范疇劃分和真實文本的標注驗證相結(jié)合。語義角色的劃分要遵循一定的語義分析原則,但并不是這樣就一定適合于自然語言復雜多樣的情況。因此,以真實文本的標注中遇到的問題來驗證并提高語義句法范疇體系的信度和效度是今后研究的一個方向。
3.語義角色的研究趨向典型格的深化,同時關(guān)照非典型格的分析。孫道功(2009)提出目前漢語格語法取得了一定進展,在格的層級性以及施事、受事等典型格的界定上都已經(jīng)達成共識;但對于格的個案研究還不充分,格的名稱也缺乏統(tǒng)一性;對名核結(jié)構(gòu)內(nèi)部關(guān)系缺乏關(guān)注和探討。以往的研究者們對典型的語義角色的研究已經(jīng)有一定的成果,認識上也達成了一定程度上的一致,正一步步接近典型語義角色的語義本質(zhì)。典型語義角色與研究較少的非典型語義角色之間組織關(guān)系等還不很清楚;在個別一些語義角色的界定上存在很大的分歧。進一步深入研究非典型的語義角色,才能平衡語義角色體系內(nèi)部的研究。
4.語義句法范疇體系的建構(gòu)更加需要借鑒認知語言學的相關(guān)理論。認知語言學的興起使人們看到它在對語言現(xiàn)象的解釋特別是對語義的挖掘上十分有效。語義句法范疇的建構(gòu)和研究也要善于借鑒認知語言學的理論。
如上所述,當今人們對自然語言理解的最終目標就是深層次的語義分析,以期進行自動的知識獲取、推理等等。因此在語義角色標注的基礎上進行深層次的語義分析必然是未來語義研究的重點。語義角色范疇體系的建立是進一步語義研究的基石,是語義角色標注完備的前提。
[1]畢玉德.關(guān)于語義信息處理的語義角色系統(tǒng)的建構(gòu).2003(3).
[2]陳昌來.現(xiàn)代漢語語義平面問題研究.學林出版社,2003.
[3]丁聲樹等.現(xiàn)代漢語語法講話.商務印書館,1961.
[4]范曉.說語義成分.漢語學習,2003(1).
[5]劉挺,車萬翔,李正華.語言技術(shù)平臺.中文信息學報,2011(11).
[6]魯川,林杏光.現(xiàn)代漢語語法的格關(guān)系.漢語學習,1989.
[7]林杏光.詞匯語義和計算語言學.語文出版社,1999.
[8]呂叔湘.中國文法要略.商務印書館,1941.
[9]孟琮等.動詞用法詞典.上海辭書出版社,1987.
[10]任善銘.主賓語問題是怎樣的問題.中華書局,1956.
[11]邵敬敏.漢語語法的立體研究.商務印書館,2007.
[12]孫道功.詞匯-句法語義貫通研究的新探索.語言文字應用,2009(2).
[13]徐烈炯.語義學(修訂本).語文出版社,1995.
[14]徐烈炯,沈陽.題元理論和漢語配價問題.當代語言學,1998(3).
[15]袁毓林.一套動詞論元角色的語法指標.世界漢語教學,2003(3).
[16]袁毓林.論元角色的層級關(guān)系和語義特征.世界漢語教學,2002(3).
[17]http://ir.hit.edu.cn/demo/ltp/.