戴玉玲
(南京師范大學 文學院,江蘇 南京 210097)
基于字位的分詞方法是目前中文文本分詞的重要方法,它將分詞任務轉換成了標注任務,首先按照字在詞中所處的位置,將語料庫中已正確切分的詞語轉化為一個標注序列,通過訓練最大熵模型或隨機場模型進行機器學習,由訓練得出的標注器來執(zhí)行標注任務,最后將被標注的測試數(shù)據(jù)再轉換為分詞形式。字本位分詞,無須詞表,占用資源少;分詞速度和效果也最高,對于沒有大量分析結果的特質語料和古典文學這些同質性較少的語料來說更能滿足用戶需求。針對該種分詞方法,已有多項實驗證明使用該方法進行分詞,其結果的精確率和召回率均已達到較高水平,是一種行之有效的分詞方法[1](29-48)。 但歷年來對該方法的研究僅限于實驗應用方面,而對于其有效性的理論分析卻稍顯不足。作為一種成功的分詞方法,對其背后蘊含的語言學理論及知識的挖掘也十分必要。本文將從語言學理論角度出發(fā),對基于字位的分詞方法加以分析,采用假設檢驗法,假設語素義、語素位置以及詞義三者之間關聯(lián),并通過實驗和統(tǒng)計分析,證明語素義、語素位置對構詞的作用,并且總結字位分詞的錯誤類型及原因。
薛念文[2](57-63)在2002年首次提出了基于字的分詞方法,他提出將分詞過程視作構詞過程,標記特定詞語中每個字的位置:LL標記詞首,RR標記詞尾,MM標記詞中,LR標記單字詞。所有的標記根據(jù)定義好的特征模板進行學習并獲得概率模型。然后,在待分字串上,根據(jù)字與字之間的結合緊密程度,得到一個詞位的標注結果。再根據(jù)標注結果獲得分詞結果。他在次年運用最大熵模型訓練的分詞系統(tǒng)在評測任務中取得了優(yōu)秀的成績。在Bakeoff-2005和Bakeoff-2006中,采用條件隨機場模型訓練的分詞系統(tǒng)的各項評測結果均獨占鰲頭。
此后,使用最大熵模型和條件隨機場等模型的基于字的分詞方法得到了廣泛的應用,并且由眾多學者進行優(yōu)化推廣。針對標點符號、姓氏和地名機構名添加相應的特征模板,提高分詞精度[3]。近年來深度學習的方法如循環(huán)神經網絡、卷積神經網絡等模型也被運用于字序列標注[4](169-177)。出現(xiàn)了特定領域的如基于字序列標注的對書目名的關鍵詞抽取[5](39-45),對于同樣沒有明顯詞 語邊界的外語文 本如緬甸語,也有研究者基于該方法論述了其分詞問題及其實現(xiàn)[6](1682-1688)。
但縱覽相關論文,它們基本都是從實驗角度對基于字位的分詞方法進行驗證和優(yōu)化,薛念文給出該方法的理據(jù)支撐是漢語中特定詞語的字數(shù)有限,一般在四字以內,且漢字總體數(shù)量保持相對穩(wěn)定[1]。從語言學角度看,詞是由語素構成的,且漢語中的語素大部分都是單字,因此,可以從語素角度切入,分析基于字位的分詞方法的理據(jù)性。
語素是語言中最小的音義結合體,也是最小的構詞單位?!冬F(xiàn)代漢語》對語素進行了簡單的分類:根據(jù)語素是否可以單獨成詞,可以分為成詞語素和不成詞語素;根據(jù)不成詞語素在詞語中的位置是否固定,可分為定位語素和不定位語素[7]。
最近研究表明,不管語素是否可以單獨成詞,將一段文本中詞語語素的位置打亂,漢語母語者仍然可以暢通無阻地理解文本的內涵[8](158-166)。他們會在閱讀中不自覺地還原語素固有的位置信息,這從心理學角度證明了語素位置與詞語分割以及詞義認知關系密切。而對于語素義的研究較少,主要集中于詞義的研究。吉志薇通過標注詞語中語素的義類,根據(jù)語素意義分布表計算得到所有義類組合的詞語,返回排名最高的義類組合作為該詞最有可能的意義,以此輔助分詞以及識別理解未登錄詞[9](63-68)。 總體來說,從語素位置與語素義的角度入手,進行分詞實驗的優(yōu)化或是對分詞方法的理論分析依然有待挖掘。
由于現(xiàn)代漢語中的詞語大多數(shù)為二字詞語,因此本文將利用《現(xiàn)代漢語詞典》(第六版)中51265個二三字詞作為研究對象,剔除其中含字母的詞7個,共計51258個詞語,并提取其中出現(xiàn)頻率最高的前50個語素,根據(jù)這些高頻語素在詞中的位置及語義信息,討論語素對構詞的貢獻以及基于字的分詞方法的有效性。
本章首先對已得出的50個高頻語素的位置信息進行統(tǒng)計,查看各語素在詞語中的位置分布情況,發(fā)現(xiàn)一些特定的語素,例如詞尾出現(xiàn)詞語的末尾的特征可以作為自動分詞的依據(jù)之一。再對特定的語素“人”進行研究,發(fā)現(xiàn)語素位置在一定程度上影響著其構詞方式。
統(tǒng)計50個高頻語素出現(xiàn)在《現(xiàn)代漢語詞典》中詞語的詞首位置(第一位置)、詞中位置(第二位置)、詞尾位置(第三位置),可以得出:除了“子”“兒”“頭”三個語素外,其他高頻語素出現(xiàn)在第三個位置上的概率均小于0.1,且“小”“打”“不”“出”的相應概率為0。其中“子”“兒”出現(xiàn)在第一位置的概率也小于0.1。這印證了“子”“兒”“頭”常以詞語后綴的形式出現(xiàn)。但各高頻語素出現(xiàn)在各個位置上的概率差異并不明顯。計算各高頻語素位置的熵信息[10](23)來表示其分布的均勻程度。熵,又稱自信息,可度量變量的不確定性,變量數(shù)和集中程度都能夠影響熵值。一般來說,熵值越大,表明變量的數(shù)量越多,分布均勻,不確定性越大;反之則確定性越大,熵值為0,表明變量完全可以確定。
計算每個高頻語素X在每個位置上的概率P(X),再根據(jù)給定的熵的計算公式得出每個語素X的熵①。對得出的結果進行統(tǒng)計。圖1為語素位置的熵值分布圖:
圖1 語素位置的熵值分布
若熵值越大,則分布越均勻,僅通過語素位置信息進行分詞的困難也就越大。反之,熵值越小,分布越不均勻,語素固有的位置信息則可以作為分詞的標準之一。從圖1可以看出,該50個高頻語素的熵值均較大,集中在0.3-0.5之間。這說明總體來看,各語素在各位置上的分布較均衡,因此不能單憑語素固有的位置信息作為分詞的依據(jù)。
根據(jù)上述實驗可以看到,單純看待詞內部每個語素的位置分布似乎沒有什么規(guī)律可言。那語素構詞的方式是否與其出現(xiàn)在特定詞中的位置有關?本文選取在《現(xiàn)代漢語詞典》(第六版)中出現(xiàn)頻率高且在詞內各位置上分布較均勻的語素“人”,分別統(tǒng)計二字詞和三字詞中,“人”出現(xiàn)在詞各位置上時語素的構詞方式,形成表1。
表1 “人”出現(xiàn)在詞各位置上的構詞方式
表1中共統(tǒng)計了418個含“人”的詞語,其中二字詞278個,三字詞199個??梢钥闯?,不管是二字詞還是三字詞,偏正結構的構詞方式占據(jù)了絕對地位,共230例,其次是述賓結構的構詞方式,共145例。而述賓結構不出現(xiàn)在第一位置,主謂結構不出現(xiàn)在第二位置,這說明語素出現(xiàn)的位置在一定程度上限制了其構詞方式。表2給出了語素“人”在不同詞位上的概率和熵值。觀察發(fā)現(xiàn),“人”處于三字詞的第一位置時熵值最小,為0.15,此時這些三字詞有極大可能是偏正結構。
表2 “人”出現(xiàn)在詞各位置上構詞方式的熵值
第二章統(tǒng)計分析了語素的位置信息及其與特定詞的構詞方式的關系,發(fā)現(xiàn)了其位置信息雖然可以揭露出一定的構詞方式信息,但無法作為判斷分詞的唯一標準。因此本章將從語素意義的角度,探究跨詞語語素意義以及詞語內語素意義的關系,分析其是否有可能對構詞產生影響,進一步成為基于字的分詞方式的理論支撐。
由于漢語中語素的意義通常比較復雜,因此本文僅選取語料庫在線中的單個實例,手工對該句子進行分詞,得到8對跨詞語素及6對詞內語素,分別研究其跨詞語素以及詞語內語素的在語料庫中的分布情況,并通過查詢《現(xiàn)代漢語詞典》(第六版)每個語素的義項,觀察各對語素的意義之間是否具有相近或相關關系。
革命/人民/團結/越/廣泛,階級/敵人/越/孤立[11]。
表3 例句中語素對之間的頻次及語素義關系
表3中的頻次一欄表示的是各語素對在語料庫在線中的頻次分布,可以清楚地看出詞間語素對的頻次遠遠高于跨詞語素間的頻次,下面以“團結”“結越”為例,查詢“團”“結”“越”在《現(xiàn)代漢語詞典》(第六版)中的相關義項,說明語素義間的關系。
【團】tuán⑤會合在一起:~聚|~結。[12](1321)
【結】jié④凝聚;凝結:~晶|湖面~了一層冰。[12](662)
【越】1yuè①跨過(阻礙);跳過:~墻|翻山~嶺。 ②不按照一般的次序;超出(范圍):~級|~權。③(聲音、情感)昂揚:激~|聲音清~。④〈書〉搶奪:殺人~貨。
【越】2yuè疊用,表示程度隨著條件的變化而變化(跟“愈…愈…”相同):腦子~用~靈|爭論~認真,是非也就~清楚。
【越】3yuè①周朝國名,原來在今浙江東部,后來擴展到江蘇、山東。 ②指浙江東部。 ③姓。[12](1609)
觀察所列出的義項,“團”的⑤義項和“結”的④義項呈現(xiàn)出語義相似的關系,都包含著“聚合”的意義,因此二者結合成詞的可能性很大,而“結”與“越”的任何一個義項都沒有相似或相關關系,因此二者結合成詞的可能性很小。這說明詞語中各項語素義之間呈現(xiàn)出緊密的聯(lián)系,而對跨詞語中各項語素義之間聯(lián)系不大。語素意義的考慮說明了詞并不是字與字的簡單堆砌,而是有其內部的結構和意義,也正因此印證了各語素對在語料庫中的出現(xiàn)頻次差別如此之大,足以使通過機器學習獲得概率模型,進一步進行基于字的分詞方法成為可能。
除了詞語內部的語素義,語素義與詞義的關系也十分密切。 根據(jù)符淮青[13](98-110)的觀點,語素義和詞義的關系可分為5種:第一種類型,語素義直接地完全地表示詞義,即相等關系;第二種,語素義直接地但部分地表示詞義。這種類型的詞義等于語素義之和加上詞的暗含內容,即縮小關系;第三種類型,語素義和詞義的聯(lián)系是間接的,詞義是語素義的引申比喻義即擴大關系;第四種類型,部分語素在構詞中失落原義,即缺失關系;第五種類型,構成詞的所有語素的意義都不顯示詞義,即語素義與詞義無關。
圖2 “人”的語素義與詞義的關系
從圖2中可以看出,對高頻語素“人”來說,語素義直接完全地表示詞義的情況,即詞義相等的情況最為突出,共297個詞例,占比71.05%,而其他幾種情況出現(xiàn)的頻次則較為平均,且頻率較低,前三種情況中,語素義都與詞義有關,共計360例,占比86.12%。這說明了語素義對詞義的理解具有較大的幫助。在分詞時,若在統(tǒng)計或深度學習的基礎上能將語素義納入考慮,在現(xiàn)階段分詞技術的基礎上,利用詞典或知網等中各語素的義項,自動分析分詞后語素義之間的關聯(lián)度,以及各相鄰詞義之間的關聯(lián)度,可以進一步提高分詞精度。
目前基于字的分詞方法的應用已較為廣泛,不管是使用傳統(tǒng)機器學習的最大熵模型和隨機場模型的分詞系統(tǒng),還是使用深度學習中一些模型的分詞系統(tǒng),其分詞精度均已達到95%左右甚至更高,但在分詞結果中仍不可避免地出現(xiàn)一些錯誤,本章將歸納兩種分詞過程中的常見錯誤,并且嘗試給出分詞錯誤的原因。
未登錄詞是指在機器可讀的詞典中沒有出現(xiàn)過的詞,有數(shù)據(jù)表明,未登錄詞造成的分詞精度失落至少比分詞歧義大5倍以上[14](8-19),但自從采取了基于字的分詞方法,由于將分詞的任務轉化為構詞的任務,未登陸詞的識別錯誤情況已明顯改善,但仍然不可避免。
未登錄詞的識別錯誤主要體現(xiàn)在命名實體識別錯誤以及專業(yè)術語的識別錯誤。命名實體主要包括人名、地名、機構名,例如“某某出席宗教團體負責人迎春座談會?!?,根據(jù)《信息處理用現(xiàn)代漢語分詞規(guī)范》,漢族人名的姓和名需要進行切分,分開處理,但分詞系統(tǒng)會對該詞進行誤判斷,將它作為普通名詞進行處理,切分情況為“某某/出席/宗教/團體/負責人/迎春/座談會/。/”。其次對于某些特定領域的文本來看,其中可能充斥著較多的專業(yè)術語,例如“組織間橋”是醫(yī)學專業(yè)術語,分詞系統(tǒng)會將它作普通名詞處理,錯誤切分為“組織/間橋/”。
詞語的歧義類型可以分為交集型歧義和組合型歧義。前者指對于一個漢字串ABC,在不考慮上下文的情況下,切分為AB/C或者A/BC都是合理的,如漢字串“地面積”,可以切分為“地面/積”或者是“地/面積”,后者指的是對于一個漢字串AB,在不考慮上下文的情況下,切分或者合并都是合理的,即可以切分為A/B,也可以不切分,如漢字串“將來”可以切分為“將/來”,也可以不進行切分[15](171-176)。 目前隨著模型的不斷優(yōu)化,基于字的分詞方法可以有效解決兩種歧義引起的問題,但切分錯誤的情況也時有發(fā)生。
語言學知識的利用率低。以基于字的分詞方法中,使用的條件隨機場模型為例,雖然在條件隨機場模型中的特征模板有意識地添加一些語言學的規(guī)則,例如“子”“兒”等一般情況下是詞尾,因此可以估計它們出現(xiàn)的位置,但這特征只能在分詞中起到微弱的輔助作用,一是因為漢語中本來作詞尾的語素就很少,特征無法具有概括性;二是因為即使是這些常作詞尾的語素,也有可能出現(xiàn)在詞的其他位置,例如“子孫”。由上文的分析可知,語素義對詞語的構成以及詞義的影響很大,而目前主流的基于統(tǒng)計的方法和基于深度學習的方法無法利用語素義來輔助分詞,它們對于系統(tǒng)中參數(shù)的估計只能依靠不斷的調試。
不管是基于統(tǒng)計的方法還是基于深度學習的方法,在開放測試的環(huán)境下表現(xiàn)并不是非常出彩,因此它們都要求一個盡可能大,且涉及領域盡可能廣的訓練集。訓練集越小、訓練集文本的題材越單一,分詞的精度也就越差。再加上未登錄詞由于其性質特殊,也就更加難以切分出來。
在漢語文本的自動分詞任務中,利用基于字的分詞方法表現(xiàn)出優(yōu)秀的分詞效果,占據(jù)了主流的地位,因此本文期望找到該分詞方法背后的語言學知識的支撐,即語素位置在一定程度上影響著構詞的方式,通過對詞內語素對和跨詞語素對的分析,發(fā)現(xiàn)語素義間的緊密關系是構詞成功的重要依據(jù)。之后,本文通過對含高頻語素“人”的詞的詞義進行統(tǒng)計,說明了語素義和詞義之間也存在著緊密的聯(lián)系,大部分的語素義都可以直接完全地表示詞義。最后,歸納了分詞中常見的錯誤類型及錯誤原因,提出若能將語素義作為自動分詞的標準之一,那么自動分詞的精度或許會進一步提高。
因此,從理論角度看,現(xiàn)有詞典中并沒有清晰地將語素意義的義項和詞義義項區(qū)分開來,未來此類資源有待加入到詞典中。從應用角度看,在自動分詞領域中,如何最大程度地利用語言學的本體知識,與機器學習或者深度學習的方法相結合,是未來值得考慮的一個方向。從語言學的理論角度看,語素與語素組合成詞是否可以歸納出更加簡潔深刻的規(guī)律,并以機器可讀的方式呈現(xiàn)出來;語素義這一判斷標準如何能夠量化計算,運用于自動分詞中也很值得研究。
注釋:
①規(guī)定當概率為0時,熵值也為0。