張大奎,尹德春,湯世平,毛 煜,樊孝忠
(1.北京理工大學 計算機學院,北京 100081;2.中國人民公安大學 信息技術與網(wǎng)絡安全學院,北京 100038)
眾所周知,漢語文本中詞與詞之間沒有顯式分詞符號,因此分詞是漢語自然語言處理工作的基礎。基于監(jiān)督學習的分詞方法是現(xiàn)今被業(yè)界廣泛認可的方法,這些方法需要大規(guī)模的標注語料作為訓練集。當前已經(jīng)公開的通用訓練語料主要來自新聞領域,相關研究[1-4]表明,有監(jiān)督方法在新聞類語料的測試集上表現(xiàn)優(yōu)異,但是當測試集由新聞領域變換到微博、網(wǎng)絡論壇、互聯(lián)網(wǎng)文學等其他領域時,其精度就會大幅下降。鑒于上述事實,有理由認為,當分詞算法的優(yōu)化達到極限水平時,分詞器的性能更多地取決于分詞訓練語料的覆蓋程度和完備性。而分詞訓練語料的構建一直是一個需要投入大量人力和時間的工作。因此,如何更方便快捷地構建分詞語料便成為亟待解決的問題。不少研究者在如何拓展分詞訓練語料上做了積極嘗試,孫茂松等[5]利用中文的標點符號在命名實體識別上取得了較好的成果;劉群等[3,6]使用互聯(lián)網(wǎng)上的一些半結(jié)構化的網(wǎng)頁文本(如維基百科)中的自然標記提高分詞器在非通用領域上的精度。但是以往的研究中,研究者極少認真關注用戶在輸入漢語文本的過程中留下的分詞信息。
本研究關注用戶輸入行為,并提出了自然輸入標記的概念。自然輸入標記指用戶在使用電腦、手機等設備輸入漢語文本時產(chǎn)生的自然標注信息,其提供了豐富而珍貴的分詞信息,且使獲得實時產(chǎn)生的分詞訓練語料成為一種可能,進而為克服基于標準通用語料訓練的分詞器的缺陷提供了新的解決思路,比如解決在非通用、特定或變化極快領域的精度損失等問題[7]。本文將對自然輸入標記的內(nèi)涵和應用方式進行了深入詳盡的探討。
在將漢字輸入電腦等設備時,由于漢字的象形結(jié)構,用戶必須借助輸入法完成漢字的生成[8]。輸入過程中,會伴隨產(chǎn)生一些潛在的中文分詞信息,而這些信息一直未得到重視,更沒有被記錄和保存,造成了極大的浪費。
典型的漢字、詞輸入包含一系列步驟[8],此處以目前市場占有份額最大的拼音輸入法[9]為例說明這一過程。如果用戶需輸入一個漢語詞“今天”,首先,會在鍵盤上輸入拼音序列“jintian”。(拼音在這里其實是一種將漢字轉(zhuǎn)化為拉丁字母的編碼系統(tǒng),不同的漢語輸入法有不同的編碼系統(tǒng)。)然后,拼音輸入法給出一個同音異形的漢語字、詞的候選列表,如圖 1所示。
圖1 典型的中文拼音輸入法示意圖
最后,用戶從這個候選列表中查找到自己需要的目標字、詞,并且使用數(shù)字鍵,如1-9(
借助日常生活中垃圾分類處理的過程,可以更好地理解自然輸入標記的作用和意義。日常垃圾處理過程中最大的問題是,人們習慣性地將各類垃圾混合堆放在一起,然后到垃圾處理廠后再費時費力地分揀。而合理的解決方法是人們應該意識到垃圾在產(chǎn)生時都有明顯類別的,如果在投放時不是一下子都混合在一起,而是對垃圾做一些簡單的分類,那么后續(xù)的處理工作將會大大簡化。從漢語輸入到分詞的整個過程也存在類似垃圾處理的問題。盡管用戶在輸入文本的選詞過程中已經(jīng)產(chǎn)生了自然的分詞標記,但是長久以來都沒有被記錄,更沒有被利用,而后還需要花費大量的時間和人力去專門構建分詞語料。這如同本來已經(jīng)類別清晰的垃圾,卻又被混合在了一起,最后再想辦法對這些垃圾進行分類和揀選,造成了極大的浪費。
為了避免上面的問題,作者提出了結(jié)合自然輸入標記的文本處理方案,希望將自然輸入標記和文本同時記錄和存儲。這樣做既便于后續(xù)做進一步的文本分析處理,又可以自動獲得分詞訓練語料。作者希望通過本文拋磚引玉,讓更多人關注這些我們習以為常卻又忽略的隱含分詞信息。
劉知遠等人[10]的文章顯示,輸入法公司雖然已經(jīng)保留了大量類似的用戶輸入數(shù)據(jù),但由于用戶隱私等問題,他們謝絕對外提供這些數(shù)據(jù)。即使是內(nèi)部研究,也需要經(jīng)過防隱私泄露處理。本文提出的采用自然輸入標記的處理方案,所有可獲取的用戶數(shù)據(jù),都是用戶自愿公開發(fā)表的,不存在侵犯用戶隱私數(shù)據(jù)的情況。
本文后續(xù)主要闡明自然輸入標記的定義和特性,并論證不同用戶在輸入過程中產(chǎn)生的帶有自然輸入標記的文本,是否可以用來高效地構建分詞訓練語料。首先,給出自然輸入標記的形式化定義,并開發(fā)出一個專用記錄軟件,用于記錄用戶在輸入過程中產(chǎn)生的帶有自然輸入標記的文本。然后,根據(jù)統(tǒng)計學中的抽樣原理收集了384個用戶輸入的帶有選擇鍵的文本,按照文本和標準分詞結(jié)果是否接近,把所有文本分為兩類。接下來,使用支持向量機(support vector machine,SVM)模型來完成自動分類工作。用戶產(chǎn)生的接近標準分詞結(jié)果的文本就形成了可接納的自然輸入標記文本集合。最后,引入投票機制,在所有可接納文本集合中進一步挑選出更接近標準分詞結(jié)果的高質(zhì)量自然輸入標記文本合集。實驗結(jié)果顯示,支持向量機與投票機制相互配合,可以有效地選擇出高質(zhì)量自然輸入標記文本。高質(zhì)量文本可以直接或經(jīng)過簡單人工處理后當作分詞訓練語料。另外,實驗中還有一些證據(jù)顯示,用戶產(chǎn)生的自然輸入標記文本對處理未登錄詞十分有用,如命名實體識別、新詞發(fā)現(xiàn)。
在討論分詞時,分詞結(jié)果采用何種標準是需要首先明確的問題。目前,分詞的標準并不統(tǒng)一,而且不同的應用場景也會采用不同的分詞標準。以業(yè)界公認的Sighan Bakeoff為例,其中的四個標準由四家機構制定,分別是:北京大學(Peking University,PKU)、香港城市大學(City University of Hong Kong,CU)、臺灣“中央研究院”(Academia Sinica,AS)、微軟研究院(Microsoft Research,MSR)。這四種分詞標準雖然大體相同,但細節(jié)上有一些差異。北京大學(PKU)和微軟研究院(MSR)的簡體中文分詞標準中,MSR的標準更加接近人們的日常輸入習慣,并且提供的語料數(shù)量也最多,因此本文采用MSR的分詞標準。全文提及的“標準分詞結(jié)果”均指符合MSR分詞標準的分詞結(jié)果。根據(jù)已有的研究工作[5,7],本文使用Sighan Bakeoff-2中的MSR語料訓練了一個條件隨機場(conditional random fields,CRF)模型作為基準通用分詞器(簡稱CRF+MSR)。
引言中,本文介紹了用戶輸入漢語的步驟,其中最后一步,用戶使用的選擇鍵(主要是數(shù)字鍵
若給定中文句子S=c1c2…cN(ci代表一個漢字;N代表句子S的長度,即S包含了多少個漢字),則π(S)=|c1…ci1-1|ci1…ci2-1|…|cn1…cN|為用戶在輸入句子S時產(chǎn)生的帶有自然輸入標記的序列。兩個臨近“|”之間的部分被稱為一個片段(segment),π(S)=|segment1|segment2|…|segmentM|(M≤N;M代表句子S中被標記出的段數(shù))被稱為自然輸入標記文本(NTAs text)或自然輸入標記語料(NTAs corpus)。
由于目前沒有類似的公開語料可供使用,所以本研究需要自行收集和構建不同用戶的自然輸入標記文本。參與此項輸入實驗的人員均是在網(wǎng)上報名的志愿者。為了對比方便,這些志愿者被指定都輸入同一實驗文本,同時使用我們開發(fā)的專用軟件記錄下輸入過程中產(chǎn)生的自然輸入標記文本。圖2是本文使用的記錄軟件,它可以在不影響用戶輸入體驗的情況下記錄用戶在輸入過程中留下的自然輸入標記。
圖2 自然輸入標記記錄軟件
關于實驗,有兩點需要說明。
第一,為了既減輕志愿者的輸入負擔,同時又保持實驗的客觀性和可對比性,本文設定用戶輸入的實驗文本只有365個漢字,但其中包含了歧義句、命名實體、輸入時易混淆的字詞等語言現(xiàn)象。所以即使目前性能非常好的通用分詞器在處理本文的實驗文本時精度也會大大降低。圖3給出了實驗文本的三個例句。
圖3 實驗文本中的例句
第二,樣本量的選擇是根據(jù)統(tǒng)計學中的抽樣原理得出的。抽樣公式為:
(1)
本實驗抽樣時需要置信水平為95%且誤差小于5%。其中,置信水平為95%時Zα/2=1.96;誤差Δ=5%;當P取值0.5時P×(1-P)最大,故由抽樣公式得出實驗樣本數(shù)應不小于384。因此,在實驗中共收集了來自384位志愿者的自然輸入標記文本。
通過收集來自不同用戶的自然輸入標記文本,可以對用戶的輸入習慣有一個整體了解。本文首先關注自然輸入標記文本的基本單位——片段。從所有收集的文本中,一共提取到了66 232個片段,其中有883個片段是不重復的。如果用Length(seg)代表一個片段的長度(即一個片段中包含了多少個漢字),那么可以得到不同Length(seg)出現(xiàn)的頻數(shù)分布。為了對比,將手工標注的標準分詞結(jié)果和由CRF+MSR產(chǎn)生的分詞結(jié)果都做相同的統(tǒng)計。圖4給出了三個統(tǒng)計結(jié)果中不同長度的片段的相對出現(xiàn)頻率。結(jié)果顯示,384名用戶的自然輸入標記文本中,Length(seg)的數(shù)值分布范圍比較大,從1到18都有取值。但是出現(xiàn)頻率最多的Length(seg)都集中在1~4,這與標準分詞結(jié)果和CRF+MSR分詞器產(chǎn)生的分詞結(jié)果的總體趨勢是吻合的。
圖4 實驗文本的三種不同分詞結(jié)果的片段長度相對頻數(shù)分布
實驗結(jié)果說明,大多數(shù)用戶在輸入漢語時,是不會一次輸入很長一個片段的。從理論上來分析,輸入短片段更符合行為經(jīng)濟學和認知語言學原理。
從行為經(jīng)濟學角度來看,如果一次性輸入的片段越長,輸入者在輸入過程中出錯的概率就越大,而且修改錯誤的操作也可能越煩瑣。這增加了用戶輸入的時間成本,同時也打斷了用戶的思維連貫性。因此,大多數(shù)用戶會采取短片段輸入的方式。更有意思的發(fā)現(xiàn)是,習慣長片段輸入的用戶,幾乎都是不會盲打或?qū)︽I盤布局不熟悉的人。因為他們輸入的時候,都是先全神貫注地用眼睛盯著鍵盤,把需要的拼音一次性都打完,然后再將眼睛移向屏幕去確認自己需要的那一長串漢字。相反,越是熟悉鍵盤輸入、會盲打的人,眼睛越不會輕易離開屏幕,且他們的輸入皆以短片段為主,這樣便于及時地確認輸入內(nèi)容和修改輸入錯誤。
從認知語言學原理來看,人們輸入過程中產(chǎn)生的片段很少包含那些沒有語言邏輯的漢字序列。以實驗文本中的句子“主人公嚴守一把手機給扔了?!睘槔?,當用戶輸入“給扔了”這三個字時,他們產(chǎn)生的序列分別有“|給|扔|了|”、“|給|扔了|”或“|給扔了|”,沒有一個用戶的輸入結(jié)果是“|給扔|了|”。這是因為“給扔”在漢語中是一個沒有語言邏輯意義的組合。由此可見,語言片段的組成反映了人們語言邏輯和認知。
以上通過對收集文本的宏觀分析,可以確認大部分用戶在輸入過程中產(chǎn)生的自然輸入標記提供了豐富的分詞信息,由此得到的分詞結(jié)果中,有相當一部分是很接近標準分詞結(jié)果的,甚至有些就是正確分詞結(jié)果。因此,下面重點研究如何篩選出質(zhì)量最好的自然輸入標記文本。
本節(jié)從句子層面研究自然輸入標記文本。通過觀察文本后獲得的最直觀印象是,不同用戶擁有不同的輸入模式。以下用實驗文本中的例句S1=“不過評價在三星級以上的這幾款電腦”來說明各種不同的情況。如圖5所示,πgold(S1)是S1的標準分詞結(jié)果,其他分別為不同用戶的具有代表性的輸入序列。
圖5 用戶輸入的自然輸入標記文本的不同模式
我們從中發(fā)現(xiàn)了三種用戶輸入模式:第一種是離散模式(discrete pattern),即在標準分詞結(jié)果中本屬于一個片段的漢字序列被分成了幾個片段,如π5(S1);第二種是黏合模式(adhesive pattern),指那些在標準分詞中本應為不同片段的漢字序列黏合在一起形成了一個片段,如π3(S1)和π4(S1);第三種是可接納模式(acceptable pattern),是指用戶輸入產(chǎn)生的切分結(jié)果和標準分詞的切分結(jié)果十分接近或完全相同,如π1(S1)和π2(S1)。本文把符合可接納模式的文本稱為可接納自然輸入標記文本,符合其他兩種模式的文本稱為不可接納自然輸入標記文本。并且,在可接納自然輸入標記文本中,還存在一些更接近標準分詞的高質(zhì)量自然輸入標記文本。為了最終選出實驗中的高質(zhì)量自然輸入標記文本,下文將介紹具體方法:(1)使用機器學習中的分類算法找到一個可接納自然輸入標記文本的集合; (2)使用投票機制在第一步已經(jīng)確立的集合中找出高質(zhì)量自然輸入標記文本。
選出可接納自然輸入標記文本是一個典型的二分類問題。訓練分類器時使用了五個特征。
其中,Len表示句子的長度;SegNum(SN)表示句子中片段的個數(shù)。這兩個特征用于判斷用戶輸入的句子中字數(shù)和片段數(shù)是不是在一個合理的水平。SingleSegNum(SSN)表示句子中長度為1的片段個數(shù);MaxConSingleSegNum(MCSSN)表示句子中最多有幾個長度為1的片段連續(xù)出現(xiàn)在一起;MaxSegLen(MSL)表示句子中最長片段的長度。這三個特征用于判斷用戶輸入的句子中是否有大量的離散和粘合現(xiàn)象。
使用3.2節(jié)的分類方法,識別出接近標準分詞結(jié)果的可接納自然輸入標記文本之后,還需要引入投票機制,以便在可接納自然輸入標記文本中挑選出更接近標準分詞結(jié)果的高質(zhì)量文本。給定一個句子Si,不同的用戶輸入會產(chǎn)生不同的分割形式π1(Si),π2(Si),… ,πk(Si)(k是用戶產(chǎn)生的分割形式的總數(shù))。如果πj(Si)出現(xiàn)在不同用戶的文本中,那么這些文本(或說輸入用戶)其實是向πj(Si)投了一個支持票,所以,不同的用戶文本是在向各個句子的不同分割形式投票。這樣每個實驗文本中出現(xiàn)的句子就都得到了一個分數(shù),如式(2)所示。
SCOREπj(Si)=log2count(πj(Si))
(2)
其中,count(πj(Si))是統(tǒng)計多少用戶在輸入句子Si時形成了πj(Si)的分割形式。每個實驗文本是由不同的句子組成的,其得分如式(3) 所示。
(3)
其中,numπj(Si)∈text是這個文本中包含的字句總數(shù)。
通過計算每個文本的得分,很容易在可接納自然輸入標記文本集合中挑選出高質(zhì)量自然輸入標記文本。以下實驗將驗證高質(zhì)量自然輸入標記文本與標準分詞結(jié)果的吻合程度,以及高質(zhì)量文本作為分詞訓練語料的效果。
4.1.1分類器
為了尋找384個文本中的可接納自然輸入標記文本,本文訓練了一個支持向量機(SVM)來完成文本的分類工作。首先,我們從全部用戶中挑選32個有代表性的典型用戶。這些典型用戶有著不同的輸入習慣,他們輸入的文本共包含1 089個句子。然后,我們對這些句子做了手工標注,作為訓練集。以圖5中S1的各種情況為例,手工標注的訓練數(shù)據(jù)結(jié)果如表1所示。其中標簽(label)1和0分別代表可接納自然輸入標記句子和不可接納自然輸入標記句子。
表1 用于訓練分類器的手工標注訓練數(shù)據(jù)樣例
本實驗采用libSVM工具包[11],具體參數(shù)設置是:徑向基函數(shù)(radial basis function)為核函數(shù)(kernel function);gamma值為1/特征個數(shù);懲罰因子(cost value)設為1。
為了檢驗模型的有效性,采用10次交叉驗證將1 089個句子隨機平分成了10份,每次選出其中一份作為測試集,其他九份為訓練集。如此循環(huán)進行,讓每一份都做一次測試集。最終得到的分類精度如表2所示。
表2 分類器的10交叉檢驗結(jié)果
續(xù)表
從表2中可以看出,選擇的五個特征在分類實驗中的區(qū)分性是很顯著的。在本實驗中,我們設定如果一個文本中85%的句子是可接納類型的,那么這個文本就被認為是可接納自然輸入標記文本。85%是一個判斷閾值,它是多次實驗后得到的一個相對合理的經(jīng)驗值,可以根據(jù)具體需求調(diào)整。利用該分類模型和判斷閾值,我們從384個文本中找出253個可接納自然輸入標記文本。
4.1.2基于投票機制的分詞結(jié)果
根據(jù)3.3節(jié)中的投票機制,計算出253個可接納自然輸入標記文本各自的分數(shù),并按分數(shù)的高低排序。表3給出了排名在前三位的高質(zhì)量文本的分詞情況,并與基準分詞器CRF+MSR在實驗文本上的分詞結(jié)果進行了對比。因為CRF+MSR是一個通用分詞器,而實驗文本包含了歧義句、命名實體、輸入時易混淆的字詞等語言現(xiàn)象,所以CRF+MSR分詞器在本實驗文本上各個指標值都相對較低。
表3 通用分詞器和投票后排名前三的實驗文本的分詞結(jié)果對比
表3說明,高質(zhì)量自然輸入標記文本比較接近標準分詞結(jié)果,特別是對于實驗文本中包含的命名實體、新詞等未登錄詞,這三位輸入者都毫無例外地將它們分別放在了正確的片段中,因此他們的輸入結(jié)果對未登錄詞的召回率rOOV都是100%。例如,實驗文本的句子“主人公嚴守一把手機給扔了?!敝?,“嚴守一”是一個命名實體,且“嚴守”和“一把(手)”、“(一)把手”和“手機”都構成交疊歧義。CRF+MSR對這個例句的分詞結(jié)果是“主人公|嚴守|一把手|機|給|扔|了|?!倍脩糨斎氲慕Y(jié)果都是“|嚴守一|”片段形式。這說明用戶輸入的高質(zhì)量自然輸入標記文本在標識未登錄詞方面具有優(yōu)異的表現(xiàn)。
此外,我們將這些高質(zhì)量文本和標準分詞結(jié)果做了詳細對比,找到了高質(zhì)量文本中出錯片段的共性。這些錯誤主要是由于一些簡單詞之間存在粘合現(xiàn)象而導致。例如標準分詞結(jié)果“|這|幾|款|”在高質(zhì)量文本中都被寫成了“|這幾款|”。這樣的結(jié)果在分詞競賽評測中當然是明顯的錯誤,但是在某些特定應用場景下,卻又會是比較合適的結(jié)果。比如在統(tǒng)計機器翻譯中,從譯文的連貫性上看,“|這幾款|”就比“|這|幾|款|”的處理效果好一些。因此,這些由用戶產(chǎn)生的高質(zhì)量文本為我們提出了值得思考的語言學問題,所謂的“詞”到底該怎么界定?由用戶使用習慣出發(fā)對詞進行界定是否合理?
相關研究表明,用戶的行為模式在很長一段時間內(nèi)是保持一致的[12]。因此,那些產(chǎn)生高質(zhì)量自然輸入標記文本的用戶也將源源不斷地提供更多類似的高質(zhì)量自然輸入標記文本,且這些文本可方便地用于構建分詞訓練語料。
為了驗證高質(zhì)量自然輸入標記文本在構建分詞訓練語料上的作用,本節(jié)的實驗將邀請產(chǎn)生表3中Text#top1、Text#top2、Text#top3的用戶參與,他們分別被編號為:用戶1、用戶2、用戶3。我們請以上三位用戶輸入從微博(weibo.com)上隨機抓取的40KB語料,以此模擬這些用戶平時輸入微博內(nèi)容的場景。這些語料被平均分成了A、B、C、T四份。請用戶1重新輸入一遍A語料以產(chǎn)生帶自然輸入標記的A語料。同樣,用戶2、用戶3分別產(chǎn)生了帶自然輸入標記的B、C語料。本文將用戶輸入產(chǎn)生的帶自然輸入標記的A、B、C語料作為一個訓練數(shù)據(jù)集,得到了一個CRF分詞器,簡稱CRF+NTAs。然后又將由用戶輸入產(chǎn)生的帶自然輸入標記的A、B、C語料和來自Bakeoff-2的MSR的訓練語料共同作為一個訓練數(shù)據(jù)集,得到了第二個CRF分詞器,簡稱CRF+MSR+NTAs。最后從T語料中隨機選擇了1 000個句子進行人工標注,將其作為測試語料。表4給出了不同分詞器在測試語料上的分詞結(jié)果。
從表4的結(jié)果可以看出,直接使用由用戶輸入產(chǎn)生的高質(zhì)量自然輸入標記文本訓練得到的分詞器(CRF+NTAs),在分詞效果上要略好于通用分詞器(CRF+MSR),但是卻遜色于混合了高質(zhì)量自然輸入標記文本和MSR分詞訓練語料得到的分詞器(CRF+MSR+NTAs)。CRF+MSR在實驗中的分詞精度低,主要是由于MSR訓練語料來自時間較早的新聞領域,對基礎詞匯和標準的語法現(xiàn)象的涵蓋雖然比較好,但是對最新的微博領域的新詞和非正式的語法現(xiàn)象的涵蓋卻嚴重不足。因此,在MSR訓練語料的基礎上加入了最新的高質(zhì)量自然輸入標記文本,可以明顯提高分詞器在微博領域的分詞精度。
表4 不同分詞器在測試語料上的分詞效果
本節(jié)實驗選擇了有別于傳統(tǒng)新聞語料的微博語料,通過具體數(shù)據(jù)驗證了以下事實:有一批優(yōu)秀用戶的輸入習慣特別好,并且是一以貫之的,無論這些用戶在輸入什么,他們?nèi)粘.a(chǎn)生的可公開的自然輸入標記文本幾乎都可以直接做為分詞訓練語料。這為分詞訓練語料的自動收集和構建提供了一個有價值的新方法。
關于自然輸入標記,作者分別從實踐和理論上做進一步探討。
在實驗中,作者針對收集到的高質(zhì)量輸入標記文本,觀察、研究了它們和標準分詞結(jié)果的差別,發(fā)現(xiàn)了高質(zhì)量輸入標記文本最主要的兩個特征:第一,代詞經(jīng)常和其前后的一個字、詞黏合形成一個片段,如“大家好”“我叫”“這就是”“讓自己”常被作為一個片段;第二,助詞經(jīng)常和其前后的一個字、詞粘合形成一個片段,如“扔了” “寫了”“大的”“小的”等。正如前文提到的,這些是所謂的“錯誤”,只是用戶在以他們認可的邏輯塊來進行輸入和確認,且這些特征都很容易處理。經(jīng)過簡單處理后的高質(zhì)量輸入標記文本和標準分詞結(jié)果的差異程度會減少很多,可以直接作為分詞器的訓練語料使用。
隨著機器學習技術越來越成熟,訓練數(shù)據(jù)的豐富性和完備性直接決定了機器學習的效果。在中文信息處理領域,科技人員和業(yè)內(nèi)工作者應該盡可能多地發(fā)掘并引入人類集體智慧產(chǎn)生的信息,使機器學習方法的功效最大化,以去除語言處理過程中的不確定性,達到分析、理解語言的目的。本文討論的自然輸入標記文本,正是這樣一種人類集體智慧的具體體現(xiàn),對解決漢語分詞問題是一個新穎而有益的探索與嘗試。
現(xiàn)行中文輸入過程繼承于手書漢字的形式,只是記錄漢字,并不記錄任何其他信息,無形中浪費很多在電子設備上輸入漢語時所產(chǎn)生的多有用的信息。自然輸入標記就是這樣一種在電子設備上輸入漢語時所產(chǎn)生的有用信息,我們完全可以在不干擾用戶閱讀和輸入的情況下,隱式地將用戶輸入過程中產(chǎn)生的自然輸入標記記錄下來。
本文主要介紹并研究了用戶在輸入過程中產(chǎn)生的自然輸入標記文本,同時驗證了高質(zhì)量自然輸入標記文本在構建分詞訓練語料方面的有效性。根據(jù)最新的調(diào)查顯示,2016年年底中國的互聯(lián)網(wǎng)用戶數(shù)已經(jīng)達到7.31億,即使只有較小比例的用戶提供高質(zhì)量自然輸入標記文本,他們也將在日常工作、學習、生活中源源不斷地產(chǎn)生實時的分詞訓練語料。將這些語料用來增量訓練分詞器,將使分詞器具有實時進化的能力。
如果越來越多自然標記文本被記錄下來,相信會對分詞等其他中文信息處理問題帶來全新的解決思路。本文對自然輸入標記進行了驗證性的探索,后續(xù)還會做更多的研究與應用。
[1]Xue Nianwen,Shen Libin.Chinese word segmentation as LMR tagging[C]// Proceedings of Sighan Workshop on Chinese Language Processing in ACL 2003.Sapporo,Japan,2003:176-179.
[2]Zhang Yue,Clark Stephen.Chinese segmentation with a word-based perceptron algorithm.[C]// Proceedings of the ACL 2007.Prague,Czech Republic,2007:840-847.
[3]Jiang Wenbin,Huang Liang,Liu Qun.Automatic adaptation of annotation standards:Chinese word Segmentation and POS tagging:A case study.[C]// Proceedings of the ACL-AFNLP 2009.Suntec,Singapore,2009:522-530.
[4]Zhao Hai,Huang Changning,Li Mu,et al.A unified character-based tagging framework for Chinese word segmentation[J].Acm Transactions on Asian Language Information Processing,2010,9(2):1-32.
[5]Li Zhongguo,Sun Maosong.Punctuation as implicit annotations for Chinese word segmentation[J].Computational Linguistics,2009,35(4):505-512.
[6]Sun Weiwei,Xu Jia.Enhancing Chinese word segmentation using unlabeled data[C]// Proceedings of the EMNLP 2011.Edinburgh,UK,2011:970-979.
[7]Zhang Dakui,Mao Yu,Liu Yang,et al.The discovery of natural typing annotations:User-produced potential Chinese word delimiters[C]// Proceedings of the ACL-IJCNLP 2015.Beijing,China,2015:662-667.
[8]陳原.漢語語言文字信息處理[M].上海:上海教育出版社,1997.
[9]iResearch 2009.2009 China Desktop Software Development Research Report[OL].[2010.2.20].http://report.iresearch.cn/1290.html.
[10]Zheng Yabin,Xie Lixing,Liu Zhiyuan,et al.Why press backspace? understanding user input behaviors in Chinese Pinyin input method[C]// Proceedings of the ACL 2011.Portland,Oregon,USA,2011:485-490.
[11]Chang Chih-Chung,Lin Chih-Jen.LIBSVM:A library for support vector machines[J].Acm Transactions on Intelligent Systems & Technology,2011,2(3):389-396.
[12]Stephane Lucas.User behavior patterns:Gathering,analysis,simulation and prediction[C]// Proceedings of the HCD 2009.San Diego,CA,USA,2009:1650-1656.
張大奎(1981—),博士研究生,主要研究領域為自然語言處理、數(shù)據(jù)挖掘、機器學習。E-mail:dakuiz@163.com
尹德春(1979—),博士,講師,主要研究領域為自然語言處理、情報分析、網(wǎng)絡安全。E-mail:yindechun163@163.com
湯世平(1975—),通信作者,博士,講師,主要研究領域為自然語言處理、數(shù)據(jù)挖掘。E-mail:tangshiping@gmail.com