楊海豐,陳明亮,趙臻,2**
(1.湖北中醫(yī)藥大學信息工程學院武漢430065;
2.湖北中醫(yī)藥大學針灸治未病湖北省協(xié)同創(chuàng)新中心武漢430061)
常用中文分詞軟件在中醫(yī)文本文獻研究領(lǐng)域的適用性研究*
楊海豐1,陳明亮1,趙臻1,2**
(1.湖北中醫(yī)藥大學信息工程學院武漢430065;
2.湖北中醫(yī)藥大學針灸治未病湖北省協(xié)同創(chuàng)新中心武漢430061)
目的:評價常見中文分詞軟件在中醫(yī)文獻研究領(lǐng)域的適用性,提出研發(fā)中醫(yī)文本分詞專用軟件的思路。方法:安裝和操作常見中文分詞軟件,運用中醫(yī)文本樣本進行分詞實驗,比較不同中文分詞軟件分詞準確性、分詞速度、易操作性、可靠性、可擴展性、可移植性等性能。結(jié)果:中文分詞軟件分詞準確性、分詞速度、易操作性、可靠性、可擴展性、可移植性等性能存在差異,難以同時使所有性能達到最優(yōu)。通過比較各種中文分詞軟件,發(fā)現(xiàn)盤古分詞軟件分詞準確性最高、易用性較好且分詞效率高,最適合中醫(yī)文本分詞。結(jié)論:研發(fā)中醫(yī)文本分詞專用軟件可能是解決中醫(yī)文獻研究中分詞問題的最佳途徑。應(yīng)從建立中醫(yī)藥學標準語料庫,完備中醫(yī)藥學詞典庫,引進、優(yōu)化和創(chuàng)新分詞算法,開發(fā)中醫(yī)文本分詞軟件等方面加強基礎(chǔ)性研究。
中文分詞軟件中醫(yī)文本挖掘比較性研究
文獻研究是繼承創(chuàng)新中醫(yī)藥理論、方法、技術(shù)和經(jīng)驗的重要途徑。隨著中醫(yī)古籍數(shù)字化和現(xiàn)代電子化中醫(yī)文獻信息資源劇增,以中文分詞為基礎(chǔ)的文本分類、聚類、自動文摘等文本挖掘方法得到廣泛重視和運用[1-4]。中文分詞是將連續(xù)字序列按照一定規(guī)范重新組合成詞序列的過程[5],處于非結(jié)構(gòu)化中醫(yī)文本預(yù)處理的核心,被視為與中醫(yī)藥學語言系統(tǒng)建立聯(lián)系的前提[6-10],是從海量中醫(yī)文獻中提取隱含知識的關(guān)鍵。中醫(yī)文本分詞工具是實現(xiàn)中醫(yī)文獻研究轉(zhuǎn)向智能文本挖掘的關(guān)鍵?,F(xiàn)階段國內(nèi)外有關(guān)中文分詞理論、方法和技術(shù)的研究多數(shù)仍處理論或?qū)嶒炿A段且偏向自然語言處理和信息檢索,成型可用的中文分詞軟件較少;中醫(yī)文本分詞則以《中醫(yī)藥學主題詞表》、《中醫(yī)藥學常用名詞術(shù)語詞典》等詞性標注研究為主,對中醫(yī)文本分詞的算法優(yōu)化研究、軟件研究[6]較為少見。本文通過比較常見中文分詞軟件的性能,結(jié)合中醫(yī)文本分詞特點推薦適用的工具,并初步探討研發(fā)中醫(yī)文本分詞軟件的思路。
1.1 研究對象的確定
以“全文=‘中文分詞工具’OR‘中文分詞軟件’”為檢索式,在中國知網(wǎng)、萬方、維普等數(shù)據(jù)庫中檢索近20年發(fā)表的期刊論文共1 318篇(去重后),提取文中用于中文分詞的軟件名稱,統(tǒng)計軟件(不含研究者自行開發(fā)的軟件)使用的頻數(shù)。選擇頻數(shù)排位較高的7種軟件作為研究對象,分別是:IKAnalyzer、SCWS、PHPAnalysis、CIPP_JS分詞、盤古分詞、Jieba分詞、NLPIR。
1.2 資料來源
參考上述7種中文分詞軟件的開發(fā)商官網(wǎng)、幫助文檔及有關(guān)論文,獲取各軟件開發(fā)技術(shù)、主要功能、分詞算法等方面的信息。
1.3 材料與方法
1.3.1 研究方法
根據(jù)業(yè)內(nèi)專家[11,12]對中文分詞系統(tǒng)的評估要求,選擇分詞準確性、分詞效率、易操作性、可擴展性、可移植性等性能作為評價指標。采用方便抽樣從某中醫(yī)藥大學信管專業(yè)大四某班學生中抽選5人,提前告知測試者研究目的、程序和要求,但不培訓7種分詞軟件的安裝調(diào)試方法。讓每個學生在實驗室用同型號同配置計算機獨自安裝和調(diào)試7種分詞軟件,并用指定中醫(yī)文本完成分詞實驗,之后對各軟件分詞速度、易操作性、可擴展性、可移植性等性能作出主觀評價,最后由研究人員匯總綜合。
1.3.2 實驗環(huán)境及材料
實驗環(huán)境:選用某中醫(yī)藥大學計算機實驗中心5臺同型號同配置的PC機(Intel core i5四核、6 G內(nèi)存),在每臺PC機上提前新裝各分詞軟件運行環(huán)境(操作系統(tǒng)均安裝Windows 7、Solr 4.1、Tomcat 7、JDK 1.8_65/64位)。
實驗材料:節(jié)選邱茂良主編(上??茖W出版社出版,第五版)的《針灸學》中十二經(jīng)絡(luò)與奇經(jīng)八脈(第1.2.1小節(jié))的敘述部分,共計2007字。
1.3.3 數(shù)據(jù)處理與分析
手工記錄測試者對軟件的主觀評價并要求測試人員認定,然后計算分詞準確率、召回率及其綜合分類率,對易操作性、可擴展性、可移植性等性能作出定性評價。
2.1 基本情況比較
7種分詞軟件均發(fā)布于近10年,除IKAnalyzer、 Jieba分詞為工具類庫外,其他5種均為獨立運行使用的軟件系統(tǒng),軟件的詳細介紹見表1。從所用算法看,IKAnalyzer、SCWS、PHPAnalysis等主要采用以詞典或(和)規(guī)則為基礎(chǔ)的字符串匹配的分詞算法,而盤古分詞、Jieba分詞、NLPIR則主要采用以統(tǒng)計或(和)規(guī)則為基礎(chǔ)的分詞算法。此外,其中5種工具均支持某種開源協(xié)議。
2.2 分詞準確度比較
分詞準確度指相對同一段語料而言,軟件分詞結(jié)果與人工分詞結(jié)果的一致性程度,主要體現(xiàn)分詞軟件處理歧義切分的能力。在給定的測試環(huán)境下,分別用7種分詞軟件測試以下兩段針灸學文本(表2),以針灸學專家人工標注的分詞為參照,計算各軟件分詞準確率和召回率。從各軟件分詞的結(jié)果來看(表3),準確率從高到低依次為:盤古分詞、Jieba分詞、IKAnalyzer、SCWS、CIPP_JS、NLPIR、PHPAnalysis;召回率從高到低依次為:IKAnalyzer、Jieba分詞、盤古分詞、SCWS、NLPIR、CIPP_JS、PHPAnalysis。根據(jù)Van Vijsbergen于1979年提出的綜合分類率(F1)計算公式[13],調(diào)和準確率和召回率后得到的F1值從高到低依次為:盤古分詞、Jieba分詞、IKAnalyzer、SCWS、NLPIR、CIPP_JS、PHPAnalysis。通過對比各軟件分詞的效果,表明盤古分詞軟件對給定中醫(yī)測試文本的分詞準確性最好,PHPAnalysis最差。
本文認為造成各軟件分詞準確度差異的主要原因:一是對中醫(yī)證候、經(jīng)絡(luò)、穴位等術(shù)語識別能力不同,如:“胃腸實熱型”普遍被拆分為“胃腸/實/熱/型/”;二是對中文歧義詞切分處理方式不同,如:“手三陽經(jīng)從手走頭”中,第1個“手”字不能單獨成詞,而第2個則可以,但第2個“手”卻被劃分為“從/手/走/頭”、“從/手走頭”甚至“經(jīng)從手/走頭”。
表1 7種常見中文分詞軟件基本情況比較
表2 測試文本原文及其人工分詞結(jié)果
2.3 分詞速度比較
分詞速度一般指分詞軟件在特定運行環(huán)境下單位時間內(nèi)完成分詞的文本字數(shù)。由于軟件處理能力受硬件環(huán)境、軟件結(jié)構(gòu)、算法、網(wǎng)絡(luò)寬帶、軟件開源情況等方面影響較大,難以在嚴格實驗條件下通過嵌入計時器程序或其他方式精準計時。因此,本研究參考各軟件幫助文檔中描述的分詞速度,結(jié)合測試者對分詞速度主觀感受情況,綜合評價各軟件的分詞速度。結(jié)果表明7種軟件對所選實驗材料的分詞速度表現(xiàn)出較大差異,其中IKAnalyzer、盤古分詞、SCWS分詞速度遠高于其他4種軟件(表4)。
表3 7種常見中文分詞軟件中醫(yī)文本分詞結(jié)果比較(按F1值大小排列)
表4 7種常見中文分詞軟件的分詞速度比較
2.4 易操作性比較
易操作性一般指軟件系統(tǒng)被用戶正確安裝、使用和維護的難易程度。7種分詞軟件操作性的具體情況見表5。從表5可知,它們中除IKAnalyzer、Jieba分詞外均有可視化操作界面,多數(shù)附有用戶操作手冊,但大多數(shù)不支持文本導(dǎo)入;都支持用戶自定義詞典,但提供的詞典管理工具被理解和操作的難易程度不一??傮w來看,它們操作性從易到難排序為:CIPP_JS分詞、盤古分詞、NLPIR、SCWS、PHPAnalysis、IKAnalyzer、Jieba分詞。
2.5 可擴展性比較
可擴展性一般指軟件系統(tǒng)被調(diào)整、擴充、延展以適應(yīng)外部環(huán)境和需求變化的能力[14]。7種分詞軟件擴展性的具體情況見表6。從表6可知,它們基本都提供面向不同開發(fā)語言或開發(fā)框架的接口,基本都同時支持GBK和UTF-8,除CIPP_JS分詞和NLPIR外其他均可獲取源碼??傮w上看,IKAnalyzer和Jieba分詞作為工具類庫,能十分靈活的被集成到軟件系統(tǒng)中,可擴展性最好;SCWS、盤古分詞、NLPIR、PHPAnalysis、CIPP_JS分詞作為獨立軟件,可擴展性依次降低。
2.6 可移植性比較
可移植性一般指軟件系統(tǒng)從一種環(huán)境移植到另一種環(huán)境后還能正常工作的能力[14]。7種分詞軟件移植性的具體情況見表7。從表7可知,它們基本都采用當前主流的具有面向?qū)ο筇卣鞯牡谒拇Z言開發(fā)完成,部分軟件具有多種語言開發(fā)的版本。它們中除PHPAnalysis、CIPP_JS分詞、盤古分詞主要適用于Windows平臺外,其他均可通過適當?shù)沫h(huán)境配置支持跨平臺運用,尤其是NLPIR、SCWS、Jieba分詞。綜合各種因素,它們可移植性從好到差依次為:SCWS、Jieba分詞、NLPIR、IKAnalyzer、PHPAnalysis、盤古分詞、CIPP_JS分詞。
表5 7種常見中文分詞軟件的易操作性比較
表6 7種常見中文分詞軟件的可擴展性比較
表7 7種常見中文分詞軟件的可移植性比較
3.1 對7種常見中文分詞工具的綜合評價
總體上看,IKAnalyzer和Jieba分詞同為工具類庫,可擴展性較好但不易被掌握和使用;前者分詞效率較好、分詞準確性一般;后者分詞準確性較好,但分詞效率一般。CIPP_JS易操作性好,但在其他指標上表現(xiàn)均不理想。盤古分詞分詞準確性和分詞效率高,且易操作性和易維護性較好,但可移植性較差。NLPIR可移植性好,易操作性和易維護性較好,但分詞準確性和分詞效率低。PHPAnalysis則在各項指標上表現(xiàn)均較一般。事實上,分詞準確性、分詞速度、易操作性、可擴展性、可移植性等指標間存在固有矛盾,任何分詞軟件均不可能在這些指標上同時達到最優(yōu)。因此,應(yīng)結(jié)合具體領(lǐng)域中中文分詞處理的實際情況選用分詞軟件,或以開源工具為基礎(chǔ)做二次開發(fā)更為可取。
3.2 對適合中醫(yī)文獻研究的分詞軟件特點的分析
與其他專業(yè)文獻相比,中醫(yī)文獻用語簡明、結(jié)構(gòu)緊湊、詞性多變、語義豐富,中醫(yī)文本分詞除要正確識別其中的癥狀、診斷、證候、治法、治則、病名、中藥、方劑、穴位等專業(yè)術(shù)語外,還要處理類似古漢語中廣泛存在的一詞多義、詞性多變、搭配靈活、語境復(fù)雜等導(dǎo)致的歧義切分問題[6]。對于中醫(yī)文獻研究而言,在云計算等現(xiàn)代計算技術(shù)支持下,軟件分詞的效率、可擴展性、可移植性已相對不重要,而分詞準確性和易操作性則被視為影響中醫(yī)文本挖掘的關(guān)鍵因素。上述各軟件中,盤古分詞軟件分詞準確性最高、易用性較好且分詞效率高,故7種分詞軟件中盤古分詞最適合中醫(yī)文本分詞。值得一提的是,并非其他軟件就一定不適用。如:CIPP_JS可操作性好但分詞準確度較低,筆者根據(jù)CIPP_JS軟件使用指南將“手三陽經(jīng)”、“足三里”等詞匯添加到其詞典并填寫“詞性”、“詞頻”后再測試,結(jié)果分詞準確度明顯提高(表8)。因此,分詞軟件是否適合于中醫(yī)文本文獻分詞,應(yīng)主要考察其分詞準確性和易操作性。分詞準確性方面應(yīng)重點考慮其分詞算法原理,若采用基于詞典匹配的分詞算法,則必須支持用戶添加詞條或管理詞典;若采用基于統(tǒng)計和規(guī)則的分詞算法,則必須支持語料庫導(dǎo)入并有一定的統(tǒng)計頻率、自我更新或自主學習能力。易操作性則主要考慮所提供的詞典管理工具或自主學習工具、操作簡易程度和用戶體驗。
3.3 對研發(fā)中醫(yī)文本分詞專用軟件的思考
現(xiàn)有分詞軟件主要面向大眾化中文分詞處理需求,研發(fā)中醫(yī)文本分詞專用軟件可能是解決中醫(yī)文獻研究中分詞問題的最佳途徑。通常,影響軟件分詞效果的主要因素包括詞典完備性、分詞算法設(shè)計、分詞知識組織、學習機制等[15]。我們認為,要研發(fā)分詞效果好的中醫(yī)文本分詞專用軟件還有很長一段路要走。當前應(yīng)重點開展以下基礎(chǔ)性研究:一是建立中醫(yī)藥學標準語料庫,研究在開放性中醫(yī)文本語料庫中獲取、表達、檢索中醫(yī)文本分詞知識、知識的接口,為探索和優(yōu)化分詞算法提供基礎(chǔ)性資料。二是完備中醫(yī)藥學詞典庫[6]。構(gòu)建基于本體的中醫(yī)藥學概念體系,形成類似于系統(tǒng)化醫(yī)學術(shù)語集(SNOMED)的中醫(yī)藥學術(shù)語標準系統(tǒng)。擴展中醫(yī)藥學主題詞表收詞范圍,對中醫(yī)藥學術(shù)語詞條詞性、詞語搭配、詞頻統(tǒng)計等特征進行標注。三是優(yōu)化和創(chuàng)新分詞算法。評價中文分詞新技術(shù)在中醫(yī)文本分詞研究中的適用性及其改進算法。研究中醫(yī)文獻的語法結(jié)構(gòu)、句法結(jié)構(gòu)、語義規(guī)則、用語習慣等特征,特別是加強基于統(tǒng)計和規(guī)則的中醫(yī)文本分詞算法設(shè)計研究,探索基于語義理解的中醫(yī)文本分詞算法。四是開展對中醫(yī)藥學詞典結(jié)構(gòu)知識,基于本體的中醫(yī)藥學術(shù)語匹配規(guī)則、句法規(guī)則、語義規(guī)則知識,以及分詞軟件的開發(fā)、優(yōu)化等方面的研究。
表8 CIPP_JS軟件在詞典調(diào)整前后分詞結(jié)果的比較
綜上,本文通過安裝操作7種常用中文分詞軟件并實施小規(guī)模中醫(yī)文本分詞測試,綜合比較了這些分詞軟件在中醫(yī)文本文獻研究中的適用性,基于中醫(yī)文本分詞特點給出了恰當選用中文分詞軟件的建議,并初步探討了研發(fā)中醫(yī)文本分詞專用軟件的思路。限于測試語料和實驗條件限制,本文未能在嚴格實驗環(huán)境下利用大規(guī)模非典型中醫(yī)文本語料庫更加客觀準確地測量和評價這些分詞軟件,故對于試圖選用本文所述分詞軟件開展中醫(yī)文本挖掘的研究者而言,所提建議僅供參考。本文認為,研發(fā)中醫(yī)文本分詞專用軟件是突破中醫(yī)文本歧義切分瓶頸、改善用戶體驗,解決中醫(yī)文獻研究分詞問題的必然途徑。下一步應(yīng)對常用中文分詞軟件實現(xiàn)算法、基本架構(gòu)及其功能特點作深入對比研究,同時加強中醫(yī)臨床各科標準語料庫研究和中醫(yī)藥學詞典庫研究,為中醫(yī)文本分詞專用軟件設(shè)計和開發(fā)提供參考、奠定基礎(chǔ)。
參考文獻
1丁曉蓉,呂毅斌,王志飛,等.基于文本挖掘技術(shù)分析類風濕性關(guān)節(jié)炎、強制性脊柱炎、潰瘍性結(jié)腸炎和哮喘中醫(yī)用藥規(guī)律.世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2010,12(5):828-832.
2譚勇,郭洪濤,鄭光,等.利用文本挖掘技術(shù)探索中醫(yī)藥治療疾病的用藥規(guī)律.世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2010,12(5):823-827.
3周奇,陳威妮,姜淼,等.利用文本挖掘技術(shù)探索中西醫(yī)治療骨質(zhì)疏松癥的用藥規(guī)律.世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2012,14(1):1288-1293.
4劉孟宇,周奇,鄭光,等.基于數(shù)據(jù)挖掘技術(shù)肺癌中醫(yī)藥治療用藥特點和規(guī)律研究.世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2013,15(3):535-538.
5余戰(zhàn)秋.中文分詞技術(shù)及其應(yīng)用初探.電腦知識與技術(shù),2004,32:81-83.
6張帆,劉曉峰,孫燕.中醫(yī)醫(yī)案文獻自動分詞研究.中國中醫(yī)藥信息雜志,2015,22(2):38-41.
7周雪忠.文本挖掘在中醫(yī)藥中的若干應(yīng)用研究.浙江:浙江大學博士學位論文,2004:11.
8姚媛媛.針灸概念語義網(wǎng)絡(luò)的構(gòu)建研究.北京:中國中醫(yī)科學院碩士學位論文,2014:5-29.
9蔡曉鴻,馬利,沈紹武,等.基于Lucene的中醫(yī)肝病文獻檢索與管理系統(tǒng)研究與設(shè)計.中國衛(wèi)生信息管理雜志,2012,9(5):42-46.
10蔡曉鴻,游秋云,王平.失眠癥中醫(yī)藥信息平臺構(gòu)建的思路與方法.中醫(yī)雜志,2013,54(9):747-749.
11黃翼彪.開源中文分詞器的比較研究.鄭州:鄭州大學碩士學位論文,2013:5.
12劉開瑛.中文文本自動分詞和標注.北京:商務(wù)印書館,2000:1-5.
13李原.中文文本分類中分詞和特征選擇方法研究.長春:吉林大學碩士學位論文,2011:5.
14張倩,袁玉宇,張旸旸.《系統(tǒng)與軟件可移植性》標準中可移植性定義的研究.信息技術(shù)與標準化,2009,10:50-54.
15關(guān)宏超.基于統(tǒng)計的開放式漢語自動分詞.大連:大連理工大學碩士學位論文,2002:3.
Analysis onApplicability of Common Chinese Word Segmentation Software in Literature Study of Traditional Chinese Medicine Text
Yang Haifeng1,Chen Mingliang1,Zhao Zhen1,2
(1.Information Engineering College of Hubei University of Chinese Medicine,Wuhan 430065,China; 2.Hubei Provincial Collaborative Innovation Center of Preventive Treatment by Acupuncture and Moxibustion, Hubei University of Chinese Medicine,Wuhan 430061,China)
This study was aimed to evaluate the applicability of common Chinese word segmentation software used in the literature study of traditional Chinese medicine(TCM)text,in order to put forward ideas on developing specialized TCM text word segmentation software.By means of installing and operating Chinese word segmentation software,the text segmentation experiment was conducted on TCM text samples.Aspects,such Chinese word segmentation accuracy, speed,maneuverability,reliability,extendibility,portability and other characteristics,were compared among different Chinese word segmentation software.The results showed that there were differences on the accuracy,speed, maneuverability,reliability,extendibility,portability among different Chinese word segmentation software.It was difficult to achieve best performance on different aspects by single software.Through the comparison of different Chinese word segmentation software,the Pan-Gu Segment software showed the best performance on accuracy,with good maneuverability,and high word segmentation efficiency,which was the most suitable for word segmentation in TCM text. It was concluded that developing specialized TCM text segmentation software may be the best solution to meet the requirement of text segmentation in TCM literature study.Basic studies should be strengthened from aspects,such as the construction of standard TCM copus,the completion of TCM dictionary base,the introduction,optimization and innovation of word segmentation algorithm,as well as the development of word segmentation software for TCM text.
Chinese word segmentation software,traditional Chinese medicine,text mining,comparative study
10.11842/wst.2017.03.024
R229
A
(責任編輯:王慧慧,責任譯審:王晶)
2016-09-13
修回日期:2016-09-14
*針灸治未病湖北省協(xié)同創(chuàng)新中心科研項目(HBPCIC-2016-011):針灸治未病數(shù)據(jù)庫研究,負責人:趙臻。
**通訊作者:趙臻,教授,博士生導(dǎo)師,主要研究方向:中醫(yī)藥數(shù)據(jù)處理與分析。