• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取研究

      2016-05-04 01:15:46孫水華黃德根牛萍
      中文信息學(xué)報(bào) 2016年3期
      關(guān)鍵詞:術(shù)語(yǔ)針灸構(gòu)件

      孫水華,黃德根,牛萍

      (1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2.福建工程學(xué)院 信息科學(xué)與工程學(xué)院,福建 福州 350118)

      中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取研究

      孫水華1,2,黃德根1,牛萍1

      (1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2.福建工程學(xué)院 信息科學(xué)與工程學(xué)院,福建 福州 350118)

      針對(duì)中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)的構(gòu)成特點(diǎn),該文建立了一種基于規(guī)則的領(lǐng)域術(shù)語(yǔ)抽取算法模型,該模型首先對(duì)中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)種子集進(jìn)行有限次的迭代,生成中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)構(gòu)件集;然后,以術(shù)語(yǔ)構(gòu)件集為領(lǐng)域詞典,采用最大向前匹配算法對(duì)中文針灸醫(yī)學(xué)文獻(xiàn)中的句子進(jìn)行切分,并抽取候選術(shù)語(yǔ);最后,利用語(yǔ)言規(guī)則對(duì)候選術(shù)語(yǔ)進(jìn)行過(guò)濾處理,篩選出中醫(yī)針灸領(lǐng)域?qū)I(yè)術(shù)語(yǔ)。分別以關(guān)鍵字集和中醫(yī)詞典為種子集進(jìn)行實(shí)驗(yàn),開(kāi)式測(cè)試的F值分別達(dá)到76.96%和35.59%。

      中醫(yī)針灸領(lǐng)域術(shù)語(yǔ);術(shù)語(yǔ)種子集迭代算法;術(shù)語(yǔ)過(guò)濾規(guī)則

      1 引言

      醫(yī)學(xué)術(shù)語(yǔ)的獲取及術(shù)語(yǔ)庫(kù)的構(gòu)建對(duì)生物醫(yī)學(xué)文獻(xiàn)中的隱含知識(shí)發(fā)現(xiàn)有重要的作用,在機(jī)器翻譯、自動(dòng)索引、信息檢索、信息抽取、構(gòu)建詞匯知識(shí)庫(kù)等領(lǐng)域也有重要的應(yīng)用價(jià)值。作為信息處理領(lǐng)域一項(xiàng)重要的研究任務(wù),術(shù)語(yǔ)抽取研究已經(jīng)取得了長(zhǎng)足的進(jìn)步。目前,術(shù)語(yǔ)自動(dòng)抽取方法主要有三大類: 基于語(yǔ)言規(guī)則的方法、基于統(tǒng)計(jì)信息的方法、規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。文獻(xiàn)[1]利用人工構(gòu)建規(guī)則模板來(lái)抽取術(shù)語(yǔ),該方法簡(jiǎn)單易行,但抽取結(jié)果受限于模板的完備性和限定的領(lǐng)域;文獻(xiàn)[2-5]利用詞頻、假設(shè)檢驗(yàn)、對(duì)數(shù)似然比、互信息等統(tǒng)計(jì)量計(jì)算術(shù)語(yǔ)的單元性和領(lǐng)域性來(lái)抽取術(shù)語(yǔ),該方法不依賴具體領(lǐng)域,適應(yīng)性好,但低頻術(shù)語(yǔ)抽取效果較差;文獻(xiàn)[6-7]利用條件隨機(jī)場(chǎng)(CRF)、隱馬爾可夫(HMM)等統(tǒng)計(jì)模型對(duì)術(shù)語(yǔ)進(jìn)行識(shí)別和抽取,該方法依賴大規(guī)模的標(biāo)注語(yǔ)料;文獻(xiàn)[8-11]將規(guī)則與統(tǒng)計(jì)兩種方法以某種次序組合起來(lái),相互彌補(bǔ)不足,提高了術(shù)語(yǔ)抽取的準(zhǔn)確率。

      與其他領(lǐng)域的術(shù)語(yǔ)識(shí)別相比,生物醫(yī)學(xué)領(lǐng)域術(shù)語(yǔ)的識(shí)別研究較少,其研究任務(wù)主要集中在對(duì)英文醫(yī)學(xué)文獻(xiàn)的命名實(shí)體識(shí)別上,如文獻(xiàn)[12-13]針對(duì)JNLPBA2004的命名實(shí)體識(shí)別任務(wù)展開(kāi)了研究。但是,中文生物醫(yī)學(xué)信息急劇增長(zhǎng),僅中文生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)就收錄了1978年以來(lái)1 600種生物醫(yī)學(xué)期刊中超過(guò)300萬(wàn)篇公開(kāi)發(fā)表的醫(yī)學(xué)論文。海量中文生物醫(yī)學(xué)信息的產(chǎn)生,為中文生物醫(yī)學(xué)知識(shí)發(fā)現(xiàn)任務(wù)提供了前所未有的機(jī)會(huì)。作為在中文醫(yī)學(xué)文獻(xiàn)中知識(shí)挖掘的一個(gè)重要的子任務(wù),中文醫(yī)學(xué)領(lǐng)域術(shù)語(yǔ)識(shí)別方法的研究已經(jīng)開(kāi)始引起科學(xué)研究者的關(guān)注,如文獻(xiàn)[14]提出了基于條件隨機(jī)場(chǎng)(CRF)的中文生物醫(yī)學(xué)命名實(shí)體識(shí)別方法。

      本文從中文醫(yī)學(xué)期刊網(wǎng)站(http://www.cqvip.com/)爬取中文醫(yī)學(xué)文獻(xiàn)中的摘要、關(guān)鍵字信息,利用摘要信息構(gòu)建中文針灸醫(yī)學(xué)領(lǐng)域語(yǔ)料庫(kù),利用關(guān)鍵字信息構(gòu)建中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)種子集。通過(guò)對(duì)術(shù)語(yǔ)種子集進(jìn)行有限次的迭代,產(chǎn)生針灸醫(yī)學(xué)領(lǐng)域術(shù)語(yǔ)構(gòu)件集,以術(shù)語(yǔ)構(gòu)件集為領(lǐng)域詞典,采用最大向前匹配算法對(duì)語(yǔ)料庫(kù)中的句子進(jìn)行切分,抽取候選術(shù)語(yǔ),再利用語(yǔ)言規(guī)則模板對(duì)候選術(shù)語(yǔ)進(jìn)行后處理,進(jìn)而抽取出中醫(yī)針灸領(lǐng)域的專業(yè)術(shù)語(yǔ)。

      2 中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)及其特點(diǎn)

      針灸學(xué)是以中醫(yī)學(xué)理論為指導(dǎo),運(yùn)用針刺和艾灸防病治病的一門臨床學(xué)科,其主要內(nèi)容包括經(jīng)絡(luò)學(xué)、腧穴學(xué)、針?lè)ň姆▽W(xué)和針灸治療學(xué)等部分。中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)富含濃厚的中國(guó)文化烙印,文獻(xiàn)[15]將中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)的特點(diǎn)歸納如下:

      (1) 專門化。一個(gè)中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)與一個(gè)或一系列這一學(xué)科的語(yǔ)義體系緊密聯(lián)系在一起,起一種專門指稱的作用。

      (2) 單義性。一個(gè)特定的概念與一個(gè)特定的中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)相對(duì)應(yīng)。

      (3) 精確性。中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)必須體現(xiàn)它本身的科學(xué)性和專業(yè)性,它不能是含混不清的模糊詞,也不能與它的臨近概念相混淆。

      (4) 沒(méi)有感情色彩。中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)不分褒義詞和貶義詞,也不必借助上下文來(lái)了解它的意義。

      通過(guò)對(duì)中文醫(yī)學(xué)期刊網(wǎng)站爬取的中醫(yī)針灸領(lǐng)域文本的初步統(tǒng)計(jì)和分析,我們發(fā)現(xiàn)該領(lǐng)域的術(shù)語(yǔ)主要涉及經(jīng)絡(luò)、腧穴、針灸療法、中醫(yī)學(xué)病癥名及其他含義抽象的針灸學(xué)術(shù)語(yǔ)。為了便于人工標(biāo)注語(yǔ)料及術(shù)語(yǔ)抽取、知識(shí)發(fā)現(xiàn)等任務(wù)的研究,本文將中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)分為如下五類:

      (1) 經(jīng)絡(luò)術(shù)語(yǔ): 指運(yùn)行氣血、聯(lián)系臟腑和體表及全身各部的通道,包括: 十二經(jīng)脈、奇經(jīng)八脈、十五絡(luò)脈等。

      (2) 腧穴術(shù)語(yǔ): 指人體經(jīng)絡(luò)線上特殊的點(diǎn)區(qū)部位,多為神經(jīng)末梢和血管較少的地方,中醫(yī)可以通過(guò)針灸或者推拿、點(diǎn)按、艾炙刺激相應(yīng)的經(jīng)絡(luò)點(diǎn)來(lái)治療疾病。

      (3) 針灸療法術(shù)語(yǔ): 包括刺法、灸法、拔罐、推拿等治療方法以及治療用具術(shù)語(yǔ)。

      (4) 中醫(yī)病癥名術(shù)語(yǔ): 指具體的疾病名稱。

      (5) 抽象術(shù)語(yǔ): 指不能歸入上述四類且含義抽象的針灸術(shù)語(yǔ)。

      中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)類別及其實(shí)例如表1所示。

      表1 中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)類別及其實(shí)例

      3 術(shù)語(yǔ)抽取模型

      本文建立的中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取模型主要包括術(shù)語(yǔ)構(gòu)件集生成、候選術(shù)語(yǔ)抽取和術(shù)語(yǔ)過(guò)濾。中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取的步驟如下: 1)從爬取的醫(yī)學(xué)論文中抽取關(guān)鍵字信息構(gòu)建中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)種子集;2)從爬取的醫(yī)學(xué)論文中抽取中文摘要信息構(gòu)建中醫(yī)針灸領(lǐng)域語(yǔ)料庫(kù);3)調(diào)用術(shù)語(yǔ)構(gòu)件生成器將中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)種子集經(jīng)過(guò)有限次迭代生成中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)構(gòu)件集;4)以中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)構(gòu)件集為領(lǐng)域詞典,調(diào)用候選術(shù)語(yǔ)抽取器抽取中醫(yī)針灸領(lǐng)域語(yǔ)料庫(kù)中的針灸領(lǐng)域術(shù)語(yǔ),生成中醫(yī)針灸領(lǐng)域候選術(shù)語(yǔ)集;5)調(diào)用術(shù)語(yǔ)過(guò)濾器,利用規(guī)則集對(duì)候選術(shù)語(yǔ)進(jìn)行過(guò)濾,生成中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)集。中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取的流程如圖1所示。

      圖1 中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取的流程

      3.1 術(shù)語(yǔ)構(gòu)件集生成算法

      中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)構(gòu)件是指那些更大概率地出現(xiàn)在中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)中的字、單詞或復(fù)合詞,術(shù)語(yǔ)構(gòu)件可以是詞根、前綴、后綴或某些包含于中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)中的字符串。首先,從爬取的中醫(yī)針灸領(lǐng)域文獻(xiàn)中提取關(guān)鍵字信息,經(jīng)過(guò)去重、去噪處理及人工審核后,形成中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)種子集。接著,在中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)種子集中采用迭代算法自動(dòng)學(xué)習(xí)術(shù)語(yǔ)構(gòu)件,生成中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)構(gòu)件集。術(shù)語(yǔ)種子集迭代采用文獻(xiàn)[11]中的算法,其基本思想是: 用構(gòu)件集中的構(gòu)件切分種子集中的每個(gè)術(shù)語(yǔ),將最佳切分中產(chǎn)生的新構(gòu)件添加到構(gòu)件集中,迭代學(xué)習(xí)新構(gòu)件直至算法收斂。最佳切分選擇方法如下: 對(duì)于種子集S中的術(shù)語(yǔ)s,用Tc中的構(gòu)件進(jìn)行切分,得到多個(gè)不同的切分結(jié)果,如式(1)所示,切分Ri(s)的權(quán)重計(jì)算如式(2)所示。從式(2)的含義可以看出,含有新構(gòu)件ri越少和越短的切分權(quán)重越大,極端情況就是不切分權(quán)重最大。因此,選擇權(quán)重最大但不等于1的切分為最佳切分,將其產(chǎn)生的新構(gòu)件ri1,ri2,…,rim+1添加到構(gòu)件集Tc中。參數(shù)α、β的值根據(jù)實(shí)驗(yàn)效果進(jìn)行調(diào)節(jié),本文通過(guò)實(shí)驗(yàn)結(jié)果比較,α和β均取值0.5。術(shù)語(yǔ)切分及新構(gòu)件生成的實(shí)例如表2所示。

      (1)

      (2)

      表2 術(shù)語(yǔ)切分及新構(gòu)件生成實(shí)例

      為了獲取高領(lǐng)域度的新構(gòu)件,剔除如表2中的“后/r”、“電/r”、“垂直/r”等低領(lǐng)域度的單字或字串,通過(guò)對(duì)迭代學(xué)習(xí)中產(chǎn)生的新構(gòu)件集及術(shù)語(yǔ)錯(cuò)誤集進(jìn)行人工分析,總結(jié)規(guī)律,得到如下的術(shù)語(yǔ)構(gòu)件過(guò)濾規(guī)則,并對(duì)每輪迭代學(xué)習(xí)中產(chǎn)生的新構(gòu)件都采用術(shù)語(yǔ)構(gòu)件過(guò)濾規(guī)則進(jìn)行過(guò)濾。

      規(guī)則一 丟棄最佳切分Ri(s)首部、中部產(chǎn)生的單字長(zhǎng)構(gòu)件rij,將尾部產(chǎn)生的單字長(zhǎng)且頻率>1的構(gòu)件rij添加到Tc中。

      規(guī)則二 將最佳切分Ri(s)中長(zhǎng)度>1且頻率>1的新構(gòu)件rij添加到Tc中。

      rij的頻率是指在同一輪迭代中構(gòu)件rij在不同術(shù)語(yǔ)的最佳切分中出現(xiàn)的次數(shù)。術(shù)語(yǔ)構(gòu)件集生成算法描述如圖2所示。

      3.2 術(shù)語(yǔ)抽取算法

      從爬取的中醫(yī)針灸文獻(xiàn)中提取摘要信息,構(gòu)建中醫(yī)針灸領(lǐng)域語(yǔ)料庫(kù)。對(duì)語(yǔ)料做去噪處理并以標(biāo)點(diǎn)符號(hào)進(jìn)行粗切分,采用文獻(xiàn)[11]的方法進(jìn)行術(shù)語(yǔ)抽取處理。中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取模塊的基本處理過(guò)程是: 從未標(biāo)注無(wú)結(jié)構(gòu)的領(lǐng)域語(yǔ)料庫(kù)中逐句讀取字串,采用最大向前匹配算法,以術(shù)語(yǔ)構(gòu)件集Tc作為領(lǐng)域詞典切分字串,切分結(jié)果如式(3)所示,抽取xk和xk+1之間的串tk1tk2…tkik(1≤k≤n)作為中醫(yī)針灸領(lǐng)域候選術(shù)語(yǔ),用規(guī)則模板過(guò)濾候選術(shù)語(yǔ),生成中醫(yī)針灸領(lǐng)域術(shù)語(yǔ),直至語(yǔ)料處理完畢。

      e=x1t11t12…t1i1x2t21t22…t2i2…xntn1tn2…tninxn+1

      (3)

      3.3 術(shù)語(yǔ)過(guò)濾規(guī)則

      為了提高術(shù)語(yǔ)抽取的精確率,通過(guò)分析術(shù)語(yǔ)錯(cuò)誤集,總結(jié)出如下候選術(shù)語(yǔ)過(guò)濾規(guī)則。在過(guò)濾時(shí),本文用到兩個(gè)特征詞表,分別是術(shù)語(yǔ)首詞列表(以下簡(jiǎn)稱PrefixWord)和術(shù)語(yǔ)尾詞列表(以下簡(jiǎn)稱SuffixWord),它們均通過(guò)對(duì)中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)種子集學(xué)習(xí)獲得。為了便于敘述,以下假設(shè)過(guò)濾處理的候選術(shù)語(yǔ)為:

      1) 限定首詞,若tk1不在PrefixWord中,則去掉tk1,將剩余部分作為候選術(shù)語(yǔ)繼續(xù)該操作,直到首詞在PrefixWord中,或字符串為空時(shí)結(jié)束。例如,候選術(shù)語(yǔ)“進(jìn)/t針灸/t”經(jīng)本條規(guī)則處理后的術(shù)語(yǔ)是“針灸”。

      2) 限定尾詞,若tkn不在SuffixWord中,則去掉tkn,將剩余部分作為候選術(shù)語(yǔ)繼續(xù)該操作,直到尾詞在SuffixWord中,或字符串為空時(shí)結(jié)束。例如,候選術(shù)語(yǔ)“咳嗽/t變/t”經(jīng)本條規(guī)則處理后的術(shù)語(yǔ)是“咳嗽”。

      圖2 術(shù)語(yǔ)構(gòu)件集生成算法

      3) 若tk(n-1)tkn都在SuffixWord中,則刪除tkn,剩余部分為術(shù)語(yǔ)。例如,候選術(shù)語(yǔ)“慢性/t支氣管炎/t病/t”、“麥粒灸/t灸/t”經(jīng)本條規(guī)則處理后的術(shù)語(yǔ)是“慢性支氣管炎”、“麥粒灸”。

      4) 若tk1tk2…tki…tk(n-1)tkn中,所有構(gòu)件t都不在種子集中,則舍棄tk1tk2…tki…tk(n-1)tkn。例如,舍棄候選術(shù)語(yǔ)“刀/t周圍/t”。

      5) 若tk1tk2…tki…tk(n-1)tkn為單字組成的字串,則舍棄tk1tk2…tki…tk(n-1)tkn。例如,舍棄候選術(shù)語(yǔ)“刺/t刀/t灸/t”。

      6) 若tk1tk2…tki…tk(n-1)tkn為含有數(shù)字或字母的字串,則舍棄tk1tk2…tki…tk(n-1)tkn。例如,舍棄候選術(shù)語(yǔ)“腦缺血/t 3/t h/t”。

      7) 若tk1tk2…tki…tk(n-1)tkn含有數(shù)量詞,則舍棄tk1tk2…tki…tk(n-1)tkn。例如,舍棄候選術(shù)語(yǔ)“針刺/t合谷/t十二/t針/t”。

      8) 若tk1tk2…tki…tk(n-1)tkn為數(shù)字+中文形式,則舍棄tk1tk2…tki…tk(n-1)tkn。例如,舍棄候選術(shù)語(yǔ)“3/t 穴/t”。

      9) 限制中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)的長(zhǎng)度為1~12字。

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1 測(cè)試語(yǔ)料及評(píng)測(cè)指標(biāo)

      從網(wǎng)站(http://www.cqvip.com/)上爬取《針灸臨床雜志》期刊2009至2013年發(fā)表的醫(yī)學(xué)文獻(xiàn)的摘要和關(guān)鍵字信息。關(guān)鍵字信息經(jīng)過(guò)去重、去噪處理及人工審核后,作為中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)種子集。抽取的摘要信息共4.2M,隨機(jī)選擇其中的210篇摘要,按照本文對(duì)中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)所做出的五類界定,進(jìn)行人工標(biāo)注術(shù)語(yǔ),并將經(jīng)人工標(biāo)注好術(shù)語(yǔ)的摘要集作為系統(tǒng)的閉式測(cè)試語(yǔ)料。爬取該網(wǎng)站的《上海針灸雜志》期刊文獻(xiàn)摘要2.8M,隨機(jī)選取其中的210篇摘要,經(jīng)人工標(biāo)注術(shù)語(yǔ)后作為系統(tǒng)的開(kāi)式測(cè)試語(yǔ)料。從網(wǎng)站(http://www.tcm100.com/ShuJuKu/ZhongYiCiDian/ZhongYiCiDian.aspx)爬取中醫(yī)名詞20 109個(gè),剔除其中的書(shū)名、人名,將余下的19 916個(gè)中醫(yī)名詞作為對(duì)比實(shí)驗(yàn)用的中醫(yī)術(shù)語(yǔ)種子集。

      系統(tǒng)采用準(zhǔn)確率(P)、召回率(R)和F-值三個(gè)通用的測(cè)評(píng)指標(biāo)進(jìn)行評(píng)價(jià),測(cè)評(píng)指標(biāo)的具體定義如下式(4)所示。

      (4)

      (5)

      (6)

      4.2 實(shí)驗(yàn)結(jié)果分析

      基于以上設(shè)計(jì)思想,我們使用Java語(yǔ)言實(shí)現(xiàn)了一個(gè)中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取實(shí)驗(yàn)系統(tǒng),并在該實(shí)驗(yàn)系統(tǒng)上進(jìn)行了中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取的閉式測(cè)試和開(kāi)式測(cè)試,測(cè)試結(jié)果如表3所示。

      表3 開(kāi)式實(shí)驗(yàn)與閉式實(shí)驗(yàn)評(píng)測(cè)指標(biāo)對(duì)比表

      由于術(shù)語(yǔ)種子集和閉式測(cè)試語(yǔ)料庫(kù)同源,二者的擬合度較高,所以閉式測(cè)試的評(píng)測(cè)指標(biāo)好于開(kāi)式測(cè)試。通過(guò)分析錯(cuò)誤識(shí)別的術(shù)語(yǔ)后發(fā)現(xiàn),誤識(shí)的原因主要有以下兩點(diǎn): ①?zèng)]有對(duì)測(cè)試語(yǔ)料進(jìn)行分詞,使得術(shù)語(yǔ)識(shí)別時(shí)前詞和后詞的部分字串區(qū)分不開(kāi),術(shù)語(yǔ)邊界標(biāo)識(shí)不準(zhǔn)確,從而引發(fā)術(shù)語(yǔ)識(shí)別錯(cuò)誤,影響術(shù)語(yǔ)抽取的準(zhǔn)確率; ②中醫(yī)針灸領(lǐng)域文獻(xiàn)中存在用詞不夠規(guī)范的現(xiàn)象,并且新的針灸領(lǐng)域術(shù)語(yǔ)不斷出現(xiàn),使得種子集以及種子集迭代后的構(gòu)件集對(duì)領(lǐng)域術(shù)語(yǔ)的覆蓋度有限,造成部分領(lǐng)域術(shù)語(yǔ)以及新出現(xiàn)的領(lǐng)域術(shù)語(yǔ)識(shí)別困難,影響術(shù)語(yǔ)抽取的召回率。術(shù)語(yǔ)識(shí)別錯(cuò)誤實(shí)例及其原因分析如表4所示。

      表4 錯(cuò)誤識(shí)別的術(shù)語(yǔ)實(shí)例及其原因分析表

      為了檢驗(yàn)算法的效果,將本文設(shè)計(jì)的算法、文獻(xiàn)[11]中提及的迭代引導(dǎo)算法(The Iterative Bootstrapping Algorithm,IBA)以及兩組規(guī)則在不同的種子集,相同的標(biāo)注集上進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。

      從表5看出,本文方法比IBA算法有較大的優(yōu)勢(shì),這與中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)的結(jié)構(gòu)特點(diǎn)有關(guān)。中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)的組成結(jié)構(gòu)中存在常用詞字串,若不對(duì)切出的術(shù)語(yǔ)構(gòu)件進(jìn)行規(guī)則過(guò)濾,術(shù)語(yǔ)構(gòu)件中就會(huì)混雜常用詞字串。這種情況下,利用向前匹配法進(jìn)行領(lǐng)域術(shù)語(yǔ)獲取時(shí),會(huì)導(dǎo)致術(shù)語(yǔ)邊界確定不準(zhǔn)確,從而使中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取的精確率大大降低。用中醫(yī)詞典種子集替換關(guān)鍵字種子集重做四組實(shí)驗(yàn)發(fā)現(xiàn),術(shù)語(yǔ)抽取的P、R值下降較大,說(shuō)明種子集的規(guī)模對(duì)術(shù)語(yǔ)抽取結(jié)果評(píng)價(jià)及評(píng)價(jià)的客觀性都有影響。因此,實(shí)際應(yīng)用中要保證種子集的規(guī)模和質(zhì)量。

      表5 規(guī)則效果及種子集效果實(shí)驗(yàn)

      5 結(jié)語(yǔ)

      針對(duì)中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)的構(gòu)成特點(diǎn),將該領(lǐng)域術(shù)語(yǔ)分為五類。通過(guò)分析現(xiàn)有術(shù)語(yǔ)抽取技術(shù)在中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取中存在的問(wèn)題,建立了中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取的算法模型,實(shí)現(xiàn)了中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取的原型系統(tǒng)。通過(guò)對(duì)《上海針灸雜志》上隨機(jī)抽取的210篇摘要進(jìn)行的開(kāi)式測(cè)試結(jié)果來(lái)看,該方法較好地解決了現(xiàn)有術(shù)語(yǔ)抽取技術(shù)存在的中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)構(gòu)件中混雜常用詞字串的問(wèn)題,提高了中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取的精確率。后續(xù)的研究中,將在現(xiàn)有術(shù)語(yǔ)抽取算法模型的基礎(chǔ)上,進(jìn)一步研究中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)邊界識(shí)別問(wèn)題以及新詞識(shí)別的問(wèn)題。

      [1] Bourigault D. Surface grammatical analysis for the extraction of terminological noun phrases[C]//Proceedings of the 14th conference on Computational linguistics-Volume 3. Association for Computational Linguistics,1992: 977-981.

      [2] Li D,Wang Q,Li Y,et al. A Domain-Specific Chinese Term Extraction Method Based on Prefix and Suffix[C]//Proceedings of the Computer Science & Service System (CSSS),2012 International Conference on IEEE,2012: 1356-1359.

      [3] 何婷婷,張勇. 基于質(zhì)子串分解的中文術(shù)語(yǔ)自動(dòng)抽取[J]. 計(jì)算機(jī)工程,2006,32(23): 188-190.

      [4] 梁穎紅,張文靜,周德富. 基于混合策略的高精度長(zhǎng)術(shù)語(yǔ)自動(dòng)抽取[J]. 中文信息學(xué)報(bào),2009,23 (6): 26-30.

      [5] 游宏梁,張巍,沈鈞毅,等. 一種基于加權(quán)投票的術(shù)語(yǔ)自動(dòng)識(shí)別方法[J]. 中文信息學(xué)報(bào),2011,25 (3): 9-16.

      [6] 李麗雙,黨延忠,張婧,等. 基于條件隨機(jī)場(chǎng)的汽車領(lǐng)域術(shù)語(yǔ)抽取[J]. 大連理工大學(xué)學(xué)報(bào),2013,53(2): 267-272.

      [7] 岑詠華,韓哲,季培培. 基于隱馬爾科夫模型的中文術(shù)語(yǔ)識(shí)別研究[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù),2008,12: 54-58.

      [8] 劉豹,張桂平,蔡?hào)|風(fēng). 基于統(tǒng)計(jì)和規(guī)則相結(jié)合的科技術(shù)語(yǔ)自動(dòng)抽取研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2009,44(23): 147-150.

      [9] Ji L,Sum M,Lu Q,et al. Chinese terminology extraction using window-based contextual information[M].Computational Linguistics and Intelligent Text Processing. Springer Berlin Heidelberg,2007: 62-74.

      [10] 周浪,張亮,馮沖,等. 基于詞頻分布變化統(tǒng)計(jì)的術(shù)語(yǔ)抽取方法[J]. 計(jì)算機(jī)科學(xué),2009,36(5): 177-180.

      [11] Zhang C,Niu Z,Jiang P,et al. Domain-specific term extraction from free texts[C]//Proceedings of the Fuzzy Systems and Knowledge Discovery (FSKD),2012 9th International Conference on. IEEE,2012: 1290-1293.

      [12] Kim S,Yoon J. Experimental Study on a Two Phase Method for Biomedical Named Entity Recognition[J].IEICE Transactions on Information and Systems,2007,E90-D(7): 1103-1110.

      [13] Chan S K,Lam W,Yu X F. A cascaded approach to biomedical named entity recognition using a unified model[C]//Proceedings of the 7th IEEE International Conference on Data Mining,Omaha,Nebraska,USA,2007: 93-102.

      [14] Gu B,Popowich F,Dahl V. Recognizing biomedical named entities in Chinese research abstracts[M].Advances in Artificial Intelligence. Springer Berlin Heidelberg,2008: 114-125.

      [15] 蔣錦文,于鵬. 淺談中醫(yī)學(xué)術(shù)語(yǔ)的特點(diǎn)和研究方法[J]. 天津中醫(yī)學(xué)院學(xué)報(bào),2000,3: 023.

      Automatic Term Extraction in TCM Acupuncture Domain

      SUN Shuihua1,2,HUANG Degen1,NIU Ping1

      (1.School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116024,China;2.College of Information Science and Engineering,Fujian University of Technology,Fuzhou,Fujian 350118,China)

      A term extraction algorithm model based on language rules in TCM acupuncture domain is established. Firstly,the seed set of TCM acupuncture domain term is iterated finitely to generate the component set. Secondly, by regarding the component set as the domain dictionary,the model applies maximum forward matching algorithm to segment the sentences and extracts term candidates. Finally,the term candidates are filtrated by rules. The F-measures for open test are 76.96% and 35.59%,with keywords and traditional Chinese medicine dictionary as the seed set,respectively.

      TCM acupuncture domain term; term seed set iteration algorithm; term filter rule

      孫水華(1962—),博士研究生,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與機(jī)器翻譯。E?mail:sunsh@mail.dlut.edu.cn黃德根(1965—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與機(jī)器翻譯。E?mail:huangdg@dlut.edu.cn牛萍(1988—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與機(jī)器翻譯。E?mail:425204127@qq.com

      2014-02-04 定稿日期: 2015-04-29

      福建省自然科學(xué)基金(2014J01218);國(guó)家自然科學(xué)基金(61173100)

      1003-0077(2016)03-0118-07

      TP391

      A

      猜你喜歡
      術(shù)語(yǔ)針灸構(gòu)件
      Las nueve agujas de Fuxi Cómo surgieron estos implementos para practicar la acupuntura
      Efficacy of acupuncture on treating obesity and adipose-incurred illnesses
      中醫(yī)針灸的發(fā)展與傳承
      建筑構(gòu)件
      建筑構(gòu)件
      建筑構(gòu)件
      建筑構(gòu)件
      中醫(yī)針灸治療腰椎間盤(pán)突出癥44例
      有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
      從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
      横山县| 榆中县| 庆安县| 监利县| 渑池县| 如东县| 富源县| 通辽市| 临江市| 阳东县| 桃园县| 舟山市| 思南县| 加查县| 静乐县| 淄博市| 九龙坡区| 香港 | 闸北区| 陵川县| 天门市| 嘉黎县| 鲜城| 新蔡县| 青田县| 福贡县| 长白| 嫩江县| 澄城县| 农安县| 阜康市| 盐津县| 朝阳县| 会同县| 南丰县| 崇信县| 丘北县| 开封市| 托克逊县| 安化县| 中宁县|