王建文
摘要:信息抽取是高效利用文獻(xiàn)資源的重要信息化手段,是從非結(jié)構(gòu)文獻(xiàn)資源快速挖掘潛在的有意義的研究方向和創(chuàng)新資源的重要信息化途徑。該文結(jié)合中醫(yī)藥理論和中醫(yī)藥學(xué)科的內(nèi)在規(guī)律特征,初步探討信息抽取規(guī)則生成模式及其構(gòu)建體系。
關(guān)鍵詞:信息抽??;抽取規(guī)則;生成模式;中醫(yī)藥
中圖分類號:TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1009-3044(2017)22-0185-02
1概述
信息抽取是從非結(jié)構(gòu)化的自然語言文本中確認(rèn)提取重要的結(jié)構(gòu)化信息單位和關(guān)鍵知識(shí)節(jié)點(diǎn),將復(fù)雜模糊的自由文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)清晰的線性數(shù)據(jù)。信息抽取作為文本挖掘的一個(gè)重要技術(shù)手段,可利用它來抽取解析很多文獻(xiàn)所包含的知識(shí)元及其相互作用關(guān)系,從非結(jié)構(gòu)的信息源中挖掘出不同知識(shí)元間新的具有隱含意義的關(guān)聯(lián)性,這樣可以極大地提高文獻(xiàn)的利用價(jià)值,發(fā)掘出很多意想不到的創(chuàng)新思路。無數(shù)中醫(yī)藥臨床實(shí)踐與海量的中醫(yī)藥理論研究文獻(xiàn),包含著大量的具有潛在邏輯關(guān)系的主題。因此,充分利用現(xiàn)有中醫(yī)藥的各種文獻(xiàn)數(shù)據(jù)庫,采用信息抽取技術(shù),形成對文獻(xiàn)的二次開發(fā),通過整理揭示不同主題間的內(nèi)在關(guān)系層次,發(fā)掘創(chuàng)新資源與重要的研究線索。
2結(jié)合中醫(yī)藥理論,建立中醫(yī)藥相關(guān)研究部分的領(lǐng)域本體
本體是一個(gè)揭示世界本質(zhì)的哲學(xué)概念,是針對客觀事物的一種抽象的系統(tǒng)化的描述。領(lǐng)域本體是對特定領(lǐng)域知識(shí)的一種系統(tǒng)化描述,也是對該領(lǐng)域所具有的特性和規(guī)律的一種結(jié)構(gòu)化表述,包括領(lǐng)域概念、概念屬性及概念間相互關(guān)系的層次體系,一定的推理規(guī)則等。
圖1和圖2就是中醫(yī)藥領(lǐng)域的一個(gè)微型知識(shí)的本體構(gòu)建過程,通過本體結(jié)構(gòu)說明如何將中醫(yī)藥自然語言語義化和信息化。
按照本體論原理,根據(jù)中醫(yī)藥語言特點(diǎn)及學(xué)科體系,設(shè)計(jì)一種中醫(yī)藥本體信息系統(tǒng),解決中醫(yī)藥學(xué)科概念間的邏輯層次及其相互關(guān)聯(lián)性。
3信息抽取與抽取規(guī)則生成模式系統(tǒng)分析
信息抽取器根據(jù)規(guī)則生成器生成的抽取規(guī)則,對文本進(jìn)行分析抽取,并將抽取結(jié)果存入數(shù)據(jù)庫,整個(gè)過程和體系結(jié)構(gòu)如圖3。
其中最為關(guān)鍵的部分是抽取規(guī)則生成模塊,要完成該模塊的構(gòu)建,又必須完成好以下幾個(gè)模塊的設(shè)計(jì)。
1)本體解析:本體解析是將領(lǐng)域本體中包含的概念、關(guān)系及其邏輯結(jié)構(gòu)等解析出來,并把這些概念、關(guān)系的形式化描述結(jié)果存入數(shù)據(jù)庫中。數(shù)據(jù)庫表中記錄反映的是本體中概念及概念間的關(guān)系。以下示例說明概念間層次關(guān)系解析必須遵循具體科學(xué)的內(nèi)在本質(zhì)規(guī)律。
2)字典模塊的設(shè)計(jì):利用領(lǐng)域?qū)<揖幾脑~典,采用某種匹配策略,可以從文體中抽取具體的詞匯。在本體解析中,只記錄了框架性的概念、關(guān)系,并沒有記錄這些概念、關(guān)系所包含的具體詞匯。字典就是為了整理歸集標(biāo)示這些概念、關(guān)系的關(guān)鍵詞匯。
3)抽取規(guī)則及其生成模式:對于要處理的自然語言文檔,首先必須借助語法分析模塊對文檔進(jìn)行一般性的語法預(yù)處理。抽取關(guān)鍵信息元,剔除無關(guān)的雜音信息。根據(jù)前面數(shù)據(jù)庫中的解析結(jié)果和字典記錄生成合理的信息抽取規(guī)則,系統(tǒng)再依據(jù)此規(guī)則對預(yù)處理后的文檔進(jìn)行信息抽取。
由于概念的屬性、屬性的取值范圍,每個(gè)概念變量所包含的關(guān)鍵詞集合,以及各概念間的本質(zhì)關(guān)系等是由具體學(xué)科的內(nèi)在邏輯聯(lián)系所決定的。因此,本體的構(gòu)建和字典編輯都必須嚴(yán)格依從和反映具體學(xué)科的內(nèi)在本質(zhì)規(guī)律,這也是最基礎(chǔ)最艱巨的工作。
4總結(jié)和展望
目前,領(lǐng)域本體解析系統(tǒng)的構(gòu)建還處于探索階段,還只是一種某些專業(yè)機(jī)構(gòu)的解決思維。它的功能雖然強(qiáng)大,前景雖然誘人,但由于很難突破專業(yè)領(lǐng)域片面性的瓶頸,至今沒有形成一套廣泛適應(yīng)的成熟的方法。中醫(yī)藥本體所包含的范圍很廣大,中醫(yī)藥詞匯和概念的確立和歸集,如何將立體的全方向的概念關(guān)系窮盡離散分解成結(jié)構(gòu)化的二元關(guān)系或其他線性關(guān)系,需要中醫(yī)藥領(lǐng)域?qū)<业膹V泛參與和不斷總結(jié)摸索。
由于古漢語的復(fù)雜性以及醫(yī)學(xué)術(shù)語的多樣性,概念與概念之間復(fù)雜關(guān)系的內(nèi)在邏輯的模糊性,以及如何將這種內(nèi)在邏輯關(guān)聯(lián)性揭示出來,并轉(zhuǎn)化為便于計(jì)算機(jī)理解分析的結(jié)構(gòu)化語言等等,都直接影響到領(lǐng)域本體的創(chuàng)建和信息抽取的準(zhǔn)確性。因此,總結(jié)分析影響抽取正確性的因素是今后值得相當(dāng)關(guān)注和研究的方向。