文/鄭懿鳴 翟潔 胡曉龍 施軼劼 劉浩
在現(xiàn)有的自然語(yǔ)言處理技術(shù)、知識(shí)圖譜構(gòu)建相關(guān)研究的基礎(chǔ)上,結(jié)合各種方式的優(yōu)勢(shì),同時(shí)利用盡可能豐富的數(shù)據(jù)源,專(zhuān)門(mén)針對(duì)中醫(yī)藥的查詢提出了較為適合的用于本系統(tǒng)的句式分析規(guī)則;同時(shí),提供了知識(shí)圖譜與知識(shí)卡片相結(jié)合的方式更清晰地展示一種中藥實(shí)體的具體信息。
將知識(shí)圖譜與知識(shí)卡片相結(jié)合,用戶既可以閱讀文字以獲取詳細(xì)解釋?zhuān)挚梢酝ㄟ^(guò)視覺(jué)的圖形來(lái)感知知識(shí)本體之間的相關(guān)性。文字與圖形相輔相成,豐富了系統(tǒng)內(nèi)涵,使得系統(tǒng)為用戶提供的資源不再單調(diào),提高了系統(tǒng)的感知性。
2.1.1 中醫(yī)藥知識(shí)庫(kù)的構(gòu)建
本系統(tǒng)采用自頂向下的策略,依次經(jīng)過(guò)模式圖定義、知識(shí)抽取、知識(shí)融合三個(gè)步驟完成基礎(chǔ)知識(shí)庫(kù)的構(gòu)建。模式圖包含知識(shí)庫(kù)擁有的概念、概念的屬性,以及概念之間的層次關(guān)系。知識(shí)抽取主要包括現(xiàn)有醫(yī)學(xué)文獻(xiàn)、醫(yī)療健康網(wǎng)站、中醫(yī)藥百科站點(diǎn)的知識(shí)抽取中醫(yī)藥相關(guān)的實(shí)體、實(shí)體類(lèi)型、同義詞關(guān)系和“屬性-值”關(guān)系。知識(shí)庫(kù)的模式圖常用中醫(yī)藥知識(shí)庫(kù)主要包括中藥材、中醫(yī)證候、中醫(yī)疾病等上層概念及概念的屬性,構(gòu)建模式圖?;陔p向LSTM-CRF模型的中醫(yī)藥實(shí)體識(shí)別方法。常用中醫(yī)藥知識(shí)庫(kù)構(gòu)建中,需要從專(zhuān)業(yè)中醫(yī)藥文獻(xiàn)文本中識(shí)別藥品相關(guān)實(shí)體。
采用基于特征模板的方法,利用大規(guī)模語(yǔ)料學(xué)習(xí)出標(biāo)注模型,進(jìn)而對(duì)語(yǔ)句進(jìn)行標(biāo)注,特征模板通常是人工定義的一些二值特征函數(shù),挖掘命名實(shí)體內(nèi)部以及上下文的構(gòu)成特點(diǎn)。采用基于雙向LSTM-CRF模型的中文實(shí)體識(shí)別方法來(lái)識(shí)別專(zhuān)業(yè)醫(yī)學(xué)典籍文檔中的中醫(yī)藥等實(shí)體。與傳統(tǒng)LSTM不同,雙向LSTM同時(shí)考慮了過(guò)去的特征和未來(lái)的特征,結(jié)果更具準(zhǔn)確性。
2.1.2 基于自然語(yǔ)言處理技術(shù)的中醫(yī)藥智能問(wèn)答
自然語(yǔ)言的處理通常采用自然語(yǔ)言技術(shù)(如命名實(shí)體識(shí)別等)對(duì)問(wèn)題進(jìn)行深層次的分割、理解。智能問(wèn)答系統(tǒng)按照對(duì)數(shù)據(jù)的處理方式可以分為多種,盡管不同類(lèi)型的問(wèn)系統(tǒng)對(duì)于系統(tǒng)整體模塊的分工和實(shí)現(xiàn)存在一定差異,在一般情況下,依據(jù)Q&A系統(tǒng)的數(shù)據(jù)流程處理過(guò)程中,處理問(wèn)題的框架都包括了問(wèn)題理解、信息搜索和答案生成三個(gè)功能模塊。
2.1.3 基于KK算法和節(jié)點(diǎn)生成算法的中醫(yī)藥知識(shí)圖譜可視化
知識(shí)圖譜是一種以"語(yǔ)義網(wǎng)絡(luò)"為骨架而搭建起來(lái)的巨型網(wǎng)絡(luò)知識(shí)系統(tǒng)。它能夠能捕獲并展現(xiàn)領(lǐng)域概念之間的語(yǔ)義關(guān)系,使得各種知識(shí)資源中零碎、松散的知識(shí)本體互相聯(lián)系。將數(shù)據(jù)圖形化是生成知識(shí)圖譜的核心之一。作為一個(gè)可視化系統(tǒng),界面必須清晰易懂,因此需要過(guò)濾部分次要信息,提取主要信息,并對(duì)結(jié)果隨機(jī)排序。
KK算法作為力導(dǎo)引圖布局算法,由一個(gè)雙層循環(huán)構(gòu)成。外層循環(huán)改變當(dāng)前正在選擇最佳位置的節(jié)點(diǎn),內(nèi)層循環(huán)控制此節(jié)點(diǎn)可改變位置的次數(shù)。實(shí)則就是在微小移動(dòng)一個(gè)節(jié)點(diǎn)的同時(shí),固定其他所有節(jié)點(diǎn)。KK算法將迭代次數(shù)的限制致力于內(nèi)循環(huán)上??刂扑泄?jié)點(diǎn)的移動(dòng)次數(shù)上限,保證了即便無(wú)法達(dá)到最完美布局,但整體效果依然呈現(xiàn)出平衡、穩(wěn)定的效果。
(1)中文語(yǔ)言與其他的語(yǔ)言最大的不同的地方在中文的詞匯之間沒(méi)有空格使其分隔開(kāi),這加大了語(yǔ)言處理算法對(duì)語(yǔ)句分割、語(yǔ)義理解的難度。
(2)由于本系統(tǒng)是以中醫(yī)藥為核心,必須格外注意源數(shù)據(jù)的權(quán)威性。同時(shí)在建立中醫(yī)藥知識(shí)庫(kù)的構(gòu)建過(guò)程中,會(huì)存在詞典需求特殊的問(wèn)題,需要進(jìn)行特別的詞性標(biāo)注。
(3)在帶有歧義詞語(yǔ)的句子中,經(jīng)常會(huì)出現(xiàn)非期望的結(jié)果。在對(duì)用戶輸入的自然語(yǔ)言進(jìn)行處理時(shí),需要通過(guò)調(diào)用HanLP的相應(yīng)方法來(lái)實(shí)現(xiàn)對(duì)分詞進(jìn)行整合。但是,在帶有歧義詞語(yǔ)的句子中,仍會(huì)不可避免地出現(xiàn)非期望的結(jié)果。
(4)可視化的知識(shí)圖譜布局平衡問(wèn)題。需要使用相應(yīng)算法來(lái)實(shí)現(xiàn)知識(shí)圖譜布局的美觀和易讀性。否則圖譜節(jié)點(diǎn)連線會(huì)出現(xiàn)互相交叉的現(xiàn)象,降低圖譜的閱讀性。
基于對(duì)用戶自然語(yǔ)言處理接受的需要,必須對(duì)用戶輸入的自然語(yǔ)言進(jìn)行處理。處理的方法采用了CRF++技術(shù)對(duì)用戶輸入進(jìn)行基本分割,并根據(jù)基本名詞短語(yǔ)識(shí)別(BaseNP)的4tag模式。通過(guò)對(duì)已經(jīng)標(biāo)注好的每個(gè)單字,根據(jù)它的BaseNP標(biāo)記進(jìn)行整合。這一部分通過(guò)調(diào)用HanLP的相應(yīng)方法來(lái)實(shí)現(xiàn)。經(jīng)過(guò)多次實(shí)踐發(fā)現(xiàn),CRF對(duì)于陌生的詞匯具有較高的識(shí)別率,但也不可避免地出現(xiàn)少數(shù)非期望的結(jié)果,特別是在帶有歧義詞語(yǔ)的句子中。此時(shí)需要調(diào)用其他的分詞器來(lái)進(jìn)行校正。
通過(guò)CRF獲得分詞結(jié)果之后,需要對(duì)結(jié)果進(jìn)行整理,并標(biāo)注詞性。采用了人民日?qǐng)?bào)2014年詞性標(biāo)注庫(kù)進(jìn)行詞性標(biāo)注。針對(duì)該系統(tǒng)的特殊需求,新增了中藥、疾病、信號(hào)詞、疑問(wèn)詞等詞性的特殊詞性標(biāo)注,方便了該系統(tǒng)通過(guò)此行來(lái)過(guò)濾關(guān)鍵詞、信息詞的提取。
由于用戶時(shí)常不能準(zhǔn)確定位所需檢索的問(wèn)題的關(guān)鍵詞信息,所以有必要進(jìn)行同義詞匹配的處理。本系統(tǒng)所采用的詞典是根據(jù)哈工大信息檢索研究中心的《同義詞詞林(擴(kuò)展版)》而修訂的同義詞詞典。其為原詞典的簡(jiǎn)化版,并且加入了很多專(zhuān)用于中藥特性的詞語(yǔ),以更好地進(jìn)行同義詞匹配。
當(dāng)用戶輸入的詞語(yǔ)是疾病或者是癥狀類(lèi)型詞時(shí),系統(tǒng)將對(duì)應(yīng)的癥狀與數(shù)據(jù)庫(kù)進(jìn)行匹配,檢索出與之相關(guān)的中醫(yī)藥品類(lèi),按照相關(guān)程度給出適合該癥狀或疾病的中醫(yī)藥列表作為用藥的輔助依據(jù)。
本系統(tǒng)實(shí)現(xiàn)了依照用戶輸入的書(shū)面或者口語(yǔ)化語(yǔ)言,進(jìn)行漢語(yǔ)言標(biāo)注;根據(jù)信號(hào)詞進(jìn)行句式模板匹配,根據(jù)一定的匹配原則,產(chǎn)生相應(yīng)的查詢語(yǔ)句,在已有的中醫(yī)藥知識(shí)庫(kù)中檢索需要提供給用戶的信息,并通過(guò)知識(shí)卡片、可視化圖譜、用藥推薦的方式呈現(xiàn)出來(lái)。