葉曉鵬
關(guān)鍵詞:深度學(xué)習(xí);知識(shí)圖譜;自動(dòng)問(wèn)答;醫(yī)療領(lǐng)域
0 引言
近年來(lái),隨著計(jì)算機(jī)技術(shù)和新一代信息技術(shù)的發(fā)展,基于人工智能的自動(dòng)問(wèn)答系統(tǒng)也被廣泛應(yīng)用到各個(gè)行業(yè)[1-14],但是隨著海量數(shù)據(jù)爆發(fā)式的增長(zhǎng),現(xiàn)階段的知識(shí)圖譜也不能滿足高效化、智能化、專業(yè)化應(yīng)用的需求,需要更新的知識(shí)圖譜構(gòu)建方法和技術(shù)出現(xiàn),以應(yīng)對(duì)海量數(shù)據(jù)的變化,來(lái)滿足和完成專業(yè)性比較強(qiáng)的領(lǐng)域的人工智能問(wèn)答。
為此,國(guó)內(nèi)外專家在知識(shí)圖譜自動(dòng)問(wèn)答研究上開(kāi)展不同的研究。Kumar A J[1](2017) 使用基于知識(shí)圖的結(jié)構(gòu)化數(shù)據(jù)構(gòu)建語(yǔ)音識(shí)別和語(yǔ)言理解相結(jié)合的統(tǒng)一系統(tǒng),有助于將語(yǔ)義豐富的數(shù)據(jù)模型用于語(yǔ)音接口;Lukovnikov[2](2017) 則訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),以端到端的方式回答簡(jiǎn)單的問(wèn)題,而所有決策都留給了模型;張勝[3](2017) 使用了字向量的表示形式,減少了不準(zhǔn)確性對(duì)后續(xù)匹配模型的負(fù)面級(jí)聯(lián)影響;余傳明[4](2019)提出了一種新的知識(shí)圖譜對(duì)齊模型。解決了領(lǐng)域知識(shí)融合過(guò)程中所帶來(lái)的冗余和不一致問(wèn)題;趙毓誠(chéng)[5](2019) 針對(duì)目前航空不安全事件存在知識(shí)圖譜讀取困難的問(wèn)題,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)文獻(xiàn)領(lǐng)域知識(shí)圖譜輔助構(gòu)建系統(tǒng);張崇宇[6](2019) 提出了知識(shí)圖譜構(gòu)建與知識(shí)圖譜自動(dòng)問(wèn)答系統(tǒng)的解決方案,并完成了醫(yī)療輔助問(wèn)診服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn);張志昌等人[7](2020) 提出一種雙向門(mén)控循環(huán)單元(GRU)和雙重注意力機(jī)制結(jié)合的中文電子病歷醫(yī)療實(shí)體關(guān)系識(shí)別方法,構(gòu)建BiGRU-Dual Attention模型,獲取更細(xì)粒度的特征;邵紅[8](2020) 設(shè)計(jì)并實(shí)現(xiàn)了基于自由文本的問(wèn)題生成模型,提高了指定答案自動(dòng)生成自然語(yǔ)言形式的準(zhǔn)確率;馬滿福等人[9](2020) ,針對(duì)中文分詞的特點(diǎn),利用電子住院記錄利用Glove模型訓(xùn)練醫(yī)學(xué)詞向量;黃偉等人[10](2021) 使用戶能夠在線實(shí)時(shí)得到醫(yī)療問(wèn)題的解答,從而提高用戶體驗(yàn);李學(xué)亮[11](2021) 針對(duì)機(jī)器對(duì)用戶問(wèn)題理解有偏差的問(wèn)題,通過(guò)對(duì)用戶問(wèn)題進(jìn)行意圖識(shí)別的方法來(lái)解決;張明磊[12](2021) 通過(guò)對(duì)醫(yī)療開(kāi)源數(shù)據(jù)的融合,以Web 端作為交互平臺(tái),實(shí)現(xiàn)了基于醫(yī)療疾病知識(shí)圖譜的問(wèn)答系統(tǒng),幫助患者查詢相關(guān)疾病信息;李百合[13](2022) 針對(duì)失智患者常伴隨精神行為癥狀且家庭護(hù)理者缺乏專業(yè)知識(shí),提出了一種解決家庭照護(hù)者在失智照護(hù)過(guò)程中遇到的棘手問(wèn)題方法;程子佳等人[14](2022) 針對(duì)問(wèn)答系統(tǒng)存在理解能力和查全率不足的問(wèn)題,設(shè)計(jì)并實(shí)現(xiàn)了基于知識(shí)圖譜的自動(dòng)問(wèn)答模型,優(yōu)化提升了查詢率。
為此,本文在前人研究的基礎(chǔ)上,構(gòu)建一個(gè)醫(yī)療領(lǐng)域知識(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng),通過(guò)解析問(wèn)句意圖進(jìn)行命名實(shí)體識(shí)別,測(cè)試實(shí)驗(yàn)結(jié)果表明本方法能夠?qū)崿F(xiàn)醫(yī)療領(lǐng)域自動(dòng)問(wèn)答。
1 相關(guān)理論及需求分析
研究成果表明早期的問(wèn)答系統(tǒng)大多是基于專家系統(tǒng)設(shè)計(jì)和構(gòu)建的,系統(tǒng)常見(jiàn)的是關(guān)系型的數(shù)據(jù)庫(kù),系統(tǒng)對(duì)于存在的問(wèn)題,常見(jiàn)的處理方式是將問(wèn)題轉(zhuǎn)換為查詢語(yǔ)句,通過(guò)到現(xiàn)有的數(shù)據(jù)庫(kù)中自動(dòng)查詢答案,該方法不但耗時(shí)費(fèi)力,而且可解決的自動(dòng)問(wèn)答問(wèn)題類型和數(shù)量有限。而基于知識(shí)圖譜的問(wèn)答系統(tǒng),通過(guò)引入知識(shí)圖譜的概念,直接通過(guò)檢索系統(tǒng)知識(shí)庫(kù)比對(duì)完成問(wèn)答任務(wù)。
1.1 語(yǔ)義解析知識(shí)庫(kù)問(wèn)答
語(yǔ)義解析得到了一個(gè)句子的邏輯表示,再根據(jù)邏輯表示到知識(shí)庫(kù)里查詢,也就是針對(duì)一個(gè)工作是進(jìn)行類型審查,審查每個(gè)算符是否具有語(yǔ)言規(guī)范KB-QA的思路是通過(guò)對(duì)自然語(yǔ)言進(jìn)行語(yǔ)義上的分析,轉(zhuǎn)化成為一種能夠讓知識(shí)庫(kù)看懂的語(yǔ)義表示,進(jìn)而通過(guò)知識(shí)庫(kù)中的知識(shí),進(jìn)行推理(Inference) 查詢(Query) ,得出最終的答案。簡(jiǎn)而言之,語(yǔ)義解析要做的事情,是將自然語(yǔ)言的問(wèn)題轉(zhuǎn)化為一種能夠讓知識(shí)庫(kù)“看懂”的語(yǔ)義表示,這種語(yǔ)義表示即邏輯形式(Logic Form) 。語(yǔ)法解析的過(guò)程可以看作是自底向上構(gòu)造語(yǔ)法樹(shù)的過(guò)程,樹(shù)的根節(jié)點(diǎn),就是該自然語(yǔ)言問(wèn)題最終的邏輯形式表達(dá)。
1.2 基于深度學(xué)習(xí)的問(wèn)答
構(gòu)建傳統(tǒng)的問(wèn)答系統(tǒng)主要是將機(jī)器層次較低學(xué)習(xí)模型改進(jìn),用手工的方法構(gòu)造基本特征,而對(duì)于不同領(lǐng)域的數(shù)據(jù)處理,不同形式問(wèn)句都缺少靈活性,還需要有經(jīng)驗(yàn)的人員進(jìn)行數(shù)據(jù)標(biāo)注和特征模型提取,工作量大且質(zhì)量不高,無(wú)法適應(yīng)多樣性的問(wèn)題。近年來(lái),深度學(xué)習(xí)在許多領(lǐng)域的研究中已得到了不錯(cuò)的成效,表示出了其突出的知識(shí)學(xué)習(xí)能力。問(wèn)答系統(tǒng)中必須處理的重要問(wèn)題是:怎樣完成用戶的提出的問(wèn)句與結(jié)果的語(yǔ)義表達(dá)與匹配的問(wèn)題、針對(duì)問(wèn)答系統(tǒng)要解決的關(guān)鍵問(wèn)題。
2 知識(shí)圖譜的自動(dòng)問(wèn)答
2.1 知識(shí)圖譜問(wèn)答方法
基于知識(shí)圖譜的自動(dòng)問(wèn)答是利用自然語(yǔ)言處理技術(shù),分析理解用戶提問(wèn),進(jìn)一步在系統(tǒng)知識(shí)庫(kù)中檢索查詢,進(jìn)行比對(duì)和整理,才將歸納的答案返還給用戶。知識(shí)圖譜問(wèn)答的方法路線常見(jiàn)的有兩種:基于語(yǔ)義解析的查詢方法和基于向量建模的排序方法?;谡Z(yǔ)義解析的查詢方法是對(duì)用戶提出的自然語(yǔ)言問(wèn)句解析,提取問(wèn)句中的實(shí)體,判別用戶意圖,為了使機(jī)器能夠理解和執(zhí)行,將其轉(zhuǎn)換為對(duì)應(yīng)的語(yǔ)義表示,并使用該語(yǔ)義表示對(duì)應(yīng)執(zhí)行結(jié)構(gòu)化的查詢語(yǔ)句,從而在知識(shí)圖譜中得到精準(zhǔn)的答案?;谙蛄拷5呐判蚍椒ㄊ且环N端到端的方法,它在知識(shí)圖譜中依靠用戶輸入的自然語(yǔ)言問(wèn)句進(jìn)行子圖定位,找到有關(guān)的待篩選候選答案后,利用排序模型或者分類模型對(duì)待篩選候選答案評(píng)價(jià)打分,取滿足設(shè)定閾值的得分最高的答案作為結(jié)果返回給用戶。
2.2 知識(shí)圖譜構(gòu)建流程
對(duì)于領(lǐng)域知識(shí)圖譜模式層的構(gòu)建,常常通過(guò)構(gòu)建上下混合模式的方法來(lái)實(shí)現(xiàn)。該方法有兩種構(gòu)建模式:自頂向下和自底向上。這種方法主要是通過(guò)迭代和不斷優(yōu)化,進(jìn)一步生成設(shè)計(jì)預(yù)期要求的醫(yī)療領(lǐng)域知識(shí)圖譜。該設(shè)計(jì)方法有自頂向下的模式層設(shè)計(jì)、數(shù)據(jù)采集與信息抽取、自底向上的模式層優(yōu)化和知識(shí)連接四個(gè)步驟,具體構(gòu)建方法如圖1所示。
(1) 自頂向下的模式層設(shè)計(jì)過(guò)程:主要是建立一個(gè)基礎(chǔ)的領(lǐng)域知識(shí)圖譜模式層,從而幫助下一步要進(jìn)行的數(shù)據(jù)采集和信息抽取。
(2) 數(shù)據(jù)采集與信息抽取過(guò)程。主要是分為數(shù)據(jù)采集和信息抽取。利用相關(guān)技術(shù)對(duì)數(shù)據(jù)進(jìn)行采集和整理,從而幫助下一步要進(jìn)行的模式層優(yōu)化的資源。
(3) 自底向上的模式層優(yōu)化。主要通過(guò)構(gòu)建輔助知識(shí)圖譜模式層,進(jìn)一步地優(yōu)化和完善現(xiàn)有的模式層知識(shí)體系。
(4) 知識(shí)連接。首先將知識(shí)元素添加到對(duì)應(yīng)的數(shù)據(jù)層中,再通過(guò)模式層的關(guān)系連接起來(lái)不同的實(shí)體,從而形成知識(shí)圖譜的數(shù)據(jù)內(nèi)容和應(yīng)用的數(shù)據(jù)。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 系統(tǒng)環(huán)境部署
問(wèn)答系統(tǒng)常見(jiàn)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)主要使用Python和PHP 兩種語(yǔ)言。這兩種語(yǔ)言的主要功能分別是進(jìn)行自然語(yǔ)言處理和實(shí)現(xiàn)系統(tǒng)頁(yè)面,他們的部分代碼通常分別部署在阿里云服務(wù)器和新浪云服務(wù)器上。
3.2 功能需求分析
系統(tǒng)用戶通過(guò)前端交互頁(yè)面訪問(wèn)系統(tǒng),對(duì)醫(yī)療領(lǐng)域相關(guān)問(wèn)題進(jìn)行提問(wèn),系統(tǒng)通過(guò)對(duì)用戶輸入的理解分析,在知識(shí)圖譜中查詢相關(guān)答案并將結(jié)果返還給用戶。系統(tǒng)功能主要有5點(diǎn):
(1) 可視化的交互界面。交互界面用戶提供了文本輸入入口,提示用戶操作方式,用戶通過(guò)文本輸入框?qū)?wèn)題傳輸給后端系統(tǒng)處理,在系統(tǒng)中檢索答案并接收系統(tǒng)答案輸出。
(2) 對(duì)用戶輸入的處理及時(shí)處理。系統(tǒng)后端需要對(duì)用戶的輸入進(jìn)行接收并作相應(yīng)處理,在前端頁(yè)面展示給用戶。
(3) 用戶日志的存儲(chǔ)。對(duì)于用戶的搜索進(jìn)行記錄并保存,方便進(jìn)行多輪對(duì)話的處理。
(4) 醫(yī)療數(shù)據(jù)的更新。定時(shí)爬取醫(yī)療疾病知識(shí)圖譜的數(shù)據(jù)信息,與現(xiàn)有數(shù)據(jù)庫(kù)對(duì)比,進(jìn)行人工校驗(yàn)更新。
(5) 自動(dòng)問(wèn)答。對(duì)于接收到的問(wèn)題輸入,通過(guò)算法的分析提取出問(wèn)句實(shí)體和問(wèn)句意圖,嵌入定義好的Cypher 查詢語(yǔ)句中,進(jìn)行檢索并返還給用戶。
3.3 測(cè)試結(jié)果與分析
本文提出了實(shí)體關(guān)系抽取模型,首先是將雙向GRU加入到句子編碼階段中,再使用字級(jí)注意力機(jī)制提高字權(quán)重,接著采用句子級(jí)注意力機(jī)制,最后獲取更多語(yǔ)句的特征,該方法主要通過(guò)增大正確標(biāo)注的句子權(quán)重,提高系統(tǒng)自動(dòng)問(wèn)答的能力。具體數(shù)據(jù)如表1所示。
從圖2可知,通過(guò)對(duì)自動(dòng)問(wèn)答的精確率P、數(shù)據(jù)的召回率R和系統(tǒng)的F1值測(cè)試,本文構(gòu)建的方法優(yōu)于其他傳統(tǒng)的三種遠(yuǎn)程監(jiān)督方法,本文的方法不需要人工構(gòu)建特征,就能夠準(zhǔn)確學(xué)習(xí)到句子的語(yǔ)義信息。同時(shí)因?yàn)榧尤胱旨?jí)和句子級(jí)注意力機(jī)制,進(jìn)一步有效緩解標(biāo)簽錯(cuò)誤的問(wèn)題。
同時(shí),如果當(dāng)用戶在問(wèn)句中沒(méi)有找到自己需要對(duì)應(yīng)的答案時(shí)或者屬于一般的閑聊語(yǔ)句時(shí),系統(tǒng)會(huì)接入閑聊模式進(jìn)行答復(fù),其測(cè)試效果如圖3所示。
4 結(jié)束語(yǔ)
隨著新一代信息技術(shù)的發(fā)展,醫(yī)療自動(dòng)問(wèn)答應(yīng)用更加廣泛,然而現(xiàn)有的問(wèn)答系統(tǒng)的效果并不太理想,為此,本文提出一種構(gòu)建醫(yī)療領(lǐng)域知識(shí)圖譜方法,該方法主要通過(guò)解析問(wèn)句意圖進(jìn)行命名實(shí)體識(shí)別,測(cè)試表明本方法優(yōu)于其他三種遠(yuǎn)程監(jiān)督方法。雖然基于深度學(xué)習(xí)的答案排序法略顯優(yōu)勢(shì),但是依然存在一定的不足,同時(shí)缺乏泛化性、可解釋性,對(duì)時(shí)序性問(wèn)題不能很好回答,所以進(jìn)一步地提升知識(shí)圖譜自動(dòng)問(wèn)答系統(tǒng),需要我們更加深入的研究。