劉淑婷
(西安翻譯學(xué)院 工程技術(shù)學(xué)院,西安 710105)
醫(yī)??ㄗ詣?dòng)回復(fù)系統(tǒng)的建設(shè)補(bǔ)充了現(xiàn)有的咨詢渠道,實(shí)現(xiàn)了信息及時(shí)、高效地傳遞,方便參保用戶通過(guò)短信平臺(tái)及時(shí)咨詢醫(yī)保繳費(fèi)、報(bào)銷、辦理流程等問(wèn)題,用戶能隨時(shí)了解參保情況,并享受醫(yī)療保險(xiǎn)待遇,提高了西安市人社局的辦公效率和對(duì)參保用戶的服務(wù)質(zhì)量,在參保用戶與西安市人社局之間建立了一種快捷、高效、方便地的溝通渠道。
自動(dòng)回復(fù)系統(tǒng)目的是將精確答案發(fā)送到用戶手機(jī)上,并將已發(fā)送信息保存到數(shù)據(jù)庫(kù)中備查[1]。按照處理順序分為問(wèn)題理解、信息檢索、答案抽取[2]。問(wèn)題理解是對(duì)問(wèn)句進(jìn)行分析,包括詞法分析、語(yǔ)義分析、問(wèn)題分類,其準(zhǔn)確度直接影響后續(xù)階段的處理[3]。信息檢索是在文檔集合中利用問(wèn)題理解抽取出來(lái)的關(guān)鍵字查找出相關(guān)的文檔[4]。答案抽取是從信息檢索得出的文檔中提取與問(wèn)題相關(guān)的段落生成答案[5]。自動(dòng)回復(fù)系統(tǒng)的主要流程如圖1所示。
問(wèn)題理解需要對(duì)問(wèn)題語(yǔ)句做出分類,并對(duì)問(wèn)題的類型、語(yǔ)義和答案類型等進(jìn)行定性和定量。問(wèn)題分析的質(zhì)量限定了備選答案的范圍,并減少了答案的搜索空間,決定后續(xù)步驟采取的處理策略。
圖1 自動(dòng)回復(fù)系統(tǒng)的主要流程
傳統(tǒng)的問(wèn)題分析在對(duì)問(wèn)題分析完成后留下的是關(guān)鍵詞和一些對(duì)關(guān)鍵詞的擴(kuò)展,將句子分割成詞,降低了語(yǔ)言表達(dá)能力,并且丟失了詞語(yǔ)之間的關(guān)系,而問(wèn)題焦點(diǎn)表示的問(wèn)題分析在輸出關(guān)鍵詞集合的同時(shí),還完整的保留了問(wèn)句的句式結(jié)構(gòu)和語(yǔ)義。
漢語(yǔ)問(wèn)句,一般分為疑問(wèn)句、反問(wèn)句、設(shè)問(wèn)句,醫(yī)??ㄗ詣?dòng)回復(fù)系統(tǒng)只處理用于詢問(wèn)信息的疑問(wèn)句。疑問(wèn)句主要分為是非問(wèn)句、選擇問(wèn)句、特指問(wèn)句[6]。據(jù)統(tǒng)計(jì),在醫(yī)保業(yè)務(wù)咨詢方面是非問(wèn)句不到10%,選擇問(wèn)句不到1%,約90%都是特指問(wèn)句。所以本文重點(diǎn)對(duì)特指問(wèn)句分析。
問(wèn)題焦點(diǎn)定義:?jiǎn)栴}焦點(diǎn)(Question Focus,QF)是由疑問(wèn)類型與疑問(wèn)內(nèi)容組成:
QF={疑問(wèn)類型:疑問(wèn)詞,疑問(wèn)對(duì)象:疑問(wèn)內(nèi)容}
例如,問(wèn)題Q(A)={醫(yī)??ㄔ趺囱a(bǔ)辦?},疑問(wèn)類型為特指疑問(wèn),疑問(wèn)詞為“怎么”,疑問(wèn)對(duì)象為“補(bǔ)辦”事件,所以問(wèn)題焦點(diǎn)為QF(A)={特指疑問(wèn):怎么;事件:補(bǔ)辦}。
2.2.1 疑問(wèn)類型
疑問(wèn)類型是問(wèn)題焦點(diǎn)的疑問(wèn)形式。特殊疑問(wèn)的疑問(wèn)類型常含有“什么”、“哪里”、“為什么”、“多少”等特指疑問(wèn)詞,其本身已顯現(xiàn)詢問(wèn)者想知道的內(nèi)容及回答方式,這些疑問(wèn)詞就是疑問(wèn)句的問(wèn)題焦點(diǎn),能很準(zhǔn)確的提取疑問(wèn)句的意思。
2.2.2 疑問(wèn)對(duì)象
疑問(wèn)對(duì)象是詢問(wèn)者想知道的問(wèn)題答案。事就是事件,包括事件自身(如:補(bǔ)辦、辦理、報(bào)銷等)、事件論元(如:方式、地點(diǎn)、時(shí)間等)、事件之間的關(guān)系(如:區(qū)別、流程等);物就是實(shí)體,包括實(shí)體自身(如:醫(yī)保卡、醫(yī)療保險(xiǎn)、醫(yī)保等)、實(shí)體的屬性(如:卡號(hào)、基數(shù)、繳費(fèi)比例等)、實(shí)體之間的相互關(guān)系(如:不同、包含等)等。疑問(wèn)對(duì)象分為兩大類六小類。如表1所示。
表1 問(wèn)題語(yǔ)義內(nèi)容分類體系實(shí)例
問(wèn)題分類是把問(wèn)題讓機(jī)器區(qū)分,將尋找答案的范圍盡量縮小,以提高答案的精度。問(wèn)題分類結(jié)果的好壞直接影響問(wèn)題回答的系統(tǒng)性能。問(wèn)題焦點(diǎn)分類流程,如圖2所示。
圖2 問(wèn)題焦點(diǎn)分類流程
2.3.1 問(wèn)題焦點(diǎn)的獲取
從問(wèn)句中識(shí)別、標(biāo)注問(wèn)題焦點(diǎn),建立問(wèn)題焦點(diǎn)數(shù)據(jù)結(jié)構(gòu),篩選問(wèn)題中的相關(guān)信息,添加到焦點(diǎn)數(shù)據(jù)結(jié)構(gòu)中,即焦點(diǎn)的獲取。
本文調(diào)用語(yǔ)言云(語(yǔ)言技術(shù)平臺(tái)云 LTP-Cloud)對(duì)漢語(yǔ)中的文本句子進(jìn)行分詞處理。 LTP中采用863詞性標(biāo)注集,部分詞性含義,如表2所示。
表2 部分詞性含義
依存句法分析標(biāo)注關(guān)系(共14種)及含義,如表3所示。
表3 依存句法分析標(biāo)注關(guān)系(共14種)及含義
核心的語(yǔ)義角色為 A0-5 六種,A0 通常表示動(dòng)作的施事,A1通常表示動(dòng)作的影響等,A2-5 根據(jù)謂語(yǔ)動(dòng)詞不同會(huì)有不同的語(yǔ)義含義。其余的15個(gè)語(yǔ)義角色為附加語(yǔ)義角色。附加語(yǔ)義角色列表,如表4所示。
表4 附加語(yǔ)義角色及含義
例如,對(duì)問(wèn)題A“怎樣補(bǔ)辦醫(yī)保卡?”的預(yù)處理結(jié)果,如圖3所示。
圖3 對(duì)問(wèn)題A“怎樣補(bǔ)辦醫(yī)????”的預(yù)處理結(jié)果
結(jié)果匯總,如表5所示。
表5 問(wèn)題A預(yù)處理結(jié)果
通過(guò)哈工大語(yǔ)言云的分析得出,問(wèn)題A中的詞性分別為:怎樣(r代詞), 補(bǔ)辦(v動(dòng)詞),醫(yī)???n名詞),?(wp標(biāo)點(diǎn)符號(hào))。
根據(jù)依存句法的分析結(jié)果,句子的核心謂詞為“補(bǔ)辦”,補(bǔ)辦的賓語(yǔ)是“醫(yī)保卡”,它們構(gòu)成VOB動(dòng)賓關(guān)系,“怎樣”是“補(bǔ)辦”的狀語(yǔ),它們構(gòu)成ADV狀中關(guān)系。
在語(yǔ)義角色標(biāo)注中,補(bǔ)辦是謂詞,怎樣是它的方式(用ADV表示),醫(yī)??ㄊ撬氖苁?用A1表示)。
規(guī)則1:疑問(wèn)詞指代實(shí)體
例如,問(wèn)題Q1={醫(yī)??ㄊ鞘裁矗縸,“醫(yī)??ā笔恰笆恰钡腁0論元,以SBV依存于“是”;“什么”是“是”的A1論元,以VOB依存于“是”,得出的問(wèn)題焦點(diǎn)QF(Q1)={特指疑問(wèn):什么;實(shí)體:醫(yī)保卡},如圖4所示。
圖4 對(duì)問(wèn)題Q1的預(yù)處理結(jié)果
問(wèn)題Q2={什么是醫(yī)保卡?},“什么”是“是”的A0論元,以SBV依存于“是”;“醫(yī)??ā笔恰笆恰钡腁1論元,以VOB依存于“是”,得出的問(wèn)題焦點(diǎn)QF(Q2)={特指疑問(wèn):什么;實(shí)體:醫(yī)保卡},如圖5所示。
圖5 對(duì)問(wèn)題Q2的預(yù)處理結(jié)果
通過(guò)哈工大語(yǔ)言云分析得出,實(shí)體的名詞是“醫(yī)保卡”,Q1的焦點(diǎn)與Q1的焦點(diǎn)是一致的,即QF(Q1)=QF(Q2)。
規(guī)則2:疑問(wèn)詞修飾實(shí)體的屬性
例如,問(wèn)題Q3={醫(yī)保卡的卡號(hào)是多少?},“醫(yī)??ǖ目ㄌ?hào)”是“是”的A0論元,“卡號(hào)”以SBV依存于“是”;“多少”是“是”的A1論元,以VOB依存于“是”,從而確定問(wèn)題的焦點(diǎn),QF(Q3)={特指疑問(wèn):多少;實(shí)體屬性(醫(yī)???卡號(hào)):?},用戶的疑問(wèn)是想知道實(shí)體“醫(yī)保卡”的屬性“卡號(hào)”的取值是什么,如圖6所示。
圖6 對(duì)問(wèn)題Q3的預(yù)處理結(jié)果
問(wèn)題Q4={醫(yī)保的最低基數(shù)是多少?},“醫(yī)保的最低基數(shù)”是“是”的A0論元,“基數(shù)”以SBV依存于“是”;“多少”是“是”的A1論元,以VOB依存于“是”,從而確定問(wèn)題的焦點(diǎn),QF(Q4)={特指疑問(wèn):多少;實(shí)體屬性(醫(yī)保-最低基數(shù)):? },用戶的疑問(wèn)是想知道實(shí)體“醫(yī)?!钡膶傩浴白畹突鶖?shù)”的取值是什么,如圖7所示。
圖7 對(duì)問(wèn)題Q4的預(yù)處理結(jié)果
通過(guò)Q3與Q4可以看出,這類問(wèn)題的疑問(wèn)內(nèi)容是實(shí)體的屬性值。
規(guī)則3:特殊疑問(wèn)詞為事件的動(dòng)詞論元
例如,問(wèn)題Q5={怎么辦理醫(yī)保卡?},QF(Q5)={特指疑問(wèn):怎么;事件論元(辦理-醫(yī)???:? },用戶的疑問(wèn)是想知道事件“辦理”的論元取值是什么,如圖8所示。
圖8 對(duì)問(wèn)題Q5的預(yù)處理結(jié)果
例如,問(wèn)題Q6={如何辦理醫(yī)保?},QF(Q6)={特指疑問(wèn):如何;事件論元(辦理-醫(yī)保):?},用戶的疑問(wèn)是想知道事件“辦理”的論元取值是什么,如圖9所示。
圖9 對(duì)問(wèn)題Q6的預(yù)處理結(jié)果
通過(guò)Q5與Q6可以看出,它們的事件都是“辦理”,“怎么”與“如何”是同義詞,但“辦理”的對(duì)象不同,得出的焦點(diǎn)就不同,這類問(wèn)題是用戶想知道事件的論元取值,所以焦點(diǎn)是事件的論元。
2.3.2 基于焦點(diǎn)分類
焦點(diǎn)分類是對(duì)焦點(diǎn)相同的問(wèn)題進(jìn)行分類,焦點(diǎn)相同即同類。將疑問(wèn)對(duì)象存入數(shù)據(jù)庫(kù)中,并錄入具體的答案。例如,問(wèn)題Q3的疑問(wèn)對(duì)象是“卡號(hào)”,在數(shù)據(jù)庫(kù)中的實(shí)體屬性列錄入“卡號(hào)”。對(duì)問(wèn)題Q1~Q6進(jìn)行分類的結(jié)果是:Q1與Q2的類別是實(shí)體“醫(yī)??ā保籕4的類別是實(shí)體屬性“最低基數(shù)”;Q5與Q6的類別是事件論元“辦理”。
信息檢索是使用經(jīng)過(guò)問(wèn)題分類處理得出的關(guān)鍵字,在數(shù)據(jù)庫(kù)中尋找問(wèn)題的答案。答案抽取決定提供什么答案給用戶。
經(jīng)過(guò)問(wèn)題分類,明確了問(wèn)題焦點(diǎn),醫(yī)保卡數(shù)據(jù)庫(kù)查詢的過(guò)程是給定查詢的目標(biāo)(答案),以及查詢的條件(事件、論元、實(shí)體、屬性等),可以通過(guò)執(zhí)行SQL命令的方式從表中迅速、方便地檢索出數(shù)據(jù)。
具體語(yǔ)句為:SELECT問(wèn)題答案FROM短信回復(fù)數(shù)據(jù)表WHERE特指疑問(wèn)=具體的特指疑問(wèn)詞AND事件=具體事件名稱AND實(shí)體=具體實(shí)體名稱AND屬性=具體屬性名稱。
可以通過(guò)上述語(yǔ)句完成答案的查詢。其中,對(duì)于規(guī)則1的信息檢索,只要查詢(事件=具體事件名稱)或(實(shí)體=具體實(shí)體名稱)就可以查詢出具體的答案。規(guī)則2的信息檢索則需要查詢(實(shí)體=具體實(shí)體名稱)和(屬性=具體屬性名稱)。只有規(guī)則3需要全部查詢。
對(duì)于事件關(guān)系與實(shí)體關(guān)系問(wèn)題,根據(jù)語(yǔ)義進(jìn)行分析,通過(guò)自聯(lián)接完成。以實(shí)體關(guān)系為例,具體語(yǔ)句為:SELECT表1.問(wèn)題答 FROM短信回復(fù)數(shù)據(jù)表AS表1,短信回復(fù)數(shù)據(jù)表AS表2WHERE兩表連接AND特指疑問(wèn)=具體的特指疑問(wèn)詞AND表1.實(shí)體=具體實(shí)體名稱AND表1.實(shí)體2=具體實(shí)體名稱。
通過(guò)問(wèn)題理解、信息檢索、答案抽取,最終實(shí)現(xiàn)了醫(yī)??ǘ绦抛詣?dòng)回復(fù)系統(tǒng),如圖10所示。
圖10 短信自動(dòng)回復(fù)
醫(yī)保卡自動(dòng)回復(fù)系統(tǒng)結(jié)合焦點(diǎn)的問(wèn)題理解,依存分析和語(yǔ)義角色標(biāo)注對(duì)問(wèn)題進(jìn)行了淺層語(yǔ)義分析,然后從預(yù)先定義的問(wèn)題焦點(diǎn)結(jié)構(gòu)與焦點(diǎn)抽取規(guī)則中獲取問(wèn)題焦點(diǎn),最后根據(jù)焦點(diǎn)相同即同類實(shí)現(xiàn)問(wèn)題分類。該系統(tǒng)實(shí)現(xiàn)了醫(yī)保信息能夠方便、及時(shí)、高效的傳遞,一方面提高了人社局內(nèi)部的辦公效率,另一方面在參保用戶與人社局之間搭建一種方便、高效、快捷的溝通渠道,提高了對(duì)參保用戶的服務(wù)質(zhì)量。