余肖生,沈 勝,陳 鵬
(三峽大學(xué) 計(jì)算機(jī)與信息學(xué)院,湖北 宜昌 443002)
電子病歷(Electric Medical Record,EMR)是指存儲(chǔ)在計(jì)算機(jī)上的醫(yī)療信息記錄,如病人身份信息、問診記錄、體檢報(bào)告等,具有數(shù)據(jù)體量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣等特點(diǎn)。EMR已經(jīng)成為健康醫(yī)療大數(shù)據(jù)中使用最廣泛、記錄信息最豐富、最復(fù)雜的數(shù)據(jù)類型之一。從復(fù)雜多樣的非結(jié)構(gòu)化EMR文本數(shù)據(jù)中提取出疾病表證詞,是EMR文本數(shù)據(jù)處理及后續(xù)相關(guān)研究的關(guān)鍵。文本提取的方法主要分為兩類:(1)基于人工標(biāo)注的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,如CRF模型、深度學(xué)習(xí)模型等[1-2]。但由于醫(yī)療數(shù)據(jù)的專業(yè)性,在面對(duì)大體量的數(shù)據(jù)時(shí),醫(yī)療數(shù)據(jù)標(biāo)注是十分困難的;(2)基于統(tǒng)計(jì)聚類實(shí)現(xiàn)關(guān)鍵信息提取,如TF-IDF模型、詞袋模型等[3-4]。這類模型忽略了文檔詞之間的關(guān)聯(lián)性,難以有針對(duì)性地提取出電子病歷中的疾病表證詞。在基于統(tǒng)計(jì)聚類的方法中,LDA(Latent Dirichlet Allocation)模型[5]在統(tǒng)計(jì)文檔詞頻率的基礎(chǔ)上,結(jié)合文檔詞的共現(xiàn)關(guān)系,以實(shí)現(xiàn)對(duì)文本數(shù)據(jù)的無監(jiān)督分類,進(jìn)而提取出疾病所對(duì)應(yīng)的疾病表證詞。但LDA模型是基于詞頻與詞語共現(xiàn)關(guān)系實(shí)現(xiàn)文本聚類的,忽略了詞自身的語義信息,這使其在處理復(fù)雜文本時(shí)不可避免地會(huì)出現(xiàn)語義稀疏的問題。
為了解決LDA模型忽略語義信息的問題,該文將詞特征加權(quán)引入了標(biāo)準(zhǔn)LDA模型,以提升LDA模型的語義可解釋性,實(shí)現(xiàn)對(duì)EMR文本數(shù)據(jù)的針對(duì)性挖掘;將詞性、詞長和詞義特征加權(quán)引入標(biāo)準(zhǔn)LDA模型,改變了LDA模型的詞分布狀態(tài),提升了任務(wù)目標(biāo)詞的共現(xiàn)頻率,約束了LDA模型的主題詞挖掘,增強(qiáng)了LDA模型的語義解釋能力,從而實(shí)現(xiàn)了任務(wù)目標(biāo)詞的有針對(duì)性提取。
由于醫(yī)療領(lǐng)域數(shù)據(jù)記錄標(biāo)準(zhǔn)不一,往往都是內(nèi)容形式復(fù)雜多樣的非結(jié)構(gòu)化文本數(shù)據(jù),因此需要一定的數(shù)據(jù)挖掘手段對(duì)這些文本數(shù)據(jù)進(jìn)行提取、分析。其中,文本數(shù)據(jù)挖掘的手段主要有以下兩類:
(1)基于文本特征。文獻(xiàn)[6-8]基于詞特征的關(guān)聯(lián)規(guī)則與外部語義對(duì)文本語義進(jìn)行擴(kuò)展,提高了模型的文本分類性能。文獻(xiàn)[9-10]通過對(duì)文檔中心詞、關(guān)鍵詞、近義詞等進(jìn)行分析,計(jì)算出文檔相似度,進(jìn)而形成對(duì)文檔的分類。胡燕等人認(rèn)為通常能標(biāo)識(shí)文本特性的往往是文本中的實(shí)詞,如名詞、動(dòng)詞、形容詞、副詞等;而文本中的一些虛詞,如感嘆詞、介詞、連詞等,則對(duì)于文本特征識(shí)別貢獻(xiàn)很小,因此可以通過詞性特征對(duì)文本進(jìn)行提取[11]。文獻(xiàn)[12]基于語言習(xí)慣及句法依存來發(fā)現(xiàn)文本特征,進(jìn)行文本挖掘。
由于EMR文本數(shù)據(jù)記錄標(biāo)準(zhǔn)不一,記錄形式多樣,且多呈現(xiàn)為百字以內(nèi)短文本形式。因此,文本特征中的語義相似度、句法依存等方法很難直接應(yīng)用于EMR文本數(shù)據(jù)的挖掘。
(2)基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)。機(jī)器學(xué)習(xí)算法在EMR文本的特征提取和利用上有著較好的表現(xiàn),針對(duì)于不同的應(yīng)用場(chǎng)景不同的機(jī)器學(xué)習(xí)算法都有著其獨(dú)到的表現(xiàn)[13-15]。而在處理序列化的數(shù)據(jù)時(shí),機(jī)器學(xué)習(xí)方法通常無法很好地對(duì)時(shí)序數(shù)據(jù)進(jìn)行解釋。為了更好地提取數(shù)據(jù)的時(shí)序特征,文獻(xiàn)[16-17]嘗試使用深度學(xué)習(xí)(如RNN、LSTM等)方法對(duì)文本數(shù)據(jù)進(jìn)行建模分析。
機(jī)器學(xué)習(xí)與深度學(xué)習(xí)方法模型訓(xùn)練的數(shù)據(jù)集往往是需要人工標(biāo)注的。而EMR文本標(biāo)注需要有專業(yè)的醫(yī)學(xué)知識(shí)儲(chǔ)備才能完成,因此對(duì)大數(shù)據(jù)量的EMR文本標(biāo)注是困難的。
隨著文本數(shù)據(jù)挖掘領(lǐng)域的研究發(fā)展,文本挖掘任務(wù)對(duì)文本數(shù)據(jù)提取出的數(shù)據(jù)要求也愈發(fā)趨向多樣性。研究者開始基于標(biāo)準(zhǔn)LDA模型進(jìn)行優(yōu)化變形,以使得LDA模型可以更好地適應(yīng)于所需求的文本挖掘任務(wù)。目前LDA模型優(yōu)化研究多是圍繞對(duì)LDA模型詞分布的調(diào)整進(jìn)行的,對(duì)LDA模型的詞分布調(diào)整方法主要分為以下兩種:
(1)基于文檔詞頻率的調(diào)整詞分布。彭云等人在標(biāo)準(zhǔn)LDA模型的基礎(chǔ)上引入了特征詞-特征詞、特征詞-情感詞和情感詞-情感詞三組語義關(guān)系約束,提出了SRC-LDA模型[18]。Fan Lin等人為了降低詞頻對(duì)低頻詞提取的影響,引入了TF-IDF特征加權(quán)和高斯特征加權(quán),對(duì)詞分布進(jìn)行調(diào)整,最終實(shí)驗(yàn)證明高斯特征加權(quán)對(duì)主題提取結(jié)果有明顯的改善[19-20]。文獻(xiàn)[21-24]通過文檔詞之間的共現(xiàn)關(guān)系及時(shí)序相似性約束對(duì)詞分布進(jìn)行調(diào)整,以降低主題分布之間的差異。
(2)基于語義或外部語義庫對(duì)詞分布進(jìn)行調(diào)整。文獻(xiàn)[25-28]在對(duì)文檔進(jìn)行建模時(shí),將文檔描述對(duì)象的基本信息引入模型中,以便于模型更好地理解文檔內(nèi)容。張勇等人[29]通過對(duì)不同詞性在文本中的重要性進(jìn)行分析,去除重要性較低的詞性的詞,進(jìn)而縮減原始數(shù)據(jù)集,優(yōu)化計(jì)算性能,避免模型提取出詞頻高而重要程度低的詞語。文獻(xiàn)[30]利用網(wǎng)絡(luò)語義知識(shí)對(duì)文檔詞進(jìn)行概念和命名實(shí)體的提取擴(kuò)充。
上述LDA模型的優(yōu)化模型,亦難以從EMR文本中有針對(duì)性地提取出疾病表征詞。為了更好地提取文本中任務(wù)目標(biāo)詞(疾病表征詞),該文將詞特征加權(quán)引入了LDA模型,使得模型可以適應(yīng)于任務(wù)需求進(jìn)行有針對(duì)性的提取。
為了解決LDA模型忽略語義信息的問題,有針對(duì)性地對(duì)EMR文本中疾病表證詞進(jìn)行提取,該文在標(biāo)準(zhǔn)LDA模型的基礎(chǔ)上引入了詞特征加權(quán)。詞特征加權(quán)是通過對(duì)文檔詞的詞性、詞長和詞義的語義特征進(jìn)行提取,生成相應(yīng)的文檔詞分布權(quán)重,進(jìn)而生成帶有語義信息的文檔詞分布,從而使得LDA模型可以有針對(duì)性地提取文檔中的目標(biāo)信息。
一篇文檔通常是由不同詞性特征的詞組成,不同詞性特征的詞所攜帶的語義信息程度也是不同的。一般來說,文檔中名詞、動(dòng)詞、形容詞、副詞帶有的語義信息較豐富,具備很好的文檔特性標(biāo)識(shí)能力。而量詞、助詞、介詞等帶有的語義信息較少,且會(huì)較頻繁地出現(xiàn)在文檔中,這會(huì)對(duì)文檔信息提取造成較嚴(yán)重的干擾。
在確定提取任務(wù)情形下,為了排除低信息量詞的干擾,可結(jié)合任務(wù)目標(biāo)對(duì)各詞性的信息量進(jìn)行評(píng)估,然后按公式(1)對(duì)文檔詞進(jìn)行加權(quán)。
(1)
其中,ρ1為詞性加權(quán)權(quán)重,v為詞性所對(duì)應(yīng)的權(quán)重值。
此外,基于不同任務(wù)的文本提取,需獲取的文本信息內(nèi)容是不同的,所需關(guān)注的詞性特征往往也是不同的。如,任務(wù)為知識(shí)圖譜時(shí),會(huì)更關(guān)注文本中的實(shí)體名詞;任務(wù)為情感分析時(shí),則會(huì)更關(guān)注文本中帶有情感信息的形容詞。因此,在處理確定目標(biāo)的文本提取任務(wù)中,可根據(jù)任務(wù)所關(guān)注的詞性,對(duì)權(quán)重值進(jìn)一步的細(xì)分,細(xì)分規(guī)則可參考公式(2):
(2)
其中,v1,v2,v3,v4分別為一、二、三、四級(jí)詞性所對(duì)應(yīng)的細(xì)分權(quán)重值,一級(jí)為關(guān)注等級(jí)最高的詞性。如,任務(wù)知識(shí)圖譜時(shí),一級(jí)詞性便為名詞。
一篇文檔常常會(huì)由不同長度的文檔詞組成,且呈現(xiàn)詞長越長其帶有的信息越豐富的特征。長詞主要呈現(xiàn)為兩種情況:(1)由長度短的詞組合而成,對(duì)短詞描述的信息進(jìn)行了擴(kuò)充或延伸。如,“頭”、“疼”與“頭疼”;(2)專業(yè)名詞,這類詞與文本主題關(guān)聯(lián)度較高,有較好的主題揭示性。如,文本中有詞:“原發(fā)性高血壓病”、“繼發(fā)性糖尿病”,那么該文本大概率是描述高血壓和糖尿病的電子病歷文本。一般來說,詞長越長的詞,其為專有名詞的概率越高。
在現(xiàn)代漢語中,單字詞多為助詞、介詞,詞信息相對(duì)單一;2、3字詞最為常見且應(yīng)用靈活;4字詞多為成語等固定用詞,詞信息較為豐富;5字以上詞多為專有名詞,詞信息有較好的主題揭示性,且不同詞長的專業(yè)名詞應(yīng)具備相近的主題揭示性。在處理中文文本時(shí),考慮到詞長與主題的相關(guān)性,可以通過公式(3)確定不同詞長的文檔詞的加權(quán)權(quán)重。
(3)
其中,ρ2為詞長加權(quán)權(quán)重,l為文檔詞長度。
圖1為詞長加權(quán)擬合公式(即公式(3)),圖中用圓圈標(biāo)記出了各詞語字?jǐn)?shù)所對(duì)應(yīng)的詞長加權(quán)權(quán)重值。圖中可以看出字?jǐn)?shù)不大于5時(shí),所對(duì)應(yīng)的詞長加權(quán)權(quán)重值增長較快,與上述分析保持一致;而在詞語字?jǐn)?shù)大于5時(shí),不同字?jǐn)?shù)的專業(yè)名詞所對(duì)應(yīng)的主題揭示性相似,因此,詞長加權(quán)權(quán)重值增長緩慢。
圖1 詞長加權(quán)擬合公式圖
在確定目標(biāo)的文本提取任務(wù)中,所關(guān)注的文檔詞往往具有一定的相似性。這種相似性不單單體現(xiàn)在詞性特征上,也會(huì)體現(xiàn)在詞義上。即使是相同詞性的詞,在選擇時(shí)也會(huì)根據(jù)詞義的不同有所側(cè)重。如圖2中,名詞有“患者”、“昨日”、“狀況”、“今晨”、“我院”。若目標(biāo)為實(shí)體關(guān)系的提取,則側(cè)重“患者”與“我院”;若目標(biāo)為時(shí)序的提取,則側(cè)重時(shí)間名詞“昨日”、“今日”。
圖2 文檔詞性標(biāo)注
文本中文檔詞詞義的識(shí)別是困難的,需要引入外部語義知識(shí)進(jìn)行輔助識(shí)別。識(shí)別處理辦法主要分兩種:(1)構(gòu)建任務(wù)側(cè)重外部語義知識(shí)庫時(shí),對(duì)任務(wù)側(cè)重語義進(jìn)行識(shí)別,提升所識(shí)別文檔詞的權(quán)重;(2)構(gòu)建非任務(wù)側(cè)重外部語義知識(shí)庫時(shí),對(duì)非任務(wù)側(cè)重語義進(jìn)行識(shí)別,降低所識(shí)別文檔詞的權(quán)重。在構(gòu)建外部語義知識(shí)庫后,可參考公式(4)確定對(duì)應(yīng)詞義的加權(quán)權(quán)重。
(4)
其中,ρ3為詞義加權(quán)權(quán)重,w為文檔詞,pos為任務(wù)側(cè)重外部語義知識(shí)庫,cpos為文檔詞w在任務(wù)側(cè)重外部語義知識(shí)庫中所賦予的加權(quán)權(quán)重值,neg為非任務(wù)側(cè)重外部語義知識(shí)庫,cneg為文檔詞w在非任務(wù)側(cè)重外部語義知識(shí)庫中所賦予的加權(quán)權(quán)重值。
外部語義詞庫確定詞義加權(quán)權(quán)重具有一定的局限性,它無法對(duì)非詞庫外的文檔詞進(jìn)行加權(quán)。在外部語義詞庫一定的情況下,隨著任務(wù)自身領(lǐng)域的發(fā)展,會(huì)出現(xiàn)詞庫外的新文檔詞。而現(xiàn)有的外語語義詞庫無法確定這些新文檔詞的語義加權(quán)權(quán)重,則會(huì)在一定程度上對(duì)主題的發(fā)現(xiàn)造成干擾。為了解決詞庫外文檔詞語義不確定的問題,在確定語義加權(quán)權(quán)重時(shí),可以引入語句位置來推斷新文檔詞的加權(quán)權(quán)重。
文檔中處于不同位置的語句往往有著不同的重要性。通常,在多個(gè)語句組成的文本段落中,位于句首與句尾的語句可以較好地反映段落主題。而語句總是由文檔詞組成的,且位于同一語句中的文檔詞往往有著相似的主題揭示性。因此,在進(jìn)行長文本多語句文本處理時(shí),可以根據(jù)語句的位置對(duì)文檔詞進(jìn)行加權(quán),關(guān)注主題揭示性好的語句。長文本多語句文本計(jì)算方法可參考文獻(xiàn)[31]。
短文本語句數(shù)較少,且文檔內(nèi)容結(jié)構(gòu)相對(duì)松散,很難從語句的位置順序去判斷其主題揭示性。但同一語句的文檔詞仍具有相似的主題揭示性,由此,可以通過對(duì)語句中的詞進(jìn)行采樣,以推斷該語句的主題揭示性,計(jì)算方法見公式(5):
(5)
其中,npos,nneg分別為語句中在pos和neg中的文檔詞個(gè)數(shù),deg為語句的主題揭示性,值越大主題揭示性越好。
在確定了文檔詞所在語句的主題揭示性后,可通過公式(6)計(jì)算語句中文檔詞的主題加權(quán)權(quán)重。
(6)
其中,sem為不在外部語義詞庫中的文檔詞主題加權(quán)權(quán)重,N為語句中的文檔詞總個(gè)數(shù)。
由公式(4)和公式(6),確定詞義加權(quán)權(quán)重,如公式(7):
(7)
標(biāo)準(zhǔn)LDA模型的詞分布是通過詞頻共現(xiàn)關(guān)系所生成的,其忽略了文檔語義信息,很難有針對(duì)性地完成EMR文本中的疾病表征詞提取任務(wù)。通過詞特征加權(quán)改變?cè)~分布狀態(tài)提高主題相關(guān)性詞語權(quán)重,從而實(shí)現(xiàn)任務(wù)的有針對(duì)性主題提取。在對(duì)EMR文本中的疾病表征詞進(jìn)行提取時(shí),詞特征加權(quán)方式可有詞性加權(quán)、詞長加權(quán)和語義加權(quán),其對(duì)應(yīng)的權(quán)重確定方式如下:
詞性加權(quán)權(quán)重的確定。疾病表征詞在文本中對(duì)應(yīng)的詞性主要為名詞與動(dòng)詞,因此一級(jí)詞性為名詞與動(dòng)詞。形容詞與副詞主要伴隨一級(jí)詞性出現(xiàn),對(duì)疾病表征狀態(tài)進(jìn)行修飾,為二級(jí)詞性。此外,在對(duì)疾病表征進(jìn)行狀態(tài)修飾時(shí),會(huì)出現(xiàn)一定的重復(fù),使得二級(jí)詞性的詞頻偏高。因此,在計(jì)算一級(jí)詞性的權(quán)重時(shí)需給予適當(dāng)?shù)南禂?shù),以減輕詞頻偏高帶來的影響。
由于其他詞性權(quán)重值為0,即在文檔主題提取時(shí)不起作用。故為了降低詞分布的復(fù)雜度、提升計(jì)算性能,在數(shù)據(jù)預(yù)處理時(shí),去除標(biāo)注為其他詞性文檔詞。處理后數(shù)據(jù)集保留詞性有:名詞、動(dòng)詞、形容詞和副詞。然后,基于疾病表征詞提取任務(wù)的特點(diǎn),將四種詞性分為兩級(jí),其中名詞與動(dòng)詞為一級(jí)詞性,形容詞與副詞為二級(jí)詞性。
EMR文本中的疾病表征詞詞性加權(quán)權(quán)重可由公式(8)確定。
(8)
詞長加權(quán)權(quán)重的確定。獲取EMR文本中文檔詞的長度,參照公式(3)確定文檔詞對(duì)應(yīng)的詞長加權(quán)權(quán)重。
詞義加權(quán)權(quán)重的確定。EMR文本中提取疾病表征時(shí),應(yīng)側(cè)重病癥描述詞,如圖3中的“頭昏”、“發(fā)熱”、“呼吸”,及疾病表征狀態(tài)修飾詞,如“不暢”、“輕微”。為了對(duì)文檔詞語義進(jìn)行識(shí)別,筆者收集了疾病表征的常用詞,并根據(jù)EMR文本數(shù)據(jù)特點(diǎn),構(gòu)建了對(duì)應(yīng)的外部語義詞庫,結(jié)合公式(7)確定詞義加權(quán)權(quán)重公式:
(9)
由公式(3)、公式(8)和公式(9),確定EMR文本中的疾病表征詞提取的加權(quán)權(quán)重公式:
ρ=ρ1ρ2ρ3
(10)
圖3 文檔詞性標(biāo)注
LDA模型受限于語義解釋性,很難有效地提取出文本數(shù)據(jù)中的任務(wù)目標(biāo)詞。為了提升LDA模型的語義可解釋性,實(shí)現(xiàn)有針對(duì)性地提取EMR文本疾病表證詞,該文將詞性加權(quán)、詞長加權(quán)和詞義加權(quán)引入標(biāo)準(zhǔn)LDA模型中,形成FW-LDA(feature weighting LDA)模型。FW-LDA模型結(jié)構(gòu)如圖4所示,符號(hào)說明具體見表1。
表1 FW-LDA模型符號(hào)說明
圖4 FW-LDA模型結(jié)構(gòu)
FW-LDA模型的生成文檔過程如下:
for主題 k∈[1,K] do 采樣生成主題文檔詞分布Φk~Dir(β) Φ'k=ρ?Φkend for for文檔m∈[1,D] do 采樣生成主題文檔分布θm~Dir(α)for文檔詞n∈[1,Nm] do 采樣生成主題Zm,n~Mult(θm) 采樣生成詞語Wm,n ~Mult(Φ'Zm,n)end forend for參數(shù)與變量說明: Φk:主題k的詞分布Φ'k:主題k的詞特征加權(quán)詞分布θm:文檔m的主題分布Nm:文檔m的文檔詞數(shù)Zm,n:文檔m的第n個(gè)詞對(duì)應(yīng)的主題Wm,n:采樣最終生成文檔詞
實(shí)驗(yàn)采用了某市疾病防控中心提供的心血管疾病數(shù)據(jù),該數(shù)據(jù)字段主要為主訴、現(xiàn)病史、既往史和診斷四個(gè)部分。研究的主要目的是從EMR文本數(shù)據(jù)中提取出疾病對(duì)應(yīng)的疾病表征,以輔助醫(yī)生的診斷工作??紤]到患者自述的可能的不完善性與該數(shù)據(jù)本身的質(zhì)量,本研究選取了字段為現(xiàn)病史的數(shù)據(jù),共有3 678條數(shù)據(jù)。為了保證每條數(shù)據(jù)的信息質(zhì)量,刪除了少于50字的記錄,最終得到3 595條數(shù)據(jù)樣本。實(shí)驗(yàn)使用jieba分詞工具對(duì)數(shù)據(jù)集文本進(jìn)行分割,并保留了分詞后各詞對(duì)應(yīng)的詞性。此外,實(shí)驗(yàn)結(jié)合數(shù)據(jù)集的特點(diǎn)進(jìn)行了詞性信息量評(píng)估,在預(yù)處理時(shí)去除了動(dòng)詞、名詞、形容詞和副詞以外的低信息量詞性的詞。最終樣本的數(shù)據(jù)統(tǒng)計(jì)信息如表2所示。
表2 數(shù)據(jù)集信息統(tǒng)計(jì)
以人工標(biāo)注的方式,標(biāo)注出每條樣本對(duì)應(yīng)的疾病表征詞,并以人工標(biāo)注的數(shù)據(jù)作為實(shí)驗(yàn)評(píng)價(jià)的基準(zhǔn),采用提取疾病表征任務(wù)下的主題一致性(Topic Consistency)[24,31]來評(píng)估模型提取主題詞與人工標(biāo)注的疾病表征詞的一致性性能。
主題一致性計(jì)算公式見公式(11)~公式(13):
(11)
其中,TC為主題一致性, 為點(diǎn)互信息,PMIK為主題K的主題一致性,ntop為主題詞數(shù),w為相同主題下主題概率最大的前ntop個(gè)詞的集合,p(wi)為詞wi出現(xiàn)的概率,p(wi,wj)為詞wi、詞wj共現(xiàn)的概率,K為主題個(gè)數(shù)。TC的值越大,則提取的主題詞與人工標(biāo)注的疾病表證詞的一致性越好。
精確率(Precision)計(jì)算公式為:
(14)
其中,P為精確率,TP為提取詞為疾病表征相關(guān)詞數(shù),F(xiàn)P為提取詞與疾病表征不相關(guān)詞數(shù)。
模型參數(shù)采用Gibbs采樣估計(jì),采樣次數(shù)為1 000;主題數(shù)K,主題詞數(shù)ntop=10;文檔-主題服從參數(shù)為α(α=50/K)的Dirichlet分布,主題-詞語服從參數(shù)為β(β=0.01)的Dirichlet分布。
根據(jù)任務(wù)目標(biāo)與EMR文本數(shù)據(jù)特點(diǎn),本實(shí)驗(yàn)構(gòu)建了對(duì)應(yīng)的任務(wù)側(cè)重和非任務(wù)側(cè)重的外部語義詞庫。實(shí)驗(yàn)中,任務(wù)側(cè)重外部語義詞庫包含有64個(gè)詞,共78個(gè)字;非任務(wù)側(cè)重外部語義詞庫含有45個(gè)詞,共50個(gè)字。
實(shí)驗(yàn)固定了模型中除主題數(shù)以外的其他參數(shù),主題數(shù)參數(shù)取值范圍為[5,100]。圖5為僅基于詞性、詞長、詞義加權(quán)的LDA模型、LDA模型和FW-LDA模型的主題一致性對(duì)比圖。
圖5 不同主題數(shù)下的主題一致性對(duì)比圖
從圖5中可以看出:
(1)僅基于詞性加權(quán)的LDA模型(pho1 + LDA)與LDA模型的主題提取性能相似。
(2)僅基于詞長加權(quán)的LDA模型(pho2 + LDA)比LDA模型的主題提取性能略有提升。
(3)僅基于詞義加權(quán)的LDA模型(pho3 + LDA)比LDA模型的主題提取性能有較顯著提升,且隨著主題數(shù)增加主題一致性有遞減的趨勢(shì)。
(4)在主題數(shù)值為20附近時(shí),F(xiàn)W-LDA模型的主題一致性會(huì)有較好的表現(xiàn),而主題數(shù)大于30,F(xiàn)W-LDA模型較僅基于詞義加權(quán)的LDA模型主題一致性下降較快。
原因分析:由于數(shù)據(jù)預(yù)處理時(shí)去除了其他詞性,因此僅基于詞性加權(quán)的LDA模型與LDA模型的主題一致性性能相似。此外,僅基于詞長加權(quán)的LDA模型在一定程度上,降低了單字詞的出現(xiàn)率,提高了電子病歷中專有名詞的出現(xiàn)率,因此其較LDA模型的主題一致性有所提升。隨著主題數(shù)的增加,模型提取出的主題詞的數(shù)也在增加,會(huì)出現(xiàn)較多的與任務(wù)目標(biāo)詞無關(guān)的主題詞,因此,主題一致性會(huì)出現(xiàn)較快的下降趨勢(shì)。僅基于詞義加權(quán)的LDA模型會(huì)根據(jù)所建立的側(cè)重與非側(cè)重外部語義知識(shí)庫進(jìn)行主題詞篩選,在外部語義知識(shí)庫較為完善的情形下,可以較好地提高任務(wù)目標(biāo)詞的出現(xiàn)概率,提高主題一致性性能。在模型所提取主題詞數(shù)較多情況下,任務(wù)相關(guān)性較低的主題詞會(huì)隨之增多,那些字?jǐn)?shù)較多的低相關(guān)性主題詞將會(huì)在一定程度上,降低提取任務(wù)的性能。此外,由于現(xiàn)有分詞工具分詞存在一定的誤差,也會(huì)對(duì)模型性能造成一定的干擾。因此,隨著主題數(shù)增多,僅基于詞義加權(quán)的LDA模型收到的干擾較小,主題相關(guān)性下降趨勢(shì)也較緩。
這些結(jié)果都表明了基于詞特征加權(quán)對(duì)文本提取任務(wù)性能提升的有效性。其中,基于詞義特征加權(quán)有著較好的表現(xiàn),并且外部語義詞庫質(zhì)量的好壞將直接對(duì)模型結(jié)果產(chǎn)生影響。利用外部語義詞庫對(duì)模型注入文本提取任務(wù)相關(guān)領(lǐng)域知識(shí),可以幫助模型更好的完成目標(biāo)任務(wù)。
實(shí)驗(yàn)分別統(tǒng)計(jì)了主題數(shù)取值范圍為[5,65]時(shí)兩種模型提取詞中疾病表征相關(guān)詞數(shù),表3給出了實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果的疾病表征詞提取的正確詞數(shù)和精確率。
表3 疾病表征詞提取精確率
其中,1表示LDA;2表示FW-LDA。
圖6 不同主題數(shù)下的疾病表征詞提取精確率對(duì)比圖
從圖6中可以看出:
(1)FW-LDA模型對(duì)疾病表征詞的提取精確率明顯優(yōu)于標(biāo)準(zhǔn)LDA模型。且從表3的統(tǒng)計(jì)值可知,在主題數(shù)值范圍[5,65]上,與LDA模型相比,F(xiàn)W-LDA模型的疾病表證詞提取平均精確率提升了48.5%。
(2)主題數(shù)值偏大時(shí),標(biāo)準(zhǔn)LDA模型的提取精確率呈提升趨勢(shì),而FW-LDA模型則相反,兩模型的提取精確度差距趨小。在對(duì)提取出的主題詞特點(diǎn)進(jìn)行分析后,對(duì)該現(xiàn)象進(jìn)行了解釋:當(dāng)主題數(shù)偏大時(shí),模型提取主題詞的規(guī)模將會(huì)變大,主題相關(guān)性弱的詞被提取的概率也將隨之變大,提取精確率便會(huì)隨之減小。此外,在主題數(shù)值大于40后,提取的主題詞有明顯的重復(fù),重復(fù)的主題詞會(huì)使得兩模型的精確率向中間值(0.5)靠攏,造成兩模型的提取精確度差距趨小。
由于EMR文本本身的特點(diǎn),如“無”、“有”、“就醫(yī)”、“就診”、“治療”等詞在文本中會(huì)有較高的共現(xiàn)頻率。標(biāo)準(zhǔn)LDA模型是基于詞共現(xiàn)頻率進(jìn)行提取的,故這些非疾病表征詞會(huì)頻繁出現(xiàn)在模型提取的主題詞中,造成模型疾病表征詞提取精確率偏低。FW-LDA模型基于詞特征處理會(huì)針對(duì)性地降低這些任務(wù)無關(guān)詞的共現(xiàn)頻率,降低任務(wù)無關(guān)詞在所提取的主題詞中出現(xiàn)的概率。
由實(shí)驗(yàn)結(jié)果的主題一致性、疾病表征詞提取的精確率可知:(1)將詞性、詞長和詞義特征加權(quán)引入LDA模型可以有效提升模型的語義可解釋性;(2)在電子病歷的疾病表征詞提取任務(wù)上,與LDA模型相比,所提出的FW-LDA模型表現(xiàn)更優(yōu)越。
由于LDA模型忽略了語義信息,缺乏語義揭示性,在EMR文本提取任務(wù)中,很難有針對(duì)性地實(shí)現(xiàn)疾病表征詞的提取。該文提出的FW-LDA模型將詞性、詞長和詞義特征加權(quán)的形式引入了標(biāo)準(zhǔn)LDA模型,改變LDA模型的詞分布狀態(tài),提高LDA模型對(duì)任務(wù)目標(biāo)詞的發(fā)現(xiàn)概率,進(jìn)而實(shí)現(xiàn)模型對(duì)任務(wù)目標(biāo)詞的針對(duì)性提取。
實(shí)驗(yàn)結(jié)果表明:FW-LDA模型在EMR文本數(shù)據(jù)中提取疾病表征詞的任務(wù)中,與標(biāo)準(zhǔn)LDA模型相比在主題數(shù)值小于30時(shí)主題一致性有著更優(yōu)越的性能;此外,在主題數(shù)值范圍[5,65]上,發(fā)現(xiàn)FW-LDA模型與標(biāo)準(zhǔn)LDA模型相比疾病表征詞提取平均精確率提升了48.5%。
下一步工作將進(jìn)一步完善外部語義詞庫,強(qiáng)化模型的疾病表征詞的提取能力,進(jìn)一步提升模型任務(wù)主題詞的精確率。此外,將嘗試其他領(lǐng)域任務(wù)中應(yīng)用FW-LDA模型,研究其在不同領(lǐng)域任務(wù)中的性能。