• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電子病歷檢索中基于詞權(quán)調(diào)整的查詢(xún)重構(gòu)

      2016-05-09 07:07:30王文斌顧君忠周子力張非凡
      關(guān)鍵詞:術(shù)語(yǔ)病歷語(yǔ)句

      王文斌 顧君忠 周子力 張非凡

      電子病歷檢索中基于詞權(quán)調(diào)整的查詢(xún)重構(gòu)

      王文斌1顧君忠1周子力2張非凡1

      1(華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系 上海 200241)

      2(曲阜師范大學(xué)物理工程學(xué)院 山東 曲阜 273165)

      電子病歷EMR(Electronic Medical Records)檢索是信息檢索研究中的一個(gè)新領(lǐng)域。醫(yī)學(xué)術(shù)語(yǔ)在電子病歷檢索中占有重要地位,通常用來(lái)限定檢索條件、表達(dá)用戶(hù)的檢索意圖。針對(duì)這種情況,提出一種基于醫(yī)學(xué)術(shù)語(yǔ)權(quán)重調(diào)整的查詢(xún)重構(gòu)方法,以提高電子病歷檢索的性能。該方法首先從原始查詢(xún)語(yǔ)句中篩選出醫(yī)學(xué)術(shù)語(yǔ),然后使用自信息來(lái)度量每個(gè)醫(yī)學(xué)術(shù)語(yǔ)的權(quán)重,最后將加權(quán)的醫(yī)學(xué)術(shù)語(yǔ)與原始查詢(xún)語(yǔ)句按照一定的權(quán)重比例結(jié)合,構(gòu)造出新的查詢(xún)語(yǔ)句。將該方法在TREC數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明與原始查詢(xún)結(jié)果相比,重構(gòu)后的查詢(xún)結(jié)果在MAP、bpref和P10這三項(xiàng)指標(biāo)上,分別提高了14.2%、10.1%和9.6%,驗(yàn)證了該方法的有效性。

      信息檢索 電子病歷 查詢(xún)重構(gòu) 醫(yī)學(xué)術(shù)語(yǔ) 權(quán)重調(diào)整 自信息

      0 引 言

      隨著醫(yī)療系統(tǒng)的信息化,電子病歷EMR被醫(yī)療機(jī)構(gòu)廣泛使用。電子病歷包含了病人的臨床信息,比如:病史、檢查報(bào)告、治療藥物等。這些豐富的醫(yī)療信息,可以用來(lái)協(xié)助醫(yī)生診斷病人的病情,為病人提供個(gè)性化的健康關(guān)懷,更有利于臨床醫(yī)學(xué)研究,可以更好地診斷、預(yù)防和治療人類(lèi)的疾病。

      文獻(xiàn)[1]指出,雖然電子病歷系統(tǒng)能夠有效地訪(fǎng)問(wèn)病歷中的結(jié)構(gòu)化文本,但是結(jié)構(gòu)化文本很難描述病人之間的差異性,所以病歷的主要內(nèi)容還是由大量自由文本組成。自由文本為醫(yī)護(hù)人員記錄病歷提供了方便,卻對(duì)電子病歷檢索帶來(lái)了巨大困難,因此如何有效地檢索電子病歷成為信息檢索領(lǐng)域中一個(gè)熱點(diǎn)問(wèn)題。

      電子病歷檢索是一種篩選符合限制條件的病歷集合的檢索任務(wù)。限制條件中通常包含了各種醫(yī)學(xué)術(shù)語(yǔ),比如:青光眼(glaucoma)、阿莫西林(amoxicillin)、內(nèi)窺鏡檢查(endoscopy)等等。這些醫(yī)學(xué)術(shù)語(yǔ)描述了病人的病情、使用過(guò)的藥物、接受過(guò)的檢查等重要醫(yī)療信息。從直覺(jué)上來(lái)講,這些醫(yī)學(xué)術(shù)語(yǔ)表達(dá)了用戶(hù)的檢索意圖,應(yīng)該加大權(quán)重?;谶@種假設(shè),本文提出一種基于醫(yī)學(xué)術(shù)語(yǔ)權(quán)重調(diào)整的查詢(xún)重構(gòu)方法(UMLS-W),通過(guò)提取查詢(xún)語(yǔ)句中的醫(yī)學(xué)術(shù)語(yǔ),在概率模型的框架下,用自信息度量這些術(shù)語(yǔ)的權(quán)重,同時(shí)結(jié)合查詢(xún)語(yǔ)句中的非醫(yī)學(xué)術(shù)語(yǔ),重構(gòu)原始查詢(xún)語(yǔ)句。在TREC 2011 Medical數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與原始查詢(xún)結(jié)果相比,經(jīng)UMLS-W重構(gòu)后的查詢(xún)結(jié)果在MAP、bpref和P10這三項(xiàng)指標(biāo)上,分別提高了14.2%、10.1%和9.6%。

      1 相關(guān)工作

      隨著EMR系統(tǒng)的推廣,研究人員嘗試著將搜索引擎技術(shù)應(yīng)用到電子病歷檢索中,EMERSE (Electronic Medical Record Search Engine)系統(tǒng)因此而產(chǎn)生,該系統(tǒng)是最早的電子病歷檢索系統(tǒng)之一。為了更好地研究EMR檢索,文本檢索會(huì)議TREC(Text REtrieval Conference)在2011年推出了病歷檢索任務(wù)。TREC任務(wù)的基本規(guī)則是,組織者提供文檔集合和一些測(cè)試主題,要求參賽者從文檔集合中檢索出與測(cè)試主題相關(guān)的文檔,按照文檔與主題的相關(guān)度降序排序。病歷任務(wù)的規(guī)則略有不同,文檔集是病歷(report)的集合,病人一次就診(visit)會(huì)產(chǎn)生一到多份report,檢索結(jié)果按照visit與主題的相關(guān)度降序排序。

      查詢(xún)重構(gòu)是信息檢索領(lǐng)域中的一種常用技術(shù),其方式一般有兩種,即擴(kuò)展查詢(xún)關(guān)鍵詞[2-4]和關(guān)鍵詞權(quán)重調(diào)整[5]。大多數(shù)病歷檢索的參賽者都利用一些醫(yī)學(xué)相關(guān)的外部資源,比如:UMLS,MeSH,ICD-9編碼等,通過(guò)擴(kuò)展查詢(xún)關(guān)鍵詞重構(gòu)查詢(xún)。Zhu[6]等人嘗試從不同的外部醫(yī)學(xué)資源中提取新關(guān)鍵詞加入到原始查詢(xún)中,構(gòu)造新查詢(xún),以提高病歷檢索的質(zhì)量。他們還研究了資源大小與質(zhì)量,以及混合使用不同資源對(duì)查詢(xún)重構(gòu)效果的影響。實(shí)驗(yàn)結(jié)果表明,這些擴(kuò)展關(guān)鍵詞的重構(gòu)方法,相對(duì)于原始查詢(xún),各種評(píng)價(jià)指標(biāo)都有了不同程度的提高,綜合所有評(píng)價(jià)指標(biāo),udelmx[6]方法效果最好。然而Daoud[7]等人和He[8]等人也使用了醫(yī)學(xué)相關(guān)的外部資源,檢索結(jié)果相對(duì)于各自的基準(zhǔn)線(xiàn),只獲得少許提升,甚至沒(méi)有提升。分析其中原因,主要是擴(kuò)展關(guān)鍵詞的方法容易引入查詢(xún)漂移的問(wèn)題。查詢(xún)漂移是指擴(kuò)展查詢(xún)?cè)~后的主旨偏離了用戶(hù)的原始檢索意圖,導(dǎo)致查準(zhǔn)率的下降。為了減少主題漂移的影響,Dinh[9]等人從關(guān)鍵詞權(quán)重調(diào)整的角度出發(fā)重構(gòu)原始查詢(xún),實(shí)驗(yàn)結(jié)果表明,綜合所有評(píng)價(jià)指標(biāo),LGD[9]方法的檢索效果最好。然而Dinh等人的LGD方法與Zhu等人的方法相比,并沒(méi)有利用醫(yī)學(xué)相關(guān)的信息。因此,本文嘗試將醫(yī)學(xué)相關(guān)信息加入到權(quán)重調(diào)整算法中,更多地考慮查詢(xún)語(yǔ)句中醫(yī)學(xué)術(shù)語(yǔ)的權(quán)重調(diào)整。

      2 UMLS-W查詢(xún)重構(gòu)

      本文通過(guò)分析病歷檢索的查詢(xún)語(yǔ)句和檢索目標(biāo),提出了一種基于醫(yī)學(xué)術(shù)語(yǔ)權(quán)重調(diào)整的查詢(xún)重構(gòu)方法UMLS-W,其中重構(gòu)過(guò)程如圖1所示。UMLS-W重構(gòu)查詢(xún)的流程可以分為三個(gè)步驟:步驟1,從輸入的Qorigin中識(shí)別出醫(yī)學(xué)術(shù)語(yǔ),并對(duì)其進(jìn)行篩選;步驟2,對(duì)于步驟1中得到的醫(yī)學(xué)術(shù)語(yǔ),采用自信息度量其權(quán)重;步驟3,結(jié)合Qorigin和步驟2中帶權(quán)重的醫(yī)學(xué)術(shù)語(yǔ),構(gòu)造新查詢(xún)Qnew。本節(jié)將詳細(xì)介紹這三個(gè)步驟,并以測(cè)試集的Topic 104為例進(jìn)行說(shuō)明。

      圖1 UMLS-W流程圖

      2.1 醫(yī)學(xué)術(shù)語(yǔ)識(shí)別及篩選

      UMLS是統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)的簡(jiǎn)稱(chēng),由元敘詞表、語(yǔ)義網(wǎng)絡(luò)和專(zhuān)家詞典三個(gè)組件構(gòu)成。元敘詞表是UMLS的核心數(shù)據(jù)庫(kù),是由各種醫(yī)學(xué)概念和術(shù)語(yǔ)以及它們之間的關(guān)系所構(gòu)成的集合。MetaMap是由Aronson[10]基于UMLS元敘詞表開(kāi)發(fā)的一款醫(yī)學(xué)術(shù)語(yǔ)識(shí)別工具。

      本文采用MetaMap識(shí)別查詢(xún)語(yǔ)句中的醫(yī)學(xué)術(shù)語(yǔ)。因?yàn)镸etaMap識(shí)別出的醫(yī)學(xué)術(shù)語(yǔ)中包含了醫(yī)學(xué)停用詞,比如:病人(patient)、醫(yī)生(doctor)、治療(treat)、診斷(diagnosis)等詞,所以需要將醫(yī)學(xué)停用詞從識(shí)別結(jié)果中篩掉。本文采用的醫(yī)學(xué)停用詞表來(lái)源于文獻(xiàn)[11],如表1所示(僅列出原型詞)。篩選后的醫(yī)學(xué)術(shù)語(yǔ)記為MUMLS={M1,M2,…,Mx,…,Mn}。因?yàn)獒t(yī)學(xué)術(shù)語(yǔ)一般由幾個(gè)詞組成,所以每個(gè)醫(yī)學(xué)術(shù)語(yǔ)可以表示為單詞的集合,即Mx={t1,t2,…,ty,…,tmx}。比如,測(cè)試集中的Topic 104的查詢(xún)主題為:Patients diagnosed with localized prostate cancer and treated with robotic surgery, 通過(guò)MetaMap識(shí)別之后,得到patients, diagnosed, localized prostate cancer, treated, robotic surgery, 其中patients, diagnosed, treated屬于醫(yī)學(xué)停用詞,去掉之后,最后得到:

      MUMLS={M1,M2}

      M1={localized,prostate,cancer}

      M2={robotic,surgery}

      表 1 本文使用的醫(yī)學(xué)停用詞表

      2.2 醫(yī)學(xué)術(shù)語(yǔ)權(quán)重計(jì)算

      自信息用來(lái)衡量單一事件發(fā)生時(shí)所包含信息量的多寡。假設(shè)隨機(jī)事件ωn發(fā)生的幾率是p(ωn),自信息I(ωn)的定義為:

      I(ωn)=-log(p(ωn))

      (1)

      從定義可以看出,事件發(fā)生的機(jī)率越低,在事件發(fā)生時(shí),包含的自信息越大。本文在權(quán)重計(jì)算時(shí)借鑒了這種思想,即醫(yī)學(xué)術(shù)語(yǔ)在文檔集合中表現(xiàn)出的自信息大小,反映了其在查詢(xún)語(yǔ)句中重要程度的高低。因此,本文引入自信息作為醫(yī)學(xué)術(shù)語(yǔ)權(quán)重的度量方式。根據(jù)自信息的定義,醫(yī)學(xué)術(shù)語(yǔ)Mx的權(quán)重wx可以表示為:

      wx=-ln(p(Mx|θC))

      (2)

      其中,p(Mx|θC)表示Mx由文檔集合模型θC生成的概率,本文采用自然對(duì)數(shù)。接下來(lái)我們需要估算p(Mx|θC),對(duì)文檔采用一元語(yǔ)言模型建模,即詞與詞之間是相互獨(dú)立的,那么:

      (3)

      (4)

      (5)

      問(wèn)題轉(zhuǎn)換為求文檔集合模型θC生成詞t的概率。本文采用泊松分布來(lái)擬合詞t在文檔中的出現(xiàn)次數(shù)T的概率分布情況,即T~Poisson(λ)。在泊松概率分布模型下,使用p(T≥1)估算p(t|θC),那么:

      p(t|θC)=p(T≥1)=1-p(T=0)=1-e-λ

      (6)

      基于整個(gè)文檔集合,式(6)中的參數(shù)λ可以使用極大似然估計(jì)計(jì)算得到,即:

      (7)

      其中,n表示文檔集合的大小,ki表示詞t在文檔Di中的出現(xiàn)次數(shù)。在文檔集合固定的前提下,每個(gè)詞對(duì)應(yīng)的λ可以通過(guò)預(yù)處理方式先計(jì)算出來(lái),這樣可以避免重復(fù)計(jì)算,降低計(jì)算量。根據(jù)式(7)估算,測(cè)試集中Topic 104的localized prostate cancer對(duì)應(yīng)的λ值分別為0.0447, 0.0482, 0.1280(保留4位小數(shù)),robotic surgery對(duì)應(yīng)的值分別為0.0006, 0.2641(保留4位小數(shù)),代入式(5)、式(6)計(jì)算得到:w1=8.31和w2=8.88(保留2位小數(shù))。

      2.3 新查詢(xún)構(gòu)造

      由于醫(yī)學(xué)術(shù)語(yǔ)只是原始查詢(xún)語(yǔ)句的一部分,如果僅僅使用它們進(jìn)行查詢(xún)會(huì)丟失部分信息,我們將原始查詢(xún)語(yǔ)句Qorigin和醫(yī)學(xué)術(shù)語(yǔ)結(jié)合起來(lái),構(gòu)造新查詢(xún),具體的過(guò)程如下:

      (1) 對(duì)于原始查詢(xún)語(yǔ)句Qorigin內(nèi)部,組成Qorigin的詞之間的權(quán)重平均分配,得到查詢(xún)子句1;

      (2) 對(duì)于醫(yī)學(xué)術(shù)語(yǔ)Mx內(nèi)部,Mx中每個(gè)詞的權(quán)重平均分配;

      (4) 將查詢(xún)子句1和查詢(xún)子句2,按照α:(1-α) 的比例分配權(quán)重,得到新查詢(xún)語(yǔ)句,其中參數(shù)α的取值范圍是[0, 1]。

      (8)

      根據(jù)式(8),對(duì)于測(cè)試集中的Topic 104,可以計(jì)算得到兩個(gè)醫(yī)學(xué)術(shù)語(yǔ)的權(quán)重分別為:

      3 實(shí)驗(yàn)評(píng)價(jià)

      本文使用TREC 2011 Medical任務(wù)的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估。數(shù)據(jù)集共有100 866篇report,對(duì)應(yīng)17 198次visit,平均5.86篇report對(duì)應(yīng)一次visit。測(cè)試集共包含34個(gè)主題(實(shí)際有35個(gè),其中一個(gè)主題因?yàn)闆](méi)有相關(guān)文檔而被去掉),每個(gè)主題的描述部分平均由9.79個(gè)詞組成,其中平均5.06個(gè)詞屬于醫(yī)學(xué)術(shù)語(yǔ)。

      3.1 評(píng)價(jià)標(biāo)準(zhǔn)

      由于平均準(zhǔn)確率均值MAP(Mean Average Precision)是信息檢索的常用評(píng)價(jià)指標(biāo),以及二值偏好(bpref)和Top-10準(zhǔn)確率(P10)是TREC Medical 2011任務(wù)的官方評(píng)價(jià)指標(biāo)。因此,本文采用MAP、bpref和P10作為評(píng)價(jià)標(biāo)準(zhǔn),其中MAP作為主要的評(píng)價(jià)指標(biāo),三種指標(biāo)的介紹如下:

      (1) P10:測(cè)量單個(gè)檢索結(jié)果中排名前十的文檔準(zhǔn)確率。

      (2) MAP:?jiǎn)蝹€(gè)主題的平均準(zhǔn)確率是每篇相關(guān)文檔檢索出后的準(zhǔn)確率的平均值,MAP是每個(gè)主題的平均準(zhǔn)確率的平均值,是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo)。

      (3) bpref:主要關(guān)心不相關(guān)文檔在相關(guān)文檔之前出現(xiàn)的次數(shù),具體公式為:

      (9)

      其中,對(duì)每個(gè)主題已判定結(jié)果中有R個(gè)相關(guān)結(jié)果,r表示相關(guān)文檔,n表示Top R篇不相關(guān)文檔集合的子集,n ranked higher than r是指當(dāng)前相關(guān)結(jié)果項(xiàng)之前有n個(gè)不相關(guān)的結(jié)果。需要注意的是,本文之后提到的P10或者bpref是指所有主題的P10或者bpref的均值,并且本文把MAP作為最主要的評(píng)價(jià)標(biāo)準(zhǔn)。

      3.2 實(shí)驗(yàn)設(shè)置

      首先介紹實(shí)驗(yàn)的基本設(shè)置:(1) 采用Indri檢索系統(tǒng),以report為單位建立索引和進(jìn)行檢索,其中,建立索引時(shí),使用Porter[12]算法進(jìn)行詞干提??;(2) 檢索模型采用Indri支持的語(yǔ)言模型[13],使用Dirichlet平滑方法[14],參數(shù)μ取默認(rèn)值2500;(3) 檢索結(jié)果需要做report到visit的聚合,聚合的方法是根據(jù)report的排名,計(jì)算visit的得分score(v),visit按照score(v)降序排序。score(v)的計(jì)算公式見(jiàn)式(10),其中rank(r)表示report的排名。

      (10)

      為了驗(yàn)證本文方法的有效性,我們?cè)O(shè)計(jì)了3組實(shí)驗(yàn)作為對(duì)比:(1) 直接將主題的描述作為查詢(xún)語(yǔ)句進(jìn)行檢索,得到的結(jié)果作為基準(zhǔn)結(jié)果(Baseline);(2) 參考2.3節(jié)的新查詢(xún)構(gòu)造過(guò)程,除了Mx之間的權(quán)重分配方式修改為平均分配,其余保持一致,檢索結(jié)果記為UMLS-E;(3) 使用本文提出的方法進(jìn)行查詢(xún),檢索結(jié)果記為UMLS-W。為了評(píng)估參數(shù)α的作用,從0到1按照0.1的步長(zhǎng),取用α的11個(gè)數(shù)值,對(duì)UMLS-E和UMLS-W分別設(shè)計(jì)了11組實(shí)驗(yàn)。

      本文的實(shí)驗(yàn)采用Indri系統(tǒng),經(jīng)UMLS-E和UMLS-W重構(gòu)后的查詢(xún)語(yǔ)句,可以很容易地使用Indri的查詢(xún)語(yǔ)法進(jìn)行形式化表示,如圖2和圖3所示。其中,#weight和#combine都是Indri查詢(xún)語(yǔ)法的操作符,#weight表示按照給定的比例進(jìn)行權(quán)重分配,#combine是特殊的#weight,表示權(quán)重平均分配。

      圖2 UMLS-E的查詢(xún)語(yǔ)句

      圖3 UMLS-W的查詢(xún)語(yǔ)句

      3.3 實(shí)驗(yàn)結(jié)果與分析

      首先,我們分析α值對(duì)查詢(xún)的影響。圖4是在不同α值下,UMLS-E和UMLS-W的MAP值變化的折線(xiàn)圖。從圖4中可以看出:(1) 無(wú)論是UMLS-E還是UMLS-W,僅使用醫(yī)學(xué)術(shù)語(yǔ)(即α=0)進(jìn)行查詢(xún)得到的MAP值要高于僅使用原始查詢(xún)語(yǔ)句(即α=1)進(jìn)行查詢(xún)得到的MAP值,說(shuō)明了醫(yī)學(xué)術(shù)語(yǔ)在電子病歷查詢(xún)語(yǔ)句中的重要性;(2) 除了Baseline(即α=1)這個(gè)點(diǎn),UMLS-W折線(xiàn)始終在UMLS-E折線(xiàn)的上方,說(shuō)明查詢(xún)的整體性能,UMLS-W方法完全優(yōu)于UMLS-E;(3) 當(dāng)α=0.6時(shí),UMLS-E和UMLS-W的MAP值達(dá)到最大值,因此我們將α的取值定為0.6。在下文的分析中,如果不作特別說(shuō)明,UMLS-E和UMLS-W的各項(xiàng)指標(biāo)都是在α=0.6時(shí)得到的結(jié)果。

      圖4 α對(duì)UMLS-E和UMLS-W的影響

      接著,我們分析使用自信息度量醫(yī)學(xué)術(shù)語(yǔ)權(quán)重的效果。作為對(duì)比的三個(gè)實(shí)驗(yàn)Baseline,UMLS-E和UMLS-W的實(shí)驗(yàn)結(jié)果如表2所示。其中,括號(hào)內(nèi)的數(shù)據(jù),是相對(duì)Baseline變化的百分比??梢钥闯觯?1) 與Baseline相比, UMLS-E和UMLS-W在三項(xiàng)指標(biāo)上提高了5%~14%,說(shuō)明更多地考慮醫(yī)學(xué)術(shù)語(yǔ)的權(quán)重有助于提高電子病歷檢索的性能;(2) UMLS-W相對(duì)Baseline比UMLS-E相對(duì)Baseline提高得更多,說(shuō)明利用自信息分配醫(yī)學(xué)術(shù)語(yǔ)之間的權(quán)重更有助于提高檢索的性能,驗(yàn)證了采用自信息度量醫(yī)學(xué)術(shù)語(yǔ)權(quán)重的有效性。

      表2 Baseline,UMLS-E和UMLS-W的對(duì)比

      最后,Baseline、UMLS-E和UMLS-W的準(zhǔn)確—召回率折線(xiàn)圖如圖5所示。從圖5中可以看出,UMLS-E的折線(xiàn)完全在Baseline的右上方,而UMLS-W的折線(xiàn)完全在UMLS-E的折線(xiàn)的右上方,說(shuō)明整體的檢索性能是UMLS-W > UMLS-E > Baseline。

      圖5 準(zhǔn)確-召回率折線(xiàn)圖

      最終,我們將UMLS-W和Zhu[6]等人提出的udelmx方法以及Dinh[9]等人提出的LGD方法進(jìn)行對(duì)比。udelmx側(cè)重于擴(kuò)展關(guān)鍵詞,LGD則側(cè)重于關(guān)鍵詞權(quán)重的調(diào)整。表3給出了UMLS-W、udelmx、LGD三種方法對(duì)比的結(jié)果。通過(guò)對(duì)比表3中的數(shù)據(jù)我們可以發(fā)現(xiàn),在bpref指標(biāo)上,三者的性能相差不多,UMLS-W稍勝一籌。在P10指標(biāo)上,UMLS-W相比udelmx有6.6%的提高,其原因分析為udelmx擴(kuò)展關(guān)鍵詞之后,過(guò)多的擴(kuò)展詞不但不會(huì)起到優(yōu)化原查詢(xún)的作用,反而加入噪聲,使得查詢(xún)的歧義性增加,導(dǎo)致查準(zhǔn)率下降。而UMLS-W和LGD并不存在這種問(wèn)題,甚至LGD的P10值還略?xún)?yōu)于UMLS-W。在MAP指標(biāo)上,UMLS-W相比udelmx和LGD分別提高4.8%和6.5%。究其原因,UMLS相比udelmx不受主題漂移問(wèn)題的影響,而它又考慮了醫(yī)學(xué)術(shù)語(yǔ)這一因素,因此比LGD的查詢(xún)效果更好。

      表3 UMLS-W與LGD,udelmx的對(duì)比。*和**

      總體而言,本文的UMLS-W方法使用自信息度量醫(yī)學(xué)術(shù)語(yǔ)的權(quán)重,被證實(shí)可以更合理地分配權(quán)重,重構(gòu)的查詢(xún)語(yǔ)句可以提高電子病歷檢索系統(tǒng)的性能。

      4 結(jié) 語(yǔ)

      電子病歷檢索的查詢(xún)語(yǔ)句中通常包含一些醫(yī)學(xué)術(shù)語(yǔ)作為限制條件。本文研究了如何利用這些醫(yī)學(xué)術(shù)語(yǔ)進(jìn)行查詢(xún)重構(gòu),最后提出了使用自信息度量醫(yī)學(xué)術(shù)語(yǔ),結(jié)合原始查詢(xún)語(yǔ)句,進(jìn)行查詢(xún)重構(gòu)的方法,提高了電子病歷檢索系統(tǒng)的性能。實(shí)驗(yàn)表明,相對(duì)于原始查詢(xún)結(jié)果,使用UMLS-W重構(gòu)后的查詢(xún)結(jié)果在MAP、bpref和P10這三項(xiàng)指標(biāo)上,分別提高了14.2%、10.1%和9.6%。

      目前,在本文中參數(shù)α的值是統(tǒng)一設(shè)置的。在接下來(lái)的工作中,我們計(jì)劃研究針對(duì)不同的查詢(xún),自適應(yīng)地設(shè)置α的值,進(jìn)一步提高電子病歷檢索的性能。

      [1] Voorhees E,Hersh W.Overview of the TREC 2012 medical records track[C]//Proceedings of the 21st Text REtrieval Conference Proceedings TREC,2012.

      [2] Weerkamp W,Balog K,De Rijke M.Exploiting external collections for query expansion[J].ACM Transactions on the Web (TWEB),2012,6(4):18.

      [3] Xu J,Croft W B.Query expansion using local and global document analysis[C]//Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,1996:4-11.

      [4] Gao J,Xu G,Xu J.Query expansion using path-constrained random walks[C]//Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:563-572.

      [5] Chang Y C,Chen S M.A new query reweighting method for document retrieval based on genetic algorithms[J].Evolutionary Computation,IEEE Transactions on,2006,10(5):617-622.

      [6] Zhu D,Carterette B.Using Multiple External Collections for Query Expansion[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.

      [7] Daoud M,Kasperowicz D,Miao J,et al.York University at TREC 2011:Medical Records Track[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.

      [8] He J,Hollink V,Boscarino C,et al.CWI at TREC 2011:session,web,and medical[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.

      [9] Dinh D,Tamine L.IRIT at TREC 2011:Evaluation of query reformulation techniques for retrieving medical records[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.

      [10] Aronson A R,Lang F M.An overview of MetaMap:historical perspective and recent advances[J].Journal of the American Medical Informatics Association,2010,17(3):229-236.

      [11] Hersh W.Information Retrieval: A Health and Biomedical Perspective[M].3rd ed.Springer,2009.

      [12] Porter M F.An algorithm for suffix stripping[J].Program:electronic library and information systems,1980,14(3):130-137.

      [13] Lavrenko V,Croft W B.Relevance based language models[C]//Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,2001:120-127.

      [14] Zhai C,Lafferty J.A study of smoothing methods for language models applied to ad hoc information retrieval[C]//Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,2001:334-342.

      QUERY REFORMULATION IN ELECTRONIC MEDICAL RECORDS RETRIEVAL BASED ON REWEIGHTING

      Wang Wenbin1Gu Junzhong1Zhou Zili2Zhang Feifan1

      1(DepartmentofComputerScienceandTechnology,EastChinaNormalUniversity,Shanghai200241,China)2(SchoolofPhysicsandEngineering,QufuNormalUniversity,Qufu273165,Shandong,China)

      Electronic medical record (EMR) retrieval is a new field in information retrieval. Medical terms occupy an important position in EMR retrieval, and they are usually used to limit the retrieval conditions and to suggest users’ search intention. Aiming at the importance of medical terms, we proposed a medical terms reweighting-based query reformulation method to improve the performance of EMR retrieval. First, the method screens out medical terms from original query sentences, and then measures the weight of each medical term by its own self-information. Finally, it constructs new query sentences by combining the weighted medical terms and the original query sentences proportionally. Our method has been experimented on TREC dataset, results showed that compared with original query results, the reformulated query results improved in three items of MAP (+14.2%), bpref (+10.1%) and P10 (+9.6%) respectively, and this verified the effectiveness of the method.

      Information retrieval Electronic medical record Query reformulation Medical terms Reweighting Self-information

      2014-12-08。上海市國(guó)際科技合作基金項(xiàng)目(134307 10100)。王文斌,碩士生,主研領(lǐng)域:語(yǔ)義搜索。顧君忠,教授。周子力,副教授。張非凡,碩士生。

      TP391.1

      A

      10.3969/j.issn.1000-386x.2016.04.019

      猜你喜歡
      術(shù)語(yǔ)病歷語(yǔ)句
      強(qiáng)迫癥病歷簿
      “大數(shù)的認(rèn)識(shí)”的診斷病歷
      重點(diǎn):語(yǔ)句銜接
      精彩語(yǔ)句
      為何要公開(kāi)全部病歷?
      村醫(yī)未寫(xiě)病歷,誰(shuí)之過(guò)?
      如何搞定語(yǔ)句銜接題
      有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
      從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
      作文語(yǔ)句實(shí)錄
      阳新县| 合山市| 红河县| 咸丰县| 怀仁县| 田林县| 三穗县| 台前县| 梅州市| 长春市| 青神县| 高陵县| 登封市| 阳春市| 商水县| 水富县| 汝南县| 建瓯市| 南木林县| 宾阳县| 罗源县| 改则县| 丰原市| 绥阳县| 金寨县| 承德市| 富裕县| 特克斯县| 南召县| 元朗区| 满洲里市| 阿拉善左旗| 东城区| 彰化市| 深圳市| 石棉县| 错那县| 石柱| 阳高县| 咸丰县| 突泉县|