• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SNOMED-CT的醫(yī)療術(shù)語(yǔ)語(yǔ)義相似度計(jì)算方法

      2021-02-16 00:40:10呂曉云
      關(guān)鍵詞:脫敏計(jì)算公式術(shù)語(yǔ)

      戴 敏,朱 森,呂曉云

      (天津理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,天津 300384)

      醫(yī)療物聯(lián)網(wǎng)(internet of medical things,IoMT)技術(shù)的發(fā)展推進(jìn)了醫(yī)療服務(wù)、醫(yī)療保健的普及和發(fā)展。許多基于IoMT的工具、軟件和設(shè)施已用于遠(yuǎn)程健康跟蹤、身體恢復(fù)鍛煉、慢性病人群和老年人群的護(hù)理[1-2]。當(dāng)健康數(shù)據(jù)關(guān)聯(lián)到具體的個(gè)體時(shí),若處理不當(dāng),可能會(huì)引發(fā)嚴(yán)重的用戶隱私曝光問(wèn)題。

      在醫(yī)學(xué)領(lǐng)域內(nèi)已經(jīng)制定了關(guān)于隱私保護(hù)的正式條例,如《健康保險(xiǎn)攜帶和責(zé)任法案》規(guī)定了在醫(yī)療文件允許發(fā)布之前應(yīng)刪除個(gè)人可識(shí)別信息[3]。美國(guó)許多州和聯(lián)邦法律也規(guī)定,在向第三方發(fā)布醫(yī)療記錄之前,必須對(duì)艾滋病狀況、藥物或乙醇濫用以及精神健康狀況等因素進(jìn)行脫敏[3-5]。

      醫(yī)療文本中很多文本術(shù)語(yǔ)在語(yǔ)義上都是相關(guān)的,單純刪除或涂黑敏感術(shù)語(yǔ)(如艾滋?。┛赡軙?huì)提高潛在攻擊者的警覺(jué)性,并且未處理的語(yǔ)義相關(guān)術(shù)語(yǔ)(如免疫系統(tǒng)、流感和無(wú)保護(hù)的性行為)可能會(huì)增大敏感術(shù)語(yǔ)被揭露的風(fēng)險(xiǎn)[6]。因此,如何用語(yǔ)義泛化的形式來(lái)處理敏感術(shù)語(yǔ),以及如何發(fā)現(xiàn)和處理語(yǔ)義相關(guān)術(shù)語(yǔ)成為了醫(yī)療文本脫敏工作的重點(diǎn)[7]。

      文獻(xiàn)[8]提出了一種基于信息量(information content,IC)的醫(yī)療文本自動(dòng)脫敏方法,該方法不僅對(duì)敏感術(shù)語(yǔ)進(jìn)行脫敏,還檢測(cè)了語(yǔ)義相關(guān)的術(shù)語(yǔ)。該方法以搜索引擎必應(yīng)(https://cn.bing.com)鏈接的資源來(lái)計(jì)算IC值以確定敏感詞,并利用知識(shí)庫(kù)將其泛化為通用術(shù)語(yǔ)。但互聯(lián)網(wǎng)中的數(shù)據(jù)存在流動(dòng)性的特點(diǎn)[9],特定醫(yī)療數(shù)據(jù)在搜索引擎中所鏈接的資源的稀疏性受階段性流行病和社會(huì)輿論指向的影響。另外,依照數(shù)據(jù)稀疏性來(lái)判斷術(shù)語(yǔ)敏感與否,可能會(huì)使一些非常用的非敏感術(shù)語(yǔ)被識(shí)別為敏感術(shù)語(yǔ)。

      醫(yī)學(xué)術(shù)語(yǔ)系統(tǒng)命名法-臨床術(shù)語(yǔ)(systematized nomenclature of medicine-clinical terms,SNOMEDCT)作為世界上最全面的臨床醫(yī)療術(shù)語(yǔ),在國(guó)際上的臨床醫(yī)學(xué)數(shù)據(jù)分析的研究中應(yīng)用極為廣泛[10-12]。因其收錄的大量醫(yī)學(xué)概念及詳細(xì)的分類結(jié)構(gòu),已被許多科研工作者用作醫(yī)療文本脫敏的知識(shí)庫(kù)[13-14]。本文在分析SNOMED-CT結(jié)構(gòu)的基礎(chǔ)上,提出了一種基于SNOMED-CT的語(yǔ)義相似度計(jì)算方法,該方法可以有效地應(yīng)用于醫(yī)療文本的語(yǔ)義脫敏。

      1 SNOMED-CT結(jié)構(gòu)分析

      SNOMED-CT是目前最為全面的國(guó)際標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)系統(tǒng),包含30多萬(wàn)個(gè)醫(yī)學(xué)概念和130多萬(wàn)個(gè)關(guān)系[15]。因具備完整、穩(wěn)固的語(yǔ)義基礎(chǔ)和結(jié)構(gòu)化的術(shù)語(yǔ)表達(dá)形式,被醫(yī)學(xué)領(lǐng)域許多信息模型指定為標(biāo)準(zhǔn)編碼系統(tǒng),在國(guó)際醫(yī)療與健康領(lǐng)域中有著廣泛地應(yīng)用。

      SNOMED-CT概念模型由概念、描述和關(guān)系組成,并采取統(tǒng)一的數(shù)字標(biāo)識(shí)符來(lái)唯一地表示各個(gè)概念、描述和關(guān)系,SNOMED-CT的邏輯結(jié)構(gòu)如圖1所示,其中概念關(guān)系可分為2大類。

      第1類是繼承關(guān)系(“IS_A”關(guān)系),又稱“上下位關(guān)系”或“父子關(guān)系”,從縱向上連接語(yǔ)義上具有包含與被包含關(guān)系的概念。IS_A關(guān)系是SNOMED-CT建立概念分類層級(jí)體系的基礎(chǔ),眾多語(yǔ)義上具有包含與被包含的概念基于IS_A關(guān)系縱向聚合,形成了SNOMED-CT中不同的概念分類層級(jí)體系。除了頂級(jí)的“根概念”——“SNOMED Concept”外,每個(gè)概念均至少有一個(gè)IS_A關(guān)系與上位概念相關(guān)聯(lián)。

      第2類是“概念模型屬性”關(guān)系,從橫向上連接兩個(gè)概念并確定概念間的語(yǔ)義關(guān)系[16]。如圖1中的“肺炎—肺結(jié)構(gòu)”、“氣管支氣管炎—?dú)夤苤夤芙Y(jié)構(gòu)”等都是概念模型屬性關(guān)系。SNOMED-CT實(shí)際運(yùn)用了60種概念模型屬性,形成了數(shù)十萬(wàn)條的橫向語(yǔ)義關(guān)聯(lián)關(guān)系。

      圖1 SNOMED-CT的邏輯結(jié)構(gòu)Fig.1 Logical structure of SNOMED-CT

      2 語(yǔ)義相似度計(jì)算方法

      結(jié)合SNOMED-CT的結(jié)構(gòu)特點(diǎn),本文利用SNOMED-CT中的2類概念關(guān)系來(lái)計(jì)算醫(yī)療術(shù)語(yǔ)的語(yǔ)義相似度,即計(jì)算2個(gè)概念的語(yǔ)義相似度時(shí)考慮2個(gè)因素:概念的具體化程度和語(yǔ)義距離。

      2.1 具體化程度

      在如圖1所示的SNOMED-CT的邏輯結(jié)構(gòu)中,概念所在的層次(深度),即概念節(jié)點(diǎn)與根節(jié)點(diǎn)之間的縱向關(guān)系距離(即“IS_A”關(guān)系數(shù)量),代表了概念描述內(nèi)容的具體化程度。每一層都是對(duì)上層概念的具體化,也是對(duì)下層概念的泛化,故深度越大,具體化程度越高。設(shè)c1和c2是SNOMED-CT中的2個(gè)概念,則這2個(gè)概念節(jié)點(diǎn)的具體化程度可表示為:

      式中,h代表c1和c22個(gè)概念節(jié)點(diǎn)的最小公共祖先的深度。最小公共祖先的深度越大,概念的具體化程度越高,反之亦成立。

      2.2 語(yǔ)義距離

      在SNOMED-CT的邏輯結(jié)構(gòu)中,概念節(jié)點(diǎn)之間的橫向關(guān)系距離(即“概念模型屬性”關(guān)系數(shù)量)代表了2個(gè)概念之間的語(yǔ)義距離。設(shè)c1和c2是SNOMED-CT中的2個(gè)概念,可以用兩個(gè)概念節(jié)點(diǎn)之間的最短路徑長(zhǎng)度描述2個(gè)概念的語(yǔ)義距離,其公式為:

      式中,d是概念節(jié)點(diǎn)c1和c2之間的最短路徑。

      由此可見(jiàn),兩個(gè)概念節(jié)點(diǎn)之間的最短路徑距離越大,它們之間的語(yǔ)義距離就越大,反之亦成立。

      2.3 術(shù)語(yǔ)相似度的計(jì)算公式

      綜合考慮SNOMED-CT中2個(gè)概念間的2類關(guān)系,2個(gè)概念的相似度計(jì)算公式為:

      由于一個(gè)單詞可能具有多種概念含義,本文用與單詞相關(guān)的概念的相似度最大值來(lái)描述單詞之間的語(yǔ)義相似度。設(shè)單詞q1具有多個(gè)概念(c11,c12,…,c1a),單詞q2具有多個(gè)概念(c21,c22,…,c2b),則2個(gè)單詞q1,q2間的語(yǔ)義相似度的計(jì)算公式為:

      一篇醫(yī)療文本中包含若干醫(yī)療術(shù)語(yǔ),每個(gè)醫(yī)療術(shù)語(yǔ)通常由若干單詞組成。假設(shè)術(shù)語(yǔ)p1包含多個(gè)單詞(q11,q12,…,q1m),術(shù)語(yǔ)p2包含多個(gè)單詞(q21,q22,…,q2n),則2個(gè)術(shù)語(yǔ)之間的語(yǔ)義相似性的計(jì)算公式為:

      3 實(shí)驗(yàn)及結(jié)果分析

      本文實(shí)驗(yàn)數(shù)據(jù)為從維基百科(Wikipedia)選擇的6類共42篇醫(yī)療文本,這些文本分別從醫(yī)學(xué)角度描述了性傳播疾病、艾滋病毒、艾滋病、精神障礙和藥物濫用。為了評(píng)估本文方法的有效性,以2名醫(yī)療專家對(duì)各文本進(jìn)行手動(dòng)脫敏的結(jié)果為參照標(biāo)準(zhǔn),從脫敏精度和實(shí)用度兩方面對(duì)本文方法與基于IC的脫敏方法進(jìn)行了比較。

      3.1 脫敏精度評(píng)估

      本文用3個(gè)指標(biāo)來(lái)評(píng)價(jià)脫敏的精度,分別是精準(zhǔn)度(precision)、召回率(recall)和F-度量(Fmeasure,F(xiàn)mea)。

      精準(zhǔn)度用來(lái)描述自動(dòng)脫敏方法識(shí)別出敏感術(shù)語(yǔ)的準(zhǔn)確率,其計(jì)算公式為:

      式中,A代表自動(dòng)脫敏識(shí)別出的敏感術(shù)語(yǔ),B代表手動(dòng)脫敏識(shí)別出的敏感詞。Ppre越高,表明自動(dòng)脫敏識(shí)別敏感術(shù)語(yǔ)的準(zhǔn)確率越高。

      召回率用來(lái)描述自動(dòng)脫敏方法對(duì)文本中敏感術(shù)語(yǔ)的識(shí)別率,其計(jì)算公式為:

      Prec越高,說(shuō)明敏感術(shù)語(yǔ)的識(shí)別率越高。在文本脫敏過(guò)程中,Prec通常比Ppre更重要,若Prec過(guò)低,則意味著有更多敏感術(shù)語(yǔ)未被識(shí)別出來(lái),文本披露隱私風(fēng)險(xiǎn)越高。

      Fmea用Ppre和Prec的諧波均值來(lái)表示脫敏的準(zhǔn)確性,其計(jì)算公式為:

      用本文方法與基于IC的方法分別對(duì)6類文本進(jìn)行脫敏實(shí)驗(yàn),表1所示為精度實(shí)驗(yàn)結(jié)果的對(duì)比。

      表1 精度實(shí)驗(yàn)結(jié)果的對(duì)比Tab.1 Comparison of accuracy test results

      由表1可知,與基于IC的方法相比,采用本文方法對(duì)上述6類醫(yī)療文本進(jìn)行脫敏,精準(zhǔn)度、召回率和F-度量的平均性能分別提高了5.92%、3.13%和4.97%。

      3.2 實(shí)用性評(píng)估

      實(shí)用性代表了文本脫敏后的實(shí)用程度,即信息量的保留程度。本文采用文獻(xiàn)[8]提出的基于IC的評(píng)估方式評(píng)估脫敏后文本相對(duì)于原文本所保留的實(shí)用性。

      某術(shù)語(yǔ)t所包含的信息量可用其CIC值表示,其計(jì)算公式為:

      式中,p(t)為t在知識(shí)庫(kù)中出現(xiàn)的概率,這里以搜索引擎百度所鏈接的資源作為評(píng)估知識(shí)庫(kù)。CIC(t)越高,意味著t包含著更多的信息量。

      一篇文本的信息量為該文本所包含術(shù)語(yǔ)提供的信息量的總和,假設(shè)文本D包含多個(gè)術(shù)語(yǔ)(t1,t2,…,tn),則其信息量的計(jì)算公式為:

      式中,ti為文本中所包含的術(shù)語(yǔ)。

      文本脫敏后的實(shí)用性保留程度Putility的計(jì)算公式為:

      式中,D為脫敏前的文本,D′為脫敏后的文本。

      采用對(duì)比本文提出的方法與基于IC的方法脫敏后的文本的實(shí)用性進(jìn)行分析,表2所示為實(shí)用性對(duì)比實(shí)驗(yàn)結(jié)果。

      表2 實(shí)用性對(duì)比實(shí)驗(yàn)結(jié)果Tab.2 Experiment results of practicability comparison

      由表2可知,與基于IC的方法相比,采用本文提出的方法脫敏后文章的實(shí)用性平均提高了5.65%。

      4 結(jié)論

      本文在深入分析SNOMED-CT知識(shí)庫(kù)結(jié)構(gòu)的基礎(chǔ)上,提出利用該知識(shí)庫(kù)中2類概念關(guān)系計(jì)算醫(yī)療術(shù)語(yǔ)的語(yǔ)義相似度計(jì)算方法,并將該方法用于醫(yī)療文本的脫敏。對(duì)從Wikipedia上選取的6類共42篇醫(yī)療文本進(jìn)行脫敏提出的實(shí)驗(yàn),結(jié)果表明,與基于IC的脫敏方法相比,本文提出的方法在脫敏精度和實(shí)用度方面都有一定幅度的提高,適用于以SNOMED-CT作為知識(shí)庫(kù)的醫(yī)療文本敏感詞識(shí)別和脫敏。

      猜你喜歡
      脫敏計(jì)算公式術(shù)語(yǔ)
      電機(jī)溫升計(jì)算公式的推導(dǎo)和應(yīng)用
      激光聯(lián)合脫敏劑治療牙本質(zhì)過(guò)敏癥
      過(guò)敏體質(zhì)與脫敏治療
      2019離職補(bǔ)償金計(jì)算公式一覽表
      讓青春脫敏
      幸福(2017年18期)2018-01-03 06:34:42
      Nd:YAG激光作用下牙本質(zhì)脫敏機(jī)制的研究
      采用初等代數(shù)推導(dǎo)路基計(jì)算公式的探討
      關(guān)于節(jié)能評(píng)估中n值計(jì)算公式及修正
      有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
      從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
      林州市| 民勤县| 格尔木市| 宁国市| 高陵县| 镇康县| 邮箱| 商南县| 元氏县| 齐齐哈尔市| 三台县| 冕宁县| 和硕县| 同心县| 镇安县| 格尔木市| 河池市| 纳雍县| 平塘县| 连南| 泸西县| 佛冈县| 江北区| 平邑县| 苏州市| 张家口市| 江油市| 临漳县| 贡觉县| 利川市| 象山县| 丰宁| 枣庄市| 镇赉县| 望谟县| 哈巴河县| 隆回县| 武邑县| 隆化县| 宁乡县| 酒泉市|