• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中英文電子病歷臨床表型標(biāo)準(zhǔn)化與語(yǔ)料收集的Web交互系統(tǒng)

    2022-05-30 10:48:04齊磊齊瑩瑩堯玉恒
    關(guān)鍵詞:電子病歷標(biāo)準(zhǔn)化

    齊磊 齊瑩瑩 堯玉恒

    關(guān)鍵詞:電子病歷;臨床表型;標(biāo)準(zhǔn)化;語(yǔ)料收集

    中圖法分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

    1引言

    當(dāng)前,生物醫(yī)學(xué)領(lǐng)域的非結(jié)構(gòu)化文本形式提供的數(shù)據(jù)量呈爆炸式增長(zhǎng)。有效識(shí)別生物醫(yī)學(xué)實(shí)體,是提取非結(jié)構(gòu)化文本中隱藏的生物醫(yī)學(xué)知識(shí),并將其轉(zhuǎn)化為結(jié)構(gòu)化格式的前提。因此,BioNER(生物命名實(shí)體識(shí)別)任務(wù)具有重要的研究?jī)r(jià)值。其中,基于人類表型本體(HPO)的表型識(shí)別非常重要。

    1.1生物醫(yī)學(xué)命名實(shí)體識(shí)別

    隨著以非結(jié)構(gòu)化文本形式提供的數(shù)據(jù)量呈爆炸式增長(zhǎng),截至2022年3月,PubMed中已經(jīng)收錄了3300多萬(wàn)份生物醫(yī)學(xué)相關(guān)的文獻(xiàn)。其中包含生物醫(yī)學(xué)、健康和臨床科學(xué)方面的知識(shí),生物醫(yī)學(xué)方面的命名實(shí)體識(shí)別(BioNER)變得越來(lái)越重要[1]。由于目前沒(méi)有對(duì)這些科學(xué)方面的知識(shí)進(jìn)行自動(dòng)處理,因此大部分信息仍隱藏在文本的細(xì)節(jié)之中,無(wú)法進(jìn)一步使用或分析。因此,自然語(yǔ)言處理(NLP)和文本挖掘方法被用于從此類出版物中提取信息。而命名實(shí)體識(shí)別(NER,也稱為實(shí)體識(shí)別或?qū)嶓w提?。┦切畔⑻崛。ㄎ谋痉治觯┑淖尤蝿?wù),旨在發(fā)現(xiàn)和分類文本中的特定實(shí)體。“命名實(shí)體”一詞是1996年在第六屆消息理解會(huì)議(MUC)上創(chuàng)造的,當(dāng)時(shí)從非結(jié)構(gòu)化文本中提取信息成為一個(gè)重要問(wèn)題。

    在語(yǔ)言領(lǐng)域,命名實(shí)體識(shí)別涉及自動(dòng)掃描非結(jié)構(gòu)化文本以定位“實(shí)體”,用于術(shù)語(yǔ)規(guī)范化和分類,如人名、組織(包括公司、非營(yíng)利組織等)、位置(包括城市、國(guó)家、河流等)或日期和時(shí)間;在生物醫(yī)學(xué)領(lǐng)域,實(shí)體分為基因/蛋白質(zhì)、藥物、代謝物、疾病、組織、器官、毒素、食物等類別。因此,科研工作者如果不借助工具,需要人為查詢數(shù)百萬(wàn)個(gè)非結(jié)構(gòu)化文本語(yǔ)料庫(kù)以查找目標(biāo)信息,故自動(dòng)化的BioNER無(wú)疑已成為研究中的非常重要的工具。有效識(shí)別生物醫(yī)學(xué)實(shí)體,是提取非結(jié)構(gòu)化文本中隱藏的生物醫(yī)學(xué)知識(shí),并將其轉(zhuǎn)化為結(jié)構(gòu)化格式的前提。因此,BioNER任務(wù)具有重要的研究?jī)r(jià)值。

    1.2人類表型本體(HPO)

    在遺傳學(xué)中,表型是生物體可觀察到的特征或特征的集合。生物體的表型源于兩個(gè)基本因素,即基因型以及環(huán)境因素的影響。這兩個(gè)因素都會(huì)互相影響,從而會(huì)進(jìn)一步影響表型。而“臨床表型”是醫(yī)生在診斷中或者病人在檢查中所描述的相關(guān)癥狀及狀態(tài)說(shuō)明。所述測(cè)量或臨床觀察能夠與臨床條件或者疾病的狀況相關(guān)聯(lián)。

    為了對(duì)臨床表型進(jìn)行更規(guī)范化的整理,2008年國(guó)際生物醫(yī)藥組織OBO聯(lián)盟成員德國(guó)柏林夏洛特(Charité)醫(yī)學(xué)院聯(lián)合Monarch Initiative啟動(dòng)了第一個(gè)人類表型術(shù)語(yǔ)本體數(shù)據(jù)庫(kù)HPO(Human? Phenotype Ontology)項(xiàng)目[2]。利用該在線數(shù)據(jù)庫(kù),可便捷瀏覽、查詢生物醫(yī)療領(lǐng)域的專業(yè)術(shù)語(yǔ),聚集疾病、表型、模型生物、基因等大量結(jié)構(gòu)化的語(yǔ)義數(shù)據(jù)。人類表型本體論(HPO)提供了在人類疾病中遇到的表型異常的標(biāo)準(zhǔn)化詞匯表。每個(gè)術(shù)語(yǔ)在HPO描述了一種表型異常,如房間隔缺損等。目前,HPO包含超過(guò)13000個(gè)術(shù)語(yǔ)和超過(guò)156000個(gè)遺傳疾病注釋。迄今為止,HPO已被國(guó)際20余家頂級(jí)科研機(jī)構(gòu)廣泛應(yīng)用于人類遺傳學(xué)的臨床診斷研究。以上人類表型數(shù)據(jù)庫(kù)都是英文數(shù)據(jù)庫(kù)。目前,國(guó)內(nèi)還缺乏針對(duì)臨床表型統(tǒng)一的結(jié)構(gòu)化和規(guī)范化的數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)。2015年年底,由國(guó)內(nèi)臨床、遺傳咨詢、分子生物學(xué)領(lǐng)域知名人士自愿組織、共同發(fā)起成立了中文人類表型標(biāo)準(zhǔn)用語(yǔ)聯(lián)盟(CHPO,The Chinese Human? Phenotype Ontology Consortium),他們對(duì)國(guó)外已有的HPO詞條進(jìn)行翻譯優(yōu)化,從而形成了中國(guó)的HPO數(shù)據(jù)庫(kù),給中國(guó)的電子病歷臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化提供了條件。

    2中英文臨床表型的在線Web預(yù)測(cè)系統(tǒng)

    目前,中英文領(lǐng)域都開(kāi)發(fā)出了針對(duì)生物醫(yī)學(xué)文獻(xiàn)和電子病歷來(lái)對(duì)其中的臨床表型術(shù)語(yǔ)進(jìn)行標(biāo)準(zhǔn)化的方法。但是這些方法大多基于源代碼,不便于用戶使用。我們希望把該算法的中英文版本向臨床醫(yī)生或者科研工作者進(jìn)行推廣應(yīng)用,從而幫助推進(jìn)中英文臨床表型相關(guān)研究的發(fā)展。

    中英文臨床表型的在線Web預(yù)測(cè)系統(tǒng)基于Django的框架,通過(guò)Python腳本控制電子病歷或者相關(guān)生物醫(yī)學(xué)文本的網(wǎng)頁(yè)端獲取、服務(wù)器后臺(tái)的HPO標(biāo)準(zhǔn)化預(yù)測(cè)、數(shù)據(jù)庫(kù)查詢以及預(yù)測(cè)結(jié)果報(bào)告的返回和頁(yè)面展示等功能?,F(xiàn)從服務(wù)器界面和實(shí)現(xiàn)功能兩個(gè)方面介紹中英文臨床表型的在線Web預(yù)測(cè)系統(tǒng)。

    2.1在線Web預(yù)測(cè)系統(tǒng)界面

    在線Web預(yù)測(cè)系統(tǒng)的主界面的導(dǎo)航欄中包含Home,TeamtoIntroduce,Download,PatientManage?ment,Server,Contact,Help等條目,這些條目可以跳轉(zhuǎn)到新的標(biāo)簽頁(yè)或者跳轉(zhuǎn)到頁(yè)面的相應(yīng)位置。Home欄目主要介紹了標(biāo)準(zhǔn)化系統(tǒng)任務(wù)的摘要,對(duì)整個(gè)任務(wù)進(jìn)行了總結(jié)和概括;Download欄目?jī)?chǔ)存了在線Web預(yù)測(cè)系統(tǒng)所有程序的源代碼、數(shù)據(jù)集、訓(xùn)練好模型的二進(jìn)制文件以及說(shuō)明文檔等;Patient Management欄目可以對(duì)預(yù)測(cè)病歷的歷史結(jié)果進(jìn)行展示和調(diào)取;Help欄目可以對(duì)在線Web預(yù)測(cè)系統(tǒng)的使用進(jìn)行圖文結(jié)合的介紹和說(shuō)明;Server欄目則是在線Web預(yù)測(cè)系統(tǒng)的核心部分,即預(yù)測(cè)輸入信息入口。

    2.2在線Web預(yù)測(cè)系統(tǒng)實(shí)現(xiàn)的功能

    在線Web預(yù)測(cè)系統(tǒng)實(shí)現(xiàn)的主要功能包括三塊,即在線預(yù)測(cè)功能、報(bào)告展示功能以及HPO樹(shù)狀結(jié)構(gòu)圖展示功能。

    在線預(yù)測(cè)功能就是Server欄目的預(yù)測(cè)輸入信息的入口,需要輸入用戶的姓名以及身份證號(hào)碼用于驗(yàn)證用戶的真實(shí)性,防止惡意爬蟲(chóng)的爬取和攻擊,保證服務(wù)器資源的合理利用以及服務(wù)器的安全性。接下來(lái),用戶可以手動(dòng)輸入電子病歷或者生物醫(yī)學(xué)文獻(xiàn)的文本,或者選擇上傳以電子病歷或者生物醫(yī)學(xué)文獻(xiàn)文本為主要內(nèi)容的txt文檔。在線Web預(yù)測(cè)系統(tǒng)會(huì)自動(dòng)判別輸入的文本語(yǔ)言是中文還是英文,據(jù)此選擇相應(yīng)的模型進(jìn)行預(yù)測(cè),減少了用戶進(jìn)行選擇的參數(shù)。以上步驟完成之后,就可以點(diǎn)擊提交,后臺(tái)程序會(huì)自動(dòng)識(shí)別輸入的語(yǔ)言來(lái)選擇模型,并調(diào)用相關(guān)程序進(jìn)行HPO標(biāo)準(zhǔn)化,之后在線Web預(yù)測(cè)系統(tǒng)會(huì)展示出完整的預(yù)測(cè)報(bào)告。

    報(bào)告展示功能主要對(duì)輸入的電子病歷或生物醫(yī)學(xué)文獻(xiàn)文本和標(biāo)準(zhǔn)化輸出的結(jié)果進(jìn)行規(guī)范化展示。其中,第一欄是輸入的電子病歷或生物醫(yī)學(xué)文獻(xiàn)原始文本;第二欄是預(yù)測(cè)的結(jié)果展示,結(jié)果主要以表格的形式從6個(gè)方面進(jìn)行展示,包括預(yù)測(cè)短語(yǔ)文本在原始文本中的開(kāi)始位置、結(jié)束位置以及預(yù)測(cè)短語(yǔ)文本、標(biāo)準(zhǔn)化HPO、標(biāo)準(zhǔn)化HPO的名稱和預(yù)測(cè)的概率值(該值越大表明預(yù)測(cè)的結(jié)果越可信)。預(yù)測(cè)結(jié)果展示預(yù)測(cè)短語(yǔ)文本在原始文本中的開(kāi)始位置和結(jié)束位置,可以方便用戶在原文中找到相應(yīng)的位置,可以結(jié)合上下文語(yǔ)境來(lái)判斷預(yù)測(cè)短語(yǔ)是否分割得準(zhǔn)確。預(yù)測(cè)的結(jié)果同時(shí)展示了預(yù)測(cè)短語(yǔ)文本和對(duì)應(yīng)標(biāo)準(zhǔn)化HPO的名稱,可以讓用戶對(duì)預(yù)測(cè)的結(jié)果進(jìn)行再次判斷,從而判斷預(yù)測(cè)結(jié)果是否可靠;第三欄是預(yù)測(cè)概率值,能夠以數(shù)據(jù)的形式向用戶直觀展示預(yù)測(cè)的可信度,供用戶參考。

    HPO樹(shù)狀結(jié)構(gòu)圖展示功能主要用于可視化HPO的樹(shù)狀層級(jí)結(jié)構(gòu),使用了JavaScript語(yǔ)言進(jìn)行編寫(xiě),能夠?qū)崿F(xiàn)網(wǎng)頁(yè)與用戶進(jìn)行交互的操作,可以通過(guò)點(diǎn)擊模型預(yù)測(cè)出的HPO字段來(lái)展示該HPO對(duì)應(yīng)的祖先節(jié)點(diǎn)的樹(shù)狀結(jié)構(gòu)和孩子節(jié)點(diǎn)的樹(shù)狀結(jié)構(gòu)。當(dāng)懸浮在樹(shù)狀結(jié)構(gòu)的HPO上時(shí),會(huì)以彈窗形式展示HPO的編號(hào)和對(duì)應(yīng)名稱等詳細(xì)信息,幫助用戶篩選預(yù)測(cè)HPO的祖先節(jié)點(diǎn)或孩子節(jié)點(diǎn)是否有著更恰當(dāng)?shù)腍PO標(biāo)準(zhǔn)化術(shù)語(yǔ)。

    3基于用戶反饋的臨床表型語(yǔ)料收集的Web交互系統(tǒng)

    雖然已有模型在臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化任務(wù)方面取得了不錯(cuò)的效果,但是若要讓模型不斷優(yōu)化和進(jìn)步,仍然需要付出更多的努力。為了模型訓(xùn)練,要標(biāo)注大量的語(yǔ)料,通過(guò)對(duì)比研究發(fā)現(xiàn),訓(xùn)練語(yǔ)料的多少對(duì)模型有著非常重要的影響。而我們知道,語(yǔ)料標(biāo)注的代價(jià)是巨大的,并且臨床表型術(shù)語(yǔ)相關(guān)的語(yǔ)料又很匱乏,英文僅包含HPO,GSC+和68?ID語(yǔ)料庫(kù),中文更是沒(méi)有相關(guān)的HPO注釋的語(yǔ)料。因此,如何減少標(biāo)注的成本,一直是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)者需要面對(duì)的一大難題。由于序列數(shù)據(jù)的復(fù)雜性較高,標(biāo)注的工作更加困難,針對(duì)以上問(wèn)題暫時(shí)沒(méi)有更好的解決方法。針對(duì)標(biāo)注語(yǔ)料不足的問(wèn)題,近年來(lái)學(xué)者們提出了不少方法,如利用自訓(xùn)練算法構(gòu)建訓(xùn)練語(yǔ)料。為此,我們開(kāi)發(fā)了基于用戶反饋的臨床表型語(yǔ)料收集的Web交互系統(tǒng),目的在于克服現(xiàn)有技術(shù)的不足。我們開(kāi)發(fā)了一種基于用戶反饋的訓(xùn)練語(yǔ)料收集方法,代價(jià)比較小,卻能達(dá)到更好的效果。

    基于用戶反饋的臨床表型語(yǔ)料收集的Web交互系統(tǒng)主要包括三個(gè)部分,即標(biāo)準(zhǔn)化模塊、用戶反饋結(jié)果、語(yǔ)料庫(kù)重新訓(xùn)練(圖1)。主要流程如下:首先用戶通過(guò)Server欄目的預(yù)測(cè)板塊輸入需要預(yù)測(cè)的文本,這些文本通過(guò)txt的形式保存到服務(wù)器,接下來(lái)服務(wù)器把該txt文件作為標(biāo)準(zhǔn)化模型的輸入經(jīng)過(guò)模型預(yù)測(cè)后返回給用戶預(yù)測(cè)的結(jié)果。當(dāng)用戶接收到信息之后,會(huì)根據(jù)信息結(jié)果的不同進(jìn)行判斷,并且產(chǎn)生不同的操作,即如果返回結(jié)果正確,用戶會(huì)通過(guò)點(diǎn)擊勾選預(yù)測(cè)結(jié)果前面的方框來(lái)進(jìn)行選擇;反之,如果判斷返回的預(yù)測(cè)結(jié)果錯(cuò)誤或者不符合預(yù)期,用戶則不會(huì)點(diǎn)擊勾選預(yù)測(cè)結(jié)果前面的方框。通過(guò)JavaScript實(shí)現(xiàn)的與用戶交互的功能,能夠使得用戶把預(yù)測(cè)正確的結(jié)果保存到服務(wù)器的數(shù)據(jù)庫(kù)上。保存到數(shù)據(jù)庫(kù)的信息主要包括用戶的ID、用戶輸入的文本、預(yù)測(cè)的時(shí)間以及相應(yīng)的語(yǔ)料標(biāo)注結(jié)果。

    通過(guò)基于用戶反饋的臨床表型語(yǔ)料收集的Web交互系統(tǒng),我們可以將標(biāo)準(zhǔn)化模塊和用戶以及語(yǔ)料庫(kù)形成完整的、不斷增加訓(xùn)練語(yǔ)料庫(kù)提升模型效果的閉環(huán)系統(tǒng),即標(biāo)準(zhǔn)化模塊進(jìn)行標(biāo)準(zhǔn)化結(jié)果的預(yù)測(cè)反饋給用戶,用戶基于JavaScript交互反饋給服務(wù)器形成更大的語(yǔ)料庫(kù),而該擴(kuò)充的語(yǔ)料庫(kù)又可以進(jìn)一步進(jìn)行訓(xùn)練,從而提升模型的魯棒性及效果。通過(guò)不斷循環(huán),該閉環(huán)系統(tǒng)更能夠最大限度地發(fā)揮出標(biāo)準(zhǔn)化模型的性能,并且為其他相關(guān)研究者提供更多的HPO標(biāo)注語(yǔ)料,從而促進(jìn)相關(guān)領(lǐng)域的發(fā)展。

    4結(jié)語(yǔ)

    本文開(kāi)發(fā)了中英文電子病歷臨床表型標(biāo)準(zhǔn)化Web系統(tǒng),并且建立了基于用戶反饋的語(yǔ)料收集系統(tǒng)。通過(guò)基于用戶反饋的臨床表型語(yǔ)料收集的Web交互系統(tǒng),我們可以將標(biāo)準(zhǔn)化模型和用戶以及語(yǔ)料庫(kù)形成完整的、不斷增加訓(xùn)練語(yǔ)料庫(kù),從而建立具有模型效果的閉環(huán)系統(tǒng)。通過(guò)不斷循環(huán),該閉環(huán)系統(tǒng)能夠最大限度地發(fā)揮出標(biāo)準(zhǔn)化模型的性能,并且為其他相關(guān)研究者提供更多的HPO標(biāo)注語(yǔ)料,減少了數(shù)據(jù)集不足的問(wèn)題,以促進(jìn)領(lǐng)域的發(fā)展。

    作者簡(jiǎn)介:

    齊磊(1997—),碩士,研究方向:自然語(yǔ)言處理。

    齊瑩瑩(1991—),本科,護(hù)師,研究方向:護(hù)理學(xué)。

    堯玉恒(1983—),碩士,工程師,研究方向:教育信息化與云計(jì)算。

    猜你喜歡
    電子病歷標(biāo)準(zhǔn)化
    標(biāo)準(zhǔn)化簡(jiǎn)述
    企業(yè)標(biāo)準(zhǔn)化管理信息系統(tǒng)
    標(biāo)準(zhǔn)化是綜合交通運(yùn)輸?shù)谋U稀庾x《交通運(yùn)輸標(biāo)準(zhǔn)化體系》
    電子病歷保全與認(rèn)證研究
    法制博覽(2016年12期)2016-12-28 13:05:51
    基于病種的全結(jié)構(gòu)化病歷模板研發(fā)與應(yīng)用
    現(xiàn)階段電子病歷問(wèn)題的探討及改革
    以標(biāo)準(zhǔn)化引領(lǐng)科技創(chuàng)新
    論汽車維修診斷標(biāo)準(zhǔn)化(上)
    住院電子病歷在我院的應(yīng)用和推廣
    電子病歷臨床信息系統(tǒng)的解決方案
    阿克苏市| 昌吉市| 长春市| 光山县| 涞源县| 灌云县| 兴山县| 凤山市| 土默特右旗| 岳阳县| 西和县| 泾阳县| 新兴县| 平塘县| 宜君县| 江孜县| 华宁县| 都兰县| 定边县| 柳江县| 梁平县| 洞口县| 响水县| 张家口市| 大庆市| 响水县| 三原县| 台州市| 台北县| 鹤壁市| 晋城| 临夏市| 天气| 岳池县| 伊春市| 余干县| 深泽县| 德州市| 永宁县| 伊金霍洛旗| 洛宁县|