• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    循證醫(yī)學(xué)RCT文獻自動識別研究

    2020-03-15 10:15:08姚攀
    現(xiàn)代計算機 2020年4期
    關(guān)鍵詞:超平面自動識別生物醫(yī)學(xué)

    姚攀

    (四川大學(xué)計算機學(xué)院,成都 610065)

    0 引言

    隨著醫(yī)學(xué)的不斷發(fā)展,當(dāng)前的醫(yī)療模式逐步從傳統(tǒng)的經(jīng)驗醫(yī)學(xué)向循證醫(yī)學(xué)(EBM)轉(zhuǎn)變[1],循證醫(yī)學(xué)將醫(yī)生的臨床經(jīng)驗、患者自身的實際情況、當(dāng)前最佳臨床證據(jù)三者相結(jié)合,綜合考慮為患者制定最佳的科學(xué)診療方案。循證醫(yī)學(xué)的目標(biāo)是在現(xiàn)有高質(zhì)量證據(jù)的基礎(chǔ)上改善醫(yī)療結(jié)果,最佳證據(jù)來源于現(xiàn)存的醫(yī)學(xué)文獻,以證據(jù)為基礎(chǔ)的指導(dǎo)方針和政策才不會輕易地被以經(jīng)驗為導(dǎo)向的臨床判斷所干擾,而隨機對照試驗類文獻被認為是高質(zhì)量的證據(jù)文獻[2]。隨機對照試驗是驗證醫(yī)療干預(yù)效果的金標(biāo)準(zhǔn),對干預(yù)以及對照進行了實驗記錄,它描述了試驗結(jié)果及結(jié)論等,為臨床醫(yī)學(xué)提供了有力的證據(jù)支持和科學(xué)的臨床科研設(shè)計。醫(yī)學(xué)工作者通過隨機對照試驗類文獻不僅能有針對性的制定相關(guān)治療方案、做出相關(guān)指導(dǎo)方針,而且有助于醫(yī)學(xué)系統(tǒng)評價(systematic review)、meta分析、臨床決策等相關(guān)研究的完善。

    現(xiàn)有的隨機對照試驗類文獻主要由生物醫(yī)學(xué)文獻數(shù)據(jù)庫(如:MEDLINE數(shù)據(jù)庫,中國生物醫(yī)學(xué)文獻數(shù)據(jù)庫)的工作人員手工標(biāo)注,將其打上RCT類標(biāo)簽。當(dāng)醫(yī)學(xué)工作者查閱相關(guān)問題的隨機對照試驗文獻的時候,可通過RCT標(biāo)簽過濾這類文獻。但相關(guān)研究發(fā)現(xiàn),由于文獻數(shù)量快速增長及標(biāo)注難度大等不確定性因素,使得MEDLINE數(shù)據(jù)中隨機對照試驗文獻的標(biāo)注質(zhì)量存在一定問題,其遺漏掉了15%的隨機對照試驗文獻[3]。由于隨機對照試驗文獻篩選的過程嚴(yán)格,且需要極高靈敏度,使得醫(yī)學(xué)人員耗費大量的時間與精力對相關(guān)問題的文獻進行閱讀篩選。因此,通過自然語言處理技術(shù)與機器學(xué)習(xí)算法對隨機對照試驗文獻自動識別,不僅有助于循證醫(yī)學(xué)發(fā)展,而且促進了醫(yī)學(xué)信息檢索的發(fā)展。

    1 研究內(nèi)容及現(xiàn)狀

    循證醫(yī)學(xué)作為一種新的醫(yī)療模式,利用最佳的臨床證據(jù)為基礎(chǔ)進行醫(yī)療決策,需要醫(yī)學(xué)工作者帶著臨床問題進行文獻檢索,對檢索結(jié)果進行進一步篩選,尋找有價值的文獻證據(jù)。隨機對照試驗類文獻作為高質(zhì)量的主要證據(jù)載體,在海量的生物醫(yī)學(xué)文獻中僅占很小的比例[4],想要查詢相關(guān)醫(yī)學(xué)證據(jù)絕非易事?,F(xiàn)有生物醫(yī)學(xué)文獻數(shù)據(jù)庫對文獻標(biāo)注RCT類別的標(biāo)簽,如:MEDLINE、中國生物醫(yī)學(xué)文獻數(shù)據(jù)庫,但有相關(guān)研究發(fā)現(xiàn)MEDLINE中標(biāo)注的隨機對照試驗文獻存在7%的錯誤,而且漏掉了15%的隨機對照試驗文獻[3]。循證醫(yī)學(xué)相關(guān)的Cochrane網(wǎng)站發(fā)起了隨機對照試驗人工篩選項目,由志愿者篩選出主要來自MEDLINE與EMBASE醫(yī)學(xué)數(shù)據(jù)庫及臨床研究注冊平臺CT的隨機對照臨床試驗[5],篩選出的隨機對照試驗文獻具有高質(zhì)量,但是需要耗費極大的人力成本。

    現(xiàn)有對文獻人工標(biāo)注RCT類標(biāo)簽的做法耗時費力,因此,有研究者們通過機器學(xué)習(xí)與自然語言處理技術(shù)自動識別隨機對照試驗類文獻,并且已經(jīng)取得一定成果。目前,在Cochrane合作組織所積累的工作基礎(chǔ)上,Wallace等人總共選用了Cochrane Library數(shù)據(jù)庫中的標(biāo)注數(shù)據(jù)(包含RCT陽性實例,以及非RCT陰性實例),對其使用的線性內(nèi)核支持向量機(Support Vector Machine,SVM)不斷進行訓(xùn)練、調(diào)試和測試,最終得到了能夠減少60%-80%無關(guān)文獻、檢出98%的隨機對照試驗?zāi)P蚚6]。近年來也有相關(guān)研究嘗試將文獻分為RCT與非RCT兩類,如Cohen等人利用MEDLINE數(shù)據(jù)庫中標(biāo)注RCT標(biāo)簽的文獻作為正例,其他作為負例,利用N-gram表示標(biāo)題摘要的信息,通過支持向量機(SVM)模型對RCT類文獻進行識別,最后根據(jù)其與超平面距離轉(zhuǎn)化所得置信度高低排序[3]。隨著深度學(xué)習(xí)在自然語言處理應(yīng)用上的興起,Marshall等人利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對隨機對照試驗文獻進行識別,最后按照RCT類別置信度進行排序篩選[4]。相比SVM方法利用專業(yè)背景知識構(gòu)造特征主觀性較強且工作量大,深度學(xué)習(xí)方法不僅具有自動捕獲特征的優(yōu)勢,而且神經(jīng)網(wǎng)絡(luò)詞向量的引入有助于模型編碼更好語義信息,好的文本語義表達促進模型更好地識別隨機對照試驗文獻。隨機對照試驗文獻的篩選要求高的靈敏度,目前的算法用于隨機對照試驗篩選普遍能夠達到靈敏度95%以上,特異度在30%~70%之間,算法自動篩選的不同評估方法相繼出現(xiàn),使得RCT文獻自動識別任務(wù)也日趨完善。

    2 RCT文獻自動識別方法

    為了進行RCT文獻的自動識別,首先需要對已有的文獻信息進行預(yù)處理,獲取文獻的特征信息,最后利用這些特征表達進行RCT類的預(yù)測,如從圖1所示?,F(xiàn)有RCT文獻自動識別方法采用的文獻數(shù)據(jù),主要來自生物醫(yī)學(xué)文獻數(shù)據(jù)庫(如:MEDLINE)或其他人工標(biāo)注有RCT類標(biāo)簽標(biāo)區(qū)分的數(shù)據(jù),所導(dǎo)出的文獻數(shù)據(jù)保留了標(biāo)題、摘要、作者、Mesh等信息?,F(xiàn)有方法通過預(yù)測文獻是隨機對照試驗的可能性,并基于置信度進行排序篩選。目前,針對隨機對照試驗文獻的自動識別主要有支持向量機(SVM)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)兩種做法。

    圖1 RCT文獻識別流程

    2.1 支持向量機自動識別RCT

    支持向量機(SVM)已被證明在許多機器學(xué)習(xí)任務(wù)均能取得很好效果,可應(yīng)用于自然語言處理等相關(guān)應(yīng)用。支持向量機方法的目標(biāo)是構(gòu)建一個超平面,該平面將在特征空間中的樣例的相應(yīng)類分開,而支持向量機僅利用部分樣例來確定超平面即可。

    使用線性支持向量機模型可進行文本分類[7],通常通過BOW編碼文本信息(標(biāo)題、摘要等信息)進行表示。這種方法抽象表示文獻為一個高維稀疏的向量,其中向量的每個索引位置對應(yīng)一個特定詞(unigram)或一組相鄰詞(bigram)或其他條件特征,并且僅當(dāng)文獻中出現(xiàn)了對應(yīng)維度的特征,其表達才為非零。線性核支持向量機進行RCT識別的目標(biāo)是在這個高維空間中識別一個超平面,該超平面最后用于將RCT與非RCT類別的文本分開。

    研究者利用SVM確定的最佳超平面,進一步將樣本到超平面的有符號距離轉(zhuǎn)換為RCT類別概率的置信度做預(yù)測分析,設(shè)定閾值篩選RCT文獻[3]。

    2.2 卷積神經(jīng)網(wǎng)絡(luò)自動識別RCT

    隨著深度學(xué)習(xí)的興起,許多深度學(xué)習(xí)模型被證明在自然語言處理應(yīng)用中優(yōu)于其他的統(tǒng)計模型。卷積神經(jīng)網(wǎng)絡(luò)(CNN)[8],在文本分類[9,10]和生物醫(yī)學(xué)文本分類(特別是生物醫(yī)學(xué)文本分類)任務(wù)中取得了很好的結(jié)果。CNN方法通過自動捕獲文本特征,代替了BOW編碼,用相對低維連續(xù)向量來表示詞(詞嵌入)。對于詞的向量形式表達學(xué)習(xí),可使用大量未標(biāo)記的數(shù)據(jù)進行詞嵌入預(yù)訓(xùn)練。

    對于一篇隨機對照試驗類文獻,在標(biāo)題摘要部分會對試驗進行簡述,對于判斷文獻類型也是最為重要

    的。有研究者通過TextCNN方法進行隨機對照試驗文獻識別,利用文獻的標(biāo)題和摘要信息作詞嵌入,形成一個詞矩陣,其維數(shù)分別為詞的個數(shù)以及詞嵌入大小[4]。卷積神經(jīng)網(wǎng)絡(luò)模型通過不同大小的filter進行卷積操作,滑動窗口從文本開頭向下移動,在相鄰詞嵌入上傳遞由相應(yīng)權(quán)重向量參數(shù)化的過濾器filter。每個filter將產(chǎn)生與輸入文本長度成比例的大小的標(biāo)量輸出向量。然后在每個輸出向量上進行最大池化合并來提取特征。然后,每個濾波器最終將生成單個標(biāo)量輸出,將它們連接起來形成整個摘要的向量表示,與預(yù)測的輸出層做全連接。最后,通過輸出層的RCT類別置信度預(yù)測文獻是否為RCT文獻。

    2.3 評價指標(biāo)

    為了評價模型對隨機對照試驗文獻的識別性能,采用了多種指標(biāo)結(jié)合評價。針對模型預(yù)測結(jié)果,常用的評價指標(biāo)有準(zhǔn)確率(ACC)、精確率(P)、召回率(R)、F1值,靈敏度(Sensitivity)、特異度(Specificity)。如下所示表格及公式:

    表1 混淆矩陣

    鑒于隨機對照試驗文獻自動識別要求盡量不要漏掉相關(guān)高質(zhì)量文獻,可按RCT類別閾值對置信度劃分,進一步確定其類別并評估模型性能。

    3 結(jié)語

    綜上所述,隨著生物醫(yī)學(xué)文獻的不斷增加,醫(yī)學(xué)工作者快速全面地獲取感興趣的高質(zhì)量文獻證據(jù)變得愈加困難,隨機對照試驗文獻的自動識別將能彌補醫(yī)學(xué)信息檢索的一些不足,更好地輔助醫(yī)務(wù)工作者的業(yè)務(wù)開展。針對此識別任務(wù)的模型從傳統(tǒng)機器學(xué)習(xí)向深度學(xué)習(xí)不斷發(fā)展,也使得面向循證醫(yī)學(xué)的RCT文獻自動識別成為自然語言處理領(lǐng)域中的重要研究方向。隨著RCT文獻自動識別的進一步發(fā)展,將對醫(yī)學(xué)相關(guān)的系統(tǒng)評價、META分析、醫(yī)學(xué)QA、醫(yī)學(xué)信息學(xué)等子領(lǐng)域有深遠影響。

    猜你喜歡
    超平面自動識別生物醫(yī)學(xué)
    芻議“生物醫(yī)學(xué)作為文化”的研究進路——兼論《作為文化的生物醫(yī)學(xué)》
    靈長類生物醫(yī)學(xué)前沿探索中的倫理思考
    全純曲線的例外超平面
    涉及分擔(dān)超平面的正規(guī)定則
    以較低截斷重數(shù)分擔(dān)超平面的亞純映射的唯一性問題
    國外生物醫(yī)學(xué)文獻獲取的技術(shù)工具:述評與啟示
    自動識別系統(tǒng)
    特別健康(2018年3期)2018-07-04 00:40:18
    金屬垃圾自動識別回收箱
    LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
    基于IEC61850的配網(wǎng)終端自動識別技術(shù)
    電測與儀表(2016年6期)2016-04-11 12:06:38
    黑龙江省| 巧家县| 安塞县| 连州市| 龙里县| 剑河县| 乌拉特后旗| 丹江口市| 岗巴县| 巨野县| 昭通市| 正阳县| 铁力市| 绥阳县| 吉林省| 宁武县| 虎林市| 永州市| 长葛市| 西平县| 宁陵县| 白银市| 蓬安县| 大埔区| 通山县| 海晏县| 庆城县| 岐山县| 黑河市| 徐水县| 涞水县| 民和| 文安县| 启东市| 诸暨市| 同江市| 德清县| 遂宁市| 桂林市| 奎屯市| 赣州市|