• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語(yǔ)義增強(qiáng)的中醫(yī)醫(yī)案主訴匹配方法

      2024-01-27 12:37:51姜惠杰查青林
      現(xiàn)代信息科技 2023年24期
      關(guān)鍵詞:自然語(yǔ)言處理深度學(xué)習(xí)

      姜惠杰 查青林

      摘? 要:針對(duì)中醫(yī)醫(yī)案中編碼實(shí)體深層語(yǔ)義關(guān)系錯(cuò)綜復(fù)雜,因不能充分發(fā)掘文本間的語(yǔ)義信息而無(wú)法完成匹配任務(wù)以及文本特征稀疏使得計(jì)算精確度較低的問(wèn)題,提出一種基于語(yǔ)義增強(qiáng)的中醫(yī)醫(yī)案主訴文本匹配推薦模型,構(gòu)建基于注意力機(jī)制的文本深層語(yǔ)義信息學(xué)習(xí)網(wǎng)絡(luò),充分吸收可能存在于句子中各實(shí)體之間的深層語(yǔ)義關(guān)系信息,再通過(guò)向量重構(gòu)的方式進(jìn)行語(yǔ)義選擇與增強(qiáng),得到匹配推薦結(jié)果。將ERNIE模型和深度網(wǎng)絡(luò)模型相結(jié)合,用自編碼器實(shí)現(xiàn)對(duì)句向量的特征選擇和降維,更好地匹配中醫(yī)醫(yī)案領(lǐng)域?qū)嶋H任務(wù)場(chǎng)景,從而使匹配推薦結(jié)果更準(zhǔn)確有效。實(shí)驗(yàn)表明,相比其他模型,所提出的方法具有更高的匹配準(zhǔn)確率。

      關(guān)鍵詞:ERNIE模型;深度學(xué)習(xí);文本匹配;自然語(yǔ)言處理;預(yù)訓(xùn)練模型

      中圖分類號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)24-0142-05

      A Semantic Enhancement-Based Matching Method for Main Complaints in Traditional Chinese Medicine Cases

      JIANG Huijie, ZHA Qinglin

      (College of Computer Science, Jiangxi University of Chinese Medicine, Nanchang? 330004, China)

      Abstract: In response to the complex deep semantic relationships of coding entities in traditional Chinese medicine cases, the inability to complete matching tasks due to insufficient exploration of semantic information between texts, and the low computational accuracy caused by sparse text features, a semantic enhancement-based recommendation model for main complaint text matching in traditional Chinese medicine cases is proposed, and an attention mechanism-based deep semantic information learning network for texts is constructed, fully absorb the deep semantic relationship information that may exist among entities in the sentence, and then perform semantic selection and enhancement through vector reconstruction to obtain matching recommendation results. Combining the ERNIE model with the deep network model, an auto-encoder is used to achieve feature selection and dimensionality reduction of sentence vectors, better matching the actual task scenarios in the field of traditional Chinese medicine cases, and thus making the matching recommendation results more accurate and effective. Experiments have shown that the proposed method has higher matching accuracy compared to other models.

      Keywords: ERNIE model; Deep Learning; text matching; natural language processing; pre-training model

      0? 引? 言

      中醫(yī)體系是中華民族歷經(jīng)數(shù)千年時(shí)光不斷摸索得到的理論體系[1],時(shí)至今日仍是守護(hù)人民群眾健康的重要力量,在人類醫(yī)學(xué)史中發(fā)揮了不可磨滅的作用并具有牢不可破的地位。在現(xiàn)如今這個(gè)知識(shí)爆炸式增長(zhǎng)的年代,中醫(yī)亟須將計(jì)算機(jī)相關(guān)技術(shù)引入中醫(yī)研究領(lǐng)域來(lái)對(duì)中醫(yī)學(xué)加以深入探索,從而將以往的中醫(yī)臨床實(shí)踐經(jīng)驗(yàn)快速轉(zhuǎn)化成具有臨床實(shí)用價(jià)值的知識(shí),這也是中醫(yī)現(xiàn)代化進(jìn)程中不可或缺的組成部分。文本信息是知識(shí)記錄的重要載體之一,也是最廣泛保存和最容易獲取的一種數(shù)據(jù)類型[2]?,F(xiàn)存的大量中醫(yī)醫(yī)案就是其中最具代表性的一種文本,是蘊(yùn)含著極為豐富知識(shí)的寶貴財(cái)富,從這些中醫(yī)醫(yī)案文本中提取到有用的知識(shí)并應(yīng)用于中醫(yī)臨床診療中,對(duì)中醫(yī)臨床數(shù)字化具有非常重要的意義。

      隨著硬件技術(shù)和人工智能算法水平的不斷發(fā)展進(jìn)步,使對(duì)名老中醫(yī)在行醫(yī)過(guò)程中不斷積累的中醫(yī)醫(yī)案數(shù)據(jù)的分析處理與知識(shí)挖掘變成可能。名老中醫(yī)的醫(yī)案數(shù)據(jù)中包含了許多行醫(yī)中的詳細(xì)內(nèi)容,具有極高的專業(yè)價(jià)值,是中醫(yī)領(lǐng)域內(nèi)的寶貴財(cái)富。新一代的中醫(yī)醫(yī)生可以從相識(shí)的案例中了解和學(xué)習(xí)名老中醫(yī)的行醫(yī)思路與處理方法,對(duì)自身的學(xué)習(xí)成長(zhǎng)有著較高的參考價(jià)值。然而,由于現(xiàn)存中醫(yī)醫(yī)案的存量巨大,結(jié)構(gòu)和內(nèi)容也不盡相同,人工翻閱學(xué)習(xí)所花費(fèi)的時(shí)間太長(zhǎng),難以高效利用大量中醫(yī)醫(yī)案文本的醫(yī)學(xué)思想價(jià)值。

      本文從現(xiàn)有的大量名老中醫(yī)醫(yī)案數(shù)據(jù)出發(fā),分析醫(yī)案主訴特點(diǎn),選擇較好的匹配方法。為實(shí)現(xiàn)相似醫(yī)案匹配這一重要任務(wù),將文本匹配問(wèn)題轉(zhuǎn)換為二分類問(wèn)題來(lái)處理,將ERNIE和經(jīng)典深度學(xué)習(xí)模型相結(jié)合,來(lái)充分提取并學(xué)習(xí)兩段醫(yī)案文本的特征并計(jì)算出兩段短文本的相似程度,最終給出匹配結(jié)論。經(jīng)過(guò)實(shí)驗(yàn)分析,多模型結(jié)果融合的中醫(yī)醫(yī)案主訴文本匹配方法所達(dá)到的精確率可以滿足中醫(yī)臨床診療需求,是一種具有充分可行性的解決方案。

      1? 綜? 述

      文本匹配[3]一直都是自然語(yǔ)言處理(Natural Language Processing, NLP)領(lǐng)域一個(gè)基礎(chǔ)且重要的方向,其主要的研究?jī)?nèi)容是兩段文本之間的關(guān)系。在過(guò)去的十幾年間,基于神經(jīng)網(wǎng)絡(luò)模型的處理方法在許多NLP任務(wù)中逐漸變得流行。相比于更早期常用的基于統(tǒng)計(jì)學(xué)的處理方法,深度神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練時(shí)不再需要人工介入確定特征表示,解放了人力的同時(shí)降低了研究門檻;可以端對(duì)端訓(xùn)練得到結(jié)果,進(jìn)一步減少了研究成本便于快速推廣應(yīng)用,具有非常明顯的優(yōu)勢(shì)。在基于神經(jīng)網(wǎng)絡(luò)的模型研究方面,后續(xù)的大量研究的主要方向是在特征向量后面追加更多其他特征信息來(lái)提高神經(jīng)網(wǎng)絡(luò)模型的效果。通常情況下,文本匹配任務(wù)有兩個(gè)主要的解決思路:做分類任務(wù)處理,作回歸問(wèn)題處理。一些我們所熟知的自然語(yǔ)言處理下游任務(wù)都可以近似看作文本匹配任務(wù)。

      文本匹配自從概念被提出以來(lái)就注定是一項(xiàng)非常重要且困難的自然語(yǔ)言處理技術(shù),尤其是其與不同的具體應(yīng)用領(lǐng)域相結(jié)合的遷移應(yīng)用。十幾年來(lái),這一自然語(yǔ)言處理技術(shù)已經(jīng)在人們?nèi)粘I钪懈鞔蟪R婎I(lǐng)域都有了成熟發(fā)展和廣泛運(yùn)用,而其與中醫(yī)領(lǐng)域的深度融合與應(yīng)用仍處于較為初始的發(fā)展階段[4]。在國(guó)外的應(yīng)用方面,Google公司將該技術(shù)應(yīng)用到了其旗下的搜索引擎[5]產(chǎn)品服務(wù)中,從海量數(shù)據(jù)中檢索出與用戶的搜索內(nèi)容相關(guān)的內(nèi)容。在國(guó)內(nèi)的應(yīng)用方面,許多電商公司將其應(yīng)用到智能客服[6,7]的服務(wù)中,優(yōu)先對(duì)用戶提出的問(wèn)題做相似問(wèn)題匹配,并檢索該問(wèn)題答案同時(shí)給用戶做出相應(yīng)的回答,不但可以大大提升問(wèn)題解決的效率,也能減少電商公司的人員成本,提升公司的利潤(rùn)。伴隨著軟硬件條件的不斷完善,深度學(xué)習(xí)在算法層面也飛速發(fā)展,加上GPU算力的飛速提升,文本匹配相關(guān)技術(shù)也得以隨之迭代升級(jí)。根據(jù)神經(jīng)網(wǎng)絡(luò)模型處理文本匹配任務(wù)的模型整體架構(gòu)來(lái)劃分,可以將深度學(xué)習(xí)算法模型解決問(wèn)題的模式歸納為兩個(gè)思路:基于表示的模型和基于交互的模型[8,9]。

      其中,基于表示的模型處理這一問(wèn)題的基本思路是:分別用兩個(gè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)兩段文本的特征向量表示,然后將兩段文本的特征向量進(jìn)行拼接,并將拼接后的向量輸入到模型的分類器中進(jìn)行一次二分類操作,就可以得到最終匹配結(jié)果。Huang[10]等人提出了一種類文本語(yǔ)義空間模型,利用兩個(gè)前饋神經(jīng)網(wǎng)絡(luò)分別將兩段文本向量投影到潛在語(yǔ)義空間中,并分別計(jì)算得到兩段文本在空間中的表示向量,最終將計(jì)算結(jié)果向量接入到一個(gè)多層感知機(jī)中來(lái)處理并進(jìn)行預(yù)測(cè)得到最終結(jié)論。范旭民[11]和梁圣[12]兩人分別使用CNN模型和RNN模型來(lái)分別學(xué)習(xí)兩段文本的低維特征表示向量,較之一般的前饋神經(jīng)網(wǎng)絡(luò)模型,這些改進(jìn)模型可以更好地學(xué)習(xí)兩段文本中的上下文信息。

      此外,基于交互的模型處理這一問(wèn)題的基本思路是:側(cè)重關(guān)注兩段文本之間的語(yǔ)義交互特征,生成文本匹配矩陣并提取出兩段文本的語(yǔ)義交互特征向量,再將結(jié)果輸入到一個(gè)全連接層中來(lái)計(jì)算得到文本匹配結(jié)果。金麗嬌等人[13]將兩段文本的低層文本匹配矩陣看作圖像進(jìn)行處理,然后再利用CNN模型來(lái)進(jìn)行逐層卷積計(jì)算,在此過(guò)程中就可以抽取到更多文本特征用以完成文本匹配任務(wù)。

      近幾年來(lái),在上述第二種處理思路的基礎(chǔ)之上,基于預(yù)訓(xùn)練模型的文本匹配模型受到了更加廣泛地關(guān)注和應(yīng)用。2018年,Devlin等人[14]提出了一種全新的語(yǔ)言模型預(yù)訓(xùn)練方法BERT,在許多經(jīng)典的自然語(yǔ)言處理下游任務(wù)中都得到了十分出色的效果,使神經(jīng)網(wǎng)絡(luò)模型在各種任務(wù)中的效果很大提升,極大地推動(dòng)了自然語(yǔ)言處理技術(shù)的發(fā)展。該方法利用大規(guī)模的無(wú)監(jiān)督文本語(yǔ)料訓(xùn)練了一個(gè)通用的語(yǔ)義理解模型。這一預(yù)訓(xùn)練模型相較于先前常用的文本表示方法效果更加優(yōu)越,主要原因是BERT模型是第一個(gè)使用無(wú)監(jiān)督、深度雙向編碼方法[15]的預(yù)訓(xùn)練語(yǔ)言模型。不需要使用大量人力去標(biāo)注訓(xùn)練文本的同時(shí)模型可以從文本中獲取到更加豐富的語(yǔ)義特征和句法特征等文本底層知識(shí)。BERT模型中的重要特征獲取方法是一種被稱為Attention機(jī)制[16]的網(wǎng)絡(luò)模型結(jié)構(gòu),注意力機(jī)制相較于一般的深度學(xué)習(xí)方法有著更強(qiáng)大的特征提取能力。2019年,Sun等人[17]提出了一種知識(shí)增強(qiáng)的語(yǔ)義表示模型ERNIE,通過(guò)對(duì)句子文本中的語(yǔ)義信息進(jìn)行遮蓋,使得模型能夠獲取到更加完整的語(yǔ)義特征信息,ERNIE 1.0模型在中文語(yǔ)言處理中采用了以詞為基礎(chǔ)的嵌入處理,可以使在中文文本中學(xué)習(xí)到的語(yǔ)義信息更加完整。此后,ERNIE 3.0[18]等更優(yōu)的模型也爭(zhēng)相問(wèn)世。預(yù)訓(xùn)練模型領(lǐng)域也逐漸百花齊放。

      雖然深度神經(jīng)網(wǎng)絡(luò)模型在中文語(yǔ)言環(huán)境下的文本匹配任務(wù)上發(fā)展已經(jīng)日漸成熟,但是能夠深度理解并結(jié)合中醫(yī)醫(yī)案文本的語(yǔ)言特點(diǎn),可以很好地適用于中醫(yī)醫(yī)案領(lǐng)域的文本匹配研究卻很少。

      2? 模型介紹

      2.1? ERNIE模型

      2019年誕生的ERNIE(enhanced representation through knowledge integration)模型。這一模型在很多方面有了改進(jìn)和提升,模型的主要特點(diǎn)是語(yǔ)義增強(qiáng)策略和多階段持續(xù)學(xué)習(xí),可以分階段多次訓(xùn)練來(lái)適配不同的訓(xùn)練數(shù)據(jù)和預(yù)訓(xùn)練任務(wù)。能夠通過(guò)海量通用文本的預(yù)訓(xùn)練來(lái)獲得提取文本中語(yǔ)義關(guān)系的能力,并能夠簡(jiǎn)單作為一個(gè)編碼器來(lái)使用,將初始輸入文本處理成可以進(jìn)入模型計(jì)算的語(yǔ)義嵌入向量。它通過(guò)引入三種級(jí)別的Knowledge Masking來(lái)幫助模型學(xué)習(xí)語(yǔ)言知識(shí),在多項(xiàng)下游任務(wù)的效果上超越了BERT。在模型結(jié)構(gòu)方面,它依舊采用了Transformer的Encoder部分作為模型主干進(jìn)行訓(xùn)練。

      延續(xù)了ERNIE 2.0的部分語(yǔ)言學(xué)習(xí)思路,ERNIE 3.0同樣期望通過(guò)設(shè)置多種預(yù)任務(wù)的方式輔助模型全面學(xué)習(xí)語(yǔ)言的各方面知識(shí),比如詞法知識(shí)、句法知識(shí)和語(yǔ)義信息。ERNIE 3.0期望能夠在這三種任務(wù)模式(task paradigm)中均能獲得比較好的效果,因此提出了一個(gè)通用的多模式預(yù)訓(xùn)練框架,這就是ERNIE 3.0,如圖1所示。

      圖1? ERNIE框架圖

      ERNIE 3.0的框架依舊沿用了12層Transformer編碼層作為基本模型結(jié)構(gòu),但與BERT有所區(qū)別的是,前六層采用與BERT相同的Transformer層,但在第七層自定義知識(shí)融合層BertLayerMix,首次對(duì)經(jīng)過(guò)對(duì)齊的實(shí)體向量和指稱向量求和,并將其分別傳輸給知識(shí)編碼模塊和文本編碼模塊,在剩下5層自定義知識(shí)編碼層BertLayer,分別對(duì)經(jīng)過(guò)融合了兩者信息的實(shí)體序列和文本序列使用自注意力機(jī)制編碼。模型的前五層可整體看作一個(gè)通用語(yǔ)義表示網(wǎng)絡(luò),該網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)中的基礎(chǔ)和通用的知識(shí)。模型的后面七層可整體看作一個(gè)任務(wù)語(yǔ)義表示網(wǎng)絡(luò),該網(wǎng)絡(luò)基于通用語(yǔ)義表示,學(xué)習(xí)與各種特定任務(wù)相關(guān)的知識(shí)。在學(xué)習(xí)過(guò)程中,任務(wù)語(yǔ)義表示網(wǎng)絡(luò)只學(xué)習(xí)對(duì)應(yīng)類別的預(yù)訓(xùn)練任務(wù),而通用語(yǔ)義表示網(wǎng)絡(luò)會(huì)學(xué)習(xí)所有的預(yù)訓(xùn)練任務(wù),兩者有機(jī)結(jié)合使模型性能有了一些提升。

      ERNIE 3.0的整體架構(gòu)包含兩個(gè)部分:

      通用表示模塊:使用多層的Transformer-XL,作為通用語(yǔ)義特征抽取器,其中的參數(shù)在所有類型的任務(wù)范例之間共享。

      任務(wù)特定表示模塊:也是使用的多層Transformer-X結(jié)構(gòu);其中對(duì)于NLU任務(wù)為雙向Encoder層。

      模型的具體處理過(guò)程可以表示為:

      output = Norm(x + R(x))

      MultiHead(Q,K,V) = Concat(head1,…,headH)W 0

      headi = Attention(,,)

      式中,R為上一個(gè)Encode層的殘差,Norm為歸一化函數(shù);Q為查詢矩陣,K為鍵矩陣,V為值矩陣;W為矩陣的變換矩陣;H為注意力頭數(shù),并行多個(gè)注意力頭同時(shí)捕獲文本中的特征子空間信息。

      2.2? 自編碼模型

      自編碼模型(Auto-encoding Model, AE),是一種有效的數(shù)據(jù)維度壓縮算法。通過(guò)破壞的文本向量序列來(lái)重建原始數(shù)據(jù)進(jìn)行訓(xùn)練,使輸出層盡可能如實(shí)地重構(gòu)輸入樣本信息。具體過(guò)程表示如下:

      hi = σe(Wi x + bi)

      yj = σd(Wj x + bj)

      式中,Wi、bi為編碼層的權(quán)重和偏置,Wj、bj為解碼層的權(quán)重和偏置。

      將上一小節(jié)中ERNIE 3.0等模型編碼的句向量分別輸入自編碼層,并經(jīng)過(guò)本模型特征篩選和池化等處理操作,輸出最終向量,經(jīng)過(guò)全連接層連接和Softmax分類器,輸入到輸出層得到計(jì)算結(jié)果,最后就可以輸出匹配結(jié)果。其結(jié)構(gòu)如圖2所示。

      圖2? 自編碼器結(jié)構(gòu)

      2.3? ERNIE-AE模型建立過(guò)程

      ERNIE-AE模型如圖3所示。

      圖3? ERNIE-AE模型圖

      模型的處理過(guò)程如下:

      1)數(shù)據(jù)加工。對(duì)自建的名老中醫(yī)醫(yī)案數(shù)據(jù)集主訴數(shù)據(jù)進(jìn)行數(shù)據(jù)處理。

      2)輸入嵌入層。先分別將句子對(duì)中的字或詞處理成編碼序列,再經(jīng)過(guò)輸入層的映射得到輸入向量輸入到不同的特征提取層。

      3)ERNIE模型的特征提取層。將前一部分所得到的詞嵌入向量分別輸入到改進(jìn)的BERT和ERNIE模型中,融合淺層或深層知識(shí),得到文本的特征表示向量。

      4)特征選擇與池化層。將ERNIE預(yù)訓(xùn)練網(wǎng)絡(luò)層得到的特征表示輸入到自編碼器中,通過(guò)對(duì)特征的降維重構(gòu)來(lái)進(jìn)行重要特征選擇,提升預(yù)測(cè)效果。

      5)匹配和輸出層。將上一部分經(jīng)過(guò)全連接層得到的句向量輸入到匹配層Softmax分類器中,經(jīng)過(guò)模型計(jì)算完成匹配,并經(jīng)過(guò)輸出層得到最終的推薦結(jié)果。

      3? 實(shí)驗(yàn)及結(jié)果分析

      3.1? 實(shí)驗(yàn)數(shù)據(jù)

      為了評(píng)估模型性能,本文將提出的模型在自建的名老中醫(yī)醫(yī)案主訴數(shù)據(jù)集上進(jìn)行相應(yīng)的實(shí)驗(yàn)與評(píng)估。該數(shù)據(jù)集是由名老中醫(yī)醫(yī)案數(shù)據(jù)集是根據(jù)全國(guó)名老中醫(yī)真實(shí)臨床診斷的醫(yī)案,包括2萬(wàn)余個(gè)病例的中醫(yī)醫(yī)案文本共計(jì)6萬(wàn)余診次,均為UTF-8編碼格式的純文本。

      數(shù)據(jù)集中共生成了69 181對(duì)文本的相似性標(biāo)簽作為基礎(chǔ)實(shí)驗(yàn)數(shù)據(jù),其中49 180條作為訓(xùn)練集,14 001條作為驗(yàn)證集,6 000條作為測(cè)試集,文本長(zhǎng)度在7到128之間。

      如表1所示為名老中醫(yī)醫(yī)案數(shù)據(jù)集的統(tǒng)計(jì)信息。

      表1? 名老中醫(yī)醫(yī)案數(shù)據(jù)集信息? ? ?單位:條

      數(shù)據(jù)集劃分 訓(xùn)練集 驗(yàn)證集 測(cè)試集

      數(shù)量 49 180 14 001 6 000

      3.2? 實(shí)驗(yàn)環(huán)境

      所有實(shí)驗(yàn)均使用同一云計(jì)算環(huán)境。實(shí)驗(yàn)環(huán)境如表2所示,實(shí)驗(yàn)文本編碼格式為UTF-8。

      表2? 實(shí)驗(yàn)環(huán)境配置

      實(shí)驗(yàn)環(huán)境 環(huán)境配置

      CPU Intel Xeon CPU E5-2680 v4 @ 2.40 GHz

      內(nèi)存容量 32 GB

      算力卡型號(hào) NVIDIA Tesla V100

      顯存容量 32 GB

      深度學(xué)習(xí)框架 PaddlePaddle、PyTorch

      Python版本 3.7.4

      模型的部分超參數(shù)如表3所示。

      3.3? 評(píng)價(jià)指標(biāo)

      實(shí)驗(yàn)用了文本分類中常用的評(píng)價(jià)指標(biāo):精確率(Precision)、召回率(Recall)、F1值,計(jì)算式為:

      式中,TP為實(shí)際值和預(yù)測(cè)值均為1時(shí)數(shù)據(jù)的數(shù)量,F(xiàn)P為實(shí)際值為0、預(yù)測(cè)值為1時(shí)的數(shù)據(jù)數(shù)量,F(xiàn)N為實(shí)際值為1、預(yù)測(cè)值為0時(shí)數(shù)據(jù)的數(shù)量,P為精確率,R為召回率。

      3.4? 實(shí)驗(yàn)結(jié)果及分析

      為貼合實(shí)際應(yīng)用場(chǎng)景,從初診的醫(yī)案主訴中共選擇7 698條人工標(biāo)注的ICPC-3標(biāo)簽達(dá)到兩個(gè)及以上的醫(yī)案,按標(biāo)簽取出20%的醫(yī)案用作推薦測(cè)試。為了模擬推薦情景,訓(xùn)練集和驗(yàn)證集采用數(shù)據(jù)集中剩下的80%醫(yī)案主訴數(shù)據(jù)生成,而測(cè)試集由作推薦測(cè)試的部分與參與訓(xùn)練和驗(yàn)證的部分按標(biāo)簽組合生成,適當(dāng)調(diào)整以保證各數(shù)據(jù)集標(biāo)簽分布均勻。

      將數(shù)據(jù)集分別輸入模型中進(jìn)行訓(xùn)練,統(tǒng)一設(shè)置訓(xùn)練輪次為5。訓(xùn)練結(jié)束后使用測(cè)試集進(jìn)行測(cè)試并輸出實(shí)驗(yàn)結(jié)果。模型迭代準(zhǔn)確率如圖4所示。

      BERT、ERNIE-GRAM、ERNIE-AE和S-LSTM四個(gè)模型在名老中醫(yī)醫(yī)案數(shù)據(jù)集上的語(yǔ)義匹配評(píng)測(cè)結(jié)果如表4所示,使用的主要指標(biāo)是精確率及F1值。

      從最終實(shí)驗(yàn)結(jié)果中可以看出,ERNIE-AE模型的精確率及F1值結(jié)果相較于BERT模型、ERNIE-GRAM模型更優(yōu)。ERNIE-AE模型的性能優(yōu)于BERT模型,主要原因是ERNIE-AE模型優(yōu)化了語(yǔ)義學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí)增加了預(yù)訓(xùn)練的樣本數(shù)量,ERNIE模型本身就是在BERT模型的基礎(chǔ)上進(jìn)行改進(jìn)的結(jié)果,擁有許多BERT模型所沒有的優(yōu)勢(shì)。ERNIE-AE模型的性能優(yōu)于ERNIE-GRAM模型,主要原因是ERNIE-AE模型采取了更先進(jìn)的預(yù)訓(xùn)練模式,使用了改進(jìn)的學(xué)習(xí)網(wǎng)絡(luò),相較于之前的訓(xùn)練方式有著更好的效果。

      4? 結(jié)? 論

      在解決中醫(yī)醫(yī)案匹配推薦任務(wù)存在的難點(diǎn)時(shí),提出一種基于ERNIE-AE的醫(yī)案匹配推薦模型,利用ERNIE預(yù)訓(xùn)練模型初步提取醫(yī)案中的淺層及深層語(yǔ)義信息,將輸出的稀疏特征結(jié)果作為自編碼器的輸入進(jìn)行二次提取,可以將稀疏的特征向量簡(jiǎn)化,使匹配結(jié)果更加準(zhǔn)確。

      實(shí)驗(yàn)結(jié)果表明,ERNIE-AE模型在中醫(yī)醫(yī)案數(shù)據(jù)集上比其他對(duì)比模型具更高的準(zhǔn)確率和穩(wěn)定性,匹配性能也更強(qiáng)。能夠有效輔助基層醫(yī)生進(jìn)行臨床治療,是一種行之有效的解決方案。

      參考文獻(xiàn):

      [1] 曹軍.面向中醫(yī)藥文本的實(shí)體識(shí)別與關(guān)系抽取方法研究 [D].南昌:江西中醫(yī)藥大學(xué),2022.

      [2] 杜小勇.數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論 [M].北京:人民郵電出版社,2021.

      [3] 龐亮,蘭艷艷,徐君,等.深度文本匹配綜述 [J].計(jì)算機(jī)學(xué)報(bào),2017,40(4):985-1003.

      [4] 劉新靜.基于改進(jìn)BERT模型的短文本分類方法研究 [J].山東:曲阜師范大學(xué),2021,17(27):13-14+20.

      [5] 趙一鳴,劉炫彤.中外文搜索引擎自然語(yǔ)言問(wèn)答能力的比較與評(píng)價(jià)研究 [J].情報(bào)科學(xué),2020,38(1):67-74.

      [6] 鄭實(shí)福,劉挺,秦兵,等.自動(dòng)問(wèn)答綜述 [J].中文信息學(xué)報(bào),2002(6):46-52.

      [7] 劉明博.基于分布式的智能問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) [D].北京:北京郵電大學(xué),2018.

      [8] SHA L,CHANG B B,SUI Z F,et al. Reading and Thinking: Re-read LSTM Unit for Textual Entailment Recognition [C]//Proceedings of International Conference on Computational Linguistics.Osaka:[s.n.],2016.

      [9] PAUL R,ARKIN J,AKSARAY D,et al. Efficient Grounding of Abstract Spatial Concepts for Natural Language Interaction with Robot Manipulators [EB/OL].[2023-03-28].https://www.roboticsproceedings.org/rss12/p37.pdf.

      [10] HUANG P S,HE X D,GAO J F,et al. Learning deep structured semantic models for web search using clickthrough data: Proceedings of the 22nd ACM international conference on Information & Knowledge Management [C]//CIKM'13: Proceedings of the 22nd ACM international conference on Information & Knowledge Management.San Francisco:Association for Computing Machinery,2013:2333-2338.

      [11] 范旭民.基于卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的文檔自動(dòng)問(wèn)答模型 [D].杭州:浙江大學(xué),2018.

      [12] 梁圣.基于RNN的試題相似性檢測(cè)與分類研究 [D].株洲:湖南工業(yè)大學(xué),2018.

      [13] 金麗嬌,傅云斌,董啟文.基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)問(wèn)答 [J].華東師范大學(xué)學(xué)報(bào):自然科學(xué)版,2017(5):66-79.

      [14] DEVLIN J,CHANG M W,LEE K,et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].[2023-03-28].https://arxiv.org/abs/1810.04805v2.

      [15] RADFORD A,NARASIMHAN K,SALIMANS T,et al. Improving Language Understandingby Generative Pre-Training [EB/OL].[2023-03-28].https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.

      [16] VASWANI A,SHAZEER N,PARMAR N,et al. Attention Is All You Need [J/OL].arXiv:1706.03762 [cs.CL].[2023-03-29].https://arxiv.org/abs/1706.03762.

      [17] SUN Y,WANG S H,LI Y K,et al. ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [J/OL].arXiv:1904.09223 [cs.CL].[2023-03-29].https://arxiv.org/abs/1904.09223.

      [18] SUN Y,WANG S H,F(xiàn)ENG S K,et al. Ernie 3.0: Large-scale knowledge enhanced pre-training for language understanding and generation [J/OL].arXiv:2107.02137 [cs.CL].[2023-03-29].https://arxiv.org/abs/2107.02137.

      作者簡(jiǎn)介:姜惠杰(1996—),男,漢族,山東煙臺(tái)人,碩士研究生在讀,研究方向:自然語(yǔ)言處理;通訊作者:查青林(1973—),男,漢族,江西上饒人,教授,碩士生導(dǎo)師,碩士研究生,研究方向:中醫(yī)信息學(xué)。

      收稿日期:2023-04-28

      基金項(xiàng)目:江西省科技廳重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(20171ACG70011)

      猜你喜歡
      自然語(yǔ)言處理深度學(xué)習(xí)
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
      詞向量的語(yǔ)義學(xué)規(guī)范化
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      前郭尔| 镇平县| 洮南市| 永胜县| 吉木萨尔县| 扎囊县| 英超| 禹城市| 河津市| 莱阳市| 绥阳县| 鸡泽县| 东明县| 石阡县| 南木林县| 原平市| 河间市| 舒兰市| 平昌县| 鹤壁市| 洛宁县| 措美县| 北辰区| 西宁市| 吴堡县| 万州区| 报价| 汕头市| 永顺县| 棋牌| 临朐县| 永吉县| 炉霍县| 平度市| 肥东县| 昭平县| 普洱| 雷州市| 新沂市| 邵东县| 平定县|