• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Transformer交互指導(dǎo)的醫(yī)患對話聯(lián)合信息抽取方法

    2024-08-15 00:00:00林致中王華珍
    計算機(jī)應(yīng)用研究 2024年8期

    摘 要:針對電子病歷構(gòu)建過程中難以捕捉信息抽取任務(wù)之間的關(guān)聯(lián)性和醫(yī)患對話上下文信息的問題,提出了一種基于Transformer交互指導(dǎo)的聯(lián)合信息抽取方法,稱為CT-JIE(collaborative Transformer for joint information extraction)。首先,該方法使用滑動窗口并結(jié)合Bi-LSTM獲取對話中的歷史信息,利用標(biāo)簽感知模塊捕捉對話語境中與任務(wù)標(biāo)簽相關(guān)的信息;其次,通過全局注意力模塊提高了模型對于癥狀實(shí)體及其狀態(tài)的上下文感知能力;最后,通過交互指導(dǎo)模塊顯式地建模了意圖識別、槽位填充與狀態(tài)識別三個任務(wù)之間的交互關(guān)系,以捕捉多任務(wù)之間的復(fù)雜語境和關(guān)系。實(shí)驗(yàn)表明,該方法在IMCS21和CMDD兩個數(shù)據(jù)集上的性能均優(yōu)于其他基線模型和消融模型,在處理聯(lián)合信息抽取任務(wù)時具有較強(qiáng)的泛化能力和性能優(yōu)勢。

    關(guān)鍵詞:聯(lián)合信息抽取; 醫(yī)患對話; 電子病歷; 多任務(wù)學(xué)習(xí)

    中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A

    文章編號:1001-3695(2024)08-010-2315-07

    doi:10.19734/j.issn.1001-3695.2023.12.0591

    CT-JIE: collaborative Transformer for joint information extractionfrom patient-doctor dialogues

    Lin Zhizhong, Wang Huazhen

    (School of Computer Science & Technology, Huaqiao University, Xiamen Fujian 361000, China)

    Abstract:Addressing the challenges of capturing the correlation between information extraction tasks and the contextual information in doctor-patient dialogues during electronic medical record construction, this paper proposed a Transformer-based collaborative information extraction method called CT-JIE(collaborative Transformer for joint information extraction). Firstly, this method utilized a sliding window combined with Bi-LSTM to acquire historical information from the dialogues and employed a label-aware module to capture task-related information in the dialogue context. Secondly, the global attention module enhanced the model’s ability to perceive the context of symptom entities and their status. Finally, the interactive guidance module explicitly modeled the interaction among intent recognition, slot filling, and status recognition tasks to capture the complex contexts and relationships among multiple tasks. Experiments demonstrate that this method outperforms other baseline and ablation models on the IMCS21 and CMDD datasets, showing strong generalization ability and performance advantages in handling joint information extraction tasks.

    Key words: joint information extraction; medical dialogues; electronic medical record; multi-task learning

    0 引言

    在現(xiàn)代醫(yī)療信息系統(tǒng)中,電子病歷(electronic medical record,EMR)作為一種重要的信息載體,廣泛應(yīng)用于醫(yī)療實(shí)踐中。電子病歷記錄了患者的臨床信息,通常包含多個條目,如主訴、現(xiàn)病史、既往史、輔助檢查、診斷和建議等。在電子病歷的構(gòu)建過程中,醫(yī)生需從醫(yī)患對話中準(zhǔn)確識別出醫(yī)學(xué)信息,判斷其所屬的條目類別并將其歸類到相應(yīng)的條目下。盡管將醫(yī)患對話轉(zhuǎn)換為電子病歷是醫(yī)生的基本職責(zé),但這一過程卻常常費(fèi)時費(fèi)力[1],還要求醫(yī)生具備較高的分析能力和歸類能力[2]。因此,電子病歷信息的自動抽取研究成為了新興的研究領(lǐng)域。

    從醫(yī)患對話中抽取電子病歷信息的過程中,醫(yī)學(xué)實(shí)體抽取主要涉及對癥狀、藥物、藥物類別等實(shí)體的準(zhǔn)確辨識,意圖識別用于將對話文本正確分類到電子病歷的條目體系之中,呈現(xiàn)出多對一的意圖-條目映射關(guān)系。與其他領(lǐng)域?qū)υ挷煌氖?,醫(yī)患對話文本具有更為復(fù)雜的實(shí)體狀態(tài)信息。實(shí)體陰陽性是基于醫(yī)患對話上下文后對實(shí)體的狀態(tài)進(jìn)行的總結(jié),其分為陽性、陰性和不確定三種類別。陽性表示患者自述已出現(xiàn)該癥狀、疾病等相關(guān)或是醫(yī)生對患者的診斷;陰性則代表患者未患有疾病、癥狀等相關(guān);而不確定則表示醫(yī)患對話中未知的實(shí)體狀態(tài)信息。以圖1中的對話為例,患者在對話中明確提到自己有咳嗽的癥狀,因此該癥狀實(shí)體的狀態(tài)為陽性。

    在傳統(tǒng)的信息抽取中,獨(dú)立處理這些任務(wù)可能導(dǎo)致信息孤立,從而忽略了它們之間的內(nèi)在關(guān)聯(lián)性。因此,采用聯(lián)合信息抽取技術(shù)成為解決這一挑戰(zhàn)的有效手段。與傳統(tǒng)的單一任務(wù)處理方法不同,聯(lián)合信息抽取技術(shù)將多個相關(guān)任務(wù)結(jié)合在一起,以便在處理文本時更好地捕捉任務(wù)之間的關(guān)聯(lián)性和上下文信息。其主要挑戰(zhàn)在于如何加強(qiáng)多個任務(wù)之間的交互,進(jìn)而利用多個任務(wù)之間的潛在信息來提升信息抽取的性能。過去的研究采用了共享編碼器的多任務(wù)框架[3,4],通過共享編碼器來同時捕捉任務(wù)之間的共享特征,從而在性能上超越了傳統(tǒng)的流水線框架。然而,這些方法雖然通過相互增強(qiáng)的方式在一定程度上提高了性能,但僅僅通過共享參數(shù)來隱式地建模任務(wù)之間的關(guān)系。文獻(xiàn)[5~7]則顯式地將意圖信息應(yīng)用于引導(dǎo)槽位填充任務(wù),取得了先進(jìn)的性能。但這些方法僅考慮了單向的信息流,未能充分挖掘多個任務(wù)之間的交互信息。

    與此同時,另一個關(guān)鍵的問題在于傳統(tǒng)的方法缺乏一種可靠的機(jī)制來有效地捕捉對話之間的上下文相關(guān)性信息,以通過對話上下文推斷實(shí)體的狀態(tài)。在醫(yī)患對話中,每一輪對話都會對任務(wù)的執(zhí)行產(chǎn)生影響,對話中的語境信息對于正確理解和抽取信息至關(guān)重要。以圖1中對話為例,醫(yī)生詢問患者“寶寶平時會打噴嚏嗎”,現(xiàn)有的醫(yī)學(xué)信息抽取模型往往只是簡單地將槽位與槽值實(shí)體抽取為(“癥狀名”“打噴嚏”),忽視了醫(yī)學(xué)實(shí)體的否定信息“不會”,可能會導(dǎo)致錯誤的信息抽取。因此,醫(yī)療領(lǐng)域的醫(yī)學(xué)實(shí)體抽取不僅需要捕獲實(shí)體的存在,還應(yīng)考慮對話句子上下文之間的關(guān)聯(lián)信息,以抽取實(shí)體的陰陽性作為實(shí)體的狀態(tài)輔助信息來準(zhǔn)確地刻畫實(shí)體的存在與否。Vaswani等人[8]提出了一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)Transformer,通過引入自注意力機(jī)制來捕捉輸入序列中各個位置之間的依賴關(guān)系,在多個自然語言處理任務(wù)中取得了突破性進(jìn)展。基于Transformer結(jié)構(gòu)的模型[9]能夠有效地處理長距離依賴關(guān)系,更好地理解輸入序列的上下文信息。

    為解決上述兩個問題,本文提出了一種基于Transformer交互指導(dǎo)的聯(lián)合信息抽取模型CT-JIE(collaborative transformer for joint information extraction)。CT-JIE模型主要由三個模塊構(gòu)成,分別為標(biāo)簽感知模塊、全局感知模塊和交互指導(dǎo)模塊。采用IMCS21與CMDD數(shù)據(jù)集來驗(yàn)證CT-JIE模型在聯(lián)合信息抽取上的有效性。本文的貢獻(xiàn)主要包括以下幾個方面:

    a)提出了一個基于Transformer交互指導(dǎo)的聯(lián)合信息抽取模型CT-JIE,通過充分利用醫(yī)患對話中的意圖識別、槽位填充及狀態(tài)識別等多個任務(wù)之間的交互信息,增強(qiáng)了任務(wù)輸出層的表示能力。

    b)采用滑動窗口技術(shù)與全局注意力機(jī)制,使得模型能夠更好地捕獲醫(yī)患對話中的全局上下文信息,以提高多個任務(wù)的性能表現(xiàn)。

    c)在IMCS21和CMDD數(shù)據(jù)集上進(jìn)行了多方面的實(shí)驗(yàn),結(jié)果顯示CT-JIE模型在各項(xiàng)性能指標(biāo)上均優(yōu)于所選的單任務(wù)信息抽取模型和雙任務(wù)信息抽取模型。此外,還進(jìn)行了消融實(shí)驗(yàn),以更深入地理解CT-JIE的模型設(shè)計,證實(shí)了其中關(guān)鍵組件的有效性。

    1 相關(guān)工作

    1.1 基于多任務(wù)的聯(lián)合信息抽取技術(shù)研究

    基于多任務(wù)學(xué)習(xí)的聯(lián)合信息抽取是一種常見的抽取方法,它將不同子任務(wù)視為不同的學(xué)習(xí)任務(wù),并在一個統(tǒng)一的框架下進(jìn)行優(yōu)化和訓(xùn)練。多任務(wù)學(xué)習(xí)可以有效地利用不同任務(wù)之間的共享特征和互補(bǔ)信息,從而提高模型的泛化能力和下游任務(wù)的性能指標(biāo)?,F(xiàn)有聯(lián)合抽取模型總體上有兩大類[10]:基于共享參數(shù)的聯(lián)合信息抽取模型和基于聯(lián)合解碼的聯(lián)合信息抽取模型?;诠蚕韰?shù)的聯(lián)合信息抽取模型是指在不同子任務(wù)之間共享一部分或全部的模型參數(shù),從而實(shí)現(xiàn)特征共享和知識遷移。Miwa等人[11]提出了一種基于LSTM的端到端關(guān)系抽取方法,通過共享LSTM參數(shù)來處理實(shí)體提取和關(guān)系抽取兩個任務(wù),將文本中的實(shí)體和關(guān)系同時進(jìn)行建模和抽取。Katiyar等人[12]提出了一種在沒有依賴樹的情況下進(jìn)行實(shí)體提取和關(guān)系抽取的聯(lián)合模型,通過共享卷積神經(jīng)網(wǎng)絡(luò)的參數(shù),同時處理實(shí)體和關(guān)系的抽取任務(wù),從而實(shí)現(xiàn)特征共享和模型簡化。共享參數(shù)的設(shè)置使得模型能夠在兩個任務(wù)之間共享上下文信息,從而提高了模型的性能和泛化能力。Zeng等人[13]提出了一種基于seq2seq框架的聯(lián)合抽取模型,并引入復(fù)制機(jī)制來生成多對三元組。Bekoulis等人[14]將實(shí)體識別和關(guān)系抽取視為一個多頭選擇問題,并提出了一種共享參數(shù)的聯(lián)合模型。通過使用多頭注意力機(jī)制來處理實(shí)體和關(guān)系之間的交互關(guān)系,并通過共享參數(shù)來增強(qiáng)兩個任務(wù)之間的關(guān)聯(lián)性。除了基于共享參數(shù)的聯(lián)合信息抽取模型外,還存在一類基于聯(lián)合解碼的方法,旨在通過聯(lián)合解碼的方式更加緊密地捕捉實(shí)體和關(guān)系之間的語義關(guān)聯(lián)。Katiyar等人[15]利用條件隨機(jī)場同時建模實(shí)體和關(guān)系模型,并通過維特比解碼算法得到實(shí)體和關(guān)系的輸出結(jié)果。Li等人[16]將實(shí)體關(guān)系抽取看作是一個結(jié)構(gòu)化預(yù)測問題,采用結(jié)構(gòu)化感知機(jī)算法設(shè)計了全局特征,并使用集束搜索進(jìn)行近似聯(lián)合解碼。Zhang等人[17]提出使用全局歸一化解碼算法,通過在解碼階段引入全局優(yōu)化機(jī)制,將實(shí)體提取和關(guān)系分類任務(wù)緊密耦合在一起,從而在捕捉關(guān)聯(lián)信息的同時提高了抽取任務(wù)的準(zhǔn)確性。Wang等人[18]設(shè)計了一種新穎的圖方案,將聯(lián)合任務(wù)轉(zhuǎn)換為一個有向圖,并針對實(shí)體關(guān)系抽取設(shè)計了一套轉(zhuǎn)移系統(tǒng),從而實(shí)現(xiàn)聯(lián)合實(shí)體關(guān)系抽取。

    綜上所述,基于多任務(wù)學(xué)習(xí)的聯(lián)合信息抽取模型在處理信息抽取任務(wù)中表現(xiàn)出了巨大的潛力。這些模型通過將不同子任務(wù)統(tǒng)一到一個框架下,有效地利用了任務(wù)之間的相關(guān)性和共享信息,提高了模型的性能和泛化能力。

    1.2 醫(yī)患對話文本的信息抽取

    醫(yī)患對話文本蘊(yùn)涵著豐富的醫(yī)療信息,這些信息對于醫(yī)生和患者都至關(guān)重要。為了更好地挖掘這些信息,研究人員已經(jīng)進(jìn)行了大量相關(guān)工作。實(shí)體抽取是醫(yī)患對話文本信息抽取的首要任務(wù)之一,它的目標(biāo)是從對話文本中識別出醫(yī)學(xué)領(lǐng)域相關(guān)的實(shí)體,例如癥狀、疾病、藥物等,并對它們進(jìn)行類型和邊界的明確標(biāo)注。Kannan等人[19]采用了半監(jiān)督學(xué)習(xí)的策略,結(jié)合有標(biāo)簽的實(shí)體信息和無標(biāo)簽的對話內(nèi)容,構(gòu)建了更加魯棒和高效的醫(yī)學(xué)實(shí)體抽取模型。Peng等人[20]充分利用醫(yī)患對話文本中的信息,將對話內(nèi)容與醫(yī)療保險相關(guān)的實(shí)體抽取出來,從而歸納出有關(guān)醫(yī)療保險的重要信息。扈應(yīng)等人[21]提出一種結(jié)合CRF的神經(jīng)網(wǎng)絡(luò)邊界組合方法,結(jié)合生物醫(yī)學(xué)領(lǐng)域的特征信息進(jìn)行生物醫(yī)學(xué)命名實(shí)體抽取。Zhang等人[22]針對醫(yī)患對話文本,設(shè)計了一種能夠識別醫(yī)學(xué)實(shí)體、提取關(guān)聯(lián)信息并生成結(jié)構(gòu)化記錄的醫(yī)療信息提取器。醫(yī)患對話文本信息抽取的另一個重要的研究方向是主題識別,即從對話中抽取出患者的主訴、既往史、診斷結(jié)果等內(nèi)容,為電子病歷的生成提供了有力支持。Song等人[23]提出了一種分層編碼-標(biāo)注器模型,從患者和醫(yī)生的發(fā)言中抽取出有關(guān)的問題描述、診斷、治療和其他等對話句子文本,由此識別并提取出重要發(fā)言生成對話摘要。Krishna等人[24]研究了如何從醫(yī)患對話中抽取出與每個SOAP筆記相關(guān)的句子,并組合為SOAP筆記的不同部分。

    此外,由于醫(yī)患對話的多輪性特點(diǎn),使得信息抽取模型無法很好地分辨對話者所述的內(nèi)容是否完全真實(shí)可靠,所以也有大量的學(xué)者聚焦于醫(yī)學(xué)癥狀實(shí)體的狀態(tài)識別研究工作中。早在2019年,Du等人[25]就提出通過提取癥狀以及其對應(yīng)的狀態(tài)來對醫(yī)患對話進(jìn)行醫(yī)學(xué)信息抽取,要求抽取的每個癥狀與陽性、陰性和不清楚三個狀態(tài)相關(guān)聯(lián)。Lin等人[26]提出了一個全局注意力機(jī)制來捕獲醫(yī)患對話中的癥狀實(shí)體與其對應(yīng)的狀態(tài),并通過構(gòu)建癥狀圖來建模癥狀之間的關(guān)聯(lián)。第七屆中國健康信息處理會議(CHIP2021)和第一屆智能對話診療評測比賽(CCL2021)也分別提出了醫(yī)學(xué)實(shí)體癥狀識別的任務(wù),不僅發(fā)布了相關(guān)的大型醫(yī)療數(shù)據(jù)集,也進(jìn)一步引發(fā)了學(xué)者的研究興趣。與僅從醫(yī)學(xué)對話中提取癥狀和狀態(tài)不同,Zhang等人[22]進(jìn)一步定義了癥狀、檢查、手術(shù)和其他信息四類,還定義了每個類別和每個項(xiàng)的狀態(tài)。他們以窗口滑動的方式對對話進(jìn)行注釋,提出了一種深度神經(jīng)匹配網(wǎng)絡(luò)來提取對話中的醫(yī)學(xué)信息。Hu等人[27]提出了一種上下文感知信息提取器CANE,采用局部到全局的機(jī)制來建模對話句子之間的上下文聯(lián)系,有效地抽取出了醫(yī)患對話中的醫(yī)學(xué)實(shí)體項(xiàng)與其狀態(tài)信息。

    綜上所述,醫(yī)患對話文本的信息抽取在醫(yī)學(xué)領(lǐng)域發(fā)揮著重要作用,包括實(shí)體抽取、主題識別和實(shí)體狀態(tài)識別等任務(wù),有助于將醫(yī)患對話中的非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化的醫(yī)學(xué)信息,為電子病歷生成、醫(yī)療決策支持等應(yīng)用領(lǐng)域提供了有力的數(shù)據(jù)支持。

    2 基于Transformer交互指導(dǎo)的聯(lián)合信息抽取模型

    CI-JIE模型架構(gòu)如圖2所示,主要由標(biāo)簽感知模塊、全局感知模塊和交互指導(dǎo)模塊三個模塊組成。a)標(biāo)簽感知模塊旨在通過注意力機(jī)制捕捉對話語境中與任務(wù)標(biāo)簽相關(guān)的信息,以獲得針對性的語義編碼表示;b)全局感知模塊旨在捕捉目標(biāo)句子中癥狀實(shí)體與其狀態(tài)受整個對話樣本上下文的影響,通過引入動態(tài)注意力機(jī)制,對不同對話窗口之間的全局關(guān)聯(lián)性進(jìn)行建模,從而獲取更豐富的上下文信息;c)交互指導(dǎo)模塊以Transformer為架構(gòu),采用協(xié)同交互注意力層代替原生Transformer中的自注意力機(jī)制。通過多個任務(wù)的交互感知計算,實(shí)現(xiàn)了任務(wù)表示向量的互相增強(qiáng)。最后,分別針對意圖識別、槽位填充和狀態(tài)識別進(jìn)行解碼,聯(lián)合輸出醫(yī)患對話文本中的對話意圖、醫(yī)學(xué)實(shí)體及其對應(yīng)的狀態(tài)。

    2.1 標(biāo)簽感知模塊

    本文信息抽取模型的輸出形式為標(biāo)簽詞典預(yù)測向量,即向量中每個維度值是由信息抽取模型的當(dāng)前輸入數(shù)據(jù)實(shí)例來決定的。本文使用滑動窗口方法來為對話樣本構(gòu)建對話窗口,同時通過注意力機(jī)制捕捉對話語境中與特定標(biāo)簽相關(guān)的信息,從而獲得更有針對性的語義編碼表示。

    給定醫(yī)患對話樣本D=(X1,X2,…,Xn),其中n為對話樣本中對話句子的數(shù)量,Xi表示醫(yī)生或患者所述的句子。針對目標(biāo)句子Xi及其歷史句子構(gòu)建一個固定大小為L的對話窗口Pi={Xi,Xi-1,…,Xi-L+1}。如果i<L,則在對話窗口內(nèi)填充空字符串,從而可將醫(yī)患對話樣本D構(gòu)建成一系列的對話窗口{P1,P2,…,Pn}。如圖3所示,針對目標(biāo)句X4和X5分別構(gòu)建其對話窗口,滑動窗口的滑動步長為1。

    之后再將對話窗口Pi內(nèi)的每一個句子進(jìn)行拼接后得到XTW=(x1,x2,…,xT),其中T為輸入文本的字符數(shù)。將XTW送入Bi-LSTM層獲得窗口對話文本的輸出向量hTW,作為目標(biāo)句子的語義編碼表示。接著將對話意圖、槽位實(shí)體和狀態(tài)標(biāo)簽詞典分別進(jìn)行嵌入,獲得對話意圖標(biāo)簽詞典矩陣WI∈Rd×Ilabel,槽位實(shí)體標(biāo)簽詞典矩陣WE∈Rd×Elabel和狀態(tài)標(biāo)簽詞典矩陣WV∈Rd×Vlabel,其中d代表維度,Ilabel、Elabel、Vlabel分別代表意圖標(biāo)簽、槽位標(biāo)簽和狀態(tài)標(biāo)簽的數(shù)量。然后通過注意力機(jī)制來捕捉目標(biāo)句子語義編碼在標(biāo)簽詞典上的注意力分布,使模型能夠在對話窗口文本的基礎(chǔ)上關(guān)注特定標(biāo)簽詞典中與目標(biāo)句子相關(guān)的信息。分別得到意圖、槽位實(shí)體和狀態(tài)的標(biāo)簽詞典感知表示計算公式HI、HE和HV,如式(1)和(2)所示。

    A=softmax(hTWW)(1)

    H=hTW+AW(2)

    其中:W是標(biāo)簽詞典的嵌入矩陣。

    2.2 全局感知模塊

    目標(biāo)句子中癥狀實(shí)體的狀態(tài)不僅由當(dāng)前對話窗口的上下文決定,還會受到后續(xù)對話窗口中相關(guān)信息的影響。因此本文引入動態(tài)注意力機(jī)制探究對話窗口之間的全局關(guān)聯(lián)性,捕獲整個對話樣本之間的上下文信息。例如,在當(dāng)前對話窗口中提及“胸痛”,那么模型將在后續(xù)的對話窗口中為“胸痛”以及如“我有”“我曾患有”等關(guān)于狀態(tài)的描述詞分配較高的注意力值,給當(dāng)前窗口的實(shí)體與狀態(tài)判別提供更有針對性的語境信息。具體做法如下,首先將第i個對話窗口{Xi,Xi-1,…,Xi-L+1}的狀態(tài)標(biāo)簽詞典感知表示HVi與后續(xù)對話窗口的狀態(tài)標(biāo)簽詞典感知表示{HVi+1,…,HVM}進(jìn)行注意力分?jǐn)?shù)的計算,如式(3)和(4)所示。

    sij=HTViWgHVj(3)

    aij=softmax(sij)(4)

    其中:j=1,2,…,M,M為第i個對話窗口的后續(xù)對話窗口的數(shù)量;Wg是可訓(xùn)練的矩陣參數(shù)。

    在動態(tài)注意力機(jī)制中,注意力分?jǐn)?shù)越高,表示兩者具有更高的相關(guān)性,關(guān)注注意力分?jǐn)?shù)高的窗口也會幫助模型捕捉到整個對話樣本中全局上下文更為關(guān)鍵的信息。因此本文首先找到注意力分?jǐn)?shù)最高的后續(xù)窗口,然后將其狀態(tài)標(biāo)簽詞典感知表示HVg與當(dāng)前窗口的狀態(tài)標(biāo)簽詞典感知表示HVi進(jìn)行相加,得到狀態(tài)標(biāo)簽詞典全局感知表示HVs,如式(5)和(6)所示。

    HVg=HVargmaxj(aij)(5)

    HVs=HVi+HVg(6)

    其中:如果當(dāng)前窗口為對話樣本中的最后一個窗口,即M=0時,HVg將被設(shè)定為零向量。與此類似,再將當(dāng)前對話窗口的槽位實(shí)體標(biāo)簽詞典感知表示HEi與后續(xù)對話窗口進(jìn)行同上述一樣的操作,得到槽位實(shí)體標(biāo)簽詞典全局感知表示HEs。

    2.3 交互指導(dǎo)模塊

    在原生的Transformer中,每個子層都由自注意力和前饋網(wǎng)絡(luò)層組成。通過自注意力機(jī)制,Transformer能夠在輸入序列中建立全局的依賴關(guān)系,使得每個位置的表示能夠考慮整個序列的信息。然而,在處理多任務(wù)場景時,這種全局依賴性無法充分捕捉不同任務(wù)之間的局部關(guān)聯(lián)性。因此,本文提出一個以Transformer為基礎(chǔ)架構(gòu)的設(shè)計,其中引入了協(xié)同交互注意力層替換傳統(tǒng)Transformer中的自注意力機(jī)制,旨在通過顯示建模多個任務(wù)之間的交互關(guān)系,構(gòu)建多個任務(wù)之間的多向連接。這種協(xié)同交互的方式使得任一任務(wù)表示向量的更新都受到其他兩個任務(wù)的影響,能夠更充分地利用不同任務(wù)之間的語境和關(guān)聯(lián)信息。同時,針對前饋網(wǎng)絡(luò)進(jìn)行改進(jìn),隱式地融合共享多個任務(wù)之間的信息。具體技術(shù)圖如圖4所示。

    與Transformer相同,首先通過不同類型的線性投影函數(shù),將標(biāo)簽詞典感知表示HI、HEs與HVs投影為QI,QEs,QVs=queries(HI,HEs,HVs)、KI,KEs,KVs=keys(HI,HEs,HVs)和VI,VEs,VVs=values(HI,HEs,HVs)。為獲取槽位表示并融合相應(yīng)的意圖信息,以QI作為查詢向量,KEs作為鍵向量,VEs作為值向量,利用注意力機(jī)制計算注意力分?jǐn)?shù),得到對槽位感知的意圖表示CI。

    CI=softmax(QIKTEsd)VEs(7)

    其中:d代表查詢向量QI的維度。接著將CI加到原始的意圖表示HI上進(jìn)行層歸一化操作,得到與槽位信息進(jìn)行交互注意力計算后的意圖表示H′I,如式(8)所示。

    H′I=LN(HI+CI)(8)

    其中:LN(·)代表層歸一化。同樣,為了使得狀態(tài)表示能夠受到槽位信息的影響,將QVs作為查詢向量,KEs作為鍵向量,VEs作為值向量來獲取槽位感知的狀態(tài)表示H′Vs。在交互指導(dǎo)的過程中,槽位的表示會同時受到意圖與狀態(tài)的影響。因此,在獲取槽位的增強(qiáng)表示時應(yīng)對意圖和狀態(tài)都進(jìn)行感知計算。然后將計算后的包含意圖信息的槽位表示HIEs與包含狀態(tài)信息的槽位表示HVEs相加后得到槽位表示H′Es,如式(9)所示。

    H′Es=HIEs+HVEs(9)

    最后,通過前饋網(wǎng)絡(luò)FFN隱式地融合多個任務(wù)的信息,再將H′I、H′Es和H′Vs分別與FFN(HISV)拼接得到最終輸出的意圖表示H^I、槽位表示H^Es和狀態(tài)表示H^Vs,如式(10)~(13)所示。

    HISV=H′I⊕H′Es⊕H′Vs(10)

    H^I=LN(H′I+FFN(HISV))(11)

    H^Es=LN(H′Es+FFN(HISV))(12)

    H^Vs=LN(H′Vs+FFN(HISV))(13)

    2.4 聯(lián)合訓(xùn)練

    對于意圖識別任務(wù),采用交叉熵?fù)p失函數(shù)作為損失函數(shù):

    Lossintent=-∑iyi·log(pi)(14)

    其中:yi是真實(shí)的意圖標(biāo)簽字典向量;pi是模型預(yù)測的意圖概率向量,其維度是意圖類別數(shù)量Ilabel。

    對于槽位填充與狀態(tài)識別任務(wù),引入CRF層作為標(biāo)簽序列識別器輸出槽位實(shí)體的預(yù)測向量P(y^s|Os)以及狀態(tài)的預(yù)測向量P(y^v|Ov),如式(15)~(18)所示。

    Os=WSH^Es+bEs(15)

    P(y^s|Os)=∑i=1escore(y^si-1,y^si,Os)∑ys∑i=1escore(ysi-1,ysi,Os)(16)

    Ov=WVH^Vs+bVs(17)

    P(y^v|Ov)=∑i=1escore(y^vi,y^vi-1,Ov)∑yv∑i=1escore(yvi-1,yvi,Ov)(18)

    其中:P(y^s|Os)為給定觀測序列Os下標(biāo)注序列y^s的概率向量,其計算公式中的score為標(biāo)簽ysi-1到y(tǒng)si的狀態(tài)轉(zhuǎn)移得分;P(y^v|Ov)為給定觀測序列Ov下標(biāo)注序列y^v的概率向量,其計算公式中的score為標(biāo)簽yvi-1到y(tǒng)vi的狀態(tài)轉(zhuǎn)移得分。

    采用最小化負(fù)似然對數(shù)來計算槽位填充和狀態(tài)識別的損失,如式(19)和(20)所示。

    Lossslot=-log(P(y^s|Os))(19)

    Lossstatus=-log(P(y^v|Os))(20)

    最后,采用動態(tài)權(quán)重平均的方法[28]計算出意圖識別、槽位填充與狀態(tài)識別在當(dāng)前時間步的權(quán)重wintent、wslot和wstatus。獲得最終的損失Losstotal,如式(21)所示。

    Losstotal=wintent·Lossintent+wslot·Lossslot+wstatus·Lossstatus(21)

    在不同訓(xùn)練階段將使用不同的權(quán)重分配,即較大損失的任務(wù)在權(quán)重中會占據(jù)更大的比例,以便更多地影響模型參數(shù)的更新。針對Losstotal進(jìn)行優(yōu)化迭代計算,直至達(dá)到停止條件,從而獲得基于Transformer交互指導(dǎo)的聯(lián)合信息抽取模型 CT-JIE。

    3 實(shí)驗(yàn)與分析

    3.1 實(shí)驗(yàn)設(shè)置

    本文采用預(yù)訓(xùn)練的skip-gram[29]嵌入向量進(jìn)行中文字符的嵌入表示,維度為300。采用的Bi-LSTM隱藏層是128維,前饋網(wǎng)絡(luò)是300維,優(yōu)化器是RAdam[30]。此外,還采用早停策略和動態(tài)損失的優(yōu)化策略。

    3.2 數(shù)據(jù)集

    本文實(shí)驗(yàn)在智能對話診療數(shù)據(jù)集(IMCS21)[31]與中文醫(yī)學(xué)診斷數(shù)據(jù)集(CMDD)[26]上進(jìn)行。IMCS21數(shù)據(jù)集被選用以全面驗(yàn)證模型的整體抽取性能,充分評估模型在意圖識別、槽位填充和狀態(tài)識別等多個任務(wù)上的表現(xiàn)。CMDD數(shù)據(jù)集則被用于深入研究模型在槽位實(shí)體與其狀態(tài)聯(lián)合抽取的準(zhǔn)確性。

    3.2.1 IMCS21數(shù)據(jù)集

    IMCS21數(shù)據(jù)集收集了真實(shí)的在線醫(yī)患對話,并進(jìn)行了多層次的人工標(biāo)注,包括槽位實(shí)體、對話意圖、癥狀狀態(tài)標(biāo)簽等,其中實(shí)體類型數(shù)量為5,對話意圖類型數(shù)量為16,癥狀狀態(tài)標(biāo)簽包含陰性、陽性和不確定三種狀態(tài),樣本集規(guī)模為4 116個醫(yī)患對話樣本。IMCS21數(shù)據(jù)集信息匯總?cè)绫?所示。

    3.2.2 CMDD數(shù)據(jù)集

    在本文中,將CMDD數(shù)據(jù)集轉(zhuǎn)換為滑動窗口的對話格式,參照Hu等人[27]的設(shè)置,將窗口大小設(shè)置為5。處理后的CMDD數(shù)據(jù)集包含2 067個對話和87 005個對話窗口,涵蓋了160個癥狀,其中每個癥狀都包含陽性、陰性與未知三種狀態(tài)。

    3.3 基線模型

    為了對意圖識別、槽位填充和狀態(tài)識別三任務(wù)聯(lián)合信息模型CT-JIE進(jìn)行對比研究,本文選擇單任務(wù)信息抽取模型,另外還引入聚焦意圖識別和槽位填充的雙任務(wù)聯(lián)合信息模型進(jìn)行對比?;€模型信息如下所述。

    3.3.1 單任務(wù)信息抽取模型

    本文選擇多個單任務(wù)信息抽取模型分別在IMCS21與CMDD數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),具體信息如表2所示。

    3.3.2 意圖識別和槽位填充的雙任務(wù)聯(lián)合信息模型

    實(shí)驗(yàn)采用的雙任務(wù)信息抽取模型具體信息如表3所示。

    3.4 實(shí)驗(yàn)結(jié)果

    3.4.1 CT-JIE的聯(lián)合信息抽取性能展示

    在本節(jié)中,首先通過消融實(shí)驗(yàn)來評估CT-JIE模型的有效性。實(shí)驗(yàn)分別在IMCS21與CMDD數(shù)據(jù)集上進(jìn)行。消融實(shí)驗(yàn)結(jié)果如表4所示。其中,CT-JIE/DW指的是從CT-JIE模型中去除滑動窗口技術(shù),CT-JIE/GA指的是從CT-JIE模型中去除全局感知模塊。

    表4中的結(jié)果表明,去除滑動窗口的輸入形式會導(dǎo)致CT-JIE模型在IMCS數(shù)據(jù)集上意圖識別的accracy、槽位填充的F1值和狀態(tài)識2acf7862bbd45990af4c0a3a8a25c426別的macro-F1值分別下降1.88、2.39和5.37百分點(diǎn),在CMDD數(shù)據(jù)集上的實(shí)體-狀態(tài)聯(lián)合識別的F1值下降3.50百分點(diǎn)。這是因?yàn)橥ㄟ^窗口整合多句文本進(jìn)行輸入,可以有效地獲得目標(biāo)句的歷史信息。此外,如果不進(jìn)行全局注意力機(jī)制計算,模型性能在IMCS數(shù)據(jù)集上會下降2.20、2.08和7.52百分點(diǎn),在CMDD數(shù)據(jù)集上會下降5.97百分點(diǎn)。這說明全局注意力對狀態(tài)識別任務(wù)有著較大的提升,因?yàn)樗鼘⑾挛闹凶罹咝畔⒌拇翱谇度氲疆?dāng)前的窗口,以幫助窗口捕捉狀態(tài)的變化。

    接著通過混淆矩陣進(jìn)一步評估CT-JIE模型的有效性。采用IMCS數(shù)據(jù)集上的驗(yàn)證集數(shù)據(jù)對癥狀陰陽性識別任務(wù)進(jìn)行分析,預(yù)測結(jié)果的混淆矩陣如表5所示。從混淆矩陣性能展示結(jié)果看,數(shù)值越高代表類別分類效果越好。觀察可知,模型針對“不確定”類別的判別準(zhǔn)確率較低,主要是因?yàn)閿?shù)據(jù)集樣本中包含“不確定”的信息較少,模型很難學(xué)習(xí)到完整的特征。模型在“陽性”與“不確定”之間的誤分類占比最大,在陰陽性之間的誤分類情況較少,證明模型能夠有效判斷陰陽性。

    3.4.2 CT-JIE與基線模型的對比展示

    表6和7分別展示了CT-JIE模型與基線模型在IMCS21和CMDD數(shù)據(jù)集上的性能指標(biāo)的對比結(jié)果。

    從結(jié)果上來說,可以得到以下觀察結(jié)果:

    a)從整體的實(shí)驗(yàn)結(jié)果上來看,CT-JIE模型在IMCS數(shù)據(jù)集上的意圖識別accuracy、槽位填充F1值和狀態(tài)識別的macro-F1為80.03%、93.18%和74.94%,均超過了對比的基線模型。同時,CT-JIE模型在CMDD數(shù)據(jù)集上的實(shí)體-狀態(tài)識別任務(wù)F1為80.31%,在實(shí)體-狀態(tài)的聯(lián)合識別中取得了較好的性能,證明本文模型的有效性。

    b)CT-JIE模型相較于單任務(wù)的基線模型的性能提升微弱,這一現(xiàn)象可以解釋為CT-JIE模型的設(shè)計重點(diǎn)放在了多任務(wù)聯(lián)合信息的抽取上,而單任務(wù)基線模型更專注于各自任務(wù)的性能。CT-JIE模型的聯(lián)合信息抽取結(jié)構(gòu)可能會引入一定的復(fù)雜性和冗余性,使得模型在單任務(wù)性能上的提升受到限制。

    c)CT-JIE模型相較于雙任務(wù)模型有著不錯的性能提升,這是因?yàn)镃T-JIE模型引入了交互指導(dǎo)模塊,使得CT-JIE模型充分利用了任務(wù)之間的信息交互。此外,實(shí)體-狀態(tài)識別實(shí)驗(yàn)也展示出狀態(tài)陰陽性識別與槽位填充之間存在一定的關(guān)聯(lián)性,CT-JIE模型的設(shè)計允許這兩個任務(wù)之間的信息共享和交互,從而使得模型的整體性能得到提升。

    3.4.3 模型注意力可視化

    本文使用可視化技術(shù)展示CT-JIE模型在一個預(yù)測樣本上的全局注意力效果。圖5(a)展示了預(yù)測的醫(yī)患對話樣本示例,其中窗口0代表當(dāng)前的輸入窗口對話,窗口1~3為后續(xù)窗口。通過全局注意力機(jī)制計算當(dāng)前窗口和后續(xù)窗口之間的交互注意力分?jǐn)?shù),結(jié)果如圖5(b)所示。觀察可知,窗口2與當(dāng)前窗口有著最高的交互注意力分?jǐn)?shù),能夠有效地幫助當(dāng)前窗口0針對“支原體感染”的陰陽性狀態(tài)進(jìn)行預(yù)測,有效地提高了預(yù)測的上下文感知能力,而傳統(tǒng)的方法在不考慮窗口2的情況下很難在此種情況下進(jìn)行準(zhǔn)確的預(yù)測。如窗口0中患者針對“支原體感染”這一癥狀產(chǎn)生疑問,并不能直接根據(jù)當(dāng)前窗口來判別“支原體感染”的發(fā)生狀態(tài)。而在結(jié)合窗口2中提示的“有可能就不是支原體感染”后,模型能夠有效地判別“支原體感染”為“陰性”。同時,本文還探究了同一窗口內(nèi)槽位實(shí)體與狀態(tài)陰陽性通過交互指導(dǎo)后的關(guān)聯(lián)性,注意力權(quán)重的熱力圖如圖5(c)所示。在窗口3中,醫(yī)生所述的“感冒”與后續(xù)患者的回答“沒有”的注意力值相對較高,說明模型在窗口中能夠正確捕獲實(shí)體與狀態(tài)之間的聯(lián)系。

    4 結(jié)束語

    本文研究了醫(yī)學(xué)信息抽取任務(wù)中的多個關(guān)鍵問題,包括意圖識別、槽位填充和狀態(tài)識別,以及它們之間的共享特征和互補(bǔ)信息等特性。通過對這些問題的深入研究和探索,本文提出了一種基于Transformer交互指導(dǎo)的聯(lián)合信息抽取模型CT-JIE。CT-JIE通過滑動窗口和Bi-LSTM結(jié)合的方式獲取對話上下文信息,并利用標(biāo)簽感知、全局注意力和交互指導(dǎo)模塊實(shí)現(xiàn)了意圖識別、槽位填充和狀態(tài)識別任務(wù)的協(xié)同學(xué)習(xí)。本文在IMCS21和CMDD數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果表明CT-JIE模型較其他的單任務(wù)與雙任務(wù)信息抽取模型在意圖識別、槽位填充和狀態(tài)識別多個任務(wù)上均取得了較好的性能提升。本文展示了多任務(wù)交互指導(dǎo)方法在醫(yī)學(xué)信息抽取任務(wù)中的優(yōu)越性能,將為醫(yī)療信息處理領(lǐng)域的智能化和自動化提供更強(qiáng)的支持和推動,為醫(yī)患對話的信息抽取、電子病歷的撰寫和醫(yī)學(xué)自然語言處理的研究等方面帶來積極的影響。

    參考文獻(xiàn):

    [1]Wachter R, Goldsmith J. To combat physician burnout and improve care, fix the electronic health record[EB/OL].(2018-03-30). https://hbr.org/2018/03/to-combat-physician-burnout-and-improve-care-fix-the-electronic-health-record.

    [2]陸志敏, 陸萍. 全科醫(yī)生崗位勝任力指標(biāo)的探索性分析[J]. 中國全科醫(yī)學(xué), 2019, 22(28): 3495. (Lu Zhimin, Lu Ping. An exploratory analysis of post competency indicators for general practitioners[J]. Chinese Journal of General Practice, 2019, 22(28): 3495.)

    [3]Liu Bing, Lane I. Attention-based recurrent neural network models for joint intent detection and slot filling[C]//Proc of the 17th Annual Conference of the International Speech Communication Association. Red Hook,NY: Curran Associates Inc., 2016: 685-689.

    [4]Zhang Xiaodong, Wang Houfeng. A joint model of intent determination and slot filling for spoken language understanding[C]//Proc of the 25th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 2993-2999.

    [5]Goo C W, Gao Guang, Hsu Y K, et al. Slot-gated modeling for joint slot filling and intent prediction[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Red Hook,NY: Curran Associates Inc., 2018: 753-757.

    [6]Li Changliang, Li Liang, Qi Ji. A self-attentive model with gate mecha-nism for spoken language understanding[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2018: 3824-3833.

    [7]Qin Libo, Che Wanxiang, Li Yangming, et al. A stack-propagation framework with token-level intent detection for spoken language understanding[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: ACL, 2019: 2078-2087.

    [8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

    [9]鄭巧月, 段友祥, 孫岐峰. 基于Transformer和雙重注意力融合的分層交互答案選擇模型[J]. 計算機(jī)應(yīng)用研究, 2022, 39(11): 3320-3326. (Zheng Qiaoyue, Duan Youxiang, Sun Qifeng. Hierarchical interactive answer selection model based on transformer and dual attention fusion[J]. Application Research of Computers, 2022, 39(11): 3320-3326.)

    [10]孫長志. 基于深度學(xué)習(xí)的聯(lián)合實(shí)體關(guān)系抽取[D]. 上海: 華東師范大學(xué), 2019. (Sun Changzhi. Joint entity relationship extraction based on deep learning[D]. Shanghai: East China Normal University, 2019.)

    [11]Miwa M, Bansal M. End-to-end relation extraction using LSTMs on sequences and tree structures[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 1105-1116.

    [12]Katiyar A, Cardie C. Going out on a limb: joint extraction of entity mentions and relations without dependency trees[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2017: 917-928.

    [13]Zeng Daojian, Zhang Haoran, Liu Qianying. CopyMTL: copy mechanism for joint extraction of entities and relations with multi-task lear-ning[C]//Proc of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 9507-9514.

    [14]Bekoulis G, Deleu J, Demeester T, et al. Joint entity recognition and relation extraction as a multi-head selection problem[J]. Expert Systems with Applications, 2018, 114: 34-45.

    [15]Katiyar A, Cardie C. Investigating LSTMs for joint extraction of opinion entities and relations[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 919-929.

    [16]Li Qi, Ji Heng. Incremental joint extraction of entity mentions and relations[C]//Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2014: 402-412.

    [17]Zhang Meishan, Zhang Yue, Fu Guohong. End-to-end neural relation extraction with global optimization[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017: 1730-1740.

    [18]Wang Shaolei, Zhang Yue, Che Wanxiang, et al. Joint extraction of entities and relations based on a novel graph scheme[C]//Proc of the 27th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 4461-4467.

    [19]Kannan A, Chen K, Jaunzeikare D, et al. Semi-supervised learning for information extraction from dialogue[C]//Proc of the 19th Annual Conference of the International Speech Communication Association. Red Hook,NY: Curran Associates Inc., 2018: 2077-2081.

    [20]Peng Shuang, Zhou Mengdi, Yang Minghui, et al. A Dialogue-based information extraction system for medical insurance assessment[M]//Findings of the Association for Computational Linguistics. 2021: 654-633.

    [21]扈應(yīng), 陳艷平, 黃瑞章, 等. 結(jié)合CRF的邊界組合生物醫(yī)學(xué)命名實(shí)體識別[J]. 計算機(jī)應(yīng)用研究, 2021, 38(7): 2025-2031. (Hu Ying, Chen Yanping, Huang Ruizhang, et al. Boundary combination biomedical named entity recognition combined with CRF[J]. Application Research of Computers, 2021, 38(7): 2025-2031.)

    [22]Zhang Yuanzhe, Jiang Zhongtao, Zhang Tao, et al. MIE: a medical information extractor towards medical dialogues[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2020: 6460-6469.

    [23]Song Yan, Tian Yuanhe, Wang Nan, et al. Summarizing medical conversations via identifying important utterances[C]//Proc of the 28th International Conference on Computational Linguistics. Stroudsburg, PA: ACL, 2020: 717-729.

    [24]Krishna K, Khosla S, Bigham J P, et al. Generating SOAP notes from doctor-patient conversations using modular summarization techniques[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA: ACL, 2021: 4958-4972.

    [25]Du Nan, Chen Kai, Anjuli K, et al. Extracting symptoms and their status from clinical conversations[C]//Proc of the 57th Annual Mee-ting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 915-925.

    [26]Lin Xinzhu, He Xiahui, Chen Qin, et al. Enhancing dialogue symptom diagnosis with global attention and symptom graph[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Proces-sing. Stroudsburg, PA: ACL, 2019: 5033-5042.

    [27]Hu Gangqiang, Lyu Shengfei, Wu Xingyu, et al. Contextual-aware information extractor with adaptive objective for Chinese medical dialogues[J]. IEEE Trans on Asian and Low-Resource Language Information Processing, 2022, 21(5): 1-21.

    [28]Liu Sshikun, Johns E, Davison A J. End-to-end multi-task learning with attention[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 1871-1880.

    [29]Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C]//Proc of the 26th International Conference on Neural Information Processing Systems. New York: ACM Press, 2013: 3111-3119.

    [30]Liu Liyuan, Jiang Haoming, He Pengcheng, et al. On the variance of the adaptive learning rate and beyond[C]//Proc of the 8th Internatio-nal Conference on Learning Representations. 2020.

    [31]Chen Wei, Li Zhiwei, Fang Hongyi, et al. A benchmark for automatic medical consultation system: frameworks, tasks and datasets[J]. Bioinformatics, 2023, 39(1): 817.

    [32]Kim Y. Convolutional neural networks for sentence classification[C]//Proc of Conference on Empirical Methods in Natural Language Proces-sing. Stroudsburg, PA: ACL, 2014: 1746-1751.

    [33]Johnson R, Zhang Tong. Deep pyramid convolutional neural networks for text categorization[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2017: 562-570.

    [34]Zhang Ningyu, Jia Qianghuai, Yin Kangping, et al. Conceptualized representation learning for Chinese biomedical text mining[EB/OL]. (2020)[2023-12-01]. https://arxiv. org/pdf/2008.10813.pdf.

    [35]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2019: 4171-4186.

    [36]Zhang Yue, Yang Jie. Chinese NER using lattice LSTM[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2018: 1554-1564.

    [37]Li Xiaonan, Yan Hang, Qiu Xipeng, et al. FLAT: Chinese NER using flat-lattice Transformer[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2020: 6836-6842.

    [38]Liu Wei, Fu Xiyan, Zhang Yue, et al. Lexicon enhanced Chinese sequence labeling using BERT adapter[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA: ACL, 2021: 5847-5858.

    [39]Heck M, Van Niekerk C, Lubis N, et al. TripPy: a triple copy strategy for value independent neural dialog state tracking[C]//Proc of the 21st Annual Meeting of the Special Interest Group on Discourse and Dialogue. Stroudsburg, PA: ACL, 2020: 35-44.

    [40]Zhao Xiongjun, Cheng Yingjie, Xiang Weiming, et al. A knowledge-aware machine reading comprehension framework for dialogue symptom diagnosis[C]//Proc of IEEE International Conference on Bioinforma-tics and Biomedicine. Piscataway, NJ: IEEE Press, 2021: 1185-1190.

    [41]Chen Qian, Zhuo Zhu, Wang Wen. BERT for joint intent classification and slot filling[EB/OL]. (2019)[2023-12-01]. https://arxiv.org/pdf/1902.10909.pdf.

    香河县| 安丘市| 鲁甸县| 大石桥市| 岑巩县| 绩溪县| 台南市| 图木舒克市| 儋州市| 当涂县| 屯门区| 嘉鱼县| 洪湖市| 福鼎市| 勃利县| 盐城市| 牡丹江市| 乌鲁木齐市| 黄浦区| 深圳市| 平凉市| 玉龙| 贡山| 南郑县| 萨嘎县| 大丰市| 南昌市| 合肥市| 拉萨市| 渑池县| 铁力市| 吉隆县| 万源市| 定兴县| 信丰县| 颍上县| 柏乡县| 克山县| 阿拉善左旗| 乌兰浩特市| 临洮县|