• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于醫(yī)療臨床數(shù)據(jù)的兩階段專業(yè)級大語言模型微調(diào)

    2024-10-14 00:00:00孫麗萍童子龍錢乾陸鑫濤凌晨方誠湯其宇蔣曉
    計算機(jī)應(yīng)用研究 2024年10期

    摘 要:通用大語言模型(large language model,LLM)缺乏對專業(yè)領(lǐng)域知識理解的深度和廣度,對專業(yè)領(lǐng)域問題回答的準(zhǔn)確度不夠,常常產(chǎn)生幻覺,阻礙了大語言模型的商業(yè)應(yīng)用落地。因此,基于專業(yè)領(lǐng)域特有數(shù)據(jù)提高大型語言模型的專業(yè)性成為當(dāng)前大語言模型應(yīng)用落地的關(guān)鍵挑戰(zhàn)。針對通用大語言模型在特定領(lǐng)域知識理解與生成內(nèi)容專業(yè)性不夠的問題進(jìn)行了研究?;赑-Tuning v2與Freeze兩種參數(shù)高效微調(diào)方法,提出了一種專業(yè)級大語言模型的兩階段微調(diào)框架。依賴該框架與肝膽科臨床數(shù)據(jù)對ChatGLM-6B進(jìn)行微調(diào),得到一個針對肝膽??频膶I(yè)級大語言模型,命名為MedGLM.H。根據(jù)實(shí)驗(yàn)顯示,微調(diào)后的大語言模型對于肝膽??茊栴}的準(zhǔn)確率從31%提升到了62%;得分率從57%提升到了73%。在進(jìn)行兩階段微調(diào)后,模型在肝膽??频膯柎鹬斜憩F(xiàn)出更高的準(zhǔn)確性與專業(yè)性,根據(jù)三名臨床醫(yī)生進(jìn)行的對話實(shí)驗(yàn),證明了微調(diào)后的模型在更專業(yè)的醫(yī)療場景中具備應(yīng)用潛力。

    關(guān)鍵詞:大語言模型;微調(diào);肝膽科;人工智能

    中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)10-004-2906-05

    doi:10.19734/j.issn.1001-3695.2024.03.0071

    Two-phases fine-tuning of professional large language model via clinical data

    Sun Liping1, 2, Tong Zilong3, Qian Qian3, Lu Xintao3, Ling Chen1, Fang Cheng4, Tang Qiyu4, Jiang Xiao5

    (1.Medical Instrumentation College, Shanghai University of Medicine & Health Sciences, Shanghai 201318, China; 2.School of Information Science & Technology, Fudan University, Shanghai 200433, China; 3.School of Health Sciences & Engineering, University of Shanghai for Science & Technology, Shanghai 200093, China; 4.Third Affiliated Hospital of Naval Medical University, Shanghai 200438, China; 5. 905th Hospital of PLA, Shanghai 200052, China)

    Abstract:General large language model (LLM) lacks the depth and breadth of understanding of domain-specific knowledge, resulting in insufficient accuracy in addressing domain-specific questions and often leading to illusions, which hinders the commercial deployment of large language models. Therefore, enhancing the professionalism of large language models based on domain-specific data has become a key challenge for the practical application of large language models. This study aimed to address the issue of insufficient domain-specific knowledge understanding and content professionalism of general large language models in specific domains. This paper proposed a two-stage fine-tuning framework for professional large language models based on the efficient parameter fine-tuning methods of P-Tuning v2 and Freeze. This framework, relying on clinical data from hepatobiliary specialties, fine-tuned ChatGLM-6B to obtain a professional-level large language model for hepatobiliary specialties, named MedGLM.H. According to the experiments, the fine-tuned large language model exhibited an increase in accuracy for hepatobiliary specialist questions from 31% to 62%, and the scoring rate increased from 57% to 73%. After two-phase fine-tuning, the model demonstrates higher accuracy and professionalism in hepatobiliary specialty QA. Dialogue experiments conducted with three clinical doctors confirm the application potential of the fine-tuned model in more specialized medical scenarios.

    Key words:large language model; fine-tune; hepatobiliary; artificial intelligence

    0 引言

    近期,LLM如ChatGPT[1]、Bard、ChatGLM[2]等備受矚目,它們展現(xiàn)出的對常識問題的理解能力、流暢的對話能力、上下文記憶能力、文本生成能力以及邏輯推理能力,標(biāo)志著人類邁向通用人工智能的這導(dǎo)致了在特定領(lǐng)域的應(yīng)用中存在著不準(zhǔn)確性和可信度問題[3~6]。

    特定領(lǐng)域的知識和理解對于LLM的成功應(yīng)用至關(guān)重要。舉例來說,對于醫(yī)療保健領(lǐng)域,LLM需要準(zhǔn)確理解醫(yī)學(xué)術(shù)語、診斷方法、藥物治療等內(nèi)容,以便提供準(zhǔn)確的建議或診斷。而在金融領(lǐng)域,LLM需要理解投資策略、市場分析、風(fēng)險評估等方面的知識,以支持投資決策或提供財務(wù)咨詢。因此,為了充分發(fā)揮LLM的潛力,需要針對不同領(lǐng)域進(jìn)行定制化的知識和技能培訓(xùn),從而使其能夠在特定領(lǐng)域中表現(xiàn)出專業(yè)水平。

    然而,從零開始訓(xùn)練特定領(lǐng)域的LLM是一項(xiàng)極具挑戰(zhàn)性和成本高昂的任務(wù)。這不僅需要大量的算力支持,還需要擁有深厚領(lǐng)域知識的AI算法工程師進(jìn)行指導(dǎo)和優(yōu)化。這種成本和復(fù)雜性對于許多機(jī)構(gòu)來說是難以承受的,尤其是對于小型企業(yè)或研究機(jī)構(gòu)。因此,基于通用且可靠的大型語言模型進(jìn)行微調(diào)以適應(yīng)特定領(lǐng)域的需求成為了一種更加可行和經(jīng)濟(jì)的選擇。

    通過微調(diào)通用模型,可以將其轉(zhuǎn)換為針對特定領(lǐng)域的大語言模型,從而獲得更高的準(zhǔn)確性和可信度。這種方法不僅可以節(jié)省大量的時間和資源,還可以確保模型具有足夠的靈活性,以適應(yīng)不斷變化的領(lǐng)域需求。同時,微調(diào)過程中可以通過引入領(lǐng)域?qū)<业闹R和反饋來提高模型的性能,從而進(jìn)一步增強(qiáng)其在特定領(lǐng)域的應(yīng)用能力。

    除了微調(diào)外,還可以采用其他策略來提高LLM在特定領(lǐng)域的應(yīng)用能力。例如,結(jié)合外部數(shù)據(jù)源進(jìn)行訓(xùn)練,引入領(lǐng)域?qū)<覅⑴c模型設(shè)計和評估過程,以及建立特定領(lǐng)域的知識圖譜來輔助模型理解和推理。這些策略可以進(jìn)一步增強(qiáng)模型在特定領(lǐng)域的專業(yè)性和適用性,從而提高其實(shí)際落地的可能性。

    因此,盡管LLM在通用領(lǐng)域取得了巨大的進(jìn)步,但其在特定領(lǐng)域的應(yīng)用仍然面臨諸多挑戰(zhàn)。為了充分發(fā)揮其潛力,則需要通過微調(diào)和其他策略來提升其專業(yè)性和適用性,從而實(shí)現(xiàn)在特定領(lǐng)域的商業(yè)化落地。這不僅需要技術(shù)上的創(chuàng)新和優(yōu)化,還需要跨學(xué)科的合作和領(lǐng)域?qū)<业膮⑴c,以確保模型能夠真正服務(wù)于實(shí)際需求,并為社會帶來更大的價值和影響。

    1 研究現(xiàn)狀

    1.1 醫(yī)學(xué)通用大語言模型

    醫(yī)療健康領(lǐng)域已經(jīng)出現(xiàn)一些基于通用大語言模型微調(diào)的醫(yī)學(xué)大語言模型,如德克薩斯大學(xué)西南醫(yī)學(xué)中心的Li等人[7]基于205 000條真實(shí)的醫(yī)患交流數(shù)據(jù)和ChatGPT生成的5 000條數(shù)據(jù)對LLaMA進(jìn)行微調(diào),得到ChatDoctor這一醫(yī)學(xué)通用的大語言模型。此外,上海科技大學(xué)的Xiong等人[8]利用ChatGPT和其他基于英語的醫(yī)學(xué)通用大語言模型收集了醫(yī)學(xué)對話數(shù)據(jù)庫并翻譯為中文,對清華大學(xué)開源的中文大語言模型ChatGLM-6B進(jìn)行參數(shù)高效微調(diào),得到一個醫(yī)學(xué)通用的大語言模型——DoctorGLM;哈爾濱工業(yè)大學(xué)的Wang等人[9]通過醫(yī)學(xué)知識圖譜和GPT3.5API構(gòu)建了中文醫(yī)學(xué)指令數(shù)據(jù)集,在此基礎(chǔ)上對ChatGLM-6B進(jìn)行了指令微調(diào),微調(diào)后的大語言模型命名為ChatGLM-Med?;谙嗤臄?shù)據(jù)Wang等人[9]還訓(xùn)練了醫(yī)療版本的LLaMA模型——華駝。這些醫(yī)學(xué)通用大語言模型的成功表明利用醫(yī)療數(shù)據(jù)對大語言模型微調(diào)可以得到醫(yī)學(xué)專業(yè)能力更強(qiáng)的大語言模型[10]。此外,這些通過微調(diào)得到的醫(yī)學(xué)通用大語言模型都能在消費(fèi)級顯卡部署或訓(xùn)練。這對于研發(fā)或部署專用醫(yī)學(xué)大語言模型的醫(yī)院或機(jī)構(gòu)有著巨大的誘惑。

    1.2 參數(shù)高效微調(diào)方法

    得益于以LoRA(low-rank adaptation,LoRA)[11]為代表的參數(shù)高效微調(diào)方法(parameter-efficient fine-tuning, PEFT),大語言模型微調(diào)的算力需求與訓(xùn)練時間相比全參數(shù)微調(diào)大大降低。對于某一專業(yè)領(lǐng)域的大語言模型的訓(xùn)練,一個很常見的策略是從公共的知識庫獲取相關(guān)領(lǐng)域的專業(yè)知識作為訓(xùn)練數(shù)據(jù),利用這些數(shù)據(jù)對通用大語言模型進(jìn)行參數(shù)高效微調(diào)。值得注意的是,如果意向訓(xùn)練更加專業(yè)的大語言模型,那么僅僅使用公開知識庫的數(shù)據(jù)微調(diào)得到的大語言模型的專業(yè)程度并不會十分令人滿意。一個主要的原因是公開的知識庫對更細(xì)分領(lǐng)域的專業(yè)知識收錄不夠?qū)I(yè),難以得到從業(yè)者的認(rèn)可[3]。因此,使用專業(yè)性的文件或數(shù)據(jù)微調(diào)大語言模型被視為一個可行的方法。由于標(biāo)準(zhǔn)化作業(yè)流程的要求,專業(yè)性文件種包含了許多專業(yè)術(shù)語及專有名詞,文件的格式也有特殊的要求,往往并不適合直接用于微調(diào)。這些專業(yè)性文件需要有一定專業(yè)基礎(chǔ)的工作人員對數(shù)據(jù)進(jìn)行加工才適合用于大語言模型的微調(diào)。

    1.3 本研究的貢獻(xiàn)

    本文提出一種基于醫(yī)學(xué)領(lǐng)域?qū)I(yè)性文件訓(xùn)練醫(yī)學(xué)領(lǐng)域?qū)?拼笳Z言模型的兩階段微調(diào)框架,并基于此框架微調(diào)出面向肝膽醫(yī)學(xué)的專科大模型。本文的主要貢獻(xiàn)有兩點(diǎn),即:

    a)利用公開的知識圖譜或?qū)Υ笠?guī)模的語言模型進(jìn)行知識蒸餾,收集一定數(shù)量目標(biāo)域的訓(xùn)練數(shù)據(jù)對源模型進(jìn)行參數(shù)高效微調(diào);

    b)對專業(yè)性文件進(jìn)行數(shù)據(jù)處理,使其符合微調(diào)的數(shù)據(jù)要求及格式,使用相對少量的更專業(yè)數(shù)據(jù)對第一階段微調(diào)后的模型進(jìn)行第二次freeze微調(diào)[12],最終訓(xùn)練了一個針對肝膽專科的大語言模型。

    本文將這種兩次微調(diào)的框架命名為“造極”。基于“造極”與臨床病歷數(shù)據(jù), 本文訓(xùn)練了一個針對肝膽??频尼t(yī)療對話大語言模型——MedGLM.H。訓(xùn)練使用的臨床病歷數(shù)據(jù)是由東方肝膽外科醫(yī)院提供的肝膽??频牟粠в行彰幕颊卟v、診療記錄和手術(shù)記錄, 本文期望經(jīng)過這些臨床專業(yè)數(shù)據(jù)的訓(xùn)練,它能夠準(zhǔn)確回答出肝膽??频囊恍﹩栴},包括但不限于治療方案、手術(shù)要求、檢驗(yàn)指標(biāo)解讀及用藥規(guī)范等。由于目前整理的病歷文本數(shù)據(jù)量有限,MedGLM.H在對治療方案與檢驗(yàn)指標(biāo)解讀等回答上尚未達(dá)到專業(yè)水準(zhǔn)。在后續(xù)的更新迭代版本會針對這一缺陷進(jìn)行改進(jìn)。

    2 基于ChatGLM-6B的兩階段微調(diào)方法

    2.1 框架

    MedGLM.H的訓(xùn)練包括通用醫(yī)學(xué)知識訓(xùn)練與肝膽??频膶I(yè)知識訓(xùn)練。這點(diǎn)類似于中國臨床醫(yī)生的培養(yǎng)政策:中國的醫(yī)生在成為一名正式的臨床醫(yī)生之前必須首先在醫(yī)院的所有科室進(jìn)行輪轉(zhuǎn)實(shí)習(xí),以培養(yǎng)臨床醫(yī)生的綜合能力。各科室輪轉(zhuǎn)實(shí)習(xí)后,實(shí)習(xí)醫(yī)生會留在他最終選擇的科室成為該科室的實(shí)習(xí)醫(yī)生,繼續(xù)深入學(xué)習(xí)該科室的專業(yè)知識與臨床技能。MedGLM.H的兩階段微調(diào)對應(yīng)著臨床醫(yī)生的全科輪轉(zhuǎn)實(shí)習(xí)與定崗實(shí)習(xí)。

    基于“造極”的兩階段微調(diào)的全過程如圖1所示,其中第一階段的微調(diào),使用公開的醫(yī)學(xué)知識圖譜并借助GPT3.5的API接口生成通用的醫(yī)學(xué)知識問答數(shù)據(jù),對ChatGLM-6B進(jìn)行P-Tuning v2微調(diào)。第一階段微調(diào)后的模型命名為MedGLM.General,MedGLM.General可以回答部分通用醫(yī)學(xué)方面的基礎(chǔ)問題,但其回答問題的性能尚無法與其他通過海量通用醫(yī)學(xué)數(shù)據(jù)訓(xùn)練后的模型相比。第二階段的微調(diào)使用臨床的病歷數(shù)據(jù)進(jìn)行加工,用有限的數(shù)據(jù)對MedGLM.General進(jìn)行freeze微調(diào),訓(xùn)練得到的MedGLM.H能夠在保證通用醫(yī)學(xué)問答的性能下解答針對肝膽??频膯栴}。

    2.2 源模型

    許多研究人員在選擇源模型進(jìn)行微調(diào)時有著相似的偏好。在基于中文的大語言模型微調(diào)中,工程師通常選擇ChatGLM-6B作為源模型;而在英文方面的微調(diào)中,較為常見的源模型是LLaMA[13]。

    這兩個模型具有幾個共同特點(diǎn),首先它們都是開源的大語言模型,并且具有出色的性能表現(xiàn)。同時,它們的參數(shù)量都達(dá)到了十億級別(ChatGLM-6B含有60億個參數(shù),LLaMA含有70億個參數(shù)),這個級別的參數(shù)量對于大型語言模型而言只是達(dá)到門檻要求。盡管如此,由于它們的參數(shù)量相對較小且性能仍然足夠,微調(diào)這些模型所需的計算資源可以被許多實(shí)驗(yàn)室支持。因此,十億級別參數(shù)量的大語言模型是進(jìn)行微調(diào)的一個熱門選擇。

    MedGLM.H的訓(xùn)練源模型是ChatGLM-6B。該模型基于general language model(GLM)架構(gòu),參數(shù)量為62億。結(jié)合模型量化技術(shù),工程師可以在消費(fèi)級顯卡上進(jìn)行本地部署(INT4量化級別最低只需要6 GB顯存)。因此ChatGLM-6B被開發(fā)了許多個訓(xùn)練版本。目前很多中文的醫(yī)學(xué)大語言模型都是基于ChatGLM-6B進(jìn)行微調(diào),例如:DoctorGLM、ChatGLM-Med。

    2.3 構(gòu)建數(shù)據(jù)集

    首次微調(diào)的數(shù)據(jù)集主要來自公開的中文醫(yī)學(xué)知識庫,并參考cMeKG生成了一些數(shù)據(jù)。這些數(shù)據(jù)集的內(nèi)容包括并發(fā)癥、臨床癥狀、藥物治療和輔助治療等。醫(yī)學(xué)知識庫以中心詞對應(yīng)疾病和癥狀到所屬科室與發(fā)病部位為一組的形式儲存。再利用GPT3.5的API接口圍繞醫(yī)學(xué)知識庫構(gòu)建問答數(shù)據(jù),訓(xùn)練數(shù)據(jù)為“問題—回答”的形式。共計收集20 000條全科醫(yī)學(xué)的問答數(shù)據(jù)。

    第二次微調(diào)使用了1 300條肝膽專科臨床病患的病歷文本及診療記錄數(shù)據(jù),其中的檢驗(yàn)數(shù)據(jù)或治療方案通常有很強(qiáng)的獨(dú)特性(如:某藥物用量、注射的量;囊腫或腫瘤的尺寸以及超聲多普勒檢查的血液流速等)。這些過于精確的數(shù)據(jù)對于大語言模型來說可參考性很低。因此,在處理病歷數(shù)據(jù)時需要將這些數(shù)值剔除。除此之外,為了使MedGLM.H的回答更加專業(yè)且準(zhǔn)確,病歷數(shù)據(jù)還需要進(jìn)行再加工,數(shù)據(jù)形式如圖2所示。

    醫(yī)療記錄數(shù)據(jù)通過將查詢部分和檢查結(jié)果部分分類為“Q”,并利用相應(yīng)的診斷結(jié)果、相關(guān)檢查措施、手術(shù)要求、藥物指南和執(zhí)行后結(jié)果作為它們各自的“A”來進(jìn)行處理。此外,鑒于醫(yī)療記錄數(shù)據(jù)的標(biāo)準(zhǔn)化和專業(yè)性質(zhì),對部分醫(yī)療用語的改寫也是數(shù)據(jù)處理的一項(xiàng)重要工作。為了遵循數(shù)據(jù)保密原則,數(shù)據(jù)處理任務(wù)由本文的工作人員手動完成。

    由于患者醫(yī)療記錄和臨床數(shù)據(jù)的敏感性, 本文無法公開發(fā)布MedGLM.H的源代碼和數(shù)據(jù)集。測試版本將在東方肝膽外科醫(yī)院內(nèi)部部署,由專業(yè)醫(yī)生及部分臨床患者進(jìn)行測試。根據(jù)測試的結(jié)果進(jìn)一步改進(jìn),以加速最終發(fā)布MedGLM.H的時間。值得一提的是,MedGLM.H的訓(xùn)練環(huán)境是隔離且安全的,確保對機(jī)密數(shù)據(jù)的保護(hù)并防止任何泄露。

    2.4 階段1:基于通用醫(yī)學(xué)知識進(jìn)行P-Tuning v2微調(diào)

    由于LoRA在LLM的多輪對話中表現(xiàn)不佳,正如Xiong等人在DoctorGLM的后續(xù)版本中所提到的,進(jìn)一步使用P-Tuning v2進(jìn)行微調(diào)相比LoRA微調(diào)版本表現(xiàn)出了改進(jìn)的測試結(jié)果。因此,本文利用P-Tuning v2進(jìn)行第一次通用醫(yī)學(xué)LLM的微調(diào)。

    P-Tuning v2被視為Prefix-Tuning的一種版本,重點(diǎn)解決了prompt tuning在小模型上效果不佳的問題,并將prompt tuning拓展至更復(fù)雜的自然語言理解(NLU)任務(wù)中,如機(jī)器閱讀理解(MRC)答案抽取、命名實(shí)體識別(NER)實(shí)體抽取等序列標(biāo)注任務(wù)。在不同模型規(guī)模和NLU任務(wù)的微調(diào)中,它的性能可以與全參數(shù)微調(diào)方法相媲美,而只有01%~3%的微調(diào)參數(shù)。在訓(xùn)練中P-Tuning v2凍結(jié)模型的主要部分,對前綴進(jìn)行多層提示優(yōu)化。不同層中的提示作為前綴token加入到輸入序列中。添加到更深層次的提示可以對輸出預(yù)測產(chǎn)生更多的影響[14]。

    P-Tuning v2的運(yùn)算邏輯與結(jié)構(gòu)可以通過以下幾個關(guān)鍵部分來解釋:

    a)前綴編碼器 (prefixencoder): 這是一個自定義的模塊,用于生成可訓(xùn)練的前綴嵌入。它使用PyTorch的embedding層來為每個前綴ID創(chuàng)建一個嵌入向量。這些前綴嵌入將作為額外的輸入,與原始輸入一起參與模型的后續(xù)計算。

    b)模型擴(kuò)展: 這個類繼承自預(yù)訓(xùn)練的源模型,并且添加了前綴編碼器。在模型的前向傳播過程中,前綴編碼器生成的前綴嵌入會與原始輸入嵌入合并。

    c)前向傳播過程:

    (a)使用prefixencoder對前綴ID進(jìn)行編碼,得到前綴嵌入;

    (b)獲取原始輸入ID的嵌入表示;

    (c)將前綴嵌入與輸入嵌入連接起來,形成一個擴(kuò)展的嵌入序列;

    (d)將這個擴(kuò)展的嵌入序列輸入到源模型中,進(jìn)行正常的前向傳播。

    d)訓(xùn)練與更新:

    (a)在訓(xùn)練過程中,模型的參數(shù)和前綴嵌入會根據(jù)任務(wù)目標(biāo)進(jìn)行更新;

    (b)通過反向傳播算法,計算損失函數(shù)關(guān)于模型參數(shù)的梯度,并更新模型參數(shù)和前綴嵌入。

    P-Tuning v2的核心思想是通過在模型的每一層引入可訓(xùn)練的前綴,從而使模型能夠?qū)W習(xí)到特定任務(wù)的信息。這種方法不僅提高了模型的靈活性,而且在不增加過多參數(shù)的情況下,提升了模型對特定任務(wù)的適應(yīng)能力。

    將模型的參數(shù)集合定義為θ,其中包含多層的模型參數(shù)(θ1,θ2,…,θn)。每一層(i)添加一組可學(xué)習(xí)的提示Pi,與模型的輸入X共同參與模型的計算。

    每一層的提示Pi可以表示為:[Pi=fi(Pi-1,θi)],其中fi為計算函數(shù),θi是第i層的參數(shù),Pi-1為前一層的提示。在訓(xùn)練過程中,每層提示Pi通過最小化損失函數(shù)L進(jìn)行更新:

    Pl:[minP1,…,PnL(Y,Y^(X,P1,…,Pn,Θ))](1)

    其中:Y為真實(shí)標(biāo)簽,Y^是模型的預(yù)測輸出。

    MedGLM.H模型的任務(wù)是在肝膽領(lǐng)域提供專業(yè)的問答,基本上是一個涉及序列標(biāo)注的具有挑戰(zhàn)性的NLU任務(wù)。在Zhang等人進(jìn)行的研究中,當(dāng)面臨這些困難的NLU挑戰(zhàn)時,P-Tuning v2表現(xiàn)出與Fine-Tune相當(dāng)?shù)男阅?,同時需要更低的計算資源。因此, P-Tuning v2更適合MedGLM的第一階段訓(xùn)練。

    2.5 階段2:基于私有臨床數(shù)據(jù)微調(diào)

    在第一階段之后,MedGLM.General的底層已經(jīng)得到很好的訓(xùn)練,在一般醫(yī)學(xué)問答任務(wù)中表現(xiàn)出合理的準(zhǔn)確性。為了保留MedGLM.General在一般醫(yī)學(xué)問答任務(wù)中的性能, 本文選擇在微調(diào)的第二階段凍結(jié)基礎(chǔ)層,僅允許更新最后5層的參數(shù)。

    對于凍結(jié)的參數(shù)θi,(i≤k):[θ(t+1)i=θti]。

    對于參與微調(diào)的參數(shù)θj,(j≤k):[θ(t+1)j=θtj-ηLθj],它們按照梯度下降法更新。其中t為迭代次數(shù),η為學(xué)習(xí)率,L是損失函數(shù)。

    在數(shù)學(xué)上,這可以表示為在微調(diào)過程中,對于每個凍結(jié)的參數(shù)θi, 本文設(shè)置(Lθi=0)。這意味著這些參數(shù)的梯度為零,因此在反向傳播過程中不會更新。對于需要更新的參數(shù), 本文正常計算梯度并更新參數(shù)值。

    freeze微調(diào)的優(yōu)點(diǎn)是能夠利用預(yù)訓(xùn)練模型的強(qiáng)大表示能力,同時通過微調(diào)少數(shù)參數(shù)來適應(yīng)特定任務(wù),這在數(shù)據(jù)量有限或者計算資源受限的情況下尤其有用。

    鑒于已處理的專業(yè)臨床數(shù)據(jù)量有限,freeze微調(diào)使得可以使用少量數(shù)據(jù)進(jìn)行模型細(xì)化,同時保留源模型的一些性能。經(jīng)過freeze微調(diào)后,MedGLM.H能夠在保持MedGLM.General在一般醫(yī)學(xué)知識問答任務(wù)中強(qiáng)大性能的同時,解決肝膽e034b963c0f7cebd3ff043842b28dad1專業(yè)領(lǐng)域的特定問題。

    3 實(shí)驗(yàn)與結(jié)果

    3.1 實(shí)驗(yàn)設(shè)計

    為了驗(yàn)證兩階段微調(diào)的有效性及MedGLM.H的專業(yè)性,本文設(shè)計了四個實(shí)驗(yàn)以評估微調(diào)方法的綜合性能、MedGLM.H模型對于臨床醫(yī)療問題的解答效果、模型在微調(diào)前后的性能對比以及MedGLM.H對于肝膽專科醫(yī)學(xué)的專業(yè)性。

    用模型微調(diào)效果的通用評價指標(biāo)進(jìn)行微調(diào)方法性能的評估;設(shè)置一項(xiàng)對于臨床醫(yī)療問題的雙盲評估實(shí)驗(yàn),由臨床醫(yī)生根據(jù)通用醫(yī)療大語言模型與MedGLM.H對相同臨床醫(yī)療問題的回答進(jìn)行評估

    ;設(shè)置肝膽??圃囶}集,對比微調(diào)前后模型的準(zhǔn)確率與得分率;最后,由三位臨床醫(yī)生進(jìn)行10輪的對話以評估模型在專業(yè)醫(yī)療場景的實(shí)用性。

    1)微調(diào)效果評估實(shí)驗(yàn)

    實(shí)驗(yàn)驗(yàn)證階段, 本文在東方肝膽外科醫(yī)院的病歷數(shù)據(jù)中避開訓(xùn)練集,隨機(jī)選擇了500組肝膽科患者的問診主訴作為Q(question),使用GPT-4對問診進(jìn)行回答作為A(answer),以此作為驗(yàn)證集。 本文采用BLEU(bilingual evaluation understudy)值[15]和Rouge score(Rouge,recall-oriented understudy for gisting evaluation)[16]對微調(diào)后的模型進(jìn)行評估,評估結(jié)果在第3.3小節(jié)。然而,應(yīng)注意的是,BLEU和Rouge分?jǐn)?shù)僅在評估模型生成的答案在驗(yàn)證集中與參考答案匹配的程度方面是可靠的。對于真實(shí)的臨床應(yīng)用,仍然需要進(jìn)行進(jìn)一步的評估[17]。

    2)雙盲問答對比實(shí)驗(yàn)

    為了對比MedGLM.H對于臨床醫(yī)療問題的解答效果,本文選取MedGLM.H的源模型ChatGLM-6B以及該模型通過Instruct-Tuning微調(diào)后得到的醫(yī)學(xué)通用大語言模型ChatGLM-Med進(jìn)行雙盲評估實(shí)驗(yàn)。在實(shí)驗(yàn)中,三個模型對于同一肝膽科臨床醫(yī)療問題進(jìn)行解答,由專業(yè)的肝膽科臨床醫(yī)生對模型生成的答案質(zhì)量進(jìn)行綜合評分。

    3)微調(diào)前后對比實(shí)驗(yàn)

    此外,在驗(yàn)證兩階段微調(diào)框架的有效性及MedGLM.H在肝膽??频膶I(yè)性方面,通過建立肝膽??频恼鎸?shí)題庫作為驗(yàn)證集,與未經(jīng)微調(diào)的ChatGLM-6B進(jìn)行對比實(shí)驗(yàn)。驗(yàn)證集中的真題來自中國執(zhí)業(yè)醫(yī)師資格考試、臨床醫(yī)院中肝膽科出科考試與臨床醫(yī)學(xué)專業(yè)考試中關(guān)于肝膽科的真實(shí)考題。整合后的肝膽??圃囶}包括100道單項(xiàng)選擇題與10道主觀題。統(tǒng)計對比選擇題的正確率與簡答題的得分率。簡答題的判分由東方肝膽外科醫(yī)院的臨床醫(yī)生進(jìn)行。

    4)臨床醫(yī)生對話評估實(shí)驗(yàn)

    為了驗(yàn)證MedGLM.H的臨床適用性和專業(yè)性, 本文邀請了三位有著豐富臨床經(jīng)驗(yàn)的肝膽科醫(yī)生與MedGLM.H進(jìn)行10輪對話。將MedGLM.H的回答在準(zhǔn)確性、對醫(yī)生的參考價值和對病人的適用性三個維度上進(jìn)行評估。旨在評估MedGLM.H的臨床適用性和專業(yè)性。

    3.2 評價指標(biāo)

    BLEU分?jǐn)?shù)是用于評估AI模型機(jī)器翻譯質(zhì)量的一項(xiàng)評價指標(biāo),它會根據(jù)模型生成的結(jié)果與驗(yàn)證集中答案的匹配程度給出分?jǐn)?shù),這個分?jǐn)?shù)在0~1,BLEU值越接近1則翻譯質(zhì)量越高。Rouge score是一種用于衡量自動文摘生成質(zhì)量的指標(biāo),它根據(jù)生成的文摘與參考摘要之間的匹配程度給出分?jǐn)?shù),同樣在0~1,1表示最匹配,0表示最不相關(guān)。

    BLEU值與Rouge score的評估僅能保證MedGLM.H的回答是否與GPT-4相接近(盡管GPT-4對于醫(yī)學(xué)問題的回答質(zhì)量已經(jīng)非常高),無法表明MedGLM.H對肝膽科患者或醫(yī)生的適用性。因此設(shè)計準(zhǔn)確性、對醫(yī)生的可參考性、對病人的適用性三維度的評估是必要的。

    3.3 結(jié)果與分析

    本文對比了幾種基于ChatGLM-6B微調(diào)的醫(yī)學(xué)大語言模型的微調(diào)方法與硬件環(huán)境,并對驗(yàn)證集進(jìn)行BLEU與Rouge score指標(biāo)評估,各大語言模型的對比驗(yàn)證結(jié)果記錄在表1。

    為了更加直觀地對比幾個醫(yī)療模型對于臨床問題的解答效果, 本文進(jìn)行了一次雙盲問答對比實(shí)驗(yàn),由東方肝膽外科醫(yī)院的臨床醫(yī)生對答案的質(zhì)量進(jìn)行綜合評分。在這個對比實(shí)驗(yàn)中, 本文展示了三個醫(yī)學(xué)模型對于臨床問題的回答。對話的內(nèi)容和答案分別由三個不同的醫(yī)學(xué)模型生成,但在展示給評估者時,沒有顯示模型的名稱,以確保評估是雙盲的。臨床醫(yī)生對這些答案的質(zhì)量進(jìn)行評估,并給出了綜合得分。評估者只根據(jù)內(nèi)容和質(zhì)量來評估答案,而不知道模型的身份。這種實(shí)驗(yàn)證明了醫(yī)學(xué)模型在回答臨床問題時的性能,并提供了更直觀的比較。對話的內(nèi)容如表2所示。

    對比實(shí)驗(yàn)的結(jié)果見表3,準(zhǔn)確率表示模型對于試題中單項(xiàng)選擇題的正確率,得分率為模型對于簡答題生成的答案的得分。每道簡答題的答案由肝膽專科的醫(yī)生進(jìn)行0~10分的打分,共計10道簡答題。醫(yī)生對于簡答題的評判標(biāo)準(zhǔn)與臨床醫(yī)學(xué)專業(yè)考試及肝膽科實(shí)習(xí)醫(yī)生出科考試一致,以此保證實(shí)驗(yàn)結(jié)果的有效性。

    在基于肝膽??圃囶}的對比實(shí)驗(yàn)中,MedGLM.H展現(xiàn)了較高水準(zhǔn)的肝膽專業(yè)問答水平。在得分上,與Flan-PaLM 540B在美國執(zhí)業(yè)醫(yī)師資格考試中取得的準(zhǔn)確率相當(dāng)[17]。其中MedGLM.H對于單項(xiàng)選擇題的準(zhǔn)確率達(dá)到了源模型的兩倍,簡答題的得分率在源模型的對比下也顯示出了較大的改進(jìn)。盡管目前MedGLM.H對于執(zhí)業(yè)醫(yī)師資格考試等專業(yè)試題的準(zhǔn)確率與臨床醫(yī)生仍有一定差距。但就目前而言,本研究在輕量級大語言模型微調(diào)中進(jìn)行專業(yè)領(lǐng)域的針對性微調(diào)表現(xiàn)出了一定的潛力。

    本文期望MedGLM.H能夠解答肝膽科常見的臨床問題并且為醫(yī)生提供一些治療意見。因此,對于MedGLM.H生成的答案還需要進(jìn)行三個維度的評估,分別為:生成答案的準(zhǔn)確度、生成的答案對病人的適用度以及給醫(yī)生的參考價值。 本研究邀請了三位來自東方肝膽外科醫(yī)院的主治醫(yī)生與MedGLM.H進(jìn)行10輪的對話,最終對MedGLM.H生成的答案進(jìn)行評估。圖3展示了三位醫(yī)生對MedGLM.H生成答案的評估。

    可以證明MedGLM.H在更專業(yè)的醫(yī)療場景中執(zhí)行對話任務(wù)的效果有一定的專業(yè)水準(zhǔn)。這為訓(xùn)練更加專業(yè)的醫(yī)療大語言模型提供了一個思路:使用經(jīng)過加工的??撇v文本數(shù)據(jù)對醫(yī)療通用大語言模型進(jìn)行微調(diào)可以得到一個聚焦于某一科室的大語言模型,并且它的成本是絕大部分醫(yī)院或臨床醫(yī)學(xué)研究團(tuán)隊(duì)能夠負(fù)擔(dān)得起的。

    4 討論與展望

    盡管醫(yī)學(xué)通用的大語言模型已經(jīng)在早前推出,但這些大語言模型并沒有廣泛地部署在臨床醫(yī)院。一個主要的原因是這些大語言模型的對話質(zhì)量對比此前一些醫(yī)院部署的問答系統(tǒng)并沒有突破性的進(jìn)展。由于訓(xùn)練這些醫(yī)學(xué)通用大語言模型的數(shù)據(jù)集很多都是來自這些基于醫(yī)療咨詢數(shù)據(jù)庫的問答系統(tǒng),所以這些大語言模型的回答不可避免地會與早先的問答系統(tǒng)高度類似,并沒有體現(xiàn)出AIGC技術(shù)的優(yōu)越性[18]。MedGLM.H解決這一問題的方法是使用經(jīng)過處理的病人病歷及診療記錄的文本數(shù)據(jù)對大語言模型進(jìn)行微調(diào),以提高它的對話質(zhì)量。

    本文的工作在低學(xué)術(shù)預(yù)算的情況下,基于通用醫(yī)學(xué)知識圖譜和專業(yè)的臨床數(shù)據(jù)通過“造極”訓(xùn)練了針對肝膽??频尼t(yī)療對話大語言模型。在中國執(zhí)業(yè)醫(yī)生資格考試等專業(yè)醫(yī)學(xué)考試中肝膽科試題的準(zhǔn)確率與更大參數(shù)級別的大語言模型Flan-PaLM 540B在美國執(zhí)業(yè)醫(yī)師資格考試中取得的準(zhǔn)確率相當(dāng)。這為許多有相似情況的學(xué)術(shù)團(tuán)隊(duì)提供了思路,對推廣訓(xùn)練或部署專業(yè)大語言模型也作出了一定的貢獻(xiàn)。

    盡管MedGLM.H在實(shí)驗(yàn)驗(yàn)證階段展示了一定的專業(yè)水平,能夠回答肝膽科一些專業(yè)的問題。但由于參與微調(diào)訓(xùn)練的數(shù)據(jù)并不十分完善且數(shù)據(jù)量有限,加之這項(xiàng)工作仍處于研究早期,它的回答不應(yīng)該被完全信任。 本研究期待接下來的工作能夠使它更加可信任,以便于部署到醫(yī)療資源匱乏的地區(qū)或社區(qū)醫(yī)院。

    本研究的目標(biāo)是訓(xùn)練一個能夠給醫(yī)生提供專業(yè)診療意見、為臨床病患解答專業(yè)性醫(yī)學(xué)問題的專業(yè)醫(yī)療對話大語言模型。就目前的工作而言, 本研究邁出了第一步。它仍有許多問題亟待解決。如:MedGLM.H的回答需要保證相當(dāng)高的準(zhǔn)確率,給出的診療意見也需要大基數(shù)的實(shí)驗(yàn)來驗(yàn)證其有效性與無害性;對于醫(yī)學(xué)檢驗(yàn)結(jié)果的診斷與解答還需要進(jìn)一步的訓(xùn)練以提高準(zhǔn)確度。在未來, 本研究預(yù)備進(jìn)行以下工作來改進(jìn)Med-GLM,使它的回答能夠更加準(zhǔn)確與多元。

    a)在東方肝膽外科醫(yī)院不斷進(jìn)行測試,收集測試結(jié)果對大語言模型進(jìn)行改進(jìn)。

    b)使用各科室的臨床數(shù)據(jù)與病歷文本設(shè)計醫(yī)學(xué)知識圖譜,以外接知識庫的形式接到MedGLM.General,使MedGLM.General能夠回答除肝膽科以外的專業(yè)問題。

    c)接入傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)對某些疾病的預(yù)測模型,醫(yī)生能夠向MedGLM提問相關(guān)病癥發(fā)展階段的指標(biāo)特征或干預(yù)措施對病癥發(fā)展的影響。

    d)通過設(shè)計prompt并使用特定數(shù)據(jù)微調(diào)使MedGLM能夠做到對部分疾病的早期篩查。

    參考文獻(xiàn):

    [1]Radford A, Narasimhan K, Salimans T,et al. Improving language understanding by generative pre-training [EB/OL]. (2018) [2024-03-13].

    http://www.mikecaptain.com/resources/pdf/G PT-1.pdf.

    [2]Du Zhengxiao, Qian Yujie, Liu Xiao,et al. GLM: general language model pretraining with autoregressive blank infilling [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2022: 320-335.

    [3]Himabindu L, Dylan S, Chen Yuxin,et al. Rethinking explainability as a dialogue: a practitioner’s perspective [EB/OL]. (2022) [2024-03-13]. http://doi.org/10.48550/arXiv.2202.01875.

    [4]Esteva A, Chou K, Yeung S,et al. Deep learning-enabled medical computer vision [J]. NPJ Digital Medicine, 2021, 4(1): 5.

    [5]Yim J, Chopra R, Spitz T,et al. Predicting conversion to wet age related macular [J]. Nature Medicine, 2020 (26): 892-899.

    [6]Tomaev N, Harris N, Baur S,et al. Developing continuous risk mo-dels for adverse event prediction in electronic health records using deep learning [J]. Nature Protocol, 2021 (16): 2765-2787.

    [7]Li Yunxiang, Li Zihan, Zhang Kai,et al. ChatDoctor: a medical chat model fine-tuned on LLaMA model using medical domain knowledge [EB/OL]. (2023) [2024-03-13]

    https://doi.org/10.48550/arXiv.2303.14070.

    [8]Xiong Honglin, Wang Sheng, Zhu Yitao,et al. DoctorGLM: fine-tuning your Chinese doctor is not a herculean task [EB/OL]. (2023) [2024-03-13].

    https://doi.org/10.48550/arXiv.2304.01097.

    [9]Wang Haochun, Liu Chi, Xi Nuwa,et al. HuaTuo: tuning LLaMA model with Chinese medical knowledge [EB/OL]. (2023) [2024-03-13].

    https://doi.org/10.48550/arXiv.2304.06975.

    [10]Liu Zhengliang, Yu Xiaowei, Zhang Lu,et al. DeID-GPT: zero-shot medical text de-identification by GPT-4 [EB/OL]. (2023) [20 24-03-13].

    https://doi.org/10.48550/arXiv.2303.11032.

    [11]Hu E, Shen Yelong, Wallis P,et al. LORA: low-rank adaptation of large language models [C]// Proc of the 10th International Confe-rence on Learning Representations. Washington, DC: IUR, 2022.

    [12]Shin J, Choi S, Choi Y,et al. A pragmatic approach to on-device incremental learning system with selective weight updates [C]//Proc of 57th ACM/IEEE Design Automation Conference. Piscataway,NJ:IEEE Press, 2020: 1-6.

    [13]Touvron H, Lavril T, Izacard G,et al. LLaMA: open and efficient foundation language models [EB/OL]. (2023) [2024-03-13]. https://doi.org/10.48550/arXiv.2302.13971.

    [14]Liu Xiao, Ji Kaixuan, Tam W,et al. P-Tuning v2: prompt tuning can be comparable to fine-tuning universally across scales and tasks [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2022: 61-68.

    [15]Papineni K, Roukos S, Ward T,et al. BLEU: a method for automatic evaluation of machine translation [C]// Proc of the 40th Annual Meeting of Association for Computational Linguistics. Stroudsburg, PA: ACL, 2002: 311-318.

    [16]Lin C Y. ROUGE: a package for automatic evaluation of summaries [C]// ACL Proc of Workshop on Text Summarization Branches Out. Stroudsburg, PA: ACL, 2004: 74-81.

    [17]Singhal K, Azizi S, Tu T,et al. Large language models encode clinical knowledge [J]. Nature, 2023, 620(7972): 172-180.

    [18]Cao Yihan, Li Siyu, Liu Yixin,et al. A comprehensive survey of AI-generated content (AIGC): a history of generative AI from GAN to ChatGPT [J]. Journal of the ACM, 2018, 4(37): 111-155.

    欧美激情国产日韩精品一区| 精品少妇黑人巨大在线播放 | 黑人高潮一二区| 免费看美女性在线毛片视频| 热99re8久久精品国产| 黄色欧美视频在线观看| 在线a可以看的网站| 欧美日韩精品成人综合77777| 国产高清国产精品国产三级 | 亚洲精品久久久久久婷婷小说 | 日本黄色片子视频| 熟妇人妻久久中文字幕3abv| av国产免费在线观看| 最近视频中文字幕2019在线8| av女优亚洲男人天堂| 国产亚洲av片在线观看秒播厂 | 中文天堂在线官网| 床上黄色一级片| 免费观看的影片在线观看| 久久久久久久久久久丰满| 国产精品乱码一区二三区的特点| 91av网一区二区| 国产亚洲最大av| 99久国产av精品国产电影| 中文字幕人妻熟人妻熟丝袜美| 免费无遮挡裸体视频| 2022亚洲国产成人精品| 免费看美女性在线毛片视频| 欧美另类亚洲清纯唯美| 搞女人的毛片| 国内揄拍国产精品人妻在线| 日韩高清综合在线| 男女边吃奶边做爰视频| 在线免费观看不下载黄p国产| 99热精品在线国产| 日韩人妻高清精品专区| 久久久精品欧美日韩精品| 日韩 亚洲 欧美在线| 成人综合一区亚洲| 日韩av在线免费看完整版不卡| 国产精品,欧美在线| 久久午夜福利片| 亚洲久久久久久中文字幕| 亚洲最大成人中文| 久久精品国产自在天天线| 免费观看人在逋| 久久99热6这里只有精品| 欧美高清成人免费视频www| 精品人妻偷拍中文字幕| 色综合站精品国产| 欧美3d第一页| 色5月婷婷丁香| 午夜福利在线在线| 深爱激情五月婷婷| 欧美极品一区二区三区四区| 白带黄色成豆腐渣| 美女黄网站色视频| 三级毛片av免费| 国产午夜精品一二区理论片| 91aial.com中文字幕在线观看| 99九九线精品视频在线观看视频| 中文字幕亚洲精品专区| 插逼视频在线观看| 变态另类丝袜制服| 熟女人妻精品中文字幕| kizo精华| 欧美日韩在线观看h| 综合色丁香网| 色尼玛亚洲综合影院| 久久久久久久久久久免费av| 丰满人妻一区二区三区视频av| 丰满少妇做爰视频| 天堂av国产一区二区熟女人妻| 国产精品综合久久久久久久免费| 在线观看美女被高潮喷水网站| 色视频www国产| 国产成人一区二区在线| 久久精品夜夜夜夜夜久久蜜豆| 久久韩国三级中文字幕| 久久久久久久亚洲中文字幕| ponron亚洲| 91久久精品国产一区二区三区| 三级毛片av免费| 亚洲无线观看免费| 中文欧美无线码| 国产精品精品国产色婷婷| 人妻系列 视频| 亚洲无线观看免费| 亚洲综合色惰| 乱系列少妇在线播放| 99久久精品一区二区三区| 亚洲精品亚洲一区二区| 青青草视频在线视频观看| 欧美3d第一页| 亚洲成色77777| 99热网站在线观看| 免费黄色在线免费观看| 国产精品一区二区三区四区免费观看| 亚洲熟妇中文字幕五十中出| 日本黄色片子视频| 国产黄片美女视频| 国产精品人妻久久久影院| av女优亚洲男人天堂| 人人妻人人看人人澡| 日日啪夜夜撸| 国产精品女同一区二区软件| 久久久久久久久久久丰满| 夜夜看夜夜爽夜夜摸| 一边亲一边摸免费视频| 男人狂女人下面高潮的视频| 亚洲成人av在线免费| 亚洲av免费在线观看| 亚洲欧美日韩高清专用| 伦精品一区二区三区| 国产一区二区在线观看日韩| 日本一二三区视频观看| 国产激情偷乱视频一区二区| 婷婷色综合大香蕉| 久久午夜福利片| 天堂网av新在线| 22中文网久久字幕| 日韩av在线大香蕉| 国产精品野战在线观看| 日本午夜av视频| 精品久久久久久久末码| 国产在线男女| 久久亚洲精品不卡| 亚洲国产色片| 91狼人影院| 精品久久久久久久久亚洲| 性插视频无遮挡在线免费观看| 精品人妻一区二区三区麻豆| 日韩精品青青久久久久久| 听说在线观看完整版免费高清| 婷婷色av中文字幕| 在线a可以看的网站| 亚洲av成人av| 男人狂女人下面高潮的视频| 身体一侧抽搐| 精品久久久久久久久av| 18禁动态无遮挡网站| 国语自产精品视频在线第100页| 亚洲av.av天堂| 99在线视频只有这里精品首页| 国产午夜精品一二区理论片| 精品一区二区免费观看| 热99re8久久精品国产| 日韩,欧美,国产一区二区三区 | a级一级毛片免费在线观看| 蜜臀久久99精品久久宅男| 91在线精品国自产拍蜜月| 乱码一卡2卡4卡精品| 亚洲激情五月婷婷啪啪| 欧美xxxx黑人xx丫x性爽| 欧美一级a爱片免费观看看| 蜜臀久久99精品久久宅男| 久久韩国三级中文字幕| 亚洲在线观看片| 男人舔奶头视频| 国产黄片视频在线免费观看| 黄色欧美视频在线观看| 国产 一区精品| 好男人视频免费观看在线| 国产日韩欧美在线精品| 色噜噜av男人的天堂激情| 大香蕉97超碰在线| 两性午夜刺激爽爽歪歪视频在线观看| 美女黄网站色视频| 国产精品蜜桃在线观看| 国产高潮美女av| 精品免费久久久久久久清纯| 成人综合一区亚洲| 热99在线观看视频| 少妇熟女欧美另类| 欧美日韩一区二区视频在线观看视频在线 | 亚洲欧美成人综合另类久久久 | 国产精品福利在线免费观看| 天天躁日日操中文字幕| 亚洲av不卡在线观看| 欧美日韩国产亚洲二区| 老司机福利观看| 一边摸一边抽搐一进一小说| 久久人妻av系列| 看十八女毛片水多多多| 最新中文字幕久久久久| 国语对白做爰xxxⅹ性视频网站| 99热这里只有是精品50| 人人妻人人澡人人爽人人夜夜 | 国产精品一区二区三区四区免费观看| 免费电影在线观看免费观看| 亚洲欧美日韩高清专用| 亚洲无线观看免费| 色噜噜av男人的天堂激情| 欧美xxxx黑人xx丫x性爽| 观看免费一级毛片| 国产精品一区二区性色av| 久久久精品94久久精品| 超碰97精品在线观看| 精品少妇黑人巨大在线播放 | 男人的好看免费观看在线视频| 亚洲av免费高清在线观看| 免费黄色在线免费观看| 一级毛片久久久久久久久女| 日韩欧美精品免费久久| 国产精品伦人一区二区| 亚洲欧美成人精品一区二区| 成人毛片60女人毛片免费| 97超视频在线观看视频| 亚洲高清免费不卡视频| 久久久久久久久久久丰满| 亚洲av二区三区四区| 久久亚洲精品不卡| 18禁在线无遮挡免费观看视频| 99热这里只有精品一区| 国产毛片a区久久久久| 精华霜和精华液先用哪个| 91在线精品国自产拍蜜月| 亚洲av电影不卡..在线观看| 亚洲欧美日韩东京热| 男人舔女人下体高潮全视频| 午夜免费激情av| 欧美日韩国产亚洲二区| 国产成年人精品一区二区| 国产单亲对白刺激| 日韩人妻高清精品专区| 大香蕉97超碰在线| 人人妻人人澡人人爽人人夜夜 | 亚州av有码| 久热久热在线精品观看| 波多野结衣高清无吗| videossex国产| 欧美日本视频| АⅤ资源中文在线天堂| 中文字幕人妻熟人妻熟丝袜美| 久久99精品国语久久久| 水蜜桃什么品种好| 国产一级毛片七仙女欲春2| 两个人视频免费观看高清| 免费观看精品视频网站| 99热网站在线观看| 成年av动漫网址| 中文字幕av成人在线电影| 欧美xxxx黑人xx丫x性爽| 中国美白少妇内射xxxbb| 在线免费观看的www视频| 久久久国产成人精品二区| 亚洲欧美精品自产自拍| 亚洲高清免费不卡视频| www.av在线官网国产| 日本猛色少妇xxxxx猛交久久| 中文字幕免费在线视频6| 亚洲精品日韩在线中文字幕| 久久久久网色| 插逼视频在线观看| 六月丁香七月| 色综合色国产| 一个人免费在线观看电影| 国产精品电影一区二区三区| 国产一区亚洲一区在线观看| 国产综合懂色| www.色视频.com| 超碰97精品在线观看| 91久久精品电影网| 国产亚洲av嫩草精品影院| 一个人看视频在线观看www免费| 长腿黑丝高跟| 国产av一区在线观看免费| 免费看a级黄色片| 中文乱码字字幕精品一区二区三区 | 久久久久久久久久久免费av| 国产高清有码在线观看视频| 91狼人影院| 日本猛色少妇xxxxx猛交久久| 亚洲精品一区蜜桃| 亚洲欧美成人综合另类久久久 | 亚洲av男天堂| 国产精品永久免费网站| 精品一区二区免费观看| 简卡轻食公司| 国产高潮美女av| 最后的刺客免费高清国语| 国产免费男女视频| 欧美性感艳星| 97超碰精品成人国产| av又黄又爽大尺度在线免费看 | 亚洲欧美日韩无卡精品| 能在线免费观看的黄片| 国产精品综合久久久久久久免费| 日本一二三区视频观看| 亚洲中文字幕日韩| 一区二区三区乱码不卡18| 大香蕉久久网| 一夜夜www| 欧美高清成人免费视频www| 久久人人爽人人爽人人片va| 亚洲国产精品国产精品| 菩萨蛮人人尽说江南好唐韦庄 | 汤姆久久久久久久影院中文字幕 | 一级av片app| 久久久久久九九精品二区国产| 午夜老司机福利剧场| 日本熟妇午夜| 最近中文字幕高清免费大全6| 亚洲精华国产精华液的使用体验| 国国产精品蜜臀av免费| 99热精品在线国产| av又黄又爽大尺度在线免费看 | 精品久久久久久久久亚洲| 国产乱来视频区| 亚洲国产高清在线一区二区三| 国产成人a∨麻豆精品| 久久精品国产亚洲av涩爱| 欧美日本亚洲视频在线播放| 能在线免费看毛片的网站| 免费看光身美女| av在线天堂中文字幕| 99久久精品一区二区三区| 国产精品一区二区三区四区久久| 最近最新中文字幕大全电影3| 色噜噜av男人的天堂激情| 啦啦啦啦在线视频资源| 欧美潮喷喷水| 又粗又硬又长又爽又黄的视频| av黄色大香蕉| 亚洲综合色惰| 国产 一区 欧美 日韩| 久久99热这里只有精品18| 久久久久久久国产电影| 免费播放大片免费观看视频在线观看 | 久久久久久久久中文| 麻豆国产97在线/欧美| 日本三级黄在线观看| av免费观看日本| 青春草国产在线视频| 亚洲精品亚洲一区二区| 免费在线观看成人毛片| 九九在线视频观看精品| 中国国产av一级| 中文字幕亚洲精品专区| .国产精品久久| av又黄又爽大尺度在线免费看 | 最近手机中文字幕大全| 免费看a级黄色片| 欧美一区二区亚洲| 欧美成人午夜免费资源| 亚洲经典国产精华液单| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 伊人久久精品亚洲午夜| 亚洲国产精品专区欧美| 久久人人爽人人片av| 亚洲成人av在线免费| 国产视频首页在线观看| 国产久久久一区二区三区| 亚洲激情五月婷婷啪啪| 久久午夜福利片| 日韩欧美在线乱码| 精品一区二区免费观看| 99热全是精品| 熟女电影av网| 视频中文字幕在线观看| av国产久精品久网站免费入址| 听说在线观看完整版免费高清| 日本黄色片子视频| 久久99蜜桃精品久久| 亚洲人与动物交配视频| 日产精品乱码卡一卡2卡三| 一级黄片播放器| 亚洲精品乱码久久久久久按摩| 久久久国产成人免费| 国产免费福利视频在线观看| 久久久色成人| 国产乱人视频| 久久99热6这里只有精品| 免费看a级黄色片| 国产精品国产三级国产专区5o | 亚洲精品一区蜜桃| 97超视频在线观看视频| 成人一区二区视频在线观看| 91久久精品国产一区二区三区| 天天一区二区日本电影三级| 亚洲国产精品成人久久小说| 两个人的视频大全免费| 18禁裸乳无遮挡免费网站照片| 美女脱内裤让男人舔精品视频| 亚洲va在线va天堂va国产| 国产精品久久久久久久电影| 国内精品宾馆在线| 久久久久久九九精品二区国产| 人妻少妇偷人精品九色| 男人舔奶头视频| a级毛色黄片| 日本五十路高清| 啦啦啦啦在线视频资源| 午夜a级毛片| 国产精品久久电影中文字幕| 免费av毛片视频| 别揉我奶头 嗯啊视频| 九九久久精品国产亚洲av麻豆| 国产精品永久免费网站| 亚州av有码| 青春草视频在线免费观看| 久久久久久国产a免费观看| 久久久欧美国产精品| av在线天堂中文字幕| 精品少妇黑人巨大在线播放 | 亚洲国产日韩欧美精品在线观看| 免费大片18禁| 三级经典国产精品| 插阴视频在线观看视频| 三级国产精品欧美在线观看| 日韩 亚洲 欧美在线| 久久久午夜欧美精品| 欧美3d第一页| 99久久精品热视频| 亚洲在线观看片| 有码 亚洲区| 欧美高清成人免费视频www| 中国国产av一级| 国产成人一区二区在线| av卡一久久| 亚洲中文字幕日韩| 国产麻豆成人av免费视频| 国产三级在线视频| 亚洲人成网站在线播| 黄片wwwwww| 美女高潮的动态| 日本五十路高清| 国产精品久久久久久久久免| 欧美bdsm另类| 乱码一卡2卡4卡精品| 国产成人精品婷婷| 国产伦精品一区二区三区四那| 国产成人aa在线观看| 美女高潮的动态| 三级男女做爰猛烈吃奶摸视频| 热99在线观看视频| 少妇熟女欧美另类| 亚洲中文字幕一区二区三区有码在线看| 深爱激情五月婷婷| 国产色婷婷99| 国产私拍福利视频在线观看| 久久久久久久国产电影| 亚洲精品久久久久久婷婷小说 | 婷婷色av中文字幕| 日本免费一区二区三区高清不卡| 国产亚洲精品久久久com| 亚洲经典国产精华液单| 91在线精品国自产拍蜜月| 亚洲国产日韩欧美精品在线观看| 少妇的逼好多水| 级片在线观看| 国内揄拍国产精品人妻在线| 婷婷色av中文字幕| 2022亚洲国产成人精品| 久99久视频精品免费| 国产成人精品久久久久久| 国语对白做爰xxxⅹ性视频网站| 女人久久www免费人成看片 | 国产精品国产高清国产av| 日韩成人av中文字幕在线观看| 小蜜桃在线观看免费完整版高清| 国产精品一区二区三区四区久久| 极品教师在线视频| 亚洲自拍偷在线| 99久久人妻综合| 亚洲精品色激情综合| av专区在线播放| 我要搜黄色片| 美女脱内裤让男人舔精品视频| 简卡轻食公司| av免费观看日本| 亚洲天堂国产精品一区在线| 成人特级av手机在线观看| 天天一区二区日本电影三级| 日本一二三区视频观看| 蜜臀久久99精品久久宅男| 国产91av在线免费观看| 亚洲国产欧美在线一区| 日日摸夜夜添夜夜添av毛片| 一区二区三区免费毛片| 成人毛片a级毛片在线播放| 久久久国产成人精品二区| 色综合亚洲欧美另类图片| 黄色欧美视频在线观看| 少妇裸体淫交视频免费看高清| 国产精品.久久久| 99久久精品国产国产毛片| 神马国产精品三级电影在线观看| 一卡2卡三卡四卡精品乱码亚洲| 亚州av有码| 日韩成人伦理影院| 97热精品久久久久久| 一区二区三区高清视频在线| 欧美3d第一页| 在线免费观看的www视频| 欧美高清成人免费视频www| 久久韩国三级中文字幕| 成人毛片a级毛片在线播放| 国产精品伦人一区二区| 黑人高潮一二区| 日韩成人伦理影院| 一区二区三区乱码不卡18| 亚洲精品乱码久久久久久按摩| 午夜精品国产一区二区电影 | 国产av码专区亚洲av| 热99re8久久精品国产| 男人舔女人下体高潮全视频| 欧美潮喷喷水| 99国产精品一区二区蜜桃av| av在线蜜桃| 超碰97精品在线观看| 日韩大片免费观看网站 | 又粗又硬又长又爽又黄的视频| 伦精品一区二区三区| 久久久久九九精品影院| 久久欧美精品欧美久久欧美| 国产乱人偷精品视频| 国产亚洲午夜精品一区二区久久 | 久久亚洲国产成人精品v| 午夜福利在线观看吧| 日韩av在线免费看完整版不卡| 内地一区二区视频在线| 变态另类丝袜制服| 亚洲国产精品合色在线| 精品欧美国产一区二区三| 国产真实伦视频高清在线观看| 天堂影院成人在线观看| 最近视频中文字幕2019在线8| 在线a可以看的网站| 国产av码专区亚洲av| 非洲黑人性xxxx精品又粗又长| 久久久久精品久久久久真实原创| 国产精品电影一区二区三区| 色播亚洲综合网| 国产免费一级a男人的天堂| 国产一级毛片在线| 久久精品影院6| 少妇熟女aⅴ在线视频| 中文乱码字字幕精品一区二区三区 | 哪个播放器可以免费观看大片| 国产成人a区在线观看| 欧美一区二区亚洲| 午夜福利在线观看免费完整高清在| 欧美3d第一页| 国产男人的电影天堂91| 不卡视频在线观看欧美| 好男人在线观看高清免费视频| 精品人妻视频免费看| 夜夜爽夜夜爽视频| 91在线精品国自产拍蜜月| 边亲边吃奶的免费视频| 精品久久久久久成人av| 欧美性猛交黑人性爽| 小说图片视频综合网站| 国产69精品久久久久777片| 亚洲av免费在线观看| 国产午夜精品论理片| 亚洲综合精品二区| 亚洲国产精品sss在线观看| 青春草视频在线免费观看| 亚洲国产精品成人综合色| 久久精品人妻少妇| videos熟女内射| 久久综合国产亚洲精品| av在线蜜桃| 国产91av在线免费观看| 综合色av麻豆| 欧美区成人在线视频| 久久久国产成人精品二区| 久久精品影院6| 网址你懂的国产日韩在线| 国产麻豆成人av免费视频| 美女国产视频在线观看| 亚洲无线观看免费| 老司机影院成人| 黄片wwwwww| 亚洲在线自拍视频| 视频中文字幕在线观看| 日韩欧美 国产精品| 色尼玛亚洲综合影院| 18禁在线播放成人免费| 国产免费一级a男人的天堂| 欧美高清性xxxxhd video| a级毛片免费高清观看在线播放| 美女脱内裤让男人舔精品视频| 女人被狂操c到高潮| 精品久久久久久久久av| 成人亚洲欧美一区二区av| 又爽又黄无遮挡网站| 精品久久久久久久久av| 小说图片视频综合网站| 麻豆乱淫一区二区| 亚洲18禁久久av| 亚洲自偷自拍三级| 伦理电影大哥的女人| 久久久久性生活片| 国产男人的电影天堂91| 一个人看的www免费观看视频| 建设人人有责人人尽责人人享有的 | 99久久精品国产国产毛片| 欧美bdsm另类| 亚洲精华国产精华液的使用体验| 国内精品宾馆在线| 亚洲欧美成人综合另类久久久 | 好男人视频免费观看在线| 国产亚洲5aaaaa淫片| 亚洲人成网站高清观看| 少妇猛男粗大的猛烈进出视频 | 国产熟女欧美一区二区| 欧美成人精品欧美一级黄| 久久久精品94久久精品| 美女脱内裤让男人舔精品视频| 亚洲欧美精品综合久久99| 精品久久久久久久久av| 国产av码专区亚洲av|