• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種針對 BERT 模型的多教師蒸餾方案

    2024-05-17 00:00:00石佳來郭衛(wèi)斌

    摘要:在傳統(tǒng)的知識蒸餾中,若教師、學(xué)生模型的參數(shù)規(guī)模差距過大,則會出現(xiàn)學(xué)生模型無 法學(xué)習(xí)較大教師模型的負(fù)面結(jié)果。為了獲得在不同任務(wù)上均擁有較好表現(xiàn)的學(xué)生模型,深入研 究了現(xiàn)有的模型蒸餾方法、不同教師模型的優(yōu)缺點,提出了一種新型的來自 Transformers 的雙 向編碼器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教 師蒸餾方案,即使 用 BERT、魯棒優(yōu)化 的 BERT 方 法 ( Robustly optimized BERT approach, RoBERTa)、語言理解的廣義自回歸預(yù)訓(xùn)練模型(XLNET)等多個擁有 BERT 結(jié)構(gòu)的教師模型對 其進(jìn)行蒸餾,同時修改了對教師模型中間層知識表征的蒸餾方案,加入了對 Transformer 層的 蒸餾。該蒸餾方案在通用語言理解評估(General Language Understanding Evaluation,GLUE) 中的多個數(shù)據(jù)集上的實驗結(jié)果表明,最終蒸餾實驗的結(jié)果較為理想,可以保留教師模型 95.1% 的準(zhǔn)確率。

    關(guān)鍵詞:BERT;知識蒸餾;多教師蒸餾;Transformer 蒸餾;自然語言理解

    中圖分類號:TP391.1

    文獻(xiàn)標(biāo)志碼:A

    Devlin 等[1] 在 2018 年提出的 BERT(Bidirectional Enoceder Respresentations from Transformers)模型在 自然語言處理(Nature Language Processing, NLP)方 面的研究成果顯著,堪稱 NLP 研究的里程碑。此后 學(xué)者們不斷提出對 BERT 模型進(jìn)行改進(jìn),包括引入傳 統(tǒng)單向語言模型(LM)方式和 seq2seq 訓(xùn)練的單向語 言模型(UNILM) [2]、將 BERT 中 Mask 隨機(jī) token 改 進(jìn)為 Mask 隨機(jī)實體或詞組的 Ernie-baidu 模型[3] 等, 此類基于 BERT 的模型均在自然語言處理方面發(fā)揮 了不錯的表現(xiàn)。但是,這些模型在具有極強(qiáng)的運(yùn)算 能力的前提下,參數(shù)規(guī)模龐大,推理周期長,其參數(shù) 數(shù)目往往超過 1000 億。如何在存儲空間有限的場 合(比如在移動終端)中,有效地實現(xiàn)這種預(yù)先學(xué)習(xí) 的方法,并使之具有一定的計算能力,成為學(xué)者們一 個新的研究方向。許多學(xué)者提出了不少有效的方 法,其中,最受歡迎的方法就是“知識蒸餾”。該方法 一般由大型的教師模型和小型的學(xué)生模型組成,在 蒸餾過程中,學(xué)生不僅要從文本樣本的硬標(biāo)簽中學(xué) 習(xí),還要從教師模型中學(xué)習(xí)。最初,基于 BERT 模式 的蒸餾主要是以一位老師和一位學(xué)生的方式來進(jìn) 行,近年來,眾多學(xué)者也進(jìn)行了大量的多教師蒸餾策略。

    在多教師蒸餾策略中,由不同的教師模型為學(xué) 生模型提供不同的“見解” [4] ,學(xué)生模型可以從不同的 角色模型中獲取不同的知識表征以獲得更佳的表 現(xiàn)。但是傳統(tǒng)的多教師蒸餾中,僅使用教師模型最 后一層的輸出進(jìn)行蒸餾,若教師模型過于復(fù)雜,學(xué)生 模型則有可能會因為無法捕捉教師模型中更細(xì)粒度 的知識而無法接近教師模型[5] ,甚至?xí)霈F(xiàn)學(xué)生模型 在數(shù)據(jù)的某些部分過度擬合的問題。為了解決以上 問題,在蒸餾時提取教師模型中間層的知識,除了教 師預(yù)測層外 ,還讓學(xué)生模型從教師模型中間 的 Transformer 層中學(xué)習(xí)知識,整體的蒸餾函數(shù)包括了 預(yù)測層的蒸餾。

    本文選用 BERT[1]、RoBERT[6]、XLNET[7] 3 個教師模型,以及 3 層 BERT 的學(xué)生模型的多教師蒸餾模 型,并修改了蒸餾損失函數(shù),新的蒸餾損失函數(shù)包括 對教師模型的預(yù)測層、隱藏層、注意力層以及嵌入層 的蒸餾。在 GLUE[8] 任務(wù)的部分?jǐn)?shù)據(jù)集上與其他常 見的蒸餾方案進(jìn)行了對比實驗,本文方案在結(jié)果上 得到有效的提升。

    1""" 知識蒸餾相關(guān)工作

    1.1 知識蒸餾方案

    Hinton 等[9] 認(rèn)為,在預(yù)訓(xùn)練階段大量的參數(shù)可 以幫助模型更好地獲取樣本的知識表征,但是在預(yù) 測時則不需要過多的參數(shù)。為了減少模型的計算成 本,本文提出了基于教師-學(xué)生架構(gòu)的知識蒸餾模型, 通過知識蒸餾的方法訓(xùn)練得到性能相近、結(jié)構(gòu)緊湊 的學(xué)生模型。在眾多深度學(xué)習(xí)領(lǐng)域中,知識蒸餾都 可以得到不錯的效果。

    Hinton 等的模型蒸餾僅對教師模型的預(yù)測層輸 出進(jìn)行蒸餾,工程師們則關(guān)心教師模型的輸入和輸 出,因此教師模型很可能會出現(xiàn)過擬合的負(fù)面情 況。為了解決這個問題,Sun 等[10] 提出了一種“耐心 蒸餾”(Patient Knowledge Distillation, PKD)策略,旨 在使學(xué)生模型除了從教師模型最后一層學(xué)習(xí)外,還 讓其學(xué)習(xí)教師模型的中間層,從而使教師模型中間 層的知識表征能較好地轉(zhuǎn)移到學(xué)生模型中。然而 PKD 對 中 間 層 的 蒸 餾 過 于 簡 單 , 忽 略 了 每 一 層 Transformer 內(nèi)部的知識內(nèi)容。本文在此基礎(chǔ)上對每一 層 Transformer 層的隱藏態(tài)和注意力矩陣進(jìn)行了蒸餾。

    1.2 多教師蒸餾方案

    在常見的模型蒸餾方法中,多采用單教師-單學(xué) 生的架構(gòu),然而 Cho 等[11] 的研究發(fā)現(xiàn),在知識蒸餾過 程中并不是性能越卓越的教師模型就一定可以蒸餾 出更好的學(xué)生模型,這與我們的直觀感受相悖。本 文采用多個基于 BERT 的教師模型,搭建一套多教師 蒸餾模型,為學(xué)生模型尋找更好的蒸餾架構(gòu)。

    Fukuda 等[12] 提出的多教師蒸餾方案主張在蒸 餾過程中直接使用多個教師,并提出了兩種多教師 蒸餾的方案:(1)通過在小批量級別切換教師模型標(biāo) 簽來訓(xùn)練學(xué)生模型;(2)學(xué)生模型根據(jù)來自不同教師 分布的多個信息流進(jìn)行訓(xùn)練。Liu 等[13] 提出將多個 教師的軟標(biāo)簽與可學(xué)習(xí)權(quán)重相結(jié)合,提取數(shù)據(jù)示例 之間的結(jié)構(gòu)知識,并傳遞中間層表示,使每個教師負(fù) 責(zé)學(xué)生網(wǎng)絡(luò)中的特定層。Yang 等[14] 提出了一種多 教師兩階段蒸餾的方法,針對機(jī)器問答任務(wù),讓學(xué)生 模型在預(yù)訓(xùn)練階段與微調(diào)階段均進(jìn)行蒸餾訓(xùn)練。

    多教師學(xué)習(xí)是通過利用多個教師模型提高學(xué)生 模型在單個任務(wù)上的性能。多教師蒸餾方法核心的 設(shè)計在于多個教師軟標(biāo)簽、中間層知識的組合策 略。本文在針對 BERT 的多教師蒸餾架構(gòu)中,對每一 個教師模型的蒸餾都新增了針對 Transformer 的蒸 餾,可以幫助學(xué)生模型獲取所有教師模型中更細(xì)粒 度的知識,為學(xué)生模型提供更豐富的“見解”,以獲得 更佳的表現(xiàn)。

    2""" 多教師蒸餾模型

    多個教師模型蒸餾到單個學(xué)生模型可以傳遞多 種知識,多教師蒸餾的優(yōu)勢在于每個教師模型的輸 出都不同,學(xué)生模型可以學(xué)習(xí)到不同教師模型之間 的差異,提升預(yù)測的泛化能力[15]。對于傳統(tǒng)的多教師 蒸餾工作,一般將對教師模型最后一層平均之后的 結(jié)果作為指導(dǎo)學(xué)生訓(xùn)練的信息,即使學(xué)生模型與教 師模型軟標(biāo)簽緊密匹配,其內(nèi)部表現(xiàn)也可能有很大 不同,這種內(nèi)部不匹配可能會使學(xué)生模型泛化能力 的提升變得有限[16] ,同時還伴隨著過擬合的風(fēng)險[10]。 BERT 模型是由 Transformer 構(gòu)建而成,它可以通過 自注意力機(jī)制獲取輸入 token 之間的長期依賴關(guān)系, 在多教師蒸餾中新增對每個教師模型的 Transformer 的蒸餾,在這種情況下,學(xué)生模型的中間層可以保留 教師模型中間層的語言行為。

    本文的多教師蒸餾模型由多個經(jīng)過預(yù)訓(xùn)練的教 師模型同時對單個學(xué)生模型進(jìn)行蒸餾,整體架構(gòu)如 圖 1 所示。對于擁有 BERT 結(jié)構(gòu)的教師模型與學(xué)生 模型來說,嵌入層和預(yù)測層均可以直接采用一對一的 層映射方式,每個 BERT 模型都擁有多個 Transformer 中間層,而通常來說教師模型的中間層數(shù)量是學(xué)生 模型的數(shù)倍。Clark 等[17] 的研究結(jié)果表明,BERT 構(gòu) 建的語言知識從模型網(wǎng)絡(luò)的底部到頂部逐漸變得復(fù) 雜,由于模型建立在底部表示之上,因此本文以自下 而上的方式逐步提取與內(nèi)部表示匹配的知識。對于 多層的 Transformer,本文將模仿 BERT-PKD 的跨層 指定映射方式進(jìn)行跨層映射,如圖 2 所示。文獻(xiàn) [18-19] 的研究表明,Transformer 中的注意力層包括了豐富 的語法、指代等文本知識。李宜儒等[20] 的研究表明, 對師生間的注意力進(jìn)行蒸餾有利于提高學(xué)生模型的 準(zhǔn)確率。因此 Transformer 層的蒸餾又是基于注意力 和隱藏狀態(tài)的蒸餾,每個學(xué)生注意力層/隱藏層可以 從指定的教師注意力層/隱藏層中學(xué)習(xí)知識。整體來 說本實驗的蒸餾損失函數(shù)包括了嵌入層蒸餾損失函 數(shù)、Transformer層的蒸餾損失函數(shù)和預(yù)測層蒸餾損失函數(shù),其中 Transformer 層的蒸餾又包括了隱藏層 的蒸餾以及對注意力層的蒸餾。

    2.1 預(yù)測層損失函數(shù)

    學(xué)生模型和教師模型都會在每個樣本上產(chǎn)生一 個關(guān)于類別標(biāo)簽的分布信息,軟標(biāo)簽損失函數(shù)的計 算就是計算這兩個分布之間的相似性。假設(shè)使用 K 個教師模型進(jìn)行實驗,則需要計算學(xué)生模型預(yù)測層 輸出和 K 個教師模型預(yù)測輸出的交叉熵(CE),預(yù)測 層損失函數(shù)(Lpredict ")如式 (1) 所示。

    其中:z T k 表示第 k 個教師模型預(yù)測的 logits 值; z表 示學(xué)生模型預(yù)測的 logits 值 ;使用 softmax 函數(shù)將 logits 值 zi 映射到概率向量 pi 中,這樣的映射可以使 每個映射的值和為 1; 表示蒸餾時的溫度參數(shù),溫 度越高可以使概率分布曲線越“平滑”,即淡化各個標(biāo) 簽之間預(yù)測值的差異。

    2.2 隱藏層損失函數(shù)

    針對 Transformer 層的蒸餾包括隱藏層(FFN 之 后)和注意力層的蒸餾[21]。學(xué)生和教師模型 Transformer 層之間的映射將模仿耐心蒸餾跨層映射的方式進(jìn)行 映射。假設(shè)教師模型擁有 M 層 Transformer,學(xué)生模 型擁有 N 層 Transformer,那么需要從教師模型中選 擇 N 層 Transformer 層進(jìn)行蒸餾,則學(xué)生模型將會從 教師模型的每 l 層中學(xué)習(xí)。例如對于存在的 3 個教 師模型,且每個教師模型均擁有 11 層 Transformer 中 間層(除了最后一層 Transformer 層直接與預(yù)測層相 連 接 , 不 計 作 中 間 層 ) , 學(xué) 生 模 型 擁 有 3 層 Transformer 中間層,指定學(xué)生模型第 1 層從每個教 師模型第 4 層中學(xué)習(xí)、學(xué)生模型第 2 層從每個教師 模型第 8 層中學(xué)習(xí)、學(xué)生模型第 3 層從每個教師模 型第 12 層中學(xué)習(xí)。

    多教師蒸餾中 Transformer 層的跨層映射策略如 圖3 所示。學(xué)生模型與第k 個教師模型中間Transformer 層的映射函數(shù)記為 ,表示第 k 個教師模型的第 n 層與學(xué)生模型的第 m 層相互映射。除了 Transfor[1]mer 層以外,將 0 設(shè)置為嵌入層的索引,將 M+1 和 N+1 分別設(shè)置為教師模型、學(xué)生模型預(yù)測層的索引,相應(yīng)的層映射定義為0=g,(O)和N+l= g4(M+ l)。

    學(xué)生模型第ü層的隱藏態(tài)(H)可以表示為H∈ Rd,其中標(biāo)量d表示模型的隱藏大小,1是輸入文本的長度。第k個教師模型的第j層的隱藏態(tài)(H )可以表示為eRId,其中標(biāo)量d表示第k 個教師模型的隱藏態(tài)大小。使用 代表一個線 性變換參數(shù),將學(xué)生的隱藏態(tài)轉(zhuǎn)換為與教師網(wǎng)絡(luò)狀 態(tài)相同的空間。那么學(xué)生模型第 i 層隱藏層到第 k 個教師的第 j 層隱藏層之間的距離 ( ) 可以用 式 (2) 表示,其中均方誤差(MSE)表示教師模型和學(xué) 生模型詞嵌入之間的“距離”,并通過最小化它來提升 學(xué)生模型性能。

    3""" 實驗設(shè)置與結(jié)果分析

    3.1 實驗設(shè)置

    GLUE[8] 是一個針對自然語言理解的多任務(wù)的 基準(zhǔn)和分析平臺,由紐約大學(xué)、華盛頓大學(xué)等機(jī)構(gòu)所創(chuàng) 建,近年來流行的 NLP 模型例如 BERT[1]、RoBERTa[6]、 XLNET[7] 等都會在此基準(zhǔn)上進(jìn)行測試,同時 GLUE 也 是知識蒸餾模型 BERT-PKD[8]、DistillBERT[23] 等所 選用的實驗數(shù)據(jù)集。本實驗數(shù)據(jù)集選用 GLUE[8] 中 的部分公開數(shù)據(jù)集 QNLI、MNLI和 SST-2 作為本實 驗的數(shù)據(jù)集,在上述數(shù)據(jù)集中對模型的處理效果進(jìn) 行了檢驗。在 QNLI 數(shù)據(jù)集中,要求模型要判定問題 與語句之間的包含關(guān)系,其結(jié)論有包含與不包含兩 種情況,是二分類問題。QNLI 包含 104 743 個培訓(xùn) 集合、5 463 個發(fā)展集合和 5 461 個測試集合。在 SST-2 中,模型要判定輸入的語篇包含了積極的情緒 還是消極的情緒,這也是一種二分類問題,包含了訓(xùn) 練集 67 350 個,開發(fā)集 873 個,驗證集 821 個。在 MNLI 中,模型被輸入一個句子對,包括了前提語句 與假設(shè)語句,該模型需要基于輸入內(nèi)容,判斷二者的 關(guān)系是屬于假定、假定沖突或是中立中的哪一種,這 屬于三分類問題。由于 MNLI 是一種包含多種類型的文字,因此它被分成了 matched 和 mismatched 兩種 類型,其中 matched 表示訓(xùn)練和測試集具有相同的資 料源,而 mismatched 是不相容的;本論文選取的資料 集包含 392 702 個培訓(xùn)集、9 815 個開發(fā)集 dev-matched 和 9 796 個 test-matched。

    訓(xùn)練時如何確定學(xué)習(xí)率等超參數(shù)十分關(guān)鍵,訓(xùn) 練開始時使用較大的學(xué)習(xí)率可以使模型更快地接近 局部或全局最優(yōu)解,但是在訓(xùn)練后期會有較大波動, 甚至出現(xiàn)損失函數(shù)的值圍繞最小值徘徊,難以達(dá)到 最優(yōu)的情況。本實驗使用網(wǎng)格搜索法調(diào)整超參數(shù), 由于存在許多超參數(shù)組合,因此首先對學(xué)習(xí)率和式 (9) 中的權(quán)重 α 進(jìn)行網(wǎng)格搜索,將學(xué)習(xí)率在{ }中調(diào)整 ,式 (9) 中 α 的取值在{0.1, 0.2, 0.5}之間調(diào)整。固定學(xué)習(xí)率和式 (9) 中 α 這兩個 超參數(shù)的值,再對其他超參數(shù)的值進(jìn)行調(diào)整,將蒸餾 溫度 取值在{1, 5, 10}之間調(diào)整。按照顯存容量將 批量樣本容量 bath size 設(shè)置為 32,最多對數(shù)據(jù)進(jìn)行 4 輪訓(xùn)練。

    3.2 多教師蒸餾結(jié)果

    為 了 方 便 蒸 餾 時 進(jìn) 行 跨 層 映 射 , 選 用 了 BERT12、RoBERTa12、XLNet12 作為教師模型,選用的 教師模型都是 12 層基于 BERT 的預(yù)訓(xùn)練好的模型, 教師模型選擇的理由如下:(1)所選的每個教師模型 均 12 層,由 Transformer 構(gòu)建而成,結(jié)構(gòu)相似。(2)所 選的每個教師模型中包含的參數(shù)數(shù)量在 1.1 億左右, 教師模型的大小相似。在每個數(shù)據(jù)集中,均使用不 同的隨機(jī)種子微調(diào) 3 個教師模型。各個教師模型在 每個數(shù)據(jù)集上的表現(xiàn)如表 1 所示,各個數(shù)據(jù)集中均用 推斷準(zhǔn)確率表示結(jié)果。

    選取的學(xué)生模型 BERT3 是以選取的 BERT12 模 型的前三層的參數(shù)作為初始值 ,學(xué)生模型擁 有 0.45 億參數(shù),再用前文中基于 Transformer 的知識蒸 餾框架對學(xué)生模型進(jìn)行蒸餾,以驗證教師模型的數(shù) 量與蒸餾的關(guān)系。

    表 1 結(jié)果顯示教師模型在 3 個數(shù)據(jù)集中的平均 推斷準(zhǔn)確率為 89.4%,而學(xué)生模型在 3 個相同數(shù)據(jù)集 中的平均推斷準(zhǔn)確率為 85.0%(表 2)。學(xué)生模型的推 斷準(zhǔn)確率在保留了各個教師模型平均推斷準(zhǔn)確率 (95.1%)的同時,參數(shù)規(guī)模只占用了教師模型平均參 數(shù)規(guī)模的 41.5%。同時也可以看到不同教師模型所 “擅長”的領(lǐng)域也不同,RoBERTa12 教師模型是在 BERT 模型的基礎(chǔ)上采用更大的預(yù)訓(xùn)練語料進(jìn)行訓(xùn)練而得 到的模型 ,因此在各個數(shù)據(jù)集上的表現(xiàn)均優(yōu) 于 BERT 模型,在同屬于二分任務(wù)的 QNLI、SST-2 數(shù)據(jù) 集中的表現(xiàn)在所有教師模型中最優(yōu)。而 XLNET12 教 師 模 型 使 用 了 Transformer-XL 中 的 段 循 環(huán) (Segment" Recurrence" Mechanism)、 相 對 位 置 編 碼 (Relative Positional Encoding) 進(jìn)行優(yōu)化,在長文本問 題中可以有更好的表現(xiàn),在屬于三分任務(wù)的 MNLI 數(shù) 據(jù)集中表現(xiàn)最優(yōu)。

    3.3 不同蒸餾模型對比

    為了驗證本文多教師蒸餾方案的有效性,本實 驗還選取了 Sun 等[10] 提出的 BERT-PKD、Sanh 等[23] 提出的 DistilBERT 作為單教師模型的 baseline 模型 進(jìn)行了對比,其中 BERT-PKD 對比了選用跨層映射 的 BERT-PKD(skip) 版 與 選 用 尾 層 映 射 的 BERT[1]PKD(last) 兩個版本。所有 的 baseline 模型均采 用 BERT12 模型作為教師模型,并采用 BERT3 模型作為 學(xué)生模型,在 QNLI、SST-2、MNLI 數(shù)據(jù)集中進(jìn)行實 驗,不同蒸餾模型的學(xué)生模型性能對比結(jié)果如表 2 所 示??梢钥闯霰疚牡恼麴s方案(BERT12+ RoBERTa12+ XLNET12)在選取的 3 個數(shù)據(jù)集中均優(yōu)于常見的對比 蒸餾模型。此外還可以看出,在蒸餾時,教師模型在 某一特定任務(wù)中的優(yōu)秀性能,可以很好地傳遞給學(xué) 生模型。例如在 SST-2 的情感分類任務(wù)中,本文實驗 方案的推斷準(zhǔn)確率明顯高于其他的 baseline 模型,比 BERT-PKD(last) 的推斷準(zhǔn)確率提高 5.4%,有了非常 大的提升,是因為本文提供的多教師模型可以讓學(xué) 生模型在知識獲取上就獲得更大的優(yōu)勢。

    3.4 相同教師模型、不同蒸餾損失函數(shù)的模型對比 為了驗證蒸餾時對 Transformer 層中的知識進(jìn)行 提取這一策略的有效性,本文同時還設(shè)立了多教師 蒸餾 baseline 模型,分別選取了只從教師預(yù)測層中學(xué) 習(xí) 知 識 的 OKD(Original" Knowledge" Distillation) 和 PKD。以上 baseline 模型與本文模型一樣,同樣選取 BERT12、RoBERTa12、XLNET12 作為教師模型,將本 文采用的從 Transformer 層中提取知識的蒸餾方案記 作 TKD(Transformer Knowledge Distillation),實驗結(jié) 果如表 3 所示。

    從橫向進(jìn)行比較,可以看到在固定教師模型的 數(shù)量,以及類型相同的情況下,對 Transformer 層的知 識蒸餾可以在一定程度上提升其對學(xué)生模型的性 能。例如在共同選用 BERT12、RoBERTa12、XLNET12 3 個教師模型的情況下,OKD 模型在本實驗所選的 任務(wù)中的性能均不如 TKD 模型的性能好,差別最大的 是在 QNLI 數(shù)據(jù)集中,二者推斷準(zhǔn)確率最高相差 2.6%。

    但是,這種現(xiàn)象在更加復(fù)雜的任務(wù)中并不明顯, 在 MNLI 數(shù)據(jù)集中,甚至出現(xiàn)了 TKD 被 PKD 反超的 情況,盡管推斷準(zhǔn)確率只高出了 0.2%。這種現(xiàn)象的 原因可以理解為更多的教師模型已經(jīng)為學(xué)生模型提 供了非常豐富的知識,再加上學(xué)生模型和教師模型 之間的參數(shù)規(guī)模比較大,因而 BERT3 學(xué)生模型捕捉 教師模型中間知識的能力并不是很好。

    4""" 結(jié)束語

    本文針對傳統(tǒng)多教師蒸餾只蒸餾教師模型預(yù)測 層而忽略中間層表達(dá)的問題,提出了針對 BERT 模型 的多教師蒸餾方法,同時修改了傳統(tǒng)的蒸餾損失函 數(shù),新增了對 Transformer 中間層的知識的提取。實 驗選用預(yù)訓(xùn)練好的 BERT12、 RoBERTa12、 XLNET12 作為教師模型,BERT3 作為學(xué)生模型,實驗結(jié)果證明 學(xué)生模型可以很好地保留教師模型的性能,保留了 教師模型平均 95.1% 的準(zhǔn)確率。同時學(xué)生模型的參 數(shù)規(guī)模更加緊湊,只占用教師模型平均參數(shù)規(guī)模的 41.5%。與常見的蒸餾模型進(jìn)行了對比,在所選的數(shù) 據(jù)集中,本文提出的方法均獲得了最佳成績。 本文很好地驗證了從 Transformer 層中提取知識 這一策略在蒸餾實驗中的有效性。Transformer的蒸 餾可以協(xié)調(diào)對多個教師中間層知識表征的學(xué)習(xí),有 效提升學(xué)生模型的性能。

    參考文獻(xiàn):

    DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-train[1]ing of" deep" bidirectional" transformers" for" language"" under[1]standing[C]//Proceedings" of" the" 2019" Conference" of" the North American" Chapter" ofthe" Association" for"" Computa[1]tional Linguistics:" Human" Language" Technologies."" Min[1]neapolis: ACL Press, 2019: 4171-4186.

    DONG" L," YANG" N," WANG" W, et al." Unified" language model" pre-training" for" natural" language" understanding" and generation[J]." Advances" in" Neural" Information" Processing Systems, 2019, 32(1): 3179-3191.

    YU S, Wang S H, YUKUN L, et al. Ernie: Enhanced rep[1]resentation" through" knowledge" integration[C]//Proceedings of" the" AAAI" Conference" on" Artificial" Intelligence." [s.l.]: AAAI Press, 2020: 8968-8975.

    SHEN C, WANG X, SONG J, et al. Amalgamating know[1]ledge" towards" comprehensive" classification[C]//Proceed[1]ings" of" the" AAAI" Conference" on" Artificial" Intelligence. Honolulu: AAAI Press, 2019: 3068-3075.

    ILICHEV" A," SOROKIN" N," PIONTKOVSKAYA" I, et al. Multiple" teacher" distillation" for" robust" and" greener models[C]//Proceedings of the International Conference on Recent" Advances" in" Natural" Language" Processing." New York: RANLP, 2021: 601-610.

    LIU Y H, OTT M, GOYAL N, et al. RoBERTa: A robustly optimized" BERT" pretraining" approach[J]." ArXiv," 2019, 1907: 1169.

    YANG" Z" L," DAI" Z" L," CARBONELL" J" G, et al." XLNet: Generalized autoregressive pretraining for language under[1]standing[C]//Advances" in" Neural" Information" Processing Systems 32 Annual Conference on Neural Information Pro[1]cessing Systems. Canada: NeurIPS, 2019: 5754-5764.

    WANG A, SINGH A, MICHAEL J, et al. GLUE: A multi[1]task benchmark and analysis platform for natural language understanding[C]//Proceedings of the 7th International Con[1]ference on" Learning" Representations" Proceedings" of"" Ma[1]chine Learning Research. [s.l.]: ICLR Press, 2019: 1-20.

    HINTON G, VINYALS O, DEAN J. Distilling the know[1]ledge in a neural network[J]. Journal of Machine Learning Research, 2016, 17(1): 2435-2445.

    SUN S Q, CHENG Y, GEN Z, et al. Patient knowledge dis[1]tillation" for" BERT" model" compression[C]//Proceedings" of the 2019 Conference on Empirical Methods in Natural Lan[1]guage Processing" and" the" 9th" International" Joint"" Confer- ence" on" Natural" Language" Processing." Hong" Kong: EMNLP-IJCNLP, 2019: 4322-4331.

    CHO J H, HARIHARAN B. On the efficacy of knowledge distillation[C]//Proceedings" of" the" IEEE/CVF" International Conference on Computer Vision. Seoul: IEEE Press, 2019: 4794-4802.

    FUKUDA T, KURATA G. Generalized knowledge distilla[1]tion" from" an" ensemble" of" specialized" teachers" leveraging Unsupervised neural clustering[C]//ICASSP 2021 IEEE In[1]ternational" Conference" on" Acoustics" Speech" and" Signal Processing (ICASSP). [s.l.]: IEEE Press, 2021: 6868-6872.

    LIU X, HE P, CHEN W, et al. Improving multi-task deep neural networks via knowledge distillation for natural lan[1]guage understanding[C]//IEEE International Conference on Acoustics Speech" and" Signal" Processing" (ICASSP)."" Bar[1]celona: IEEE Press, 2020: 7419-7423.

    YANG Z, SHOU L, GONG M, et al. Model compression with two-stage multi-teacher knowledge distillation for web question answering system[C]//Proceedings of the 13th In[1]ternational" Conference" on" Web" Search" and" Data" Mining. Houston: ACM Press, 2020: 690-698.

    TRAN" L," VEELING" B" S," ROTH" K, et al. Hydra:"" Pre[1]serving" ensemble" diversity" for" model" distillation[C]//Pro[1]ceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). [s.l.]: ACL Press, 2021: 4093-4107.

    AGUILAR G, LING Y, ZHANG Y, YAO B, et al. Know[1]ledge distillation from internal representations[C]//Proceed[1]ings" of" the" AAAI" Conference" on" Artificial" Intelligence.

    New York: AAAI Press, 2020: 7350-7357 CLARK K, KHANDELWAL U, LEVY O, et al. What does bert" look" at?" An" analysis" of" bert's" attention[C]//Proceed[1]ings of the 2019 ACL Workshop Blackbox NLP Analyzing and Interpreting Neural Networks for NLP. Florence: ACL Press, 2019: 276-286.

    VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all" you" need[J]." Advances" in" Neural" Information"" Pro[1]cessing Systems, 2017, 30: 5998-6008.

    MICHEL" P," LEVY" O," NEUBIG" G.nbsp; Are" sixteen" heads really better than one?[J]. Advances in Neural Information Processing Systems, 2019, 32: 219-234.

    李宜儒, 羅健旭. 一種基于師生間注意力的AD診斷模 型[J]. 華東理工大學(xué)學(xué)報(自然科學(xué)版), 2022, 49(3): 1-6.

    ADRIANA R, NICOLAS B, SAMIRA E K, et al. FitNets: Hints for thin deep nets[C]//3rd International Conference on Learning" Representations." New" York:" ICLR" Press," 2015: 191-207.

    CLARK K, LUONG M T, LE Q V, et al. ELECTRA: Pre[1]training text encoders as discriminators rather than generat[1]ors[C]// 8th" International" Conference" on" Learning" Repres[1]entations. New York: ICLR, 2020: 276-286.

    SANH V, DEBUT L, CHAUMOND J, et al. DistilBERT, a distilled" version" of" BERT:" Smaller," faster," cheaper" and lighter[C]//Proceedings of the 2020 Conference on Empiri[1]cal" Methods" in" Natural" Language" Processing" (EMNLP). [s.l.]:" Association" for" Computational" Linguistics" Press, 2022: 7701-7711.

    日韩精品免费视频一区二区三区| 亚洲第一青青草原| 国产又色又爽无遮挡免费看| 一级毛片女人18水好多| 操出白浆在线播放| 欧美黑人欧美精品刺激| 国产成人啪精品午夜网站| 亚洲成人精品中文字幕电影| 亚洲男人的天堂狠狠| www.自偷自拍.com| 亚洲欧美激情综合另类| 在线永久观看黄色视频| 9191精品国产免费久久| 久久亚洲真实| 日本免费一区二区三区高清不卡 | 欧美日韩亚洲国产一区二区在线观看| 欧美激情高清一区二区三区| 中文亚洲av片在线观看爽| 亚洲男人的天堂狠狠| 最近最新免费中文字幕在线| 波多野结衣av一区二区av| 又黄又粗又硬又大视频| 久久亚洲真实| 精品人妻在线不人妻| 欧美最黄视频在线播放免费| 欧美色视频一区免费| 亚洲av美国av| 亚洲五月色婷婷综合| 少妇的丰满在线观看| 久久久久久大精品| 神马国产精品三级电影在线观看 | 婷婷六月久久综合丁香| 国内精品久久久久久久电影| 一区福利在线观看| 免费观看精品视频网站| 老司机午夜福利在线观看视频| 电影成人av| 国内毛片毛片毛片毛片毛片| 欧美+亚洲+日韩+国产| 亚洲欧美精品综合久久99| 国产精品精品国产色婷婷| 在线观看www视频免费| 大码成人一级视频| 欧美激情高清一区二区三区| 国产亚洲精品久久久久久毛片| 久久久久久久久免费视频了| 中国美女看黄片| 他把我摸到了高潮在线观看| 丝袜在线中文字幕| 一级毛片高清免费大全| 香蕉国产在线看| 国产又色又爽无遮挡免费看| 黄色成人免费大全| 国产成人av激情在线播放| cao死你这个sao货| 亚洲国产看品久久| 在线观看www视频免费| 我的亚洲天堂| 午夜精品在线福利| 他把我摸到了高潮在线观看| 成年版毛片免费区| 成人国语在线视频| 啦啦啦 在线观看视频| 精品国产亚洲在线| 免费观看精品视频网站| 中国美女看黄片| 日本欧美视频一区| 一本综合久久免费| av在线天堂中文字幕| 亚洲最大成人中文| 国产亚洲av嫩草精品影院| 久久久水蜜桃国产精品网| 久久久久久人人人人人| 午夜日韩欧美国产| aaaaa片日本免费| 18禁国产床啪视频网站| 正在播放国产对白刺激| 亚洲国产看品久久| 国产成人一区二区三区免费视频网站| www日本在线高清视频| 18禁美女被吸乳视频| 午夜免费激情av| 国产精品久久久久久亚洲av鲁大| 国产av一区在线观看免费| 亚洲国产精品成人综合色| 亚洲av美国av| 国产精品99久久99久久久不卡| 女人被狂操c到高潮| 亚洲av熟女| avwww免费| 婷婷精品国产亚洲av在线| 搡老岳熟女国产| 少妇 在线观看| 麻豆一二三区av精品| 日韩欧美在线二视频| 中国美女看黄片| 亚洲中文av在线| 男人舔女人下体高潮全视频| 老司机在亚洲福利影院| 国产国语露脸激情在线看| 国产一卡二卡三卡精品| 涩涩av久久男人的天堂| 亚洲成人免费电影在线观看| 精品国产国语对白av| 看免费av毛片| 两个人看的免费小视频| 欧美日韩黄片免| 香蕉国产在线看| 久久精品成人免费网站| 亚洲av第一区精品v没综合| 巨乳人妻的诱惑在线观看| 一边摸一边做爽爽视频免费| netflix在线观看网站| 精品日产1卡2卡| 成人手机av| 免费人成视频x8x8入口观看| 天天添夜夜摸| 久久中文字幕人妻熟女| 在线观看一区二区三区| 久久久久亚洲av毛片大全| 国产男靠女视频免费网站| 欧美日本亚洲视频在线播放| 亚洲第一av免费看| 成人亚洲精品一区在线观看| 国产成人精品久久二区二区91| 日本 欧美在线| 制服丝袜大香蕉在线| 大陆偷拍与自拍| 男女做爰动态图高潮gif福利片 | 一a级毛片在线观看| 美女高潮喷水抽搐中文字幕| 1024香蕉在线观看| 日韩欧美一区视频在线观看| 久久久国产成人免费| 亚洲国产欧美一区二区综合| 日韩视频一区二区在线观看| 欧美激情极品国产一区二区三区| 88av欧美| 黄色视频不卡| av有码第一页| 免费高清在线观看日韩| 久久久久久国产a免费观看| 亚洲人成77777在线视频| 19禁男女啪啪无遮挡网站| av有码第一页| 久久久精品欧美日韩精品| 亚洲精品中文字幕一二三四区| 桃色一区二区三区在线观看| 国产伦一二天堂av在线观看| 搡老岳熟女国产| 亚洲精品中文字幕一二三四区| 老司机福利观看| 99国产精品一区二区三区| 人人妻,人人澡人人爽秒播| 亚洲无线在线观看| 亚洲一卡2卡3卡4卡5卡精品中文| 免费在线观看日本一区| 麻豆久久精品国产亚洲av| АⅤ资源中文在线天堂| 在线观看日韩欧美| 日韩欧美国产在线观看| 国产精品亚洲一级av第二区| 久久天堂一区二区三区四区| 丝袜人妻中文字幕| 最近最新中文字幕大全电影3 | 99精品久久久久人妻精品| 伦理电影免费视频| 亚洲一区中文字幕在线| 国产xxxxx性猛交| cao死你这个sao货| 婷婷丁香在线五月| 欧美绝顶高潮抽搐喷水| 亚洲国产毛片av蜜桃av| 极品教师在线免费播放| 国产亚洲欧美98| 一级毛片高清免费大全| 亚洲全国av大片| 欧美日韩中文字幕国产精品一区二区三区 | 久久精品aⅴ一区二区三区四区| 男女下面插进去视频免费观看| 国产激情久久老熟女| 亚洲va日本ⅴa欧美va伊人久久| 一级a爱片免费观看的视频| 亚洲性夜色夜夜综合| 国产亚洲欧美98| 50天的宝宝边吃奶边哭怎么回事| 国产成人免费无遮挡视频| 又紧又爽又黄一区二区| 精品人妻在线不人妻| 一级片免费观看大全| 国产精品久久电影中文字幕| 一边摸一边抽搐一进一出视频| 久久国产乱子伦精品免费另类| 天天添夜夜摸| 久久久水蜜桃国产精品网| 免费在线观看完整版高清| 在线观看午夜福利视频| 精品久久蜜臀av无| 国产99久久九九免费精品| 国产精品免费视频内射| 两个人免费观看高清视频| 丝袜人妻中文字幕| 久久影院123| 亚洲精品一卡2卡三卡4卡5卡| 97碰自拍视频| 深夜精品福利| 日日干狠狠操夜夜爽| 制服诱惑二区| 久久这里只有精品19| 欧美日韩亚洲国产一区二区在线观看| 国产在线精品亚洲第一网站| 国内精品久久久久精免费| 多毛熟女@视频| 久99久视频精品免费| 国产成人精品久久二区二区91| 午夜福利免费观看在线| 久久亚洲真实| 午夜福利成人在线免费观看| 精品久久久久久久人妻蜜臀av | 国产精品免费视频内射| 久久人人97超碰香蕉20202| 国产主播在线观看一区二区| 啪啪无遮挡十八禁网站| 欧美黄色淫秽网站| 波多野结衣巨乳人妻| 激情视频va一区二区三区| 久久人人97超碰香蕉20202| 久久国产精品男人的天堂亚洲| 亚洲,欧美精品.| 久久久久久久午夜电影| 亚洲精华国产精华精| 国产成人av教育| 色尼玛亚洲综合影院| 午夜免费鲁丝| 欧美 亚洲 国产 日韩一| 国产精品亚洲一级av第二区| 国产男靠女视频免费网站| 亚洲第一青青草原| 极品教师在线免费播放| 在线观看午夜福利视频| 97超级碰碰碰精品色视频在线观看| 欧洲精品卡2卡3卡4卡5卡区| 怎么达到女性高潮| 咕卡用的链子| 手机成人av网站| 亚洲精品国产区一区二| 天天躁狠狠躁夜夜躁狠狠躁| 99在线人妻在线中文字幕| 国产成人精品无人区| 后天国语完整版免费观看| 久久久国产成人精品二区| 精品国产乱子伦一区二区三区| 亚洲最大成人中文| 波多野结衣高清无吗| 在线免费观看的www视频| 丝袜美腿诱惑在线| 两性夫妻黄色片| 中出人妻视频一区二区| 国产激情欧美一区二区| 一边摸一边抽搐一进一出视频| 神马国产精品三级电影在线观看 | 亚洲精品国产一区二区精华液| 成人精品一区二区免费| 欧美亚洲日本最大视频资源| 国产高清激情床上av| 精品国产乱码久久久久久男人| 最新在线观看一区二区三区| 国产精品一区二区精品视频观看| 午夜a级毛片| 国产精品 国内视频| 久久午夜综合久久蜜桃| 成人av一区二区三区在线看| 国产黄a三级三级三级人| 91国产中文字幕| 成人精品一区二区免费| 韩国精品一区二区三区| 久久香蕉国产精品| 亚洲一卡2卡3卡4卡5卡精品中文| 久久伊人香网站| 一级毛片精品| 侵犯人妻中文字幕一二三四区| 在线视频色国产色| 欧美日韩中文字幕国产精品一区二区三区 | 精品卡一卡二卡四卡免费| av电影中文网址| 国产精品98久久久久久宅男小说| 国产精品免费视频内射| 美女国产高潮福利片在线看| 手机成人av网站| 国产亚洲精品久久久久久毛片| 国产午夜福利久久久久久| 精品一区二区三区视频在线观看免费| 成人av一区二区三区在线看| 777久久人妻少妇嫩草av网站| 91字幕亚洲| 88av欧美| 午夜精品在线福利| 久久久久九九精品影院| 午夜福利视频1000在线观看 | 在线国产一区二区在线| 午夜福利影视在线免费观看| 一级黄色大片毛片| 在线永久观看黄色视频| 久久中文字幕一级| 夜夜爽天天搞| 成人手机av| 在线观看免费午夜福利视频| 久9热在线精品视频| 黄片大片在线免费观看| 99香蕉大伊视频| 欧美日韩一级在线毛片| 桃色一区二区三区在线观看| 亚洲一区高清亚洲精品| 国产亚洲欧美98| 中出人妻视频一区二区| 韩国av一区二区三区四区| 久久久国产欧美日韩av| 搡老妇女老女人老熟妇| 可以在线观看的亚洲视频| 制服人妻中文乱码| 久久国产精品影院| 亚洲人成网站在线播放欧美日韩| 免费看a级黄色片| 国产精品爽爽va在线观看网站 | 老熟妇乱子伦视频在线观看| 日韩精品青青久久久久久| 十八禁网站免费在线| 国产亚洲av嫩草精品影院| 日韩欧美在线二视频| 9热在线视频观看99| 久久久国产欧美日韩av| 日韩av在线大香蕉| 熟女少妇亚洲综合色aaa.| 欧美日韩黄片免| 亚洲精品美女久久久久99蜜臀| 在线观看免费午夜福利视频| 色老头精品视频在线观看| 精品一品国产午夜福利视频| 亚洲精品中文字幕一二三四区| 如日韩欧美国产精品一区二区三区| 久久香蕉激情| 亚洲一区高清亚洲精品| 搡老熟女国产l中国老女人| 欧美av亚洲av综合av国产av| 国产精品av久久久久免费| 国产欧美日韩一区二区精品| 亚洲国产中文字幕在线视频| 亚洲中文字幕日韩| 欧美日韩中文字幕国产精品一区二区三区 | 在线观看日韩欧美| 国产精品一区二区在线不卡| 成人精品一区二区免费| 日韩免费av在线播放| 亚洲av日韩精品久久久久久密| 99在线视频只有这里精品首页| 脱女人内裤的视频| 亚洲一区二区三区色噜噜| 国产一卡二卡三卡精品| 两性夫妻黄色片| 男男h啪啪无遮挡| 色老头精品视频在线观看| 亚洲成人久久性| 日韩欧美一区二区三区在线观看| 国产伦人伦偷精品视频| 一区在线观看完整版| 日韩欧美在线二视频| 黑人操中国人逼视频| 一区二区三区高清视频在线| 国产免费av片在线观看野外av| cao死你这个sao货| 狂野欧美激情性xxxx| 久久国产亚洲av麻豆专区| 女同久久另类99精品国产91| 亚洲第一av免费看| 午夜福利免费观看在线| 97超级碰碰碰精品色视频在线观看| 国产精品乱码一区二三区的特点 | 国产极品粉嫩免费观看在线| 高潮久久久久久久久久久不卡| 一区二区三区高清视频在线| 国产高清有码在线观看视频 | 色综合欧美亚洲国产小说| 变态另类成人亚洲欧美熟女 | 老司机午夜福利在线观看视频| 亚洲熟女毛片儿| 国产一区二区三区在线臀色熟女| 亚洲精品国产色婷婷电影| 变态另类成人亚洲欧美熟女 | 欧美中文日本在线观看视频| 99久久99久久久精品蜜桃| 亚洲少妇的诱惑av| 亚洲狠狠婷婷综合久久图片| 熟女少妇亚洲综合色aaa.| 亚洲熟女毛片儿| 成人免费观看视频高清| 久久精品成人免费网站| svipshipincom国产片| 欧美乱码精品一区二区三区| 嫩草影视91久久| 国产精品爽爽va在线观看网站 | 成年版毛片免费区| 日韩精品青青久久久久久| 精品一品国产午夜福利视频| av有码第一页| 国产欧美日韩一区二区精品| 美女免费视频网站| 一本久久中文字幕| 在线观看66精品国产| 国产成人精品久久二区二区91| 日日爽夜夜爽网站| 国产xxxxx性猛交| 好男人在线观看高清免费视频 | 亚洲一码二码三码区别大吗| 一级片免费观看大全| 热99re8久久精品国产| 精品日产1卡2卡| 丰满人妻熟妇乱又伦精品不卡| 成人欧美大片| 亚洲中文字幕一区二区三区有码在线看 | 亚洲成av片中文字幕在线观看| av网站免费在线观看视频| 色综合欧美亚洲国产小说| 好男人电影高清在线观看| 啪啪无遮挡十八禁网站| 成人精品一区二区免费| 91成人精品电影| 好男人在线观看高清免费视频 | 成人18禁高潮啪啪吃奶动态图| 中文亚洲av片在线观看爽| 国产三级黄色录像| 天堂影院成人在线观看| 91成人精品电影| 成年人黄色毛片网站| 国产成+人综合+亚洲专区| 久久精品国产亚洲av香蕉五月| 亚洲人成电影免费在线| 国产伦一二天堂av在线观看| 亚洲精品久久成人aⅴ小说| 亚洲色图 男人天堂 中文字幕| 久久精品亚洲熟妇少妇任你| 琪琪午夜伦伦电影理论片6080| 宅男免费午夜| 老汉色∧v一级毛片| 大型av网站在线播放| 欧美日本视频| 亚洲av电影在线进入| 日日摸夜夜添夜夜添小说| 18禁国产床啪视频网站| 日韩有码中文字幕| 曰老女人黄片| 亚洲国产看品久久| 1024视频免费在线观看| 成年人黄色毛片网站| 啦啦啦韩国在线观看视频| 国产不卡一卡二| 两性夫妻黄色片| 亚洲国产欧美网| 久久国产精品男人的天堂亚洲| 丝袜人妻中文字幕| 热re99久久国产66热| 午夜a级毛片| 国产欧美日韩一区二区精品| 欧美乱色亚洲激情| 国产欧美日韩一区二区三| 亚洲人成电影免费在线| 色老头精品视频在线观看| 男女床上黄色一级片免费看| av福利片在线| 亚洲午夜精品一区,二区,三区| 国产又爽黄色视频| 叶爱在线成人免费视频播放| 可以在线观看的亚洲视频| 成人18禁高潮啪啪吃奶动态图| 9热在线视频观看99| 精品久久久久久,| 久久久久久久午夜电影| 国产熟女午夜一区二区三区| 国产一区二区三区在线臀色熟女| 91国产中文字幕| 午夜成年电影在线免费观看| 欧美绝顶高潮抽搐喷水| 波多野结衣高清无吗| 日韩三级视频一区二区三区| 一边摸一边抽搐一进一小说| 色av中文字幕| 又黄又粗又硬又大视频| 日本五十路高清| 亚洲av日韩精品久久久久久密| 国产av又大| 久久人人爽av亚洲精品天堂| 亚洲欧美精品综合一区二区三区| 一级a爱片免费观看的视频| 国产伦人伦偷精品视频| 人人妻人人澡人人看| 最近最新中文字幕大全电影3 | 免费在线观看完整版高清| 丰满人妻熟妇乱又伦精品不卡| 日本 av在线| 性欧美人与动物交配| 精品国产超薄肉色丝袜足j| 免费女性裸体啪啪无遮挡网站| 午夜免费鲁丝| 一a级毛片在线观看| 免费在线观看黄色视频的| 精品福利观看| 午夜福利免费观看在线| 美女扒开内裤让男人捅视频| 午夜精品国产一区二区电影| 亚洲aⅴ乱码一区二区在线播放 | 日韩 欧美 亚洲 中文字幕| 好男人在线观看高清免费视频 | 啦啦啦韩国在线观看视频| 日韩欧美一区视频在线观看| 久久这里只有精品19| 侵犯人妻中文字幕一二三四区| 成人亚洲精品一区在线观看| 午夜久久久久精精品| 在线视频色国产色| 精品一区二区三区av网在线观看| 久久久久久大精品| 国产高清videossex| 欧美+亚洲+日韩+国产| 99riav亚洲国产免费| 久久九九热精品免费| www日本在线高清视频| 亚洲av电影在线进入| 日本在线视频免费播放| 无遮挡黄片免费观看| 国产色视频综合| 欧美乱色亚洲激情| 欧美激情极品国产一区二区三区| 老司机福利观看| 女人被躁到高潮嗷嗷叫费观| 中亚洲国语对白在线视频| 咕卡用的链子| 国产精品一区二区三区四区久久 | 亚洲成人国产一区在线观看| 久久久国产成人精品二区| 一进一出抽搐gif免费好疼| 视频在线观看一区二区三区| 亚洲专区字幕在线| 色综合站精品国产| 最近最新中文字幕大全电影3 | 国产成人免费无遮挡视频| 久久精品国产清高在天天线| 99久久综合精品五月天人人| 亚洲全国av大片| 欧美成狂野欧美在线观看| 老司机在亚洲福利影院| 中文字幕另类日韩欧美亚洲嫩草| 国产成人精品久久二区二区免费| 男女床上黄色一级片免费看| √禁漫天堂资源中文www| 精品人妻1区二区| 麻豆国产av国片精品| 久久香蕉精品热| 母亲3免费完整高清在线观看| 国产亚洲精品一区二区www| 黄色视频不卡| 国产日韩一区二区三区精品不卡| 国产不卡一卡二| 欧美中文日本在线观看视频| 欧美+亚洲+日韩+国产| 制服诱惑二区| 一级黄色大片毛片| 免费搜索国产男女视频| 一本综合久久免费| 琪琪午夜伦伦电影理论片6080| 黄片播放在线免费| 日韩欧美三级三区| 欧美成人免费av一区二区三区| 久久国产乱子伦精品免费另类| 人人妻人人澡人人看| 国产一级毛片七仙女欲春2 | 成在线人永久免费视频| 精品高清国产在线一区| www.999成人在线观看| 最新美女视频免费是黄的| 婷婷六月久久综合丁香| 精品欧美一区二区三区在线| 神马国产精品三级电影在线观看 | 日韩欧美一区视频在线观看| 欧美一级毛片孕妇| 国产亚洲精品第一综合不卡| 免费人成视频x8x8入口观看| 又黄又粗又硬又大视频| 久久中文字幕一级| 搡老熟女国产l中国老女人| 久久久精品欧美日韩精品| 精品久久久久久久人妻蜜臀av | 亚洲国产欧美一区二区综合| 国产精品乱码一区二三区的特点 | 亚洲 欧美一区二区三区| 中文字幕人妻丝袜一区二区| 91老司机精品| 99国产精品免费福利视频| 高潮久久久久久久久久久不卡| 男女做爰动态图高潮gif福利片 | 国产伦一二天堂av在线观看| 久久人妻福利社区极品人妻图片| 亚洲专区字幕在线| 狠狠狠狠99中文字幕| 色婷婷久久久亚洲欧美| 亚洲av熟女| 亚洲精品一卡2卡三卡4卡5卡| 久久精品成人免费网站| 精品国产超薄肉色丝袜足j| 如日韩欧美国产精品一区二区三区| 在线观看www视频免费| 亚洲色图 男人天堂 中文字幕| 午夜福利高清视频| 一进一出抽搐动态| 涩涩av久久男人的天堂| 精品久久蜜臀av无| 国产高清激情床上av|