• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于預(yù)訓(xùn)練語(yǔ)言模型的繁體古文自動(dòng)句讀研究

    2023-10-25 02:22:44唐雪梅陳雨航
    中文信息學(xué)報(bào) 2023年8期
    關(guān)鍵詞:句讀斷句標(biāo)點(diǎn)

    唐雪梅, 蘇 祺, 王 軍,4, 陳雨航, 楊 浩

    (1. 北京大學(xué) 信息管理系,北京 100871; 2. 北京大學(xué)數(shù)字人文研究中心,北京 100871;3. 北京大學(xué) 外國(guó)語(yǔ)學(xué)院,北京 100871; 4. 北京大學(xué) 人工智能研究院, 北京100871)

    0 引言

    中華文明歷史悠久,古典文籍浩如煙海。古籍具有極高的文獻(xiàn)價(jià)值和學(xué)術(shù)價(jià)值,古籍整理是連接現(xiàn)代和歷史的橋梁,有利于民族文化的傳承和研究。而古人在著書時(shí)一般不使用標(biāo)點(diǎn),現(xiàn)存的許多古籍也沒有斷句和標(biāo)點(diǎn),這給讀者閱讀學(xué)習(xí)和學(xué)者研究古籍造成了障礙。所謂 “凡訓(xùn)蒙,須講究,詳訓(xùn)詁,明句讀”,即是說句讀是古人求學(xué)問道的基礎(chǔ)。傳統(tǒng)的古籍句讀工作主要依靠人工,但人工句讀對(duì)標(biāo)注者的古漢語(yǔ)素養(yǎng)要求較高,一般人難以勝任。且中國(guó)古代典籍?dāng)?shù)量眾多,人工句讀效率低,短時(shí)間內(nèi)無法完成批量典籍的句讀工作。計(jì)算機(jī)自動(dòng)句讀可以有效地解決以上兩個(gè)問題。古文自動(dòng)句讀是指根據(jù)古代漢語(yǔ)句子特點(diǎn),結(jié)合現(xiàn)代漢語(yǔ)的標(biāo)點(diǎn)符號(hào)用法,讓計(jì)算機(jī)自動(dòng)切割、斷開連續(xù)的文本字符序列為句,然后加標(biāo)點(diǎn)的過程[1]。

    古文自動(dòng)句讀經(jīng)歷30多年的發(fā)展,從基于規(guī)則的方法逐漸發(fā)展到基于深度學(xué)習(xí)的方法。由于目前沒有公開的大規(guī)模的繁體古文語(yǔ)料庫(kù),且整理過的古籍散落在不同的語(yǔ)料庫(kù)或者出版社數(shù)據(jù)庫(kù),難以收集到大量整理過的繁體古籍文本,所以目前古文自動(dòng)斷句的研究基本都是針對(duì)簡(jiǎn)體漢字文本,如王博立[2]、胡韌奮[3]、俞敬松[4]等人的研究。而現(xiàn)存很多未被整理的古籍都是繁體漢字,若將繁體轉(zhuǎn)為簡(jiǎn)體再做句讀,繁簡(jiǎn)轉(zhuǎn)化的錯(cuò)誤可能會(huì)延續(xù)到句讀的結(jié)果中。同時(shí)現(xiàn)在常用在古籍任務(wù)中的預(yù)訓(xùn)練語(yǔ)言模型[5-6]都有固定的詞表,詞表中包含的繁體字較少,在詞表之外的繁體字會(huì)被替換成特殊字符,造成語(yǔ)義的缺失,會(huì)影響任務(wù)效果。因此構(gòu)建一個(gè)專門用于繁體古文的句讀模型是有必要的。斷句之后的古籍文本方便閱讀研究,標(biāo)點(diǎn)之后的文本有助于整理出版,現(xiàn)有研究較多集中在自動(dòng)斷句[3,7],俞敬松等[4]雖然同時(shí)關(guān)注自動(dòng)斷句和自動(dòng)標(biāo)點(diǎn),但用于自動(dòng)標(biāo)點(diǎn)的訓(xùn)練語(yǔ)料規(guī)模較小,且標(biāo)點(diǎn)效果并不理想;釋賢超等[8]在不同朝代的不同類型語(yǔ)料上進(jìn)行自動(dòng)標(biāo)點(diǎn)研究,但其模型泛化能力有限。另一方面未經(jīng)整理的古籍文本篇幅較長(zhǎng),整篇文章連成整體居多,篇章級(jí)句讀是應(yīng)用環(huán)境下必須解決的問題?,F(xiàn)有的研究較少涉及篇章級(jí)斷句,胡軔奮等[3]的斷句模型以段落為單位,俞敬松等[4]提出以串行滑動(dòng)窗口方式處理長(zhǎng)文本句讀,但是該方法的句讀效率較低。

    本文的主要工作有以下三項(xiàng):

    (1) 本文整理了約10億字的繁體古文語(yǔ)料,基于整理的語(yǔ)料增量訓(xùn)練BERT[5]模型得到繁體古文預(yù)訓(xùn)練語(yǔ)言模型;

    (2) 基于繁體古文預(yù)訓(xùn)練語(yǔ)言模型,利用高質(zhì)量帶標(biāo)點(diǎn)繁體古文語(yǔ)料微調(diào)預(yù)訓(xùn)練語(yǔ)言模型,實(shí)現(xiàn)繁體古文的自動(dòng)句讀和自動(dòng)標(biāo)點(diǎn);

    (3) 基于前人的工作,本文改進(jìn)數(shù)據(jù)串行滑動(dòng)窗口方式進(jìn)行篇章級(jí)句讀,在一定程上提高了運(yùn)行效率;同時(shí)本文提出了一種數(shù)據(jù)并行的滑動(dòng)窗口方案,不僅保證了自動(dòng)句讀的準(zhǔn)確率,而且大幅度提高了篇章級(jí)句讀的運(yùn)行速率。

    1 相關(guān)研究

    古文自動(dòng)句讀的研究大致經(jīng)歷了三個(gè)發(fā)展階段,分別是基于規(guī)則的階段、基于統(tǒng)計(jì)方法的階段以及基于深度學(xué)習(xí)的階段。

    黃建年等[9]總結(jié)農(nóng)業(yè)古籍的斷句標(biāo)點(diǎn)規(guī)則,包括句法特征、詞法特征、引文特征等,利用規(guī)則在農(nóng)業(yè)古籍上進(jìn)行測(cè)試,斷句的準(zhǔn)確率為48%?;谝?guī)則的方法簡(jiǎn)單、易于理解,但是需要專家建立規(guī)則庫(kù),不僅費(fèi)時(shí)費(fèi)力,且規(guī)則的覆蓋面有限,只能用于處理小規(guī)模文本。

    陳天瑩等[10]采用基于上下文的N-gram模型對(duì)古文做句子切分,在《論語(yǔ)》上達(dá)到了81%的召回率、52%的準(zhǔn)確率。后續(xù)逐漸有學(xué)者將序列標(biāo)注算法應(yīng)用到自動(dòng)斷句任務(wù)中,黃瀚萱[11]比較了基于字的條件隨機(jī)場(chǎng)模型(Conditional Random Field,CRF)和隱馬爾可夫(Hidden Markou Model,HMM)模型在《孟子》《論語(yǔ)》上的斷句效果,發(fā)現(xiàn)CRF模型優(yōu)于HMM。張開旭等[12]在CRF的基礎(chǔ)上引入互信息和t-測(cè)試差,在《論語(yǔ)》和《史記》上訓(xùn)練斷句任務(wù),分別取得了0.762和 0.682的F1值。張合等[13]基于六字位標(biāo)記集,采用層疊CRF對(duì)《老子》《水經(jīng)注》《戰(zhàn)國(guó)策》《左傳》《赤壁賦》《出師表》等進(jìn)行斷句和標(biāo)點(diǎn),低層CRF模型用于識(shí)別句子邊界,高層CRF模型用于自動(dòng)標(biāo)點(diǎn)?;诮y(tǒng)計(jì)的方法主要依靠人工特征模板,但是古籍文體風(fēng)格多樣,年代跨度大,很難構(gòu)建一個(gè)適用于所有古籍的斷句模板,從而導(dǎo)致統(tǒng)計(jì)模型的泛化能力較弱。

    隨著深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的應(yīng)用,陸續(xù)有學(xué)者將深度學(xué)習(xí)方法用于自動(dòng)句讀任務(wù)。循環(huán)神經(jīng)網(wǎng)絡(luò)具有時(shí)序性結(jié)構(gòu),相比于卷積神經(jīng)網(wǎng)絡(luò)能夠更好地處理長(zhǎng)文本,常用于序列標(biāo)注任務(wù)。王博立[2]在2.37億字規(guī)模的訓(xùn)練集上訓(xùn)練雙向GRU (Gate Recurrent Unit)模型,該模型在古文上的斷句F1值達(dá)75%。釋賢超等[8]在南北朝、隋、唐、宋、遼和明六個(gè)朝代的佛、道和儒典籍上比較了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的標(biāo)點(diǎn)效果,實(shí)驗(yàn)表明,LSTM的標(biāo)點(diǎn)效果好于CNN,在唐代的語(yǔ)料上標(biāo)點(diǎn)可以達(dá)到94.3%的準(zhǔn)確率。古文分詞需要建立在斷句的基礎(chǔ)之上,分步進(jìn)行容易造成錯(cuò)誤多級(jí)擴(kuò)散,程寧等[7]設(shè)計(jì)了斷句、分詞及詞性一體化標(biāo)注方法,利用Bi-LSTM模型同時(shí)訓(xùn)練斷句、分詞和詞性標(biāo)注三項(xiàng)任務(wù),發(fā)現(xiàn)一體化標(biāo)注方法在三個(gè)任務(wù)上的F1值均有提升。

    2018年谷歌提出了預(yù)訓(xùn)練語(yǔ)言模型BERT,通過精調(diào)在11項(xiàng)自然語(yǔ)言處理任務(wù)上的效果超過了之前的模型,自此古文句讀模型也逐漸轉(zhuǎn)向使用預(yù)訓(xùn)練語(yǔ)言模型階段。俞敬松等[4]利用3億7 000萬(wàn)殆知閣古文語(yǔ)料對(duì)BERT語(yǔ)言模型做斷句和標(biāo)點(diǎn)訓(xùn)練,分別在單一類別文本和復(fù)合文本上測(cè)試斷句,達(dá)到了89.97%和91.67%的F1值。在單一文本上測(cè)試,標(biāo)點(diǎn)F1值達(dá)到了70.4%。胡韌奮等[3]基于33億字古漢語(yǔ)語(yǔ)料訓(xùn)練了古文BERT模型,并比較了BERT+FCL、BERT+CRF、BERT+CNN等序列標(biāo)注方法在古文斷句任務(wù)上的表現(xiàn),發(fā)現(xiàn)BERT+CNN模型在詩(shī)、詞及古文三種文體上自動(dòng)斷句效果最好,分別達(dá)到了99%、95%、92%的F1值。

    以上研究已經(jīng)在自動(dòng)斷句任務(wù)上取得了較好的結(jié)果,但自動(dòng)標(biāo)點(diǎn)的效果還有待提升,并且對(duì)篇章級(jí)長(zhǎng)文本的自動(dòng)句讀關(guān)注較少。受前人研究啟發(fā),本文試圖將BERT模型用于繁體古文自動(dòng)句讀,但由于谷歌發(fā)布的中文BERT模型是基于簡(jiǎn)體現(xiàn)代漢語(yǔ)語(yǔ)料訓(xùn)練得到的,并不一定能夠很好地表示古文語(yǔ)義,本文利用大規(guī)模繁體古文語(yǔ)料對(duì)BERT中文模型進(jìn)行增量訓(xùn)練,使其得到更好的繁體古文語(yǔ)義表示,然后再進(jìn)行自動(dòng)斷句和自動(dòng)標(biāo)點(diǎn)訓(xùn)練。在實(shí)際的生產(chǎn)環(huán)境下,很多需整理的古籍的篇幅都較長(zhǎng),本文改進(jìn)了數(shù)據(jù)串行滑動(dòng)窗口方式并提出數(shù)據(jù)并行滑動(dòng)窗口方式,能夠同時(shí)解決篇章級(jí)自動(dòng)句讀準(zhǔn)確率低和效率低的問題。

    2 模型構(gòu)建

    預(yù)訓(xùn)練語(yǔ)言模型BERT的使用包括增量訓(xùn)練和微調(diào)兩個(gè)階段,以下分別介紹BERT模型增量訓(xùn)練過程和自動(dòng)句讀標(biāo)點(diǎn)實(shí)驗(yàn)設(shè)置。

    2.1 增量訓(xùn)練BERT模型

    BERT由多層Transformer構(gòu)成,具有強(qiáng)大的語(yǔ)義表示能力。與傳統(tǒng)的靜態(tài)詞向量不同,BERT能根據(jù)上下文生成動(dòng)態(tài)的詞向量,即同一個(gè)詞在不同語(yǔ)境中會(huì)有不同的向量表示。BERT的訓(xùn)練過程是無監(jiān)督的,能夠自動(dòng)從大量無標(biāo)注語(yǔ)料中學(xué)習(xí)到字詞和句子的語(yǔ)義表示。

    本文從不同渠道收集大量繁體古文語(yǔ)料,包括詩(shī)歌、小說、駢文、論文等各類文體,內(nèi)容包含經(jīng)史子集、佛經(jīng)等,文獻(xiàn)分布年代廣泛,包含從先秦至清朝的文獻(xiàn)。經(jīng)人工清洗整理,最后得到了約10億字的帶標(biāo)點(diǎn)繁體古文語(yǔ)料。統(tǒng)計(jì)整理的語(yǔ)料得到的繁體字表有7萬(wàn)字左右(包括各類異體字、古今字),BERT中文模型(以下稱BERTbase)有固定詞表,其中僅包含7 321個(gè)漢字,覆蓋率不到十分之一,如果直接使用BERTbase,會(huì)使得很多繁體字在任務(wù)過程中被替換成UNK,造成語(yǔ)義不完整,從而影響自動(dòng)句讀任務(wù)的效果。因此本文在進(jìn)行增量訓(xùn)練之前,對(duì)整理得到的字表中的古今字、異體字去重,并在整理得到的字表中選擇部分高頻字替換掉原來詞表中的部分簡(jiǎn)體字?;谛碌脑~表和訓(xùn)練語(yǔ)料對(duì)12層BERTbase進(jìn)行增量訓(xùn)練。根據(jù)BERTbase模型預(yù)訓(xùn)練步驟將增量訓(xùn)練分為三個(gè)階段,每個(gè)階段訓(xùn)練參數(shù)如表1所示。

    表1 BERT增量訓(xùn)練三個(gè)階段參數(shù)設(shè)置

    因?yàn)楦鼡Q了詞表,原來的Embedding層對(duì)應(yīng)于原來的詞表,因此在第一階段,只更新Embedding層參數(shù),使之和新的詞表對(duì)應(yīng)。第二階段用于學(xué)習(xí)古漢語(yǔ)知識(shí),因此訓(xùn)練步驟為500K,比第一階段和第三階段訓(xùn)練步驟更多,使其有更多時(shí)間學(xué)習(xí)古漢語(yǔ)表示,在第二階段時(shí)更新模型的所有參數(shù)。在前兩個(gè)階段中,將Sequence Length設(shè)為128,在第三階段將其設(shè)為512,因?yàn)榈谌A段用于學(xué)習(xí)長(zhǎng)距離語(yǔ)義關(guān)系,據(jù)BERT研發(fā)者回應(yīng),長(zhǎng)距離的語(yǔ)義關(guān)系比較容易學(xué)習(xí)到,因此只需進(jìn)行較少步驟的學(xué)習(xí)。經(jīng)過三個(gè)階段的學(xué)習(xí),最后得到增量繁體古文BERT模型,以下稱BERTguwen。實(shí)驗(yàn)設(shè)備為兩塊32 GB的TESLAV100 顯卡,訓(xùn)練時(shí)間為7天左右。

    2.2 自動(dòng)句讀模型

    預(yù)訓(xùn)練模型可以通過微調(diào)迭代調(diào)整為適合當(dāng)前任務(wù)的模型,本文將自動(dòng)句讀和標(biāo)點(diǎn)當(dāng)作是預(yù)訓(xùn)練模型下游的序列標(biāo)注任務(wù)。

    2001年Lafferty等人提出的條件隨機(jī)場(chǎng)模型(CRF)是一種無向圖模型,在詞性標(biāo)注、命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)中表現(xiàn)優(yōu)異。雖然現(xiàn)在深度學(xué)習(xí)模型也可以很好地解決序列標(biāo)注問題,但是增加CRF作為解碼層似乎效果更好。如Huang等[14]在做命名實(shí)體識(shí)別任務(wù)時(shí)考慮到標(biāo)簽前后的依賴性,在Bi-LSTM后接CRF層作為解碼層,發(fā)現(xiàn)增加CRF層會(huì)比單獨(dú)使用深度學(xué)習(xí)模型效果更好。因此,本文也將CRF作為模型的最后一層,通過其學(xué)習(xí)標(biāo)簽之間的關(guān)系,找到全局最優(yōu)的標(biāo)簽序列。

    CNN是一種前饋神經(jīng)網(wǎng)絡(luò),可以在大量數(shù)據(jù)中識(shí)別序列的局部特征,并將它們生成為固定大小的向量表示,捕捉對(duì)當(dāng)前任務(wù)最有效的特征。我們?cè)贐ERTguwen后接CNN層和全連接層,在BERTguwen的基礎(chǔ)上對(duì)句子的上下文做進(jìn)一步編碼,捕捉局部特征。BERTguwen+CRF/CNN模型如圖1所示。

    圖1 BERTguwen+CRF/CNN模型圖

    3 實(shí)驗(yàn)

    3.1 數(shù)據(jù)集

    本文以學(xué)衡網(wǎng)(1)http://core.xueheng.net/200本核心典籍和github(2)https://github.com/jackeyGao/chinese-poetry公開的全中華古詩(shī)詞數(shù)據(jù)庫(kù)中的30多萬(wàn)首詩(shī)作為實(shí)驗(yàn)語(yǔ)料,兩部分皆經(jīng)過人工整理,都是繁體漢字,且標(biāo)點(diǎn)質(zhì)量比較高。語(yǔ)料具體統(tǒng)計(jì)信息如表2所示,雖然最大句長(zhǎng)超過萬(wàn)字,但統(tǒng)計(jì)發(fā)現(xiàn)97%的句長(zhǎng)都在200字以內(nèi)。我們將數(shù)據(jù)集按照句子數(shù)8∶1∶1切分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。為了讓模型能處理較長(zhǎng)文本,我們隨機(jī)將同一段落中的3~10個(gè)句子合并作為一條訓(xùn)練數(shù)據(jù)。本文選用二元標(biāo)簽BM進(jìn)行斷句數(shù)據(jù)標(biāo)注,在二元標(biāo)簽基礎(chǔ)上設(shè)計(jì)斷句和標(biāo)點(diǎn)聯(lián)合標(biāo)注標(biāo)簽?!癇”表示對(duì)應(yīng)的字符在句首,“M”表示對(duì)應(yīng)字符在句中或句尾。“Dou”“J”“Dun”“F”“M”“W”“G”分別表示該句以逗號(hào)、句號(hào)、頓號(hào)、分號(hào)、冒號(hào)、問號(hào)、感嘆號(hào)結(jié)尾。

    表2 數(shù)據(jù)集統(tǒng)計(jì)信息

    3.2 實(shí)驗(yàn)設(shè)置

    BiLSTM-CRF模型是經(jīng)典的序列標(biāo)注模型[14],本文將該模型作為基準(zhǔn)模型,將BiLSTM的隱藏元數(shù)量設(shè)為256,詞向量維度設(shè)為300。俞敬松等人[4]和胡韌奮等人[3]的古文句讀和標(biāo)點(diǎn)研究非常具有代表性,因此本文也將他們的模型作為基準(zhǔn)模型。本文比較BERTguwen+CRF、BERTbase+CRF、BERTguwen+CNN、BERTbase+CNN模型在句讀和標(biāo)點(diǎn)任務(wù)上的表現(xiàn),Sequence Length設(shè)為300,Batch Size設(shè)為32。實(shí)驗(yàn)在兩塊32 GB的Tesla V100 GPU上進(jìn)行,每個(gè)模型訓(xùn)練到收斂為止。

    3.3 斷句實(shí)驗(yàn)結(jié)果

    為檢驗(yàn)不同模型在斷句任務(wù)上的性能,本文使用精確率(Precision)、召回率(Recall)和F1(F1-score)作為評(píng)價(jià)指標(biāo)。

    斷句實(shí)驗(yàn)結(jié)果如表3所示,可以看出詩(shī)歌斷句結(jié)果整體好于古文斷句結(jié)果,可能是因?yàn)楣旁?shī)具有特定的體制和韻律,如五言絕句、七言律詩(shī)等,模型更加容易學(xué)得其斷句規(guī)律,古詩(shī)斷句最好的F1值已經(jīng)超過99%。而古文的形式更加靈活,句式更加豐富,最好的斷句F1值為95.03%,比古詩(shī)低了4.5個(gè)百分點(diǎn)。

    表3 不同模型在古文和詩(shī)歌上的斷句實(shí)驗(yàn)結(jié)果 (單位:%)

    對(duì)比不同模型的性能,可以看到BERTguwen+CRF模型相比其他模型在斷句任務(wù)上有最高的召回率和F1值,分別為95.16%、95.03%,BERTguwen+CNN模型有最高的準(zhǔn)確率95.13%。相比于基線模型Bi-LSTM+CRF,融入了預(yù)訓(xùn)練語(yǔ)言模型之后斷句效果均有一定程度的提升。融合增量訓(xùn)練的古文預(yù)訓(xùn)練模型的BERTguwen+CRF模型比基線模型Bi-LSTM+CRF的F1值提高了12.98個(gè)百分點(diǎn)。

    對(duì)比BERTbase+CRF和BERTguwen+CRF的實(shí)驗(yàn)結(jié)果??梢钥闯?使用了BERTguwen的模型斷句效果比使用BERTbase的模型好,F1值提高了1.83個(gè)百分點(diǎn),這說明對(duì)BERT模型做繁體古文增量訓(xùn)練,可以使模型學(xué)習(xí)到更多古文知識(shí),能更好地處理斷句任務(wù)。如以下案例所示, “用兵”其主語(yǔ)本是“朝廷”,在此處承前省略主語(yǔ),“其主”與“秉?!睂儆谕徽Z(yǔ),共同作為“囚廢”的賓語(yǔ),BERTguwen+CRF經(jīng)過了古文增量訓(xùn)練,能夠更好地識(shí)別此類主語(yǔ)省略的句式,斷句結(jié)果正確。而BERTbase+CRF模型錯(cuò)誤地將“秉?!碑?dāng)作“用兵”的主語(yǔ),“西方”作為“既下”的主語(yǔ),導(dǎo)致斷句錯(cuò)誤?!俺琼巍睘殡p音節(jié)文言詞,在古文中屬于比較常用的詞,但在現(xiàn)代漢語(yǔ)中幾乎不再使用,BERTbase+CRF不能準(zhǔn)確地識(shí)別這一詞語(yǔ),可能是因?yàn)樵谄洮F(xiàn)代漢語(yǔ)訓(xùn)練語(yǔ)料中“城砦”出現(xiàn)頻次較低,BERTguwen+CRF將“城砦”作為一個(gè)整體且斷句正確,這說明增量訓(xùn)練之后的BERTguwen+CRF對(duì)文言詞更加敏感。

    例1

    原文: 朝廷以夏人囚廢其主秉常。用兵西方。既下米脂等城砦數(shù)十。

    BERTguwen+CRF: 朝廷以夏人囚廢其主秉常。用兵西方。既下米脂等城砦數(shù)十。

    BERTbase+CRF: 朝廷以夏人囚廢其主。秉常用兵。西方既下。米脂等城。砦數(shù)十。

    通過分析斷句結(jié)果,我們發(fā)現(xiàn)斷句經(jīng)常出現(xiàn)“可斷可不斷”的情況,如以下兩個(gè)案例所示,原文為“借兵於楚伐魏”,模型斷句結(jié)果為“借兵於楚。伐魏”,在“伐魏”之前斷句應(yīng)該也不為錯(cuò)誤。案例2的模型斷句也是類似的情況,模型斷句偏向于將長(zhǎng)句斷為小句,但這種斷句結(jié)果似乎不能算作錯(cuò)誤。在實(shí)驗(yàn)時(shí),將唯一斷句標(biāo)注集作為標(biāo)準(zhǔn)答案,并不能全面地評(píng)估模型的性能,以后可以嘗試在測(cè)試集中給出多種正確標(biāo)注答案。

    案例1:

    原文: 取我剛平。六年。借兵於楚伐魏。

    BERTguwen+CRF: 取我剛平。六年。借兵於楚。伐魏。

    案例2:

    原文: 故曰。禮人而不荅則反其敬。愛人而不親則反其仁。治人而不治則反其知。

    BERTguwen+CRF: 故曰。禮人而不荅。則反其敬。愛人而不親。則反其仁。治人而不治。則反其知。

    3.4 標(biāo)點(diǎn)實(shí)驗(yàn)結(jié)果

    本文在評(píng)價(jià)標(biāo)點(diǎn)模型時(shí)使用微平均精確率(Pmicro)、召回率(Rmicro)和F1micro。

    標(biāo)點(diǎn)實(shí)驗(yàn)結(jié)果如表4所示,由于詩(shī)歌的標(biāo)點(diǎn)規(guī)則比較簡(jiǎn)單,所有模型的標(biāo)點(diǎn)F1值都在95%以上。BERTguwen+CNN模型在古文和詩(shī)歌上標(biāo)點(diǎn)表現(xiàn)最好,F1值為80.18%和98.91%。在古文標(biāo)點(diǎn)中,BERTguwen+CRF比BERTbase+CRF的標(biāo)點(diǎn)F1值高1.54個(gè)百分點(diǎn),BERTguwen+CNN比BERTbase+CNN的標(biāo)點(diǎn)F1值高2.21個(gè)百分點(diǎn),說明增量訓(xùn)練之后的模型在一定程度上能夠幫助提升標(biāo)點(diǎn)效果。

    表4 不同模型在古文和詩(shī)歌上的標(biāo)點(diǎn)實(shí)驗(yàn)結(jié)果 (單位: %)

    和斷句任務(wù)的結(jié)果相比,標(biāo)點(diǎn)的精確率、召回率、F1值與斷句均有較大差距,因?yàn)閿嗑湟?guī)則相對(duì)比較統(tǒng)一,而標(biāo)點(diǎn)的規(guī)則比較復(fù)雜,不同的標(biāo)點(diǎn)表達(dá)不同的感情和意義。本文實(shí)驗(yàn)的語(yǔ)料雖然是經(jīng)過人工整理的,但是依然存在標(biāo)注規(guī)則不一致的情況,如逗號(hào)和句號(hào)、分號(hào)和逗號(hào)的使用常常因人而異,模型也難以分辨。

    3.5 增量古文模型語(yǔ)義表示能力

    上面的實(shí)驗(yàn)結(jié)果已經(jīng)證明BERTguwen模型相比BERTbase模型在斷句和標(biāo)點(diǎn)任務(wù)上表現(xiàn)更好。本文設(shè)計(jì)實(shí)驗(yàn)進(jìn)一步討論BERTguwen的表現(xiàn)優(yōu)于BERTbase的原因。

    古代漢語(yǔ)和現(xiàn)代漢語(yǔ)各有特點(diǎn),現(xiàn)代漢語(yǔ)以雙音節(jié)詞為主,古代漢語(yǔ)以單音節(jié)詞為主,且多義詞比例很高。BERT與傳統(tǒng)的詞向量模型不同,BERT能夠?qū)Σ煌Z(yǔ)境下同一個(gè)詞有不同的語(yǔ)義表示,具有區(qū)分同一個(gè)詞的不同義項(xiàng)的能力,如“君之病在腸胃”中的“病”與“人皆嗤吾固陋,吾不以為病”中的“病”分別對(duì)應(yīng)不同的向量。

    本文選取一組古漢語(yǔ)多義詞來討論BERTguwen和BERTbase文言詞的語(yǔ)義表示能力。本文選取古漢語(yǔ)多義詞基于以下三個(gè)原則: ①單音節(jié)多義詞,因?yàn)锽ERT中文模型只能對(duì)句子和單字詞做語(yǔ)義表示; ②詞語(yǔ)義項(xiàng)多,文言詞除本義外通常還有引申義和假借義; ③詞語(yǔ)在古漢語(yǔ)中使用率高,屬于常用詞。

    基于以上三點(diǎn),我們參考文學(xué)網(wǎng)(3)https://wyw.hwxnet.com/article/24.html發(fā)布的150個(gè)古文多義實(shí)詞以及《古漢語(yǔ)常用字字典》第四版,選取“安”“謝”“信”“兵”“愛”“病”“假”七個(gè)單音節(jié)詞作為實(shí)驗(yàn)對(duì)象,以上七個(gè)多義詞義項(xiàng)都在3個(gè)以上,并且在我們的語(yǔ)料庫(kù)中出現(xiàn)頻次較高。

    首先從整理的語(yǔ)料中分別找到3 000條含有以上七個(gè)單音節(jié)詞的句子,利用BERTguwen對(duì)每條例句中的詞作向量化表示,然后用k-means對(duì)以上七個(gè)詞語(yǔ)的所有詞向量做聚類,最后使用t-nse對(duì)聚類結(jié)果進(jìn)行可視化。根據(jù)《古漢語(yǔ)常用字字典》中的義項(xiàng),七個(gè)單字詞的義項(xiàng)共36個(gè),將k-means的聚類數(shù)設(shè)為36,模型自動(dòng)將所有詞向量聚為36個(gè)小類。聚類效果如圖2所示,圖中每個(gè)點(diǎn)代表一個(gè)詞向量,從圖2上可以比較明顯地看出聚類之后出現(xiàn)了七個(gè)模塊,每一模塊對(duì)應(yīng)一個(gè)文言單字詞,每個(gè)模塊內(nèi)部又包含不同灰度的點(diǎn),不同顏色表示詞內(nèi)部有不同的義項(xiàng)。以上聚類結(jié)果說明BERTguwen能夠?qū)⒉煌难栽~的語(yǔ)義區(qū)分開,并且能表示出一個(gè)多義詞的不同義項(xiàng)。

    圖2 k-means對(duì)七個(gè)古漢語(yǔ)單字詞向量的聚類效果圖

    為了進(jìn)一步討論BERTguwen模型對(duì)同一個(gè)文言詞的不同義項(xiàng)的區(qū)分能力,我們對(duì)比BERTguwen和BERTbase兩個(gè)模型對(duì)七個(gè)多義詞的不同義項(xiàng)的語(yǔ)義表示能力,即是否能將不同義項(xiàng)分開。以“安”和“謝”為例,首先根據(jù)文言詞“安”的四個(gè)常用義項(xiàng)人工挑出2 000條例句,根據(jù)文言詞“謝”的三個(gè)常用義項(xiàng)挑出1 500條例句,部分例句如表5所示。

    表5 文言詞“安”“謝”常用義項(xiàng)例句(部分)

    分別使用BERTguwen和BERTbase兩個(gè)模型生成“安”和“謝”在所有例句中的詞向量,最后進(jìn)行聚類。我們使用輪廓系數(shù)評(píng)估聚類效果,聚類效果越好,輪廓系數(shù)越高,計(jì)算如式(1)所示。

    (1)

    其中,a(i)表示樣本點(diǎn)i的簇內(nèi)不相似度,j表示與樣本i在同一個(gè)類中的其他樣本,distance(i,j)表示i和j之間的距離。

    (2)

    其中,b(i) 表示i和其他每個(gè)類別的所有樣本之間的距離和的最小值,計(jì)算方式和a(i)類似。所有樣本的S(i)均值即為聚類結(jié)果的輪廓系數(shù)。

    如圖3所示,圖3(a)為BERTguwen生成的“謝”的詞向量的聚類效果,聚類系數(shù)為3,輪廓系數(shù)S為0.1173;圖3(b)為BERTbase生成“謝”的詞向量的聚類效果,聚類系數(shù)為3,輪廓系數(shù)S為0.096 4;對(duì)比圖3(a)和3(b)發(fā)現(xiàn)BERTguwen生成的“謝”的向量能夠被清晰地聚為3類,且圖3(a)的輪廓系數(shù)大于圖3(b)的輪廓系數(shù)。對(duì)比七個(gè)多義詞的七組聚類效果圖及其輪廓系數(shù)發(fā)現(xiàn),除了“信”以外,BERTguwen生成的詞向量的聚類效果明顯好于BERTbase生成的詞向量。

    圖3 (續(xù))

    觀察“信”的聚類效果圖我們可以看出,BERTguwen的聚類效果似乎好于BERTbase,但輪廓系數(shù)前者卻小于后者。原因可能是“信”的義項(xiàng)較多,并且這些義項(xiàng)之間有比較緊密的引申關(guān)系,詞性主要是動(dòng)詞和名詞。如“不欺,講信用”(言而有信)“信任”(愿陛下親之信之)“相信“(忌不自信)“信用”(小信未孚,神弗福也)。而如“安”“謝”這類多義詞,不同義項(xiàng)距離較遠(yuǎn),且詞性多樣。

    4 篇章級(jí)斷句

    近年來,不斷有學(xué)者提出長(zhǎng)文本處理模型,BlockBERT[15]切斷BERT中不重要的注意力頭,將BERT可處理的Token數(shù)從512個(gè)擴(kuò)展到1 024個(gè)。Big bird模型[16]使用稀疏注意力機(jī)制,將計(jì)算復(fù)雜度降到線性,可以處理比全局注意力Transformer長(zhǎng)8倍的序列。但是這類模型能處理的長(zhǎng)度依然有限,長(zhǎng)文本句讀是生產(chǎn)環(huán)境下需要解決的問題,但目前涉及這一問題的研究較少。俞敬松等[4]使用滑動(dòng)窗口的方式處理篇章級(jí)句讀(以下稱串行滑動(dòng)窗口1),如圖4中示例所示,每次輸入不超過64字的片段,因其訓(xùn)練數(shù)據(jù)最長(zhǎng)為21字,所以只取輸出結(jié)果的前一個(gè)或兩個(gè)斷句結(jié)果,剩余的部分歸并到第二次切分的64字。這種滑動(dòng)窗口方式雖然在一定程度上保證了斷句的準(zhǔn)確性,但是每次處理的序列只有64字,且每次只取前兩句的斷句結(jié)果,后面的處理結(jié)果因準(zhǔn)確性不高都被放棄。這種方式每次需等待前一片段輸出結(jié)果之后才能進(jìn)行第二片段的處理,處理效率很低。

    本文提出了兩種新的滑動(dòng)窗口方式,在保證準(zhǔn)確率的同時(shí)也能極大提高運(yùn)行速率,以下稱串行滑動(dòng)窗口2和并行滑動(dòng)窗口。串行滑動(dòng)窗口2是通過對(duì)串行滑動(dòng)窗口1改進(jìn)得到,如圖5示例,首先輸入文檔的前125個(gè)字,然后等待模型返回前125個(gè)字的斷句結(jié)果,因?yàn)榈箶?shù)第一句可能因?yàn)檎Z(yǔ)義不完整而出現(xiàn)錯(cuò)誤斷句,所以將倒數(shù)第一句的斷句結(jié)果加入到下一次切分的125字中過,依次處理完所有文本。這種方法使得每次能處理更長(zhǎng)的序列,并且每次只放棄輸出結(jié)果的最后一句,運(yùn)行速度相比串行滑動(dòng)窗口1有一定提高。但是因?yàn)閿?shù)據(jù)處理的方式仍然是串行的,每次需要等待前面的返回結(jié)果,句讀效率不足以滿足使用需求。

    圖5 串行滑動(dòng)窗口2示例第一次取得結(jié)果為“……據(jù)其要害。擊之可破也。岱不從。遂與戰(zhàn)。”

    為了進(jìn)一步提高篇章級(jí)句讀速率,本文提出了并行滑動(dòng)窗口方法。如圖6案例所示,將長(zhǎng)文本數(shù)據(jù)按照滑動(dòng)窗口的方式切分,第一個(gè)片段與第二個(gè)片段重復(fù)n個(gè)字,第二個(gè)片段與第三個(gè)片段重復(fù)n個(gè)字,依次將長(zhǎng)文本切成m個(gè)片段,將m個(gè)片段同時(shí)送入模型,同時(shí)返回m個(gè)結(jié)果。在處理返回結(jié)果時(shí)也按照滑動(dòng)窗口的方式處理,對(duì)于片段1,首先刪除倒數(shù)第一句的輸出結(jié)果得到新的片段1,然后在片段2的輸出結(jié)果中刪除和新的片段1重復(fù)的部分,同樣刪除片段2的倒數(shù)第一句的輸出結(jié)果,得到新的片段2,最后將新的片段1和新的片段2拼接,依次將所有的片段拼接得到最后的輸出序列。將一整篇文本切分為多條數(shù)據(jù)并行處理,大幅度提高了句讀速度,并且能保證句讀的準(zhǔn)確率。在實(shí)驗(yàn)中我們將片段長(zhǎng)度設(shè)置為125,重復(fù)字?jǐn)?shù)n設(shè)為20。

    圖6 并行滑動(dòng)窗口示例切分為m個(gè)片段,然后在返回的斷句結(jié)果中,將每個(gè)片段重復(fù)的部分去掉。

    我們將直接截?cái)嗟姆绞阶鳛榛€標(biāo)準(zhǔn),將長(zhǎng)文本每64字截?cái)嘟M成一批數(shù)據(jù)喂進(jìn)模型。使用以上四種方式句讀一段4 168字的長(zhǎng)文本,實(shí)驗(yàn)結(jié)果如表6所示。

    表6 四種篇章級(jí)句讀方法實(shí)驗(yàn)結(jié)果

    從表6中可以比較明顯地看出,滑動(dòng)窗口方法的F1值都高于直接截?cái)嗟姆椒?這是因?yàn)榛瑒?dòng)窗口只取語(yǔ)義比較完整的文本片段作為輸出結(jié)果,而直接截?cái)嗟姆绞饺菀自斐晌谋酒谓Y(jié)尾強(qiáng)制斷句的錯(cuò)誤,但是直接截?cái)嗟姆绞骄哂凶罡叩奶幚硇省?duì)比兩種串行滑動(dòng)窗口方式,本文改進(jìn)的串行滑動(dòng)窗口2句讀速度相比于串行滑動(dòng)窗口1提高了11倍,且有最高的F1值。比較并行滑動(dòng)窗口和兩種串行滑動(dòng)窗口,并行滑動(dòng)窗口方式用時(shí)5.79 s,和直接截?cái)喾绞接脮r(shí)基本無差,同時(shí)也保證了斷句具有較高的F1值。

    基于本文提出的句讀模型和并行滑動(dòng)窗口方式,我們開發(fā)了“吾與點(diǎn)”古籍自動(dòng)句讀平臺(tái)(4)http://wyd.pkudh.xyz/。該平臺(tái)可以輔助古籍研究者和愛好者自動(dòng)句讀古籍文本。

    5 總結(jié)

    古文斷句和標(biāo)點(diǎn)是古籍整理過程中重要的一步,本文利用預(yù)訓(xùn)練語(yǔ)言模型實(shí)現(xiàn)了繁體古籍的自動(dòng)斷句和標(biāo)點(diǎn)。首先利用10億字繁體古文語(yǔ)料對(duì)中文BERT模型做增量訓(xùn)練,然后以此預(yù)訓(xùn)練模型為基礎(chǔ)實(shí)現(xiàn)了繁體古文的自動(dòng)斷句和標(biāo)點(diǎn)。古文和詩(shī)歌的自動(dòng)斷句F1值分別為95.03%和99.53%,標(biāo)點(diǎn)F1值分別為80.18%和98.91%。并且通過實(shí)驗(yàn)發(fā)現(xiàn)增量訓(xùn)練后的BERT模型能夠提升自動(dòng)斷句和自動(dòng)標(biāo)點(diǎn)的效果。本文通過對(duì)文言多義詞的多個(gè)義項(xiàng)聚類發(fā)現(xiàn),增量訓(xùn)練的語(yǔ)言模型的古文語(yǔ)義表示能力優(yōu)于原始BERT模型,并且具備一定的區(qū)分多義詞不同義項(xiàng)的能力。在篇章級(jí)句讀方面,本文改進(jìn)了數(shù)據(jù)串行方案并提出數(shù)據(jù)并行的滑動(dòng)窗口方式,既能保證句讀的準(zhǔn)確率,也能保持極高的處理效率。

    猜你喜歡
    句讀斷句標(biāo)點(diǎn)
    標(biāo)點(diǎn)可有可無嗎
    《遼史》標(biāo)點(diǎn)辨誤四則
    小小標(biāo)點(diǎn)真厲害
    短句(主語(yǔ)+謂語(yǔ))
    文言斷句判斷法
    “斷句” “密碼”費(fèi)人解(二則)
    “咬文嚼字”三篇
    妙用標(biāo)點(diǎn)巧斷句
    有趣的標(biāo)點(diǎn)
    《〈曹劌論戰(zhàn)〉句讀解惑》商榷
    美国免费a级毛片| 法律面前人人平等表现在哪些方面| 电影成人av| 丝袜人妻中文字幕| 交换朋友夫妻互换小说| 久久精品91无色码中文字幕| 这个男人来自地球电影免费观看| 国产精品偷伦视频观看了| 国产欧美日韩一区二区精品| 久久午夜亚洲精品久久| 99精品久久久久人妻精品| 精品久久久久久电影网| 大片电影免费在线观看免费| √禁漫天堂资源中文www| 国产男女内射视频| 淫妇啪啪啪对白视频| 久久精品国产综合久久久| 午夜激情av网站| 超碰97精品在线观看| 日本五十路高清| 亚洲欧美色中文字幕在线| 少妇被粗大的猛进出69影院| 欧美黄色片欧美黄色片| 啦啦啦 在线观看视频| 久久中文字幕一级| 亚洲国产精品一区二区三区在线| 老鸭窝网址在线观看| 欧美日韩乱码在线| 中文字幕另类日韩欧美亚洲嫩草| 亚洲欧美一区二区三区黑人| 99riav亚洲国产免费| 亚洲人成电影免费在线| 女人精品久久久久毛片| 国产区一区二久久| av天堂久久9| 无限看片的www在线观看| 国产精品99久久99久久久不卡| 久久香蕉精品热| 欧美+亚洲+日韩+国产| 免费黄频网站在线观看国产| 亚洲一区高清亚洲精品| 中文字幕人妻熟女乱码| x7x7x7水蜜桃| 久久久久国产一级毛片高清牌| 人妻久久中文字幕网| 免费在线观看日本一区| 超碰成人久久| 亚洲成人免费电影在线观看| av中文乱码字幕在线| 天天影视国产精品| 国产日韩欧美亚洲二区| 99热只有精品国产| 日韩欧美免费精品| 欧美日韩成人在线一区二区| 欧美成狂野欧美在线观看| 亚洲熟女精品中文字幕| 亚洲免费av在线视频| 亚洲国产中文字幕在线视频| 少妇猛男粗大的猛烈进出视频| 亚洲色图av天堂| 天天躁夜夜躁狠狠躁躁| 国产淫语在线视频| 午夜福利,免费看| 香蕉丝袜av| 一区二区三区精品91| 国产成人一区二区三区免费视频网站| 久久久久久亚洲精品国产蜜桃av| 欧美精品av麻豆av| 亚洲欧美一区二区三区久久| 国产免费男女视频| 亚洲中文字幕日韩| 欧美av亚洲av综合av国产av| 亚洲视频免费观看视频| 国产一区二区三区在线臀色熟女 | 99国产精品一区二区蜜桃av | 亚洲欧美激情在线| 91成人精品电影| 亚洲av美国av| 香蕉丝袜av| 波多野结衣一区麻豆| 人妻久久中文字幕网| 一级毛片高清免费大全| 水蜜桃什么品种好| av线在线观看网站| 精品乱码久久久久久99久播| 免费观看人在逋| tocl精华| 国产成人啪精品午夜网站| 国精品久久久久久国模美| 国产精品久久久久成人av| 午夜两性在线视频| 午夜免费成人在线视频| 在线观看免费视频网站a站| av天堂在线播放| 在线观看免费高清a一片| www.精华液| 国产精品久久视频播放| 高清黄色对白视频在线免费看| 男女免费视频国产| 欧美在线一区亚洲| 国产成人影院久久av| 男女下面插进去视频免费观看| 岛国毛片在线播放| bbb黄色大片| 日日摸夜夜添夜夜添小说| 999精品在线视频| 午夜免费观看网址| 欧美日韩一级在线毛片| 色综合婷婷激情| 婷婷成人精品国产| 国产精品九九99| 亚洲人成电影免费在线| 美国免费a级毛片| 国产男靠女视频免费网站| 国产av精品麻豆| 免费在线观看亚洲国产| 亚洲成人手机| 国产一区在线观看成人免费| 母亲3免费完整高清在线观看| 欧美日韩亚洲国产一区二区在线观看 | 久久 成人 亚洲| 久久精品国产a三级三级三级| 久久中文字幕一级| 亚洲精品国产色婷婷电影| 午夜两性在线视频| 美女高潮喷水抽搐中文字幕| 视频区图区小说| 国产成+人综合+亚洲专区| 免费少妇av软件| 免费人成视频x8x8入口观看| 成人18禁在线播放| 999久久久国产精品视频| 日韩视频一区二区在线观看| 夫妻午夜视频| 老汉色∧v一级毛片| 亚洲av成人av| 亚洲第一欧美日韩一区二区三区| 亚洲成人免费电影在线观看| 亚洲av电影在线进入| av片东京热男人的天堂| 亚洲专区国产一区二区| av有码第一页| 日韩欧美在线二视频 | 在线观看日韩欧美| 美国免费a级毛片| 午夜福利乱码中文字幕| 99香蕉大伊视频| 在线观看免费高清a一片| 午夜福利视频在线观看免费| 欧美日韩成人在线一区二区| 午夜91福利影院| 日本欧美视频一区| 一边摸一边抽搐一进一小说 | 丝袜美腿诱惑在线| 制服人妻中文乱码| av天堂在线播放| cao死你这个sao货| 黄色毛片三级朝国网站| 国产真人三级小视频在线观看| 免费看十八禁软件| 咕卡用的链子| a级片在线免费高清观看视频| 国产欧美日韩一区二区精品| 老司机亚洲免费影院| 日韩欧美一区二区三区在线观看 | 午夜激情av网站| 他把我摸到了高潮在线观看| 老司机午夜十八禁免费视频| 亚洲五月色婷婷综合| 欧美日本中文国产一区发布| 色综合欧美亚洲国产小说| 女同久久另类99精品国产91| 国产三级黄色录像| 午夜久久久在线观看| 国产精品99久久99久久久不卡| 自线自在国产av| 午夜亚洲福利在线播放| 狂野欧美激情性xxxx| 在线观看舔阴道视频| 欧美在线黄色| av福利片在线| 亚洲精品一卡2卡三卡4卡5卡| 亚洲精品美女久久av网站| 亚洲一区高清亚洲精品| 国产一区二区三区视频了| 国产精品自产拍在线观看55亚洲 | 久久久水蜜桃国产精品网| e午夜精品久久久久久久| 亚洲色图av天堂| 久久久久精品人妻al黑| 亚洲精品国产一区二区精华液| 999久久久精品免费观看国产| 91成年电影在线观看| 人妻久久中文字幕网| 久久久久久免费高清国产稀缺| 亚洲人成77777在线视频| www.精华液| 纯流量卡能插随身wifi吗| 黄频高清免费视频| 人妻丰满熟妇av一区二区三区 | 在线观看日韩欧美| 亚洲精品成人av观看孕妇| 在线天堂中文资源库| 18禁黄网站禁片午夜丰满| 国内久久婷婷六月综合欲色啪| 成人亚洲精品一区在线观看| 国产av又大| 精品午夜福利视频在线观看一区| 亚洲精品一卡2卡三卡4卡5卡| 国产不卡av网站在线观看| 午夜福利在线观看吧| 大码成人一级视频| 免费在线观看视频国产中文字幕亚洲| 麻豆乱淫一区二区| 久久亚洲精品不卡| 欧美国产精品va在线观看不卡| 欧美av亚洲av综合av国产av| 男女下面插进去视频免费观看| 在线播放国产精品三级| 久久久久国产精品人妻aⅴ院 | 久久久精品国产亚洲av高清涩受| 欧美乱码精品一区二区三区| 日本五十路高清| 黄色视频,在线免费观看| aaaaa片日本免费| 99精品在免费线老司机午夜| 黑人巨大精品欧美一区二区mp4| 精品久久久久久,| 国内毛片毛片毛片毛片毛片| 最新在线观看一区二区三区| 一本大道久久a久久精品| 新久久久久国产一级毛片| 久久人妻福利社区极品人妻图片| 很黄的视频免费| 啦啦啦视频在线资源免费观看| 国产精品99久久99久久久不卡| a级片在线免费高清观看视频| 亚洲熟女精品中文字幕| 午夜日韩欧美国产| 人人妻,人人澡人人爽秒播| 老司机影院毛片| 热99re8久久精品国产| 中文字幕高清在线视频| 日韩免费av在线播放| av有码第一页| 免费不卡黄色视频| 欧美日韩瑟瑟在线播放| 久久久精品免费免费高清| 国产黄色免费在线视频| 国产高清国产精品国产三级| 岛国在线观看网站| 亚洲国产毛片av蜜桃av| 日韩欧美免费精品| 久99久视频精品免费| 天天躁日日躁夜夜躁夜夜| 午夜福利视频在线观看免费| 精品国产一区二区三区久久久樱花| 国产欧美日韩综合在线一区二区| 99国产精品99久久久久| 亚洲精品中文字幕在线视频| 久久久精品免费免费高清| 免费看十八禁软件| 久久国产亚洲av麻豆专区| 亚洲精品中文字幕在线视频| 老汉色av国产亚洲站长工具| 这个男人来自地球电影免费观看| 91大片在线观看| 女同久久另类99精品国产91| 欧美午夜高清在线| 欧美日韩乱码在线| 亚洲欧美激情综合另类| 又黄又粗又硬又大视频| 女人久久www免费人成看片| av天堂久久9| 精品人妻1区二区| 青草久久国产| 国产视频一区二区在线看| 午夜亚洲福利在线播放| 99国产精品99久久久久| ponron亚洲| 成人免费观看视频高清| 香蕉国产在线看| 正在播放国产对白刺激| 侵犯人妻中文字幕一二三四区| 午夜福利乱码中文字幕| 免费人成视频x8x8入口观看| 中文字幕色久视频| 欧美乱色亚洲激情| 一级a爱片免费观看的视频| 精品国产乱码久久久久久男人| 99久久综合精品五月天人人| 老司机深夜福利视频在线观看| 飞空精品影院首页| 一区二区日韩欧美中文字幕| 一夜夜www| 亚洲一卡2卡3卡4卡5卡精品中文| 国产成人av激情在线播放| 老司机靠b影院| 久久久国产精品麻豆| 婷婷丁香在线五月| 一区二区三区激情视频| 久久久久久久午夜电影 | 午夜免费鲁丝| 日韩欧美三级三区| 久久影院123| 久久精品aⅴ一区二区三区四区| 在线av久久热| 在线视频色国产色| 18禁裸乳无遮挡动漫免费视频| 伊人久久大香线蕉亚洲五| 男人操女人黄网站| 悠悠久久av| 在线观看免费日韩欧美大片| 精品国产超薄肉色丝袜足j| 久久久久久久久久久久大奶| 国产乱人伦免费视频| 狠狠婷婷综合久久久久久88av| 啦啦啦视频在线资源免费观看| 亚洲成av片中文字幕在线观看| 国产高清国产精品国产三级| 国产高清激情床上av| 99久久综合精品五月天人人| 亚洲国产毛片av蜜桃av| 久久久久国产一级毛片高清牌| 免费看a级黄色片| 女警被强在线播放| 久久久久久久国产电影| 免费在线观看黄色视频的| 国产99白浆流出| 一边摸一边抽搐一进一小说 | 别揉我奶头~嗯~啊~动态视频| 国产精品亚洲一级av第二区| 久久亚洲真实| 一二三四在线观看免费中文在| 满18在线观看网站| 在线十欧美十亚洲十日本专区| 精品国产一区二区三区久久久樱花| 亚洲中文日韩欧美视频| 国产精品一区二区在线观看99| 99精品在免费线老司机午夜| 国产精品.久久久| av国产精品久久久久影院| 91精品三级在线观看| 国产精品一区二区免费欧美| 亚洲成人免费av在线播放| 最近最新免费中文字幕在线| 99热网站在线观看| 嫁个100分男人电影在线观看| 国产精品免费大片| 热re99久久精品国产66热6| 最近最新中文字幕大全免费视频| 91大片在线观看| 国产一区二区三区视频了| 国产一区二区三区在线臀色熟女 | 露出奶头的视频| 欧美黄色淫秽网站| 热99国产精品久久久久久7| 精品亚洲成a人片在线观看| 老司机福利观看| 免费日韩欧美在线观看| 亚洲国产毛片av蜜桃av| 狠狠婷婷综合久久久久久88av| 国产精品欧美亚洲77777| 老熟妇仑乱视频hdxx| 性色av乱码一区二区三区2| 中出人妻视频一区二区| 侵犯人妻中文字幕一二三四区| 国产不卡av网站在线观看| 精品一区二区三区四区五区乱码| 欧美日韩精品网址| 久久精品人人爽人人爽视色| 午夜久久久在线观看| 精品人妻1区二区| tocl精华| 亚洲av成人一区二区三| 在线永久观看黄色视频| 亚洲成国产人片在线观看| 欧美亚洲日本最大视频资源| 亚洲av熟女| 久久国产亚洲av麻豆专区| 国产主播在线观看一区二区| 久久久国产成人免费| 看免费av毛片| 丁香欧美五月| 高清毛片免费观看视频网站 | 精品人妻在线不人妻| 久久九九热精品免费| 在线观看免费高清a一片| 国产亚洲精品第一综合不卡| cao死你这个sao货| 精品久久久久久久久久免费视频 | 一区二区三区国产精品乱码| 黄色女人牲交| 精品无人区乱码1区二区| 麻豆成人av在线观看| 丝袜美腿诱惑在线| 夜夜躁狠狠躁天天躁| 亚洲成人国产一区在线观看| 校园春色视频在线观看| 亚洲国产精品sss在线观看 | 精品人妻熟女毛片av久久网站| 极品人妻少妇av视频| 免费在线观看视频国产中文字幕亚洲| 人人妻人人爽人人添夜夜欢视频| 校园春色视频在线观看| 国产成人系列免费观看| 国产av又大| 不卡一级毛片| 国产色视频综合| 日本黄色视频三级网站网址 | 国产亚洲精品久久久久久毛片 | 国产成+人综合+亚洲专区| 在线天堂中文资源库| 50天的宝宝边吃奶边哭怎么回事| 两个人免费观看高清视频| 精品国产一区二区久久| 美女国产高潮福利片在线看| 亚洲av日韩精品久久久久久密| 亚洲在线自拍视频| 精品人妻在线不人妻| 99久久国产精品久久久| 99国产精品一区二区三区| 黄色女人牲交| 日本撒尿小便嘘嘘汇集6| 午夜激情av网站| 国产精品九九99| www.精华液| 午夜福利一区二区在线看| 女人精品久久久久毛片| 成人av一区二区三区在线看| 久久精品国产亚洲av高清一级| 亚洲欧美日韩高清在线视频| 搡老岳熟女国产| 在线观看日韩欧美| 香蕉久久夜色| 国产精品二区激情视频| 午夜久久久在线观看| 亚洲av成人不卡在线观看播放网| 久久久久精品人妻al黑| 99热国产这里只有精品6| 在线观看www视频免费| 国产欧美亚洲国产| 国产亚洲欧美98| 十八禁高潮呻吟视频| 久久久国产成人免费| 老熟妇仑乱视频hdxx| 免费观看a级毛片全部| 美女视频免费永久观看网站| 国产av又大| 欧美 日韩 精品 国产| 18禁裸乳无遮挡免费网站照片 | 久久精品国产99精品国产亚洲性色 | 国产精品 欧美亚洲| 自线自在国产av| 18禁黄网站禁片午夜丰满| 丰满饥渴人妻一区二区三| 亚洲欧美激情综合另类| 欧美日韩精品网址| 亚洲一码二码三码区别大吗| 亚洲自偷自拍图片 自拍| 欧美日韩乱码在线| 免费日韩欧美在线观看| 69av精品久久久久久| 曰老女人黄片| 亚洲欧美一区二区三区黑人| 亚洲中文日韩欧美视频| 欧美日韩中文字幕国产精品一区二区三区 | 欧美人与性动交α欧美软件| 日韩熟女老妇一区二区性免费视频| 精品久久久久久久久久免费视频 | 大型黄色视频在线免费观看| 免费看十八禁软件| 亚洲午夜理论影院| 国产午夜精品久久久久久| 欧美精品av麻豆av| 久久国产乱子伦精品免费另类| 美女 人体艺术 gogo| 老汉色∧v一级毛片| 在线观看午夜福利视频| 757午夜福利合集在线观看| 精品国产一区二区三区久久久樱花| 国产精品电影一区二区三区 | 我的亚洲天堂| 久久天堂一区二区三区四区| 国产男女内射视频| 免费少妇av软件| 久久久久视频综合| 国产又爽黄色视频| 精品福利永久在线观看| 久久国产亚洲av麻豆专区| 大香蕉久久网| 亚洲av成人一区二区三| 久久中文字幕人妻熟女| 欧美日韩国产mv在线观看视频| 国产一区二区激情短视频| 一级毛片精品| av有码第一页| 在线观看免费高清a一片| 亚洲精品国产精品久久久不卡| 啦啦啦在线免费观看视频4| 成人亚洲精品一区在线观看| 天天躁日日躁夜夜躁夜夜| а√天堂www在线а√下载 | 亚洲五月婷婷丁香| 国产精品久久久久久精品古装| 一级作爱视频免费观看| 亚洲精品中文字幕在线视频| 国产精品成人在线| 又黄又爽又免费观看的视频| 免费观看人在逋| 人人澡人人妻人| 黄片小视频在线播放| √禁漫天堂资源中文www| 国产精品久久久av美女十八| 操美女的视频在线观看| 伊人久久大香线蕉亚洲五| 18禁黄网站禁片午夜丰满| 日本黄色视频三级网站网址 | 欧美成人午夜精品| 久久精品成人免费网站| 亚洲五月色婷婷综合| 久久久久国内视频| 免费日韩欧美在线观看| 啪啪无遮挡十八禁网站| av免费在线观看网站| 亚洲人成电影观看| 18禁观看日本| 日韩欧美在线二视频 | 岛国在线观看网站| 欧美日韩一级在线毛片| 久久亚洲精品不卡| 中文字幕高清在线视频| 国产黄色免费在线视频| 国产日韩欧美亚洲二区| 久久久久久久久免费视频了| 日本a在线网址| 国产精品久久久久久精品古装| 精品久久蜜臀av无| 国产欧美日韩精品亚洲av| 女性被躁到高潮视频| 欧美色视频一区免费| 美女午夜性视频免费| 99精品在免费线老司机午夜| 欧美精品人与动牲交sv欧美| 丝瓜视频免费看黄片| 日韩欧美在线二视频 | 水蜜桃什么品种好| 国产精品秋霞免费鲁丝片| 热99久久久久精品小说推荐| 国产亚洲精品一区二区www | 欧美av亚洲av综合av国产av| 人妻丰满熟妇av一区二区三区 | 韩国av一区二区三区四区| 色精品久久人妻99蜜桃| 妹子高潮喷水视频| 视频区图区小说| 一边摸一边做爽爽视频免费| 中文字幕制服av| 免费观看a级毛片全部| 久久久久久久国产电影| 热99re8久久精品国产| 精品人妻1区二区| 成人国语在线视频| 新久久久久国产一级毛片| 日韩有码中文字幕| 12—13女人毛片做爰片一| 黄片大片在线免费观看| 国产精品99久久99久久久不卡| 亚洲精华国产精华精| 九色亚洲精品在线播放| 国产成人影院久久av| 婷婷成人精品国产| 99香蕉大伊视频| 男人舔女人的私密视频| 99精品久久久久人妻精品| 亚洲av成人不卡在线观看播放网| 最新在线观看一区二区三区| 巨乳人妻的诱惑在线观看| 黑人猛操日本美女一级片| 99国产精品免费福利视频| 真人做人爱边吃奶动态| 国产有黄有色有爽视频| 999久久久精品免费观看国产| 成熟少妇高潮喷水视频| 90打野战视频偷拍视频| 一区二区三区激情视频| 色综合欧美亚洲国产小说| videosex国产| 亚洲成人免费电影在线观看| 可以免费在线观看a视频的电影网站| 国产欧美亚洲国产| 女同久久另类99精品国产91| 久久精品国产99精品国产亚洲性色 | 亚洲国产中文字幕在线视频| 国产精品自产拍在线观看55亚洲 | 欧美黄色淫秽网站| 成年人免费黄色播放视频| 国产精品1区2区在线观看. | 日韩制服丝袜自拍偷拍| 搡老乐熟女国产| 满18在线观看网站| 乱人伦中国视频| 亚洲欧美日韩高清在线视频| 亚洲精华国产精华精| 免费黄频网站在线观看国产| 99精品在免费线老司机午夜| 久久久久国内视频| 久久国产精品男人的天堂亚洲| 看黄色毛片网站| 国产精品成人在线| 日韩欧美一区视频在线观看| 国产成+人综合+亚洲专区| 99热国产这里只有精品6| 黄片小视频在线播放| 欧美日韩av久久|