• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    SikuBERT與SikuRoBERTa:面向數(shù)字人文的《四庫全書》預訓練模型構建及應用研究*

    2022-06-17 09:02:58王東波朱子赫劉江峰胡昊天
    圖書館論壇 2022年6期
    關鍵詞:四庫全書典籍分詞

    王東波,劉 暢,朱子赫,劉江峰,胡昊天,沈 思,李 斌

    0 引言

    近年在人文社會科學領域中,數(shù)字人文研究異軍突起。有關數(shù)字人文概念、研究范式等的探究相對全面與成熟,而有關語料庫、知識庫、計算模型等構建與應用的研究相對較少。面向漢語言文獻學的數(shù)字人文研究,其最大特征和優(yōu)勢在于擁有海量的漢語古代典籍數(shù)據,而最具有代表性的圖書典籍數(shù)據源為《四庫全書》。如何利用《四庫全書》這一寬廣而全面的歷史文獻集?這一問題在深度學習背景下有了全新的解決方案?;贐ERT語言模型框架,構建面向古籍文獻的預訓練模型,對推動古文智能化處理以及數(shù)字人文研究的深入具有獨特價值。據此,本文基于BERT(Bidirectional Encoder Representation from Transformers)預訓練模型技術,利用《四庫全書》正文語料,構建SikuBERT和SikuRoBERTa預訓練模型,在多層次的古文處理任務上進行驗證,并構建SIKU-BERT典籍智能處理平臺,為人文領域學者提供一種便利化的古文知識組織與挖掘選擇。

    1 文獻綜述

    1.1 預訓練語言模型

    自然語言處理(Natural Language Processing,NLP)和文本的研究包括序列標注、自動分類、文本生成等各類有監(jiān)督任務。這些任務往往需要構建大規(guī)模標注訓練集,以讓深度學習模型充分學習詞匯、句法與語義的特征,從而使得其人力與時間成本非常昂貴。而通過自監(jiān)督的方式,讓語言模型在大量未標記語料上進行訓練,對自然語言的內在特征進行建模與表征,可得到具有通用語言表示[1]的預訓練模型(Pre-trained Model,PLM)。在進行下游任務時,直接將預訓練模型作為初始化參數(shù),不僅使模型具備更強的泛化能力與更快的收斂速度[2],且僅需要輸入少量的標記數(shù)據進行微調,即可在避免過擬合的同時顯著提升NLP任務性能。

    早期以Word2Vec[3]、GloVe[4]等為代表的預訓練模型基于詞嵌入技術,將詞匯表征為低維稠密的分布式向量。這些嵌入方式雖然考慮了詞義與詞匯間的共現(xiàn)關系,但所構建的詞向量為缺乏上下文依賴的靜態(tài)向量,詞義不會因語境的更改而變化,因此無法解決一詞多義問題。自ELMo[5]模型提出以后,基于上下文語境信息動態(tài)嵌入的預訓練模型解決了靜態(tài)詞向量詞義固定的問題,實現(xiàn)了對詞義、語法、語言結構的聯(lián)合深層建模。

    預訓練模型根據建模思想的不同,主要可以分為3類。第一類是以GPT[6]為代表的自回歸模型。由于本質上為單向語言模型,雖然在生成式任務中表現(xiàn)優(yōu)異,但是無法同時學習上下文信息。第二類是以BERT[7]為代表的自編碼模型,通過掩碼語言模型(Masked Language Model,MLM)實現(xiàn)兩個方向信息的同時獲取,但也因此導致預訓練和微調階段不匹配的問題。第三類是以XLNet[8]為代表的排序語言模型。此類模型融合了上述兩類模型的優(yōu)勢,通過對輸入序列的隨機排序,使單向語言模型學習到雙向文本表示的同時,還保證了兩階段的一致性。

    以下為當前較為主流的預訓練模型。ELMo(Embedding from Language Models)[5]模型:通過兩層雙向LSTM神經網絡在大規(guī)模語料庫上進行預訓練,學習詞匯在不同語境下的句法與語義信息,并在下游任務中動態(tài)調整多義詞的嵌入表示,從而確定多義詞在特定上下文中的含義。由于其簡單拼接前后兩個方向獨立訓練的單向語言模型,特征融合能力相對較弱。GPT(Generative Pre-Training)[6]模型:將ELMo模型中的LSTM架構替換為特征提取能力更強的單向Transformer[9],從而捕捉更長距離的語境信息。然而,由于其僅使用上文信息預測當前詞匯,因此更適合于機器翻譯、自動摘要等前向生成式任務。其后續(xù)的改進型GPT2.0[10]與GPT3.0[11]模型,采用了更大的Transformer結構,基于規(guī)模更大、質量更高、類型更廣的WebText、Common Crawl等數(shù)據集,預訓練了更加通用、泛化能力更強的語言模型,并無需微調、完全無監(jiān)督地進行文本生成等下游任務。BERT模型:該模型的出現(xiàn)極大地推動了預訓練模型的發(fā)展[12],催生一系列改進的預訓練模型,也使得預訓練結合下游任務微調逐漸成為當前預訓練模型的主流模式[1]。BERT是一種基于Transformer架構的自監(jiān)督深層雙向語言表示模型,它通過掩碼語言模型迫使模型根據前后文全向信息進行預測,從而實現(xiàn)深層雙向文本表示。此外,BERT還通過下一句預測(Next Sentence Prediction,NSP)任務,學習前后兩個句子是否為連續(xù)關系,從而更好地實現(xiàn)自動問答和自然語言推理。

    由于BERT模型中MLM遮蔽機制僅作用于單個字符,對詞間關系與中文詞義的學習并不友好,因此后續(xù)學者提出的一些預訓練模型對遮蔽機制進行了改進。一是ERNIE(Baidu,Enhanced Representation through Knowledge Integration)[13]在原始對單個字符(漢字)遮蔽的基礎上,增加了實體層面遮蔽和短語層面遮蔽,從而使預訓練模型學習到豐富的外部實體和短語知識。該模型還構建了對話語言模型(Dialogue Language Model,DLM)任務,基于百度貼吧的對話數(shù)據學習多輪對話中的隱式語義關系。二是BERT-wwm[14]模型提出了更適合中文文本的全詞遮蔽。不同于ERNIE(Baidu)僅遮蔽實體和短語,該模型進一步放寬了遮蔽的條件,即只要一個中文詞匯中的部分漢字被遮蔽,就把該詞匯中的所有漢字全部遮蔽,從而使預訓練模型學習到中文詞匯的詞義信息。三是SpanBERT[15]采用Span Masking 方法,從幾何分布中采樣Span 的長度,并隨機選擇遮蔽的初始位置,讓模型僅根據Span的邊界詞和Span中詞匯位置信息預測被遮蔽詞匯。實驗證明該方法表現(xiàn)優(yōu)于對實體和短語進行遮蔽。四是RoBERTa(a Robustly Optimized BERT Pretraining Approach)[16]模型將詞匯靜態(tài)遮蔽(static mask)替換成動態(tài)遮蔽(dynamic mask),在每次輸入前均對句子進行一次隨機遮蔽,從而提升訓練數(shù)據的利用率。此外,該模型在預訓練過程刪去NSP任務,改用FULL-SENTENCES方法,每次輸入指定長度的連續(xù)句子,進一步優(yōu)化模型在句子關系推理方面的表現(xiàn)。五是StructBERT[17]模型增加了詞匯結構預測(Word Structural Objective)任務,對于輸入句中未被遮蔽的詞匯,隨機選擇3個連續(xù)的詞(Trigram)打亂循序,要求模型重構并恢復先前的順序;然后將NSP任務替換為句子結構預測,將判斷是否為連續(xù)句子的二元分類問題改進為預測下一個句子與當前句子位置關系的三元分類任務,從而顯式學習詞匯和句子層面的語義關系與語言結構。

    部分預訓練模型對BERT的模型架構進行了修改。為了讓結構化的外部知識增強語言表征,ERNIE(THU,Enhanced Language Representation with Informative Entities)[18]模型將知識圖譜中的命名實體作為先驗知識引入BERT的預訓練中。該模型分別采用T-Encoder和K-Encoder對文本和實體知識進行編碼與特征融合,并在預訓練過程引入詞匯-實體對齊任務,從而更好地將實體知識注入文本表示中。為了解決BERT忽略了被遮蔽詞匯間相關性這一問題,XLNet提出了雙流自注意力機制,采用排序語言模型的思想,通過因式分解序列所有可能的排列方式,每個詞匯都可學習到兩邊所有詞匯的信息,使得單向的自回歸模型也具備了同時學習上下文特征的能力;此外,引入自回歸模型Transformer-XL中的片段循環(huán)機制和相對位置編碼,實現(xiàn)對長期依賴關系的學習。由于整個預訓練過程并不將人為遮蔽納入計算,因此XLNet不存在預訓練與微調兩階段不匹配的情況。ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)[19]引入了替換標記檢測任務,在對輸入句進行隨機詞匯遮蔽后,通過生成器預測詞匯并替代標記,隨后采用鑒別器分辨生成器產生的詞匯是否與原始輸入詞匯相同,最終僅使用預訓練的鑒別器開展下游任務。ELECTRA 解決了預訓練任務與下游任務中[MASK]不匹配的問題,在提升計算效率的同時取得更優(yōu)的表現(xiàn)。DeBERTa(Decoding-enhanced BERT with Disentangled Attention)[20]模型提出分解注意力機制,在計算詞間注意力權值時,采用解耦矩陣同時考慮詞匯間的內容和相對位置信息,融入了詞匯間依賴關系;即通過增強的掩碼解碼器嵌入詞匯在句子中的絕對位置信息,獲得詞匯的句法特征。此外,該模型還提出了虛擬對抗訓練算法SiFT(Scale-invariant-Fine-Tuning),用于提升微調下游任務時模型的泛化能力。與動輒含有上億個參數(shù)的預訓練模型相比,ALBERT[21]模型通過嵌入參數(shù)矩陣分解以及跨層參數(shù)共享的方式顯著壓縮了參數(shù)數(shù)量,并將BERT 中的NSP 替換為SOP(Sentence-Order Prediction)任務,用于學習相鄰句子間連貫性與銜接關系。

    還有一些模型僅部分采用了BERT 的架構或思想。MT-DNN(Multi-Task Deep Neural Networks)[22]模型是一種用于自然語言理解的預訓練模型。它采用多任務學習的思想,在預訓練階段通過共享層基于BERT 進行詞匯與語境嵌入,在微調階段引入單句分類、文本相似度、配對文本分類和相關性排序等多個任務聯(lián)合學習,減少模型在特定任務上的過擬合,更適用于一些缺少標注數(shù)據的下游任務。受此啟發(fā),基于持續(xù)多任務學習的思想,百度在2020年發(fā)布了預訓練模型ERNIE 2.0(Baidu)[23]。在保留BERT的字符嵌入、句子嵌入和位置嵌入3種嵌入方式的同時引入任務嵌入,通過增量學習的方法使模型逐步學習詞法、句法、語義層面的7種任務,不斷提升語言表征能力。T5(Text-To-Text Transfer Transformer)[24]模型基于遷移學習思想,構建文本到文本的NLP任務統(tǒng)一框架,從而使用相同的模型、損失函數(shù)、超參數(shù)設置等開展機器翻譯、自動問答、文本分類等任務。

    從上述相關研究發(fā)現(xiàn):第一,目前大多數(shù)預訓練模型都是基于大量通用語料訓練的;第二,相當一部分預訓練模型都是基于BERT的改進版本。這些模型普適性雖強,但在面對特定領域文本的自然語言處理任務時,其功能的發(fā)揮容易受限。而古代漢語在語法、語義、語用上與現(xiàn)代漢語存在較大差異,即使是面向中文構建的Chinese-BERT-wwm,在古漢語處理上也難以達到其在中文通用語料上的性能。此外,雖然已經出現(xiàn)了面向生物醫(yī)學(BioBERT)[25]、臨床醫(yī)學 (ClinicalBERT)[26]、 科 學 (SciBERT)[27]、 專 利(PatentBERT)[28]等特定領域的預訓練模型,但目前僅有GuwenBERT①基于繼續(xù)訓練將BERT 遷移至古漢語語言建模中,且由于語料規(guī)模、簡繁轉換等因素的限制,效果不盡如人意。在古漢語領域,由于缺乏大規(guī)模純凈的古文數(shù)據,構建古文標注訓練集成本高昂,對標注人員具有較高要求。因此,構建高質量無監(jiān)督古文數(shù)據集,訓練面向古文自然語言處理任務的預訓練模型,對高效開展古文信息處理下游任務研究,拓展數(shù)字人文研究內涵,增強社會主義文化自信具有重要意義。

    1.2 人文計算與四庫學

    中國擁有卷帙浩繁的古代文獻典籍,它們蘊含著中華民族特有的精神價值與文化知識。1980年代以來,古籍數(shù)字化建設取得了不俗的實績。然而,數(shù)字化古籍研究仍面臨三重困境:一是古籍數(shù)字化仍囿于整理范疇,對深層知識的研究尚不充分[29];二是現(xiàn)有古籍利用仍以檢索瀏覽為主,深度利用率低[30];三是國內學界雖占有大量數(shù)據,卻難以引領古籍的數(shù)字研究范式[31]。在數(shù)字化時代,古籍研究亟待實現(xiàn)范式革新。源自“人文計算”的數(shù)字人文理念與古籍數(shù)字化研究之間的深度融合正引起學界的廣泛關注。數(shù)字人文是“一種代表性實踐”,“這種代表性的實踐可一分為二,一端是高效的計算,另一端是人文溝通”,其主要范疇是“改變人文知識的發(fā)現(xiàn)(Discovering)、 標 注 (Annotating)、 比 較 (Comparing)、引用(Referring)、取樣(Sampling)、闡釋(Illustrating)與呈現(xiàn)(Representing)”[32]。數(shù)字人文的理論邏輯與技術體系“能夠為古籍文獻的組織、標引、檢索與利用提供新的方法與模式”[29],“協(xié)助學者進行多維度的統(tǒng)計、比較、分析,產生新的知識和思想”[32],為古籍研究與利用提供新的范式。

    《四庫全書》作為珍貴的文化遺產,其開發(fā)與利用歷來受到研究人員的重視,圍繞《四庫全書》的文獻體系,學術界產生“四庫學”這一嶄新學科。何宗美[33]把“四庫學”的研究內容分為九大部分,其中與《四庫全書》本身密切相關的是《四庫全書》及其子系列的文獻研究和《四庫全書》的“總目學”研究,圖情領域的學者對后者尤為側重。鄧洪波等[34]分析2010-2015年間國內“四庫學”研究狀況,指出《四庫全書》研究以中國語言文學和史學為主體,而圖情檔學科有關《四庫全書》研究的碩博論文僅占1.9%,強調《四庫全書》的研究應當更加注重學科背景的多元化。在與數(shù)據挖掘結合的研究中,崔丹丹等[35]利用甲言分詞工具切分的《四庫全書》文本訓練詞向量,結合Lattice-LSTM模型抽取《四庫全書》中的人名、地名、朝代名和官職名4類實體,取得了良好效果。王倩等[36]使用《四庫全書》全文數(shù)據基于迭代學習的方法構建自動斷句模型,并開發(fā)標注平臺加以推廣。這些研究成果多局限于具體的下游任務,缺乏上游的頂層設計,雖然在一定程度上采用了預訓練技術生成詞向量以輔助訓練,但所開發(fā)的模型仍有普適性和可遷移性較低的問題。

    相較而言,本文的研究更側重語言模型訓練,旨在通過利用未經人工標注的海量數(shù)據構建高通用性和易用性的語言模型,充分發(fā)掘《四庫全書》這座文化寶藏的價值。而且,本研究所構建的預訓練語言模型不需要對古籍文本重新分詞,避免詞向量訓練需依賴精確中文分詞文本的缺陷,最大程度地保留古籍文本的原始特征,確保實驗成果更貼近古籍原文的處理。以《四庫全書》數(shù)字化為研究對象,本研究還構建了一種全新的SIKU-BERT典籍智能處理平臺,重點開發(fā)其在典籍自動處理、檢索和自動翻譯三方面的功能,在數(shù)字人文理念引領下提升深度學習模型對古文語料的準確理解,助力基于古文語料的NLP研究。

    2 《四庫全書》預訓練模型構建

    2.1 數(shù)據源簡介

    《四庫全書》是清代乾隆時期編修的大型叢書。本文使用的《四庫全書》為文淵閣版本。本次實驗的訓練集共有漢字536,097,588個,去除重復字后得到28,803個,均為繁體字。數(shù)據集較《四庫全書》全文字數(shù)少的原因在于,本實驗去除了原本中的注釋部分,僅納入正文部分。之所以刪除注釋信息,是由BERT模型預訓練的本質所決定的。BERT 模型基于雙向Transformer編碼器結構,是一種典型的自編碼(Autoencoder)語言模型。不同于傳統(tǒng)的自回歸(Autoregressive)模型自左向右預測下一個字符的訓練方式,此類語言模型的訓練思想依靠并綜合上下文的內容預測被遮罩的字符。古文中同樣的句子在留有注釋信息和刪除注釋信息的情況下,模型對遮罩詞的預測結果可能大相徑庭,直接影響到最終的訓練成果??紤]到當前古籍處理任務多關注古籍原文的挖掘和利用,不加入古籍注釋信息的訓練必然更適用于一般性下游任務。若有針對古籍注釋資源的研究需要,可以另行構建基于注釋語料的預訓練模型。

    《四庫全書》數(shù)據集主要有4個部分:經部、史部、子部、集部,分別由679、568、897、1,262 本書組成。表 1 展示《四庫全書》各部各書的字數(shù)概況。史部每本書的平均字數(shù)最多,子部和集部次之,經部最少。從字數(shù)分布差異上來看,經部的差異最小,而史部最大。從單本字數(shù)極值來看,子部的最大值最大,而經部的最小值最小。從去重后的字數(shù)統(tǒng)計結果來看,集部、史部的用字較多。集部主要包括文學作品,用字往往比較豐富,用詞比較凝練,因而其總體字數(shù)不多,但去重后用字數(shù)反而處于相對高位水平。史部主要包括各類歷史著作,這類描述歷史人物事件的書籍通常篇幅較大,而由于其中經常出現(xiàn)的人名、地名中會包含一些生僻字,因而其去重后用字依然相對較多。

    表1 《四庫全書》各部字數(shù)及不重復字數(shù)概況

    2.2 預訓練模型構建

    2.2.1 預訓練模型的構建流程

    圖1展示了從語料預處理到下游任務驗證的模型預訓練及其評測全過程。實驗分為4個部分:語料預處理,模型預訓練,模型效果評測和下游任務測試。實驗先根據清洗后的《四庫全書》全文語料,按“99∶1”劃分訓練集與驗證集。模型預訓練階段,在總結多次預實驗結果后對訓練參數(shù)進行調優(yōu),選取Huggingface提供的Pytorch 版 BERT-base-Chinese 和 Chinese-RoBERTa-wwm-ext模型在訓練集上使用掩碼語言模型(MLM)任務完成模型的預訓練。在模型效果評測階段,使用困惑度(Perplexity)為基本指標初步判斷預訓練效果,最后通過設置4種下游任務進一步分析對比5種預訓練模型的表現(xiàn)。

    圖1 預訓練模型構建實驗流程

    2.2.2 預訓練模型選取

    (1)BERT 預 訓 練 模 型。 2018 年 10 月 谷 歌AI 團隊公布新的語言表征模型——BERT[7],刷新11 項NLP 任務記錄。BERT的基本結構建立在雙向Transformer編碼器上,通過掩碼語言模型(MLM)和下一句預測(NSP)兩個無監(jiān)督任務完成模型的預訓練。在MLM任務中,按比例隨機遮蔽輸入序列中的部分字符,使模型根據上下文預測被遮蔽的單詞,以完成深度雙向表征的訓練。而在NSP任務中,BERT模型成對地讀入句子,并判斷給定的兩個句子是否相鄰,從而獲得句子之間的關系。BERT模型的微調過程則建立在預訓練得到的模型上,僅需對模型的高層參數(shù)進行調整,即可適應不同的下游任務。本實驗選取12 層、768個隱藏單元、12個自注意力頭、1.1億個參數(shù)的BERT中文預訓練模型用于預訓練。

    (2)RoBERTa中文預訓練模型。Liu等[16]認為BERT模型并沒有得到充分的訓練,為此,他們總結了BERT 模型訓練中存在的不足,提出了RoBERTa預訓練模型,在BERT模型訓練的每個部分都進行了輕微改進。這些改進包括使用動態(tài)掩碼替代靜態(tài)掩碼,擴大訓練批次與數(shù)據集大小,提升輸入序列長度以移除NSP任務等。這些調整使BERT模型的調參達到了最優(yōu)。實驗選取12 層、768個隱藏單元、12個自注意力頭的RoBERTa中文預訓練模型作為基礎模型,該模型基于全詞遮罩(Whole Word Mask)的訓練策略,在30G大小的中文語料上完成了預訓練。在全詞遮罩中,如果一個詞的部分子詞被遮罩,則同屬該詞的其他部分也被遮罩。此方法有助于模型學習中文文本的詞匯特征。

    2.2.3 語言模型預訓練方法

    本實驗選用掩碼語言模型(MLM)任務完成SikuBERT與SikuRoBERTa的預訓練。BERT模型的預訓練使用了MLM 和NSP 兩個無監(jiān)督任務,其中設計NSP任務的目的在于提升對需要推理句間關系下游任務的效果。但是,在后續(xù)研究中有學者發(fā)現(xiàn),NSP任務對BERT模型預訓練和下游任務性能的提升幾乎無效。RoBERTa模型的開發(fā)者對NSP任務的效果表達了質疑,并通過更改輸入句子對的模式設計了4組實驗,證實了該猜想。Lan 等[21]認為NSP 任務的設計過于簡單,即將主題預測與相干性預測合并在同一個任務中,主題預測功能使NSP的損失函數(shù)與MLM的損失函數(shù)發(fā)生了大量重疊。基于上述研究的結果,本實驗移除BERT預訓練中的NSP任務,僅使用MLM任務完成SikuBERT與SikuRoBERTa的預訓練。在實驗中隨機遮罩15%的詞匯,通過預測被遮罩字符的方式完成參數(shù)更新,并使用MLM損失函數(shù)判斷模型預訓練的完成度。全部實驗均依靠Huggingface 公司的Transformers框架而進行。

    2.2.4 預訓練模型效果的評價指標

    在模型效果評測階段,使用困惑度(PPL,Perplexity)來衡量語言模型的優(yōu)劣。困惑度的定義如下:對一個給定的序列S:S=w1w2…wn-1wn,表示序列中第n個詞,則該序列的似然概率定義為:

    則困惑度可以定義為:

    困惑度的大小反映了語言模型的好壞,一般情況下,困惑度越低,代表語言模型效果越好。本實驗通過調整訓練輪次,使得SikuRoBERTa在驗證集上的困惑度達到1.410,SikuBERT的困惑度達到16.787,達到相對較低水平。初步驗證表明,經過領域化語料上的二次微調,SikuBERT和SikuRoBERTa具有較低的困惑度。從語言模型的評價角度來看,在《四庫全書》語料下,相比原始BERT模型和RoBERTa模型,其性能有所提升,可以保證模型充分學習到《四庫全書》的語言信息。

    2.3 預訓練模型性能驗證

    為檢驗SikuBERT 和SikuRoBERTa 預訓練模型的性能,本研究設置4項NLP任務做進一步的驗證:古文命名實體識別任務、古文詞性識別任務、古文分詞任務、古文自動斷句和標點任務。在語料選擇上,基于經過人工校對過的《左傳》語料,構造4種實驗所需要的訓練和測試數(shù)據。在基線模型的選擇上,除BERT-base 和RoBERTa外,還引入GuwenBERT預訓練模型。

    2.3.1 驗證實驗的語料和任務

    驗證實驗所使用的語料為南京師范大學文學院(以下簡稱“南師大文學院”)校對過的繁體《左傳》,全文18萬字。該語料庫是以南師大文學院制定的古漢語分詞與詞性標注規(guī)范為依據,使用自動分析工具結合人工校對而成的精加工語料庫[37]。《左傳》數(shù)字人文數(shù)據庫語料經過處理后,除詞性識別任務外,還可用于古文分詞、古文實體識別、古文斷句和古文標點等任務。本文選取《左傳》數(shù)據集作為驗證實驗數(shù)據,一方面統(tǒng)一了選用語料的來源,避免多種古文語料間差異帶來的驗證上的誤差?!蹲髠鳌窋?shù)據集是高質量的公開數(shù)據集,使用公開數(shù)據集作為基本語料,不僅可以體現(xiàn)實驗結果的公開性、透明性,也降低了其他研究者復現(xiàn)實驗的難度,從而為實驗結論提供更有力的佐證。另一方面,《左傳》數(shù)據集經過高質量的人工校對,語料標注的規(guī)范程度更高,能有效降低引入不同語料的誤差,從而更好地比對預訓練模型之間的差異。本文中,驗證實驗的主要目的是為SikuBERT 和SikuRoBERTa 模型的性能提供一個除困惑度之外的判斷指標,關于模型在多源語料以及多種不同任務上的具體表現(xiàn)可參見本系列的其他相關論文。基于《左傳》語料的4個任務及其內容見表2。

    表2 下游任務語料描述

    (1)古文詞性標注任務。古籍文本中沒有詞界,以詞為粒度切分古籍文本是進行更多古文應用的基礎,如古文詞典編撰、古文檢索等。在訓練數(shù)據預處理上,因為《左傳》數(shù)字人文數(shù)據庫是經過人工校對過的詞性標簽語料集,所以可以直接作為古文詞性標注的訓練數(shù)據進行使用。

    (2)古文分詞任務。《左傳》數(shù)字人文數(shù)據庫以詞為單位進行詞性標注,經過詞性標簽的清洗后,可獲得古文的分詞數(shù)據。該分詞數(shù)據是詞性標注數(shù)據的子集,同樣可用于序列標注任務。

    (4)古文自動斷句和標點任務。首先,在《左傳》數(shù)字人文數(shù)據庫語料的基礎上,去除分詞和詞性標簽,保留標點符號。其次,將每個標點符號作為標記,構造斷句和標點訓練語料,以希望模型能夠為原始古文語料進行斷句和標點的操作。

    2.3.2 驗證模型

    驗證實驗選用的預訓練模型如表3所示。為驗證SikuBERT 和SikuRoBERTa 性能,實驗選用的基線模型為BERT-base-Chinese預訓練模型②和Chinese-RoBERTa-wwm-ext預訓練模型③,還引入GuwenBERT 預訓練模型進行驗證。GuwenBERT基于“殆知閣古代文獻語料”在中文BERT-wwm預訓練模型上進行訓練,將所有繁體字經過簡體轉換處理后用于訓練,模型在古文數(shù)據的任務中具有良好的表現(xiàn)。此外,為使驗證結果具有一致性,在4項任務驗證中,只對上游預訓練模型進行更換,對下游任務的模型參數(shù)保持統(tǒng)一。

    表3 驗證實驗選用的預訓練模型一覽表

    2.3.3 模型驗證性能指標

    結合分詞性能評價常用指標體系,對BERT-base、RoBERTa、GuwenBERT、SikuBERT 和SikuRoBERTa預訓練模型使用以下3個指標來衡量,即準確率(Precision,P)、召回率(Recall,R)、調和平均值(F1-measure,F(xiàn)1)。各指標具體計算公式如下:

    在上述公式中,A、B、C分別代表模型預測出的正樣本數(shù)、模型預測錯誤的樣本數(shù)以及模型未預測出的正樣本數(shù)。選用繁體中文版的《四庫全書》全文數(shù)據進行預訓練模型的領域學習實驗,并將其應用在繁體中文的《左傳》語料上,進行古文自動分詞實驗。

    2.3.4 基于預訓練模型的分詞結果比較

    表4為模型指標的平均值,從這些數(shù)據可以看到,實驗中SikuBERT 和SikuRoBERTa 的性能表現(xiàn)最佳,分詞的準確率、召回率和調和平均值均較基線模型BERT-base、RoBERTa 和GuwenBERT 有明顯改進。在準確率和召回率上,SikuBERT預訓練模型的表現(xiàn)效果最佳,分別為88.62%和89.08%;而SikuRoBERTa得到最好的調和平均值,為88.88%。所有模型中GuwenBERT 預訓練模型的分詞表現(xiàn)最差,精確率、召回率和調和平均值分別為46.11%、57.04%、50.86%。以調和平均值為基準,在分詞任務中原始BERT模型表現(xiàn)優(yōu)于RoBERTa模型,識別效果約高出5%。整體上,SikuBERT預訓練模型效果最優(yōu)。

    工況1—2計算結果分析:工況1,混凝土強度及板厚按照設計取值,地下車庫底板回填土和頂板回填土同樣按照原設計要求考慮,結果表明,地下車庫整體無明顯上浮,且無明顯起拱現(xiàn)象.工況2,混凝土強度、底板和頂板厚度按照實測取值,結合現(xiàn)場工程實際發(fā)生情況,該工況不考慮地下車庫底板回填土和頂板回填土,結果表明,地下車庫出現(xiàn)整體上浮起拱現(xiàn)象,地下車庫底板最大起拱高度達250 mm,頂板起拱高度達238 mm.地下車庫底板最大彎矩為219 kN·m,柱端剪力為545 kN,地下車庫底板開裂,柱兩端發(fā)生剪切破壞.

    表4 模型分詞結果指標平均值(%)

    2.3.5 基于預訓練模型的詞性標注結果比較

    基于預訓練模型的詞性標注實驗所用數(shù)據集來自《左傳》,同樣以領域內較常使用的準確率(P)、召回率(R)和調和平均值(F1)作為實驗結果的評價指標。從實驗結果(詳見表5)中可以看出,針對《左傳》數(shù)據的古文詞性標注實驗表現(xiàn)均不錯,但SikuBERT 和SikuRoBERTa 模型的調和平均值要明顯高于其他3個識別模型,二者的F1值均超過了90%,SikuBERT識別效果更是達到了90.10%;而GuwenBERT模型的識別效果最差,調和平均值只有74.82%,不及最為基礎的BERT-base 模型。此外,原始BERT 模型(BERT-base)的效果要優(yōu)于RoBERTa模型,且基于《四庫全書》數(shù)據訓練得到的SikuBERT模型效果同樣優(yōu)于SikuRoBERTa模型。實驗結果值得進一步分析和探討。

    表5 模型詞性識別結果指標平均值(%)

    2.3.6 基于預訓練模型的斷句結果比較

    為驗證SikuBERT 和SikuRoBERTa 預訓練模型對古文斷句的識別效果,在《左氏春秋傳》《春秋公羊傳》《春秋谷梁傳》3本古文著作數(shù)據集中進行斷句識別實驗。實驗結果(見表6)顯示,SikuBERT 和SikuRoBERTa 模型的效果均超過85%,SikuBERT 的F1 值最優(yōu),達到87.53%,這也是多組對比實驗中的最好實驗結果;GuwenBERT模型的識別調和平均值在各組實驗中表現(xiàn)最差,僅有28.32%,遠低于其他模型;基礎的BERT-base和基于原始BERT模型訓練得到的RoBERTa識別效果一般,調和平均值分別只有78.70%和66.54%,低于本文自主預訓練的識別模型SikuBERT和SikuRoBERTa,但高于GuwenBERT模型。

    表6 模型斷句識別結果指標平均值(%)

    2.3.7 基于預訓練模型的實體識別結果比較

    對長文本中實體的有效識別,是判斷該模型能否有效解決自然語言理解問題的重要評價標準之一。本組對比實驗的數(shù)據來自《左傳》典籍數(shù)據,識別實體對象為數(shù)據集中的“人名”“地名”“時間”3類實體,模型識別效果評價標準仍為最常用的準確率(P)、召回率(R)、調和平均值(F1)。從實驗結果(見表7)可看出,SikuBERT和SikuRoBERTa 模型的3 類實體識別效果均高于其他3 種模型,尤其是在時間實體的識別中,SikuBERT和SikuRoBERTa模型識別的調和平均值均超過了96%。而GuwenBERT模型在3類實體識別實驗中的表現(xiàn)均最差,其中人名和地名實體識別的調和平均值均低于50%,且遠低于其他組的識別效果,這可能是由于其訓練語料為簡體中文的緣故。BERT-base模型和RoBERTa在3組實驗中的表現(xiàn)較為中庸,沒有展示特別突出的識別性能。

    表7 模型實體識別結果指標平均值(%)

    3 基于預訓練模型的典籍智能處理平臺搭建

    3.1 構建流程

    上述驗證結果表明,SikuBERT和SikuRo-BERTa預訓練模型能夠有效提升繁體中文語料的智能處理效果。為進一步展示本實驗的研究成果,課題組構建“SIKU-BERT典籍智能處理平臺”,其功能結構框架見圖2。該平臺有3種主要功能:典籍智能處理、典籍檢索和典籍自動翻譯。首頁提供SIKU-BERT 相關背景的詳細介紹、3種主要功能的簡介以及平臺的基本信息。用戶可根據自身需求選擇不同的功能,進入平臺的相應界面。例如,用戶希望使用典籍智能處理功能,則可以點擊相應界面,選擇相關子功能操作(文本斷句、分詞、詞性標注或實體標注),在結果返回框中獲取處理結果。在針對典籍的自動翻譯功能中,用戶可以選擇“語內翻譯”或“語際翻譯”,平臺將根據用戶的選擇返回結果。古文相似檢索功能實現(xiàn)了將輸入的古文句子與語料庫中候選句的相似度進行計算,并返回相似古文語句。

    圖2 SIKU-BERT典籍智能處理平臺系統(tǒng)構建流程

    3.2 實現(xiàn)方法和工具

    3.2.1 系統(tǒng)數(shù)據和工具

    本研究搭建的面向典籍智能處理的應用平臺,在構建方式選擇上,基于平臺建設方便性和用戶使用簡便性兩方面的考量,采用網站的架構;選擇Python 為主要的編程語言,使用Django 作為網站后端構建的主體框架,以HTML、CSS、JS作為構建工具來實現(xiàn)網站前端呈現(xiàn)。Django框架是利用Python開發(fā)的免費開源Web框架,涵蓋絕大多數(shù)web應用所需要的功能。在數(shù)據存儲方面,選擇SQLite數(shù)據庫存儲多層級平行語料庫,以節(jié)省物理存儲資源。

    3.2.2 系統(tǒng)功能設計

    本研究構建的SIKU-BERT典籍智能處理平臺設計了典籍自動處理、典籍檢索和典籍自動翻譯三大基本模塊,分別對應古文斷句、分詞、詞性標注、實體標注,涵蓋相似古文檢索以及段落、句子、詞匯的語內和語際翻譯等功能。

    3.2.3 系統(tǒng)應用展示

    SIKU-BERT典籍智能處理平臺包含首頁(見圖3)、典籍智能處理、典籍檢索和典籍自動翻譯4個界面。首頁展示平臺簡介和三大核心功能的快捷入口。

    圖3 SIKU-BERT典籍智能處理平臺網站首頁

    (1)網站首頁。以“典籍智能處理”功能為例,該功能主要實現(xiàn)典籍的自動斷句、分詞、詞性標注和實體標注。首頁有該功能的運行示例圖和詳細介紹,點擊“FIND OUT MORE”進入功能界面(見圖4)。同時,繼續(xù)往下翻動頁面可以看到平臺的主要功能簡介,見圖5。

    圖4 SIKU-BERT典籍智能處理平臺首頁“典籍智能處理”功能介紹

    圖5 SIKU-BERT典籍智能處理平臺首頁“平臺簡介”

    (2)典籍智能處理功能界面。如圖6所示,在SIKU-BERT 典籍智能處理平臺的“典籍智能處理”功能界面,用戶可以根據自身需求通過上方按鈕分別選擇對應的典籍處理功能,包括斷句、分詞、詞性標注和實體標注。用戶在界面左側的文本框中輸入需要進行處理的原始典籍文本,選擇功能按鈕后,點擊“開始處理”按鈕,即可返回經平臺處理后的句子。比如,在圖6中輸入“子墨子曰:‘今若有能以義名立于天下,以德求諸侯者,天下之服可立而待也?!?,選擇“詞性標注”功能,點擊“開始處理”,那么在右側便會輸出返回的結果:“子墨子/nr曰/v:/w“/w今/t若/c有/v能/v 以/p 義/v 名/n 立/v 于/p 天下/n,/w 以/p德/n求/v諸侯/nr者/r,/w天下/n之/u服/n可/v 立/v 而/c 待/v 也/y。/w”。該功能實現(xiàn)了典籍文本快速且規(guī)范化的處理。作為古文NLP研究工具,平臺為哲學、文學、歷史學等學科研究人員的工作帶來極大方便。

    圖6 SIKU-BERT典籍智能處理平臺“典籍智能處理”功能界面

    4 結語

    在基于古文語料的NLP任務中,考慮到異體字和“一簡對多繁”等現(xiàn)象,采用簡繁轉換功能必然會導致古籍中原本語義信息的部分丟失,使用繁體中文的原始語料仍然是古文自然語言處理的主流。但是,隨著預訓練模型技術興起,面向古文語料的預訓練模型并沒有得到充分開發(fā)。因此,訓練一種能夠貼合古文語料的預訓練模型,能為基于古文語料的人文計算研究提供重要支撐。本文基于BERT-base、RoBERTa、GuwenBERT、SikuBERT和SikuRoBERTa預訓練模型,分別在4種不同的古文任務中進行性能驗證。驗證實驗結果表明,SikuBERT與SikuRoBERTa相較于基線(準)模型的識別效果有一定程度上的提升,SikuRoBERTa 的性能最好;SikuBERT、SikuRoBERTa在分詞、詞性標注上的提升幅度較小,在斷句、實體識別等任務中的提升幅度較大。

    綜上所述,SikuBERT和SikuRoBERTa預訓練模型能夠有效提升繁體中文語料處理的效果,對于古文NLP研究具有重要意義。下一步的模型效能提升研究將著重于構建更適合古籍智能處理任務的預訓練模型詞表,從而獲得性能更好的詞表示特征。將來的相關應用研究還會著眼于上述各層級智能處理任務在不同典籍文獻上的具體應用。

    注釋

    ①參見:https://github.com/ethan-yt/guwenbert.

    ②參見:https://huggingface.co/bert-base-chinese.

    ③參見:https://huggingface.co/hfl/chinese-roberta-wwmext.

    猜你喜歡
    四庫全書典籍分詞
    《四庫全書考證》新近出版
    《典籍里的中國》為什么火?
    金橋(2021年4期)2021-05-21 08:19:24
    《四庫全書總目》提要辨證五則
    天一閣文叢(2020年0期)2020-11-05 08:28:32
    于敏中與《四庫全書薈要》纂修
    天一閣文叢(2019年0期)2019-11-25 01:31:58
    結巴分詞在詞云中的應用
    智富時代(2019年6期)2019-07-24 10:33:16
    在詩詞典籍中賞春日盛景
    學生天地(2017年8期)2017-05-17 05:49:53
    值得重視的分詞的特殊用法
    典籍翻譯模式的構建與啟發(fā)
    先秦典籍中的男嬖形象探微
    文斕閣《四庫全書》兩種概考
    天一閣文叢(2014年1期)2014-10-13 08:00:02
    成年人免费黄色播放视频| 亚洲精品美女久久久久99蜜臀 | 操美女的视频在线观看| 国产福利在线免费观看视频| 国产探花极品一区二区| 不卡视频在线观看欧美| 亚洲国产精品999| h视频一区二区三区| 国产不卡av网站在线观看| 少妇被粗大的猛进出69影院| 国产日韩欧美在线精品| kizo精华| kizo精华| 黄色视频不卡| 亚洲人成77777在线视频| av有码第一页| 精品国产露脸久久av麻豆| 国产免费福利视频在线观看| 亚洲国产精品一区二区三区在线| 在线看a的网站| 亚洲精品自拍成人| 视频区图区小说| 欧美少妇被猛烈插入视频| 午夜av观看不卡| 日本vs欧美在线观看视频| 七月丁香在线播放| 成人18禁高潮啪啪吃奶动态图| 久久久久久久久免费视频了| 日韩欧美精品免费久久| 97精品久久久久久久久久精品| 亚洲成人一二三区av| 九九爱精品视频在线观看| 无遮挡黄片免费观看| 国产精品香港三级国产av潘金莲 | 精品视频人人做人人爽| 男女床上黄色一级片免费看| 欧美日韩亚洲综合一区二区三区_| 黄片播放在线免费| 日日爽夜夜爽网站| 在线 av 中文字幕| 亚洲精品在线美女| 日韩 欧美 亚洲 中文字幕| 80岁老熟妇乱子伦牲交| 美女高潮到喷水免费观看| 免费女性裸体啪啪无遮挡网站| 日韩大码丰满熟妇| 日本一区二区免费在线视频| 亚洲免费av在线视频| 久久久久视频综合| 成人漫画全彩无遮挡| 王馨瑶露胸无遮挡在线观看| 国产精品99久久99久久久不卡 | 18在线观看网站| 波多野结衣一区麻豆| 成人国语在线视频| 男女国产视频网站| 最近中文字幕高清免费大全6| 99久久综合免费| 在现免费观看毛片| 18禁观看日本| avwww免费| 亚洲国产日韩一区二区| 欧美激情高清一区二区三区 | 国产精品免费视频内射| 18禁观看日本| 搡老岳熟女国产| 亚洲精品美女久久av网站| 亚洲人成77777在线视频| 欧美精品人与动牲交sv欧美| 国产黄色免费在线视频| 国产麻豆69| 国产男人的电影天堂91| 亚洲欧洲精品一区二区精品久久久 | 超色免费av| 国产一区二区在线观看av| √禁漫天堂资源中文www| 国产免费一区二区三区四区乱码| 九色亚洲精品在线播放| 悠悠久久av| 国产精品麻豆人妻色哟哟久久| 精品人妻熟女毛片av久久网站| 久久女婷五月综合色啪小说| 男女下面插进去视频免费观看| 91aial.com中文字幕在线观看| 亚洲一级一片aⅴ在线观看| 欧美中文综合在线视频| 日本爱情动作片www.在线观看| 夜夜骑夜夜射夜夜干| 麻豆乱淫一区二区| 日韩制服丝袜自拍偷拍| 少妇被粗大的猛进出69影院| 看十八女毛片水多多多| 亚洲一码二码三码区别大吗| 大香蕉久久成人网| 啦啦啦在线观看免费高清www| 9色porny在线观看| 咕卡用的链子| 青春草国产在线视频| 97在线人人人人妻| av视频免费观看在线观看| 十八禁网站网址无遮挡| 免费观看av网站的网址| 这个男人来自地球电影免费观看 | 国产精品久久久久久久久免| 久久婷婷青草| 看免费成人av毛片| 国产福利在线免费观看视频| 午夜av观看不卡| 成人三级做爰电影| 久久精品国产综合久久久| 一级黄片播放器| 亚洲少妇的诱惑av| 十八禁网站网址无遮挡| 电影成人av| 国产97色在线日韩免费| 日本av手机在线免费观看| 久久精品亚洲熟妇少妇任你| 999久久久国产精品视频| 亚洲成人国产一区在线观看 | 中文欧美无线码| 国产97色在线日韩免费| 日韩成人av中文字幕在线观看| 亚洲四区av| 亚洲av成人不卡在线观看播放网 | 亚洲欧美一区二区三区久久| 天堂俺去俺来也www色官网| 一个人免费看片子| 久久久久精品人妻al黑| 汤姆久久久久久久影院中文字幕| 久久这里只有精品19| 在线观看国产h片| 精品国产国语对白av| 免费看av在线观看网站| 精品人妻在线不人妻| 亚洲成av片中文字幕在线观看| 中文天堂在线官网| 成人国产麻豆网| 国产精品女同一区二区软件| 少妇人妻精品综合一区二区| 建设人人有责人人尽责人人享有的| 午夜日韩欧美国产| 国产黄色视频一区二区在线观看| 欧美97在线视频| 狠狠婷婷综合久久久久久88av| 色吧在线观看| 咕卡用的链子| 高清在线视频一区二区三区| 最近中文字幕2019免费版| 久久久久精品久久久久真实原创| 丝袜美足系列| 91成人精品电影| 国产男女超爽视频在线观看| 亚洲av男天堂| 国产片特级美女逼逼视频| 另类亚洲欧美激情| 婷婷色麻豆天堂久久| 高清av免费在线| 国产成人免费无遮挡视频| 亚洲三区欧美一区| 欧美变态另类bdsm刘玥| 久久精品国产亚洲av高清一级| 国产麻豆69| 我要看黄色一级片免费的| 日韩视频在线欧美| av网站免费在线观看视频| 亚洲欧洲国产日韩| 国产精品人妻久久久影院| av在线播放精品| 99九九在线精品视频| 乱人伦中国视频| 亚洲av日韩精品久久久久久密 | 久久精品国产亚洲av涩爱| 电影成人av| 中文字幕色久视频| 91精品国产国语对白视频| 国产 精品1| 黑人巨大精品欧美一区二区蜜桃| 免费高清在线观看日韩| 国产成人欧美在线观看 | www.熟女人妻精品国产| 亚洲三区欧美一区| 熟女av电影| 国产一区二区三区av在线| xxxhd国产人妻xxx| 婷婷色av中文字幕| 热99久久久久精品小说推荐| 又大又爽又粗| 校园人妻丝袜中文字幕| 国产亚洲一区二区精品| 国产在线视频一区二区| 欧美人与性动交α欧美精品济南到| 久久影院123| 亚洲欧美精品综合一区二区三区| 欧美 日韩 精品 国产| 国产精品久久久久成人av| 婷婷色av中文字幕| 久久婷婷青草| 在线看a的网站| 可以免费在线观看a视频的电影网站 | 国产1区2区3区精品| 老汉色∧v一级毛片| 亚洲,欧美,日韩| 一区在线观看完整版| 亚洲av电影在线观看一区二区三区| 国产精品久久久久成人av| 日日啪夜夜爽| 亚洲成av片中文字幕在线观看| 亚洲激情五月婷婷啪啪| 久久久国产一区二区| 一级毛片我不卡| 天天躁夜夜躁狠狠躁躁| 日韩,欧美,国产一区二区三区| 这个男人来自地球电影免费观看 | 成人午夜精彩视频在线观看| 国产福利在线免费观看视频| 又粗又硬又长又爽又黄的视频| 在线观看免费高清a一片| 欧美 日韩 精品 国产| 日韩,欧美,国产一区二区三区| 久久99精品国语久久久| 欧美另类一区| 97精品久久久久久久久久精品| av视频免费观看在线观看| 亚洲激情五月婷婷啪啪| 国产精品欧美亚洲77777| 亚洲一区中文字幕在线| 国产野战对白在线观看| 日韩熟女老妇一区二区性免费视频| 午夜老司机福利片| 少妇猛男粗大的猛烈进出视频| 婷婷成人精品国产| 精品人妻熟女毛片av久久网站| 99精品久久久久人妻精品| 国产精品女同一区二区软件| 一区二区三区激情视频| 免费看不卡的av| 国产黄频视频在线观看| 人人澡人人妻人| 建设人人有责人人尽责人人享有的| 久久天堂一区二区三区四区| 日韩一本色道免费dvd| av一本久久久久| 国产亚洲av高清不卡| 18禁国产床啪视频网站| 如日韩欧美国产精品一区二区三区| 日本爱情动作片www.在线观看| 纯流量卡能插随身wifi吗| 啦啦啦 在线观看视频| 最黄视频免费看| 国产1区2区3区精品| 国产在线一区二区三区精| 精品国产露脸久久av麻豆| 色吧在线观看| 老司机影院成人| 欧美97在线视频| a级毛片在线看网站| 在线观看国产h片| 天堂俺去俺来也www色官网| 国产毛片在线视频| 亚洲美女黄色视频免费看| 青青草视频在线视频观看| 丝袜在线中文字幕| 成人亚洲精品一区在线观看| 又大又黄又爽视频免费| 午夜日韩欧美国产| 少妇精品久久久久久久| 亚洲av电影在线进入| 国产97色在线日韩免费| 亚洲伊人色综图| a级片在线免费高清观看视频| 纵有疾风起免费观看全集完整版| 亚洲国产中文字幕在线视频| 国产精品免费视频内射| 午夜福利,免费看| 超色免费av| 啦啦啦在线免费观看视频4| 狠狠精品人妻久久久久久综合| 亚洲成色77777| 七月丁香在线播放| av女优亚洲男人天堂| 高清视频免费观看一区二区| 国产黄频视频在线观看| 啦啦啦中文免费视频观看日本| 女的被弄到高潮叫床怎么办| 精品酒店卫生间| 18禁裸乳无遮挡动漫免费视频| 亚洲一区中文字幕在线| 国产精品久久久人人做人人爽| 久久精品亚洲av国产电影网| www.熟女人妻精品国产| 欧美亚洲日本最大视频资源| 伦理电影大哥的女人| 少妇的丰满在线观看| a 毛片基地| 免费在线观看完整版高清| 久久久久精品久久久久真实原创| 国产1区2区3区精品| 国产淫语在线视频| 久久性视频一级片| 少妇猛男粗大的猛烈进出视频| 欧美av亚洲av综合av国产av | 夜夜骑夜夜射夜夜干| 午夜免费观看性视频| 黄片无遮挡物在线观看| 综合色丁香网| 免费黄网站久久成人精品| 欧美日韩一区二区视频在线观看视频在线| 777米奇影视久久| 少妇 在线观看| 在线精品无人区一区二区三| 久久精品久久久久久噜噜老黄| 777米奇影视久久| 伦理电影免费视频| av卡一久久| xxxhd国产人妻xxx| 9色porny在线观看| 丰满迷人的少妇在线观看| 夫妻午夜视频| 国产视频首页在线观看| 午夜日韩欧美国产| 亚洲av在线观看美女高潮| 国产精品.久久久| 亚洲综合色网址| 麻豆精品久久久久久蜜桃| 久久精品人人爽人人爽视色| 操美女的视频在线观看| 青春草国产在线视频| 一级毛片黄色毛片免费观看视频| 精品一区在线观看国产| 亚洲精品一区蜜桃| 成人毛片60女人毛片免费| 久久人人爽av亚洲精品天堂| 亚洲国产精品国产精品| 欧美精品人与动牲交sv欧美| 一区二区三区四区激情视频| 国产成人系列免费观看| 国产精品无大码| 丰满少妇做爰视频| 考比视频在线观看| 久久这里只有精品19| av女优亚洲男人天堂| 欧美老熟妇乱子伦牲交| 欧美人与性动交α欧美精品济南到| 一本久久精品| 国产精品香港三级国产av潘金莲 | 少妇被粗大猛烈的视频| av电影中文网址| 欧美激情 高清一区二区三区| 99久久精品国产亚洲精品| 97精品久久久久久久久久精品| 欧美激情极品国产一区二区三区| 777米奇影视久久| 亚洲国产欧美日韩在线播放| 久久精品国产亚洲av高清一级| 久久久久久久精品精品| 国产xxxxx性猛交| 亚洲国产av新网站| 激情视频va一区二区三区| 成年美女黄网站色视频大全免费| 人人澡人人妻人| 日韩视频在线欧美| 操出白浆在线播放| 老司机在亚洲福利影院| 久久久久久久久久久免费av| 一边亲一边摸免费视频| 久久久久久人妻| 18在线观看网站| 中文乱码字字幕精品一区二区三区| 岛国毛片在线播放| 一边亲一边摸免费视频| 中文字幕制服av| 亚洲激情五月婷婷啪啪| 9191精品国产免费久久| 国产在线视频一区二区| 熟女少妇亚洲综合色aaa.| 黄色 视频免费看| av网站免费在线观看视频| 久久 成人 亚洲| 午夜免费观看性视频| 日本午夜av视频| 黄色视频在线播放观看不卡| 女人久久www免费人成看片| 黑人猛操日本美女一级片| 伊人久久国产一区二区| 亚洲精品久久久久久婷婷小说| 99久久99久久久精品蜜桃| 亚洲欧美成人精品一区二区| 日韩制服骚丝袜av| 久久精品久久久久久久性| 高清黄色对白视频在线免费看| 啦啦啦在线免费观看视频4| 午夜免费男女啪啪视频观看| 少妇人妻久久综合中文| 秋霞在线观看毛片| 中文字幕人妻丝袜制服| 亚洲色图综合在线观看| 日韩一区二区视频免费看| 国产欧美日韩综合在线一区二区| 国产精品99久久99久久久不卡 | 中文字幕高清在线视频| h视频一区二区三区| 日韩精品有码人妻一区| 黄网站色视频无遮挡免费观看| av.在线天堂| 国产av国产精品国产| 少妇被粗大的猛进出69影院| 久久这里只有精品19| 少妇 在线观看| 最近中文字幕2019免费版| xxxhd国产人妻xxx| 精品一品国产午夜福利视频| 亚洲国产av新网站| 久久人人爽人人片av| 国产熟女欧美一区二区| 午夜福利视频精品| 亚洲国产看品久久| 亚洲伊人久久精品综合| 丰满饥渴人妻一区二区三| 精品免费久久久久久久清纯 | 亚洲天堂av无毛| 午夜激情av网站| 国产精品一区二区在线观看99| 青春草亚洲视频在线观看| 91成人精品电影| 在线观看免费午夜福利视频| 狂野欧美激情性bbbbbb| 免费观看av网站的网址| av在线播放精品| videos熟女内射| 99热国产这里只有精品6| 麻豆乱淫一区二区| 大话2 男鬼变身卡| 亚洲国产最新在线播放| 亚洲第一青青草原| 午夜久久久在线观看| 91成人精品电影| 最黄视频免费看| 侵犯人妻中文字幕一二三四区| 亚洲av电影在线进入| 久久99热这里只频精品6学生| 国产午夜精品一二区理论片| 极品人妻少妇av视频| 亚洲成人一二三区av| 日韩人妻精品一区2区三区| 99九九在线精品视频| 成年人免费黄色播放视频| 精品第一国产精品| 午夜福利乱码中文字幕| 少妇人妻久久综合中文| 丝袜在线中文字幕| 亚洲激情五月婷婷啪啪| 我要看黄色一级片免费的| 亚洲中文av在线| 久久久久久久久免费视频了| 亚洲精品久久成人aⅴ小说| 精品一区二区免费观看| 韩国高清视频一区二区三区| 老司机影院毛片| av片东京热男人的天堂| 欧美 日韩 精品 国产| 这个男人来自地球电影免费观看 | 国产精品av久久久久免费| 午夜免费鲁丝| 亚洲人成网站在线观看播放| 免费久久久久久久精品成人欧美视频| 久久久国产欧美日韩av| 人人妻人人澡人人看| 老司机靠b影院| 日本av免费视频播放| 777久久人妻少妇嫩草av网站| 国产伦人伦偷精品视频| 日韩欧美精品免费久久| 国产成人精品福利久久| 午夜免费鲁丝| 熟女av电影| 黑人猛操日本美女一级片| 男女无遮挡免费网站观看| 大码成人一级视频| 日本91视频免费播放| 亚洲av男天堂| 亚洲精品一区蜜桃| 日韩制服骚丝袜av| 自线自在国产av| av福利片在线| 欧美日韩亚洲高清精品| 丝袜人妻中文字幕| 久久人人爽人人片av| 久久久亚洲精品成人影院| 777久久人妻少妇嫩草av网站| 美女大奶头黄色视频| 老司机影院成人| 丝袜美腿诱惑在线| 亚洲国产欧美网| 久久久国产精品麻豆| 黄色毛片三级朝国网站| 看免费成人av毛片| 国产99久久九九免费精品| 日本黄色日本黄色录像| xxxhd国产人妻xxx| 欧美黑人欧美精品刺激| 久久久久精品国产欧美久久久 | 大码成人一级视频| 亚洲欧美色中文字幕在线| 在线观看三级黄色| 天天影视国产精品| 国产男人的电影天堂91| 精品一区二区三卡| 777米奇影视久久| 国产色婷婷99| 自拍欧美九色日韩亚洲蝌蚪91| 成年动漫av网址| 伦理电影免费视频| 国产一卡二卡三卡精品 | 中文字幕亚洲精品专区| 免费在线观看黄色视频的| 九九爱精品视频在线观看| 亚洲伊人久久精品综合| 高清在线视频一区二区三区| 十分钟在线观看高清视频www| 亚洲国产毛片av蜜桃av| 爱豆传媒免费全集在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 中文字幕色久视频| 青春草视频在线免费观看| 久久久久国产一级毛片高清牌| 国产野战对白在线观看| 一级毛片 在线播放| 在线观看人妻少妇| 成人三级做爰电影| 赤兔流量卡办理| svipshipincom国产片| 亚洲视频免费观看视频| av天堂久久9| 熟女av电影| 国产99久久九九免费精品| 久久鲁丝午夜福利片| 啦啦啦视频在线资源免费观看| 五月开心婷婷网| 欧美日韩国产mv在线观看视频| 欧美日韩亚洲综合一区二区三区_| 婷婷色综合www| 国产成人精品久久二区二区91 | 国产伦理片在线播放av一区| 色视频在线一区二区三区| 91精品三级在线观看| 综合色丁香网| 亚洲中文av在线| 人妻人人澡人人爽人人| 亚洲七黄色美女视频| 国产精品免费视频内射| 大香蕉久久成人网| 久久久久久人人人人人| 日韩人妻精品一区2区三区| 黄网站色视频无遮挡免费观看| 国产 一区精品| 中文字幕亚洲精品专区| 日韩一卡2卡3卡4卡2021年| 欧美97在线视频| 青春草亚洲视频在线观看| 欧美日本中文国产一区发布| 中文字幕高清在线视频| 久久人妻熟女aⅴ| 丝袜脚勾引网站| 麻豆av在线久日| 亚洲精品在线美女| 观看av在线不卡| 嫩草影视91久久| 中文精品一卡2卡3卡4更新| 国产av一区二区精品久久| 在线观看国产h片| 久久久久精品人妻al黑| 欧美日韩国产mv在线观看视频| 中文字幕另类日韩欧美亚洲嫩草| a级毛片黄视频| 丝袜人妻中文字幕| 老司机靠b影院| 精品久久久久久电影网| 国产一区有黄有色的免费视频| 欧美另类一区| 18禁观看日本| 可以免费在线观看a视频的电影网站 | 人体艺术视频欧美日本| 久久久久精品性色| 国产精品偷伦视频观看了| 久久人人97超碰香蕉20202| 国产成人欧美在线观看 | 日韩一区二区三区影片| 99香蕉大伊视频| 日日啪夜夜爽| 国产亚洲午夜精品一区二区久久| 久久亚洲国产成人精品v| 一区二区三区四区激情视频| 精品少妇黑人巨大在线播放| 啦啦啦视频在线资源免费观看| 欧美日韩一区二区视频在线观看视频在线| 最近手机中文字幕大全| av网站免费在线观看视频| 免费看av在线观看网站| 精品久久久久久电影网| 成年动漫av网址| 欧美日韩视频高清一区二区三区二| 精品人妻熟女毛片av久久网站| 99九九在线精品视频| 天天操日日干夜夜撸| 一区二区三区激情视频| 国产成人91sexporn| 日韩欧美一区视频在线观看| svipshipincom国产片| 久久亚洲国产成人精品v| 国产片内射在线| 国产精品国产av在线观看| 黄片播放在线免费| 精品人妻熟女毛片av久久网站| 天美传媒精品一区二区| 国产在线视频一区二区|