• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    探索用戶自然輸入標記及其在構建分詞語料庫中的作用

    2018-04-16 07:24:14張大奎尹德春湯世平樊孝忠
    中文信息學報 2018年2期
    關鍵詞:分詞語料高質(zhì)量

    張大奎,尹德春,湯世平,毛 煜,樊孝忠

    (1.北京理工大學 計算機學院,北京 100081;2.中國人民公安大學 信息技術與網(wǎng)絡安全學院,北京 100038)

    0 引言

    眾所周知,漢語文本中詞與詞之間沒有顯式分詞符號,因此分詞是漢語自然語言處理工作的基礎。基于監(jiān)督學習的分詞方法是現(xiàn)今被業(yè)界廣泛認可的方法,這些方法需要大規(guī)模的標注語料作為訓練集。當前已經(jīng)公開的通用訓練語料主要來自新聞領域,相關研究[1-4]表明,有監(jiān)督方法在新聞類語料的測試集上表現(xiàn)優(yōu)異,但是當測試集由新聞領域變換到微博、網(wǎng)絡論壇、互聯(lián)網(wǎng)文學等其他領域時,其精度就會大幅下降。鑒于上述事實,有理由認為,當分詞算法的優(yōu)化達到極限水平時,分詞器的性能更多地取決于分詞訓練語料的覆蓋程度和完備性。而分詞訓練語料的構建一直是一個需要投入大量人力和時間的工作。因此,如何更方便快捷地構建分詞語料便成為亟待解決的問題。不少研究者在如何拓展分詞訓練語料上做了積極嘗試,孫茂松等[5]利用中文的標點符號在命名實體識別上取得了較好的成果;劉群等[3,6]使用互聯(lián)網(wǎng)上的一些半結(jié)構化的網(wǎng)頁文本(如維基百科)中的自然標記提高分詞器在非通用領域上的精度。但是以往的研究中,研究者極少認真關注用戶在輸入漢語文本的過程中留下的分詞信息。

    本研究關注用戶輸入行為,并提出了自然輸入標記的概念。自然輸入標記指用戶在使用電腦、手機等設備輸入漢語文本時產(chǎn)生的自然標注信息,其提供了豐富而珍貴的分詞信息,且使獲得實時產(chǎn)生的分詞訓練語料成為一種可能,進而為克服基于標準通用語料訓練的分詞器的缺陷提供了新的解決思路,比如解決在非通用、特定或變化極快領域的精度損失等問題[7]。本文將對自然輸入標記的內(nèi)涵和應用方式進行了深入詳盡的探討。

    在將漢字輸入電腦等設備時,由于漢字的象形結(jié)構,用戶必須借助輸入法完成漢字的生成[8]。輸入過程中,會伴隨產(chǎn)生一些潛在的中文分詞信息,而這些信息一直未得到重視,更沒有被記錄和保存,造成了極大的浪費。

    典型的漢字、詞輸入包含一系列步驟[8],此處以目前市場占有份額最大的拼音輸入法[9]為例說明這一過程。如果用戶需輸入一個漢語詞“今天”,首先,會在鍵盤上輸入拼音序列“jintian”。(拼音在這里其實是一種將漢字轉(zhuǎn)化為拉丁字母的編碼系統(tǒng),不同的漢語輸入法有不同的編碼系統(tǒng)。)然后,拼音輸入法給出一個同音異形的漢語字、詞的候選列表,如圖 1所示。

    圖1 典型的中文拼音輸入法示意圖

    最后,用戶從這個候選列表中查找到自己需要的目標字、詞,并且使用數(shù)字鍵,如1-9(),或空格鍵(,一般為數(shù)字鍵“1”的快捷方式)等來最終選定自己想要的結(jié)果[10]。五筆等其他漢語輸入法,也都遵循這三個步驟。本文將用來選擇目標字、詞的數(shù)字鍵和空格鍵統(tǒng)稱為選擇鍵,并且在用戶的輸入過程中將用戶輸入的內(nèi)容和對應的選擇鍵都保存下來。例如,用戶在輸入句子“今天天氣不錯?!睍r,可能的序列是“今天天氣不錯?!被蛘摺敖裉?SPACE>天氣不錯?!焙苊黠@,用戶在輸入過程中使用的選擇鍵,最真實、直接地反映了用戶的輸入意圖和句意間隔,是最自然的分詞信息。用戶在輸入過程中使用的這些選擇鍵,就是本文所介紹的自然輸入標記。

    借助日常生活中垃圾分類處理的過程,可以更好地理解自然輸入標記的作用和意義。日常垃圾處理過程中最大的問題是,人們習慣性地將各類垃圾混合堆放在一起,然后到垃圾處理廠后再費時費力地分揀。而合理的解決方法是人們應該意識到垃圾在產(chǎn)生時都有明顯類別的,如果在投放時不是一下子都混合在一起,而是對垃圾做一些簡單的分類,那么后續(xù)的處理工作將會大大簡化。從漢語輸入到分詞的整個過程也存在類似垃圾處理的問題。盡管用戶在輸入文本的選詞過程中已經(jīng)產(chǎn)生了自然的分詞標記,但是長久以來都沒有被記錄,更沒有被利用,而后還需要花費大量的時間和人力去專門構建分詞語料。這如同本來已經(jīng)類別清晰的垃圾,卻又被混合在了一起,最后再想辦法對這些垃圾進行分類和揀選,造成了極大的浪費。

    為了避免上面的問題,作者提出了結(jié)合自然輸入標記的文本處理方案,希望將自然輸入標記和文本同時記錄和存儲。這樣做既便于后續(xù)做進一步的文本分析處理,又可以自動獲得分詞訓練語料。作者希望通過本文拋磚引玉,讓更多人關注這些我們習以為常卻又忽略的隱含分詞信息。

    劉知遠等人[10]的文章顯示,輸入法公司雖然已經(jīng)保留了大量類似的用戶輸入數(shù)據(jù),但由于用戶隱私等問題,他們謝絕對外提供這些數(shù)據(jù)。即使是內(nèi)部研究,也需要經(jīng)過防隱私泄露處理。本文提出的采用自然輸入標記的處理方案,所有可獲取的用戶數(shù)據(jù),都是用戶自愿公開發(fā)表的,不存在侵犯用戶隱私數(shù)據(jù)的情況。

    本文后續(xù)主要闡明自然輸入標記的定義和特性,并論證不同用戶在輸入過程中產(chǎn)生的帶有自然輸入標記的文本,是否可以用來高效地構建分詞訓練語料。首先,給出自然輸入標記的形式化定義,并開發(fā)出一個專用記錄軟件,用于記錄用戶在輸入過程中產(chǎn)生的帶有自然輸入標記的文本。然后,根據(jù)統(tǒng)計學中的抽樣原理收集了384個用戶輸入的帶有選擇鍵的文本,按照文本和標準分詞結(jié)果是否接近,把所有文本分為兩類。接下來,使用支持向量機(support vector machine,SVM)模型來完成自動分類工作。用戶產(chǎn)生的接近標準分詞結(jié)果的文本就形成了可接納的自然輸入標記文本集合。最后,引入投票機制,在所有可接納文本集合中進一步挑選出更接近標準分詞結(jié)果的高質(zhì)量自然輸入標記文本合集。實驗結(jié)果顯示,支持向量機與投票機制相互配合,可以有效地選擇出高質(zhì)量自然輸入標記文本。高質(zhì)量文本可以直接或經(jīng)過簡單人工處理后當作分詞訓練語料。另外,實驗中還有一些證據(jù)顯示,用戶產(chǎn)生的自然輸入標記文本對處理未登錄詞十分有用,如命名實體識別、新詞發(fā)現(xiàn)。

    1 分詞標準與基準通用分詞器

    在討論分詞時,分詞結(jié)果采用何種標準是需要首先明確的問題。目前,分詞的標準并不統(tǒng)一,而且不同的應用場景也會采用不同的分詞標準。以業(yè)界公認的Sighan Bakeoff為例,其中的四個標準由四家機構制定,分別是:北京大學(Peking University,PKU)、香港城市大學(City University of Hong Kong,CU)、臺灣“中央研究院”(Academia Sinica,AS)、微軟研究院(Microsoft Research,MSR)。這四種分詞標準雖然大體相同,但細節(jié)上有一些差異。北京大學(PKU)和微軟研究院(MSR)的簡體中文分詞標準中,MSR的標準更加接近人們的日常輸入習慣,并且提供的語料數(shù)量也最多,因此本文采用MSR的分詞標準。全文提及的“標準分詞結(jié)果”均指符合MSR分詞標準的分詞結(jié)果。根據(jù)已有的研究工作[5,7],本文使用Sighan Bakeoff-2中的MSR語料訓練了一個條件隨機場(conditional random fields,CRF)模型作為基準通用分詞器(簡稱CRF+MSR)。

    2 自然輸入標記

    2.1 形式化定義

    引言中,本文介紹了用戶輸入漢語的步驟,其中最后一步,用戶使用的選擇鍵(主要是數(shù)字鍵和空格鍵等)起到了潛在分詞符的作用。這些被記錄下來的選擇鍵是在用戶輸入過程中自然標注產(chǎn)生的,因此被統(tǒng)一命名為自然輸入標記(natural typing annotations,NTAs),下文以符號“|”表示。

    若給定中文句子S=c1c2…cN(ci代表一個漢字;N代表句子S的長度,即S包含了多少個漢字),則π(S)=|c1…ci1-1|ci1…ci2-1|…|cn1…cN|為用戶在輸入句子S時產(chǎn)生的帶有自然輸入標記的序列。兩個臨近“|”之間的部分被稱為一個片段(segment),π(S)=|segment1|segment2|…|segmentM|(M≤N;M代表句子S中被標記出的段數(shù))被稱為自然輸入標記文本(NTAs text)或自然輸入標記語料(NTAs corpus)。

    2.2 自然輸入標記文本的收集

    由于目前沒有類似的公開語料可供使用,所以本研究需要自行收集和構建不同用戶的自然輸入標記文本。參與此項輸入實驗的人員均是在網(wǎng)上報名的志愿者。為了對比方便,這些志愿者被指定都輸入同一實驗文本,同時使用我們開發(fā)的專用軟件記錄下輸入過程中產(chǎn)生的自然輸入標記文本。圖2是本文使用的記錄軟件,它可以在不影響用戶輸入體驗的情況下記錄用戶在輸入過程中留下的自然輸入標記。

    圖2 自然輸入標記記錄軟件

    關于實驗,有兩點需要說明。

    第一,為了既減輕志愿者的輸入負擔,同時又保持實驗的客觀性和可對比性,本文設定用戶輸入的實驗文本只有365個漢字,但其中包含了歧義句、命名實體、輸入時易混淆的字詞等語言現(xiàn)象。所以即使目前性能非常好的通用分詞器在處理本文的實驗文本時精度也會大大降低。圖3給出了實驗文本的三個例句。

    圖3 實驗文本中的例句

    第二,樣本量的選擇是根據(jù)統(tǒng)計學中的抽樣原理得出的。抽樣公式為:

    (1)

    本實驗抽樣時需要置信水平為95%且誤差小于5%。其中,置信水平為95%時Zα/2=1.96;誤差Δ=5%;當P取值0.5時P×(1-P)最大,故由抽樣公式得出實驗樣本數(shù)應不小于384。因此,在實驗中共收集了來自384位志愿者的自然輸入標記文本。

    2.3 收集文本的分析

    通過收集來自不同用戶的自然輸入標記文本,可以對用戶的輸入習慣有一個整體了解。本文首先關注自然輸入標記文本的基本單位——片段。從所有收集的文本中,一共提取到了66 232個片段,其中有883個片段是不重復的。如果用Length(seg)代表一個片段的長度(即一個片段中包含了多少個漢字),那么可以得到不同Length(seg)出現(xiàn)的頻數(shù)分布。為了對比,將手工標注的標準分詞結(jié)果和由CRF+MSR產(chǎn)生的分詞結(jié)果都做相同的統(tǒng)計。圖4給出了三個統(tǒng)計結(jié)果中不同長度的片段的相對出現(xiàn)頻率。結(jié)果顯示,384名用戶的自然輸入標記文本中,Length(seg)的數(shù)值分布范圍比較大,從1到18都有取值。但是出現(xiàn)頻率最多的Length(seg)都集中在1~4,這與標準分詞結(jié)果和CRF+MSR分詞器產(chǎn)生的分詞結(jié)果的總體趨勢是吻合的。

    圖4 實驗文本的三種不同分詞結(jié)果的片段長度相對頻數(shù)分布

    實驗結(jié)果說明,大多數(shù)用戶在輸入漢語時,是不會一次輸入很長一個片段的。從理論上來分析,輸入短片段更符合行為經(jīng)濟學和認知語言學原理。

    從行為經(jīng)濟學角度來看,如果一次性輸入的片段越長,輸入者在輸入過程中出錯的概率就越大,而且修改錯誤的操作也可能越煩瑣。這增加了用戶輸入的時間成本,同時也打斷了用戶的思維連貫性。因此,大多數(shù)用戶會采取短片段輸入的方式。更有意思的發(fā)現(xiàn)是,習慣長片段輸入的用戶,幾乎都是不會盲打或?qū)︽I盤布局不熟悉的人。因為他們輸入的時候,都是先全神貫注地用眼睛盯著鍵盤,把需要的拼音一次性都打完,然后再將眼睛移向屏幕去確認自己需要的那一長串漢字。相反,越是熟悉鍵盤輸入、會盲打的人,眼睛越不會輕易離開屏幕,且他們的輸入皆以短片段為主,這樣便于及時地確認輸入內(nèi)容和修改輸入錯誤。

    從認知語言學原理來看,人們輸入過程中產(chǎn)生的片段很少包含那些沒有語言邏輯的漢字序列。以實驗文本中的句子“主人公嚴守一把手機給扔了?!睘槔?,當用戶輸入“給扔了”這三個字時,他們產(chǎn)生的序列分別有“|給|扔|了|”、“|給|扔了|”或“|給扔了|”,沒有一個用戶的輸入結(jié)果是“|給扔|了|”。這是因為“給扔”在漢語中是一個沒有語言邏輯意義的組合。由此可見,語言片段的組成反映了人們語言邏輯和認知。

    以上通過對收集文本的宏觀分析,可以確認大部分用戶在輸入過程中產(chǎn)生的自然輸入標記提供了豐富的分詞信息,由此得到的分詞結(jié)果中,有相當一部分是很接近標準分詞結(jié)果的,甚至有些就是正確分詞結(jié)果。因此,下面重點研究如何篩選出質(zhì)量最好的自然輸入標記文本。

    3 高質(zhì)量自然輸入標記文本的識別

    3.1 用戶輸入模式

    本節(jié)從句子層面研究自然輸入標記文本。通過觀察文本后獲得的最直觀印象是,不同用戶擁有不同的輸入模式。以下用實驗文本中的例句S1=“不過評價在三星級以上的這幾款電腦”來說明各種不同的情況。如圖5所示,πgold(S1)是S1的標準分詞結(jié)果,其他分別為不同用戶的具有代表性的輸入序列。

    圖5 用戶輸入的自然輸入標記文本的不同模式

    我們從中發(fā)現(xiàn)了三種用戶輸入模式:第一種是離散模式(discrete pattern),即在標準分詞結(jié)果中本屬于一個片段的漢字序列被分成了幾個片段,如π5(S1);第二種是黏合模式(adhesive pattern),指那些在標準分詞中本應為不同片段的漢字序列黏合在一起形成了一個片段,如π3(S1)和π4(S1);第三種是可接納模式(acceptable pattern),是指用戶輸入產(chǎn)生的切分結(jié)果和標準分詞的切分結(jié)果十分接近或完全相同,如π1(S1)和π2(S1)。本文把符合可接納模式的文本稱為可接納自然輸入標記文本,符合其他兩種模式的文本稱為不可接納自然輸入標記文本。并且,在可接納自然輸入標記文本中,還存在一些更接近標準分詞的高質(zhì)量自然輸入標記文本。為了最終選出實驗中的高質(zhì)量自然輸入標記文本,下文將介紹具體方法:(1)使用機器學習中的分類算法找到一個可接納自然輸入標記文本的集合; (2)使用投票機制在第一步已經(jīng)確立的集合中找出高質(zhì)量自然輸入標記文本。

    3.2 分類方法

    選出可接納自然輸入標記文本是一個典型的二分類問題。訓練分類器時使用了五個特征。

    其中,Len表示句子的長度;SegNum(SN)表示句子中片段的個數(shù)。這兩個特征用于判斷用戶輸入的句子中字數(shù)和片段數(shù)是不是在一個合理的水平。SingleSegNum(SSN)表示句子中長度為1的片段個數(shù);MaxConSingleSegNum(MCSSN)表示句子中最多有幾個長度為1的片段連續(xù)出現(xiàn)在一起;MaxSegLen(MSL)表示句子中最長片段的長度。這三個特征用于判斷用戶輸入的句子中是否有大量的離散和粘合現(xiàn)象。

    3.3 投票機制

    使用3.2節(jié)的分類方法,識別出接近標準分詞結(jié)果的可接納自然輸入標記文本之后,還需要引入投票機制,以便在可接納自然輸入標記文本中挑選出更接近標準分詞結(jié)果的高質(zhì)量文本。給定一個句子Si,不同的用戶輸入會產(chǎn)生不同的分割形式π1(Si),π2(Si),… ,πk(Si)(k是用戶產(chǎn)生的分割形式的總數(shù))。如果πj(Si)出現(xiàn)在不同用戶的文本中,那么這些文本(或說輸入用戶)其實是向πj(Si)投了一個支持票,所以,不同的用戶文本是在向各個句子的不同分割形式投票。這樣每個實驗文本中出現(xiàn)的句子就都得到了一個分數(shù),如式(2)所示。

    SCOREπj(Si)=log2count(πj(Si))

    (2)

    其中,count(πj(Si))是統(tǒng)計多少用戶在輸入句子Si時形成了πj(Si)的分割形式。每個實驗文本是由不同的句子組成的,其得分如式(3) 所示。

    (3)

    其中,numπj(Si)∈text是這個文本中包含的字句總數(shù)。

    通過計算每個文本的得分,很容易在可接納自然輸入標記文本集合中挑選出高質(zhì)量自然輸入標記文本。以下實驗將驗證高質(zhì)量自然輸入標記文本與標準分詞結(jié)果的吻合程度,以及高質(zhì)量文本作為分詞訓練語料的效果。

    4 實驗結(jié)果與分析

    4.1 確定高質(zhì)量自然輸入標記文本

    4.1.1分類器

    為了尋找384個文本中的可接納自然輸入標記文本,本文訓練了一個支持向量機(SVM)來完成文本的分類工作。首先,我們從全部用戶中挑選32個有代表性的典型用戶。這些典型用戶有著不同的輸入習慣,他們輸入的文本共包含1 089個句子。然后,我們對這些句子做了手工標注,作為訓練集。以圖5中S1的各種情況為例,手工標注的訓練數(shù)據(jù)結(jié)果如表1所示。其中標簽(label)1和0分別代表可接納自然輸入標記句子和不可接納自然輸入標記句子。

    表1 用于訓練分類器的手工標注訓練數(shù)據(jù)樣例

    本實驗采用libSVM工具包[11],具體參數(shù)設置是:徑向基函數(shù)(radial basis function)為核函數(shù)(kernel function);gamma值為1/特征個數(shù);懲罰因子(cost value)設為1。

    為了檢驗模型的有效性,采用10次交叉驗證將1 089個句子隨機平分成了10份,每次選出其中一份作為測試集,其他九份為訓練集。如此循環(huán)進行,讓每一份都做一次測試集。最終得到的分類精度如表2所示。

    表2 分類器的10交叉檢驗結(jié)果

    續(xù)表

    從表2中可以看出,選擇的五個特征在分類實驗中的區(qū)分性是很顯著的。在本實驗中,我們設定如果一個文本中85%的句子是可接納類型的,那么這個文本就被認為是可接納自然輸入標記文本。85%是一個判斷閾值,它是多次實驗后得到的一個相對合理的經(jīng)驗值,可以根據(jù)具體需求調(diào)整。利用該分類模型和判斷閾值,我們從384個文本中找出253個可接納自然輸入標記文本。

    4.1.2基于投票機制的分詞結(jié)果

    根據(jù)3.3節(jié)中的投票機制,計算出253個可接納自然輸入標記文本各自的分數(shù),并按分數(shù)的高低排序。表3給出了排名在前三位的高質(zhì)量文本的分詞情況,并與基準分詞器CRF+MSR在實驗文本上的分詞結(jié)果進行了對比。因為CRF+MSR是一個通用分詞器,而實驗文本包含了歧義句、命名實體、輸入時易混淆的字詞等語言現(xiàn)象,所以CRF+MSR分詞器在本實驗文本上各個指標值都相對較低。

    表3 通用分詞器和投票后排名前三的實驗文本的分詞結(jié)果對比

    表3說明,高質(zhì)量自然輸入標記文本比較接近標準分詞結(jié)果,特別是對于實驗文本中包含的命名實體、新詞等未登錄詞,這三位輸入者都毫無例外地將它們分別放在了正確的片段中,因此他們的輸入結(jié)果對未登錄詞的召回率rOOV都是100%。例如,實驗文本的句子“主人公嚴守一把手機給扔了?!敝?,“嚴守一”是一個命名實體,且“嚴守”和“一把(手)”、“(一)把手”和“手機”都構成交疊歧義。CRF+MSR對這個例句的分詞結(jié)果是“主人公|嚴守|一把手|機|給|扔|了|?!倍脩糨斎氲慕Y(jié)果都是“|嚴守一|”片段形式。這說明用戶輸入的高質(zhì)量自然輸入標記文本在標識未登錄詞方面具有優(yōu)異的表現(xiàn)。

    此外,我們將這些高質(zhì)量文本和標準分詞結(jié)果做了詳細對比,找到了高質(zhì)量文本中出錯片段的共性。這些錯誤主要是由于一些簡單詞之間存在粘合現(xiàn)象而導致。例如標準分詞結(jié)果“|這|幾|款|”在高質(zhì)量文本中都被寫成了“|這幾款|”。這樣的結(jié)果在分詞競賽評測中當然是明顯的錯誤,但是在某些特定應用場景下,卻又會是比較合適的結(jié)果。比如在統(tǒng)計機器翻譯中,從譯文的連貫性上看,“|這幾款|”就比“|這|幾|款|”的處理效果好一些。因此,這些由用戶產(chǎn)生的高質(zhì)量文本為我們提出了值得思考的語言學問題,所謂的“詞”到底該怎么界定?由用戶使用習慣出發(fā)對詞進行界定是否合理?

    4.2 高質(zhì)量自然輸入標記文本作為分詞訓練語料的效果

    相關研究表明,用戶的行為模式在很長一段時間內(nèi)是保持一致的[12]。因此,那些產(chǎn)生高質(zhì)量自然輸入標記文本的用戶也將源源不斷地提供更多類似的高質(zhì)量自然輸入標記文本,且這些文本可方便地用于構建分詞訓練語料。

    為了驗證高質(zhì)量自然輸入標記文本在構建分詞訓練語料上的作用,本節(jié)的實驗將邀請產(chǎn)生表3中Text#top1、Text#top2、Text#top3的用戶參與,他們分別被編號為:用戶1、用戶2、用戶3。我們請以上三位用戶輸入從微博(weibo.com)上隨機抓取的40KB語料,以此模擬這些用戶平時輸入微博內(nèi)容的場景。這些語料被平均分成了A、B、C、T四份。請用戶1重新輸入一遍A語料以產(chǎn)生帶自然輸入標記的A語料。同樣,用戶2、用戶3分別產(chǎn)生了帶自然輸入標記的B、C語料。本文將用戶輸入產(chǎn)生的帶自然輸入標記的A、B、C語料作為一個訓練數(shù)據(jù)集,得到了一個CRF分詞器,簡稱CRF+NTAs。然后又將由用戶輸入產(chǎn)生的帶自然輸入標記的A、B、C語料和來自Bakeoff-2的MSR的訓練語料共同作為一個訓練數(shù)據(jù)集,得到了第二個CRF分詞器,簡稱CRF+MSR+NTAs。最后從T語料中隨機選擇了1 000個句子進行人工標注,將其作為測試語料。表4給出了不同分詞器在測試語料上的分詞結(jié)果。

    從表4的結(jié)果可以看出,直接使用由用戶輸入產(chǎn)生的高質(zhì)量自然輸入標記文本訓練得到的分詞器(CRF+NTAs),在分詞效果上要略好于通用分詞器(CRF+MSR),但是卻遜色于混合了高質(zhì)量自然輸入標記文本和MSR分詞訓練語料得到的分詞器(CRF+MSR+NTAs)。CRF+MSR在實驗中的分詞精度低,主要是由于MSR訓練語料來自時間較早的新聞領域,對基礎詞匯和標準的語法現(xiàn)象的涵蓋雖然比較好,但是對最新的微博領域的新詞和非正式的語法現(xiàn)象的涵蓋卻嚴重不足。因此,在MSR訓練語料的基礎上加入了最新的高質(zhì)量自然輸入標記文本,可以明顯提高分詞器在微博領域的分詞精度。

    表4 不同分詞器在測試語料上的分詞效果

    本節(jié)實驗選擇了有別于傳統(tǒng)新聞語料的微博語料,通過具體數(shù)據(jù)驗證了以下事實:有一批優(yōu)秀用戶的輸入習慣特別好,并且是一以貫之的,無論這些用戶在輸入什么,他們?nèi)粘.a(chǎn)生的可公開的自然輸入標記文本幾乎都可以直接做為分詞訓練語料。這為分詞訓練語料的自動收集和構建提供了一個有價值的新方法。

    5 進一步討論

    關于自然輸入標記,作者分別從實踐和理論上做進一步探討。

    在實驗中,作者針對收集到的高質(zhì)量輸入標記文本,觀察、研究了它們和標準分詞結(jié)果的差別,發(fā)現(xiàn)了高質(zhì)量輸入標記文本最主要的兩個特征:第一,代詞經(jīng)常和其前后的一個字、詞黏合形成一個片段,如“大家好”“我叫”“這就是”“讓自己”常被作為一個片段;第二,助詞經(jīng)常和其前后的一個字、詞粘合形成一個片段,如“扔了” “寫了”“大的”“小的”等。正如前文提到的,這些是所謂的“錯誤”,只是用戶在以他們認可的邏輯塊來進行輸入和確認,且這些特征都很容易處理。經(jīng)過簡單處理后的高質(zhì)量輸入標記文本和標準分詞結(jié)果的差異程度會減少很多,可以直接作為分詞器的訓練語料使用。

    隨著機器學習技術越來越成熟,訓練數(shù)據(jù)的豐富性和完備性直接決定了機器學習的效果。在中文信息處理領域,科技人員和業(yè)內(nèi)工作者應該盡可能多地發(fā)掘并引入人類集體智慧產(chǎn)生的信息,使機器學習方法的功效最大化,以去除語言處理過程中的不確定性,達到分析、理解語言的目的。本文討論的自然輸入標記文本,正是這樣一種人類集體智慧的具體體現(xiàn),對解決漢語分詞問題是一個新穎而有益的探索與嘗試。

    6 結(jié)束語

    現(xiàn)行中文輸入過程繼承于手書漢字的形式,只是記錄漢字,并不記錄任何其他信息,無形中浪費很多在電子設備上輸入漢語時所產(chǎn)生的多有用的信息。自然輸入標記就是這樣一種在電子設備上輸入漢語時所產(chǎn)生的有用信息,我們完全可以在不干擾用戶閱讀和輸入的情況下,隱式地將用戶輸入過程中產(chǎn)生的自然輸入標記記錄下來。

    本文主要介紹并研究了用戶在輸入過程中產(chǎn)生的自然輸入標記文本,同時驗證了高質(zhì)量自然輸入標記文本在構建分詞訓練語料方面的有效性。根據(jù)最新的調(diào)查顯示,2016年年底中國的互聯(lián)網(wǎng)用戶數(shù)已經(jīng)達到7.31億,即使只有較小比例的用戶提供高質(zhì)量自然輸入標記文本,他們也將在日常工作、學習、生活中源源不斷地產(chǎn)生實時的分詞訓練語料。將這些語料用來增量訓練分詞器,將使分詞器具有實時進化的能力。

    如果越來越多自然標記文本被記錄下來,相信會對分詞等其他中文信息處理問題帶來全新的解決思路。本文對自然輸入標記進行了驗證性的探索,后續(xù)還會做更多的研究與應用。

    [1]Xue Nianwen,Shen Libin.Chinese word segmentation as LMR tagging[C]// Proceedings of Sighan Workshop on Chinese Language Processing in ACL 2003.Sapporo,Japan,2003:176-179.

    [2]Zhang Yue,Clark Stephen.Chinese segmentation with a word-based perceptron algorithm.[C]// Proceedings of the ACL 2007.Prague,Czech Republic,2007:840-847.

    [3]Jiang Wenbin,Huang Liang,Liu Qun.Automatic adaptation of annotation standards:Chinese word Segmentation and POS tagging:A case study.[C]// Proceedings of the ACL-AFNLP 2009.Suntec,Singapore,2009:522-530.

    [4]Zhao Hai,Huang Changning,Li Mu,et al.A unified character-based tagging framework for Chinese word segmentation[J].Acm Transactions on Asian Language Information Processing,2010,9(2):1-32.

    [5]Li Zhongguo,Sun Maosong.Punctuation as implicit annotations for Chinese word segmentation[J].Computational Linguistics,2009,35(4):505-512.

    [6]Sun Weiwei,Xu Jia.Enhancing Chinese word segmentation using unlabeled data[C]// Proceedings of the EMNLP 2011.Edinburgh,UK,2011:970-979.

    [7]Zhang Dakui,Mao Yu,Liu Yang,et al.The discovery of natural typing annotations:User-produced potential Chinese word delimiters[C]// Proceedings of the ACL-IJCNLP 2015.Beijing,China,2015:662-667.

    [8]陳原.漢語語言文字信息處理[M].上海:上海教育出版社,1997.

    [9]iResearch 2009.2009 China Desktop Software Development Research Report[OL].[2010.2.20].http://report.iresearch.cn/1290.html.

    [10]Zheng Yabin,Xie Lixing,Liu Zhiyuan,et al.Why press backspace? understanding user input behaviors in Chinese Pinyin input method[C]// Proceedings of the ACL 2011.Portland,Oregon,USA,2011:485-490.

    [11]Chang Chih-Chung,Lin Chih-Jen.LIBSVM:A library for support vector machines[J].Acm Transactions on Intelligent Systems & Technology,2011,2(3):389-396.

    [12]Stephane Lucas.User behavior patterns:Gathering,analysis,simulation and prediction[C]// Proceedings of the HCD 2009.San Diego,CA,USA,2009:1650-1656.

    張大奎(1981—),博士研究生,主要研究領域為自然語言處理、數(shù)據(jù)挖掘、機器學習。E-mail:dakuiz@163.com

    尹德春(1979—),博士,講師,主要研究領域為自然語言處理、情報分析、網(wǎng)絡安全。E-mail:yindechun163@163.com

    湯世平(1975—),通信作者,博士,講師,主要研究領域為自然語言處理、數(shù)據(jù)挖掘。E-mail:tangshiping@gmail.com

    猜你喜歡
    分詞語料高質(zhì)量
    堅持以高質(zhì)量發(fā)展統(tǒng)攬全局
    當代陜西(2022年5期)2022-04-19 12:10:12
    高質(zhì)量項目 高質(zhì)量發(fā)展
    當代陜西(2021年1期)2021-02-01 07:18:02
    牢牢把握高質(zhì)量發(fā)展這個根本要求
    當代陜西(2020年20期)2020-11-27 01:43:10
    結(jié)巴分詞在詞云中的應用
    智富時代(2019年6期)2019-07-24 10:33:16
    “三部曲”促數(shù)學復習課高質(zhì)量互動
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    值得重視的分詞的特殊用法
    華語電影作為真實語料在翻譯教學中的應用
    《苗防備覽》中的湘西語料
    國內(nèi)外語用學實證研究比較:語料類型與收集方法
    老熟女久久久| 国产又色又爽无遮挡免| 少妇猛男粗大的猛烈进出视频| 一边亲一边摸免费视频| 欧美精品国产亚洲| 亚洲欧洲日产国产| xxx大片免费视频| 免费观看在线日韩| 欧美日本中文国产一区发布| 尾随美女入室| www日本在线高清视频| av国产精品久久久久影院| 亚洲精品久久久久久婷婷小说| 美女大奶头黄色视频| 中文字幕另类日韩欧美亚洲嫩草| 99精国产麻豆久久婷婷| 国产精品不卡视频一区二区| 国产乱人偷精品视频| 亚洲av免费高清在线观看| 91精品国产国语对白视频| 欧美另类一区| 成人手机av| 国产在线视频一区二区| 亚洲国产成人一精品久久久| 久久国内精品自在自线图片| 不卡av一区二区三区| 王馨瑶露胸无遮挡在线观看| 日韩一卡2卡3卡4卡2021年| 精品一区二区三区四区五区乱码 | 国产成人精品久久久久久| 青春草视频在线免费观看| 欧美亚洲日本最大视频资源| 亚洲av免费高清在线观看| 国产精品久久久久成人av| 精品少妇内射三级| 咕卡用的链子| 日韩中文字幕视频在线看片| 日韩熟女老妇一区二区性免费视频| 久久人人97超碰香蕉20202| 精品卡一卡二卡四卡免费| 日韩三级伦理在线观看| 久久人妻熟女aⅴ| 午夜影院在线不卡| av电影中文网址| 国产精品熟女久久久久浪| 亚洲精品久久午夜乱码| 天美传媒精品一区二区| 亚洲国产av影院在线观看| 色94色欧美一区二区| 欧美av亚洲av综合av国产av | 欧美日韩视频高清一区二区三区二| 午夜av观看不卡| 伦理电影大哥的女人| 亚洲少妇的诱惑av| 亚洲av综合色区一区| 欧美精品av麻豆av| 69精品国产乱码久久久| 人体艺术视频欧美日本| 成年女人在线观看亚洲视频| 少妇熟女欧美另类| 午夜免费鲁丝| 日本vs欧美在线观看视频| 亚洲av欧美aⅴ国产| 亚洲久久久国产精品| 97在线人人人人妻| 欧美精品亚洲一区二区| 久久热在线av| av免费在线看不卡| 亚洲av中文av极速乱| 女性生殖器流出的白浆| 国产免费又黄又爽又色| 青春草国产在线视频| 国产免费一区二区三区四区乱码| 97在线视频观看| 国产国语露脸激情在线看| 久久99一区二区三区| 午夜日本视频在线| 精品人妻偷拍中文字幕| 国产成人一区二区在线| 涩涩av久久男人的天堂| 免费黄色在线免费观看| 国产成人a∨麻豆精品| 成人影院久久| 人人妻人人澡人人看| 国产免费现黄频在线看| 久久精品熟女亚洲av麻豆精品| 免费看av在线观看网站| 国产精品久久久久成人av| 国精品久久久久久国模美| 色哟哟·www| 久久精品久久久久久噜噜老黄| av网站免费在线观看视频| 免费大片黄手机在线观看| 国产精品嫩草影院av在线观看| 国产av国产精品国产| 亚洲欧洲日产国产| 免费播放大片免费观看视频在线观看| 满18在线观看网站| 免费高清在线观看日韩| 国产又色又爽无遮挡免| 涩涩av久久男人的天堂| 亚洲国产成人一精品久久久| 久久久久国产精品人妻一区二区| 毛片一级片免费看久久久久| 大片电影免费在线观看免费| 99香蕉大伊视频| 欧美精品人与动牲交sv欧美| 亚洲av电影在线进入| 亚洲成色77777| 国产成人精品久久二区二区91 | 国产在线一区二区三区精| 丝袜脚勾引网站| 午夜91福利影院| 黄片播放在线免费| 可以免费在线观看a视频的电影网站 | 天美传媒精品一区二区| 2018国产大陆天天弄谢| 成人国产av品久久久| 最近中文字幕高清免费大全6| 亚洲综合色网址| 看非洲黑人一级黄片| 1024视频免费在线观看| 欧美激情高清一区二区三区 | 亚洲精品久久成人aⅴ小说| 国产乱人偷精品视频| 欧美 日韩 精品 国产| 免费黄色在线免费观看| 亚洲欧美中文字幕日韩二区| 丝袜美足系列| 久久精品久久精品一区二区三区| 免费av中文字幕在线| 18禁裸乳无遮挡动漫免费视频| 99香蕉大伊视频| 日产精品乱码卡一卡2卡三| 国产女主播在线喷水免费视频网站| 亚洲成色77777| 成年人免费黄色播放视频| 日韩在线高清观看一区二区三区| 高清在线视频一区二区三区| 麻豆乱淫一区二区| 女性被躁到高潮视频| 欧美日韩国产mv在线观看视频| 精品少妇内射三级| 免费观看性生交大片5| 久久ye,这里只有精品| 国产男人的电影天堂91| 久久久精品国产亚洲av高清涩受| 人人妻人人澡人人看| 26uuu在线亚洲综合色| 亚洲精品,欧美精品| 成人毛片a级毛片在线播放| 国产av精品麻豆| 女人久久www免费人成看片| 国产精品二区激情视频| 1024香蕉在线观看| 18+在线观看网站| 午夜福利乱码中文字幕| 精品亚洲成国产av| 亚洲少妇的诱惑av| www.自偷自拍.com| videos熟女内射| 久久精品国产亚洲av天美| 少妇的逼水好多| 在线亚洲精品国产二区图片欧美| 另类精品久久| 另类精品久久| 亚洲精品在线美女| 国产乱来视频区| 久久人人爽人人片av| 欧美精品亚洲一区二区| 国产片特级美女逼逼视频| 国语对白做爰xxxⅹ性视频网站| 亚洲精品av麻豆狂野| 亚洲精品久久午夜乱码| 黄片播放在线免费| 亚洲国产精品一区三区| 久久久久精品性色| 久久精品国产亚洲av天美| 久久精品aⅴ一区二区三区四区 | 一区福利在线观看| 国产 精品1| av女优亚洲男人天堂| 欧美精品亚洲一区二区| 国产亚洲精品第一综合不卡| 精品视频人人做人人爽| 巨乳人妻的诱惑在线观看| 91精品三级在线观看| 天天操日日干夜夜撸| 亚洲国产av影院在线观看| 日本猛色少妇xxxxx猛交久久| 成人国语在线视频| 色吧在线观看| 久久久久视频综合| 国产精品人妻久久久影院| 亚洲精品乱久久久久久| 国产麻豆69| 成人国产麻豆网| 亚洲综合色惰| 国产精品人妻久久久影院| 国产亚洲欧美精品永久| 一级片'在线观看视频| 日韩av免费高清视频| 多毛熟女@视频| 精品一区在线观看国产| 中国国产av一级| 国产成人av激情在线播放| 色视频在线一区二区三区| 一区二区三区四区激情视频| 色播在线永久视频| 一区二区三区乱码不卡18| 午夜91福利影院| 日本欧美国产在线视频| 97人妻天天添夜夜摸| 韩国av在线不卡| 精品国产超薄肉色丝袜足j| 如何舔出高潮| 免费少妇av软件| 老司机影院毛片| 午夜福利在线观看免费完整高清在| 香蕉国产在线看| 少妇人妻久久综合中文| 观看美女的网站| 亚洲国产精品成人久久小说| 99久久人妻综合| 韩国精品一区二区三区| 国产在线一区二区三区精| 久久av网站| 久久国产精品大桥未久av| 国产av码专区亚洲av| 美女国产视频在线观看| 久久热在线av| 亚洲国产色片| 一区二区日韩欧美中文字幕| av.在线天堂| av免费在线看不卡| 亚洲欧美清纯卡通| 久久精品国产亚洲av天美| av视频免费观看在线观看| 免费观看av网站的网址| 久久久久久久亚洲中文字幕| 成年动漫av网址| 国产成人精品久久久久久| 欧美bdsm另类| 国产精品欧美亚洲77777| 97精品久久久久久久久久精品| 欧美 日韩 精品 国产| 精品亚洲成a人片在线观看| 免费黄频网站在线观看国产| 亚洲精品美女久久久久99蜜臀 | 日本vs欧美在线观看视频| 各种免费的搞黄视频| 中文字幕最新亚洲高清| 色播在线永久视频| www日本在线高清视频| 侵犯人妻中文字幕一二三四区| 亚洲精品中文字幕在线视频| 18禁观看日本| 80岁老熟妇乱子伦牲交| 免费高清在线观看日韩| 男女啪啪激烈高潮av片| 亚洲美女视频黄频| 精品久久久久久电影网| 国产成人av激情在线播放| 在线免费观看不下载黄p国产| 伊人久久国产一区二区| av视频免费观看在线观看| 热99久久久久精品小说推荐| 欧美老熟妇乱子伦牲交| 这个男人来自地球电影免费观看 | 91精品三级在线观看| 寂寞人妻少妇视频99o| 亚洲三级黄色毛片| 1024香蕉在线观看| 老司机影院毛片| 91国产中文字幕| 国产高清国产精品国产三级| 97精品久久久久久久久久精品| 国产精品麻豆人妻色哟哟久久| 黑丝袜美女国产一区| 日韩一卡2卡3卡4卡2021年| 少妇猛男粗大的猛烈进出视频| av电影中文网址| 老熟女久久久| 欧美日韩亚洲高清精品| 麻豆精品久久久久久蜜桃| 一级爰片在线观看| 寂寞人妻少妇视频99o| 亚洲在久久综合| 久久久久久久久久久久大奶| 色网站视频免费| 成人亚洲欧美一区二区av| 少妇人妻久久综合中文| 国产一区二区 视频在线| 久久国内精品自在自线图片| 精品亚洲乱码少妇综合久久| 亚洲精品美女久久av网站| 最近最新中文字幕大全免费视频 | 少妇人妻精品综合一区二区| 欧美亚洲日本最大视频资源| kizo精华| 亚洲欧美一区二区三区黑人 | 亚洲成人一二三区av| 成年人免费黄色播放视频| 久久99精品国语久久久| 我的亚洲天堂| 国产精品久久久久久精品古装| 国产毛片在线视频| 观看av在线不卡| 啦啦啦视频在线资源免费观看| 999久久久国产精品视频| 免费大片黄手机在线观看| 亚洲色图 男人天堂 中文字幕| 午夜老司机福利剧场| 成年动漫av网址| 在线看a的网站| 精品久久蜜臀av无| 精品卡一卡二卡四卡免费| 韩国精品一区二区三区| 人人妻人人澡人人爽人人夜夜| 哪个播放器可以免费观看大片| 久久热在线av| 夜夜骑夜夜射夜夜干| 18禁动态无遮挡网站| 在线精品无人区一区二区三| av免费观看日本| 日本爱情动作片www.在线观看| 青春草国产在线视频| 欧美人与善性xxx| 伊人亚洲综合成人网| 亚洲精品乱久久久久久| 精品卡一卡二卡四卡免费| 晚上一个人看的免费电影| 成人午夜精彩视频在线观看| 国产女主播在线喷水免费视频网站| 有码 亚洲区| 黄网站色视频无遮挡免费观看| 欧美老熟妇乱子伦牲交| 亚洲熟女精品中文字幕| 黄片播放在线免费| 热re99久久精品国产66热6| 亚洲精品一二三| 电影成人av| 亚洲一级一片aⅴ在线观看| 午夜91福利影院| 十八禁高潮呻吟视频| 亚洲成色77777| 国产精品人妻久久久影院| 色婷婷久久久亚洲欧美| 国产免费又黄又爽又色| 美女脱内裤让男人舔精品视频| 亚洲av成人精品一二三区| 亚洲 欧美一区二区三区| 午夜精品国产一区二区电影| 少妇人妻精品综合一区二区| 97在线人人人人妻| 国产成人精品福利久久| 香蕉国产在线看| 国产高清国产精品国产三级| www日本在线高清视频| 精品人妻在线不人妻| 一级片免费观看大全| www.精华液| 一二三四在线观看免费中文在| 秋霞伦理黄片| 亚洲精品自拍成人| 久久综合国产亚洲精品| 日日啪夜夜爽| 成人毛片60女人毛片免费| 国产激情久久老熟女| 秋霞在线观看毛片| 欧美激情 高清一区二区三区| 2022亚洲国产成人精品| 欧美国产精品一级二级三级| 天堂俺去俺来也www色官网| 国产成人一区二区在线| 美女主播在线视频| 久久久久人妻精品一区果冻| 一级a爱视频在线免费观看| 熟女av电影| 爱豆传媒免费全集在线观看| 日本欧美国产在线视频| 欧美黄色片欧美黄色片| 亚洲成国产人片在线观看| 一级a爱视频在线免费观看| 九草在线视频观看| 日韩不卡一区二区三区视频在线| 人妻少妇偷人精品九色| 女人久久www免费人成看片| 亚洲精品国产一区二区精华液| 女的被弄到高潮叫床怎么办| 美女视频免费永久观看网站| 如何舔出高潮| 中文字幕另类日韩欧美亚洲嫩草| 国产视频首页在线观看| 久热久热在线精品观看| 精品酒店卫生间| 日韩大片免费观看网站| 国产综合精华液| 亚洲伊人久久精品综合| av电影中文网址| 天天影视国产精品| 精品福利永久在线观看| av又黄又爽大尺度在线免费看| 我要看黄色一级片免费的| 99久久人妻综合| 国产白丝娇喘喷水9色精品| 观看av在线不卡| 日本av手机在线免费观看| 在线观看www视频免费| 看免费成人av毛片| 亚洲美女视频黄频| 日日摸夜夜添夜夜爱| 久久久国产欧美日韩av| 天堂中文最新版在线下载| 国产人伦9x9x在线观看 | 国产精品久久久av美女十八| 国产精品 国内视频| 丰满迷人的少妇在线观看| 2021少妇久久久久久久久久久| 精品人妻一区二区三区麻豆| 永久网站在线| av在线播放精品| 日韩欧美一区视频在线观看| 少妇被粗大猛烈的视频| 韩国高清视频一区二区三区| 永久网站在线| 午夜91福利影院| 国产探花极品一区二区| 国产精品欧美亚洲77777| 日日啪夜夜爽| 亚洲av国产av综合av卡| 亚洲四区av| 日本黄色日本黄色录像| 亚洲av福利一区| 老熟女久久久| 哪个播放器可以免费观看大片| 丝袜脚勾引网站| 丝袜美腿诱惑在线| 国产成人免费无遮挡视频| 国产午夜精品一二区理论片| 在线观看三级黄色| 亚洲av在线观看美女高潮| 黄片无遮挡物在线观看| 国产免费一区二区三区四区乱码| 中文字幕人妻丝袜一区二区 | 一级片'在线观看视频| 欧美成人精品欧美一级黄| 狠狠婷婷综合久久久久久88av| 又粗又硬又长又爽又黄的视频| 黄网站色视频无遮挡免费观看| 久久免费观看电影| 老司机影院成人| 色网站视频免费| 丰满乱子伦码专区| 免费少妇av软件| 日本wwww免费看| 天堂俺去俺来也www色官网| 久久99一区二区三区| 亚洲国产最新在线播放| 国产成人精品福利久久| 久久热在线av| 美女中出高潮动态图| 日本vs欧美在线观看视频| 免费看av在线观看网站| 日韩人妻精品一区2区三区| 咕卡用的链子| 亚洲国产日韩一区二区| av又黄又爽大尺度在线免费看| 777久久人妻少妇嫩草av网站| 热99久久久久精品小说推荐| 日韩中字成人| 性色avwww在线观看| 国产成人午夜福利电影在线观看| 国产精品.久久久| 999精品在线视频| 在线天堂中文资源库| 精品久久久久久电影网| 一本久久精品| 精品少妇黑人巨大在线播放| 国产国语露脸激情在线看| 国产精品欧美亚洲77777| 麻豆精品久久久久久蜜桃| 大香蕉久久网| 国产男人的电影天堂91| 秋霞在线观看毛片| 国产成人精品福利久久| 欧美中文综合在线视频| 久久人人97超碰香蕉20202| 久久99一区二区三区| 欧美少妇被猛烈插入视频| 香蕉精品网在线| 中文字幕另类日韩欧美亚洲嫩草| www.熟女人妻精品国产| 女的被弄到高潮叫床怎么办| 免费观看av网站的网址| av一本久久久久| 丝瓜视频免费看黄片| 1024视频免费在线观看| 啦啦啦视频在线资源免费观看| www.自偷自拍.com| 国产成人精品久久久久久| 丰满迷人的少妇在线观看| 十八禁高潮呻吟视频| 国产精品国产三级专区第一集| 9191精品国产免费久久| 午夜免费观看性视频| 国产麻豆69| 一边摸一边做爽爽视频免费| 久久久久精品人妻al黑| 国产一区亚洲一区在线观看| 人妻系列 视频| 人妻一区二区av| 色婷婷av一区二区三区视频| 在现免费观看毛片| 欧美+日韩+精品| 国产精品秋霞免费鲁丝片| 丝袜美足系列| 秋霞伦理黄片| 日本色播在线视频| 亚洲精品国产av成人精品| 日韩,欧美,国产一区二区三区| 日本vs欧美在线观看视频| 三级国产精品片| 夫妻性生交免费视频一级片| av免费在线看不卡| av女优亚洲男人天堂| 国产精品二区激情视频| 亚洲欧美成人综合另类久久久| 99久久精品国产国产毛片| 伦精品一区二区三区| av福利片在线| 日韩成人av中文字幕在线观看| 午夜影院在线不卡| 免费人妻精品一区二区三区视频| 精品第一国产精品| 免费黄频网站在线观看国产| 纵有疾风起免费观看全集完整版| 成人漫画全彩无遮挡| 超碰97精品在线观看| 夫妻性生交免费视频一级片| 成人国语在线视频| 亚洲五月色婷婷综合| 精品酒店卫生间| 婷婷成人精品国产| 精品人妻偷拍中文字幕| av在线播放精品| 巨乳人妻的诱惑在线观看| 国产精品亚洲av一区麻豆 | 午夜激情久久久久久久| 另类精品久久| 成年美女黄网站色视频大全免费| 久久国产亚洲av麻豆专区| 久久这里有精品视频免费| 又大又黄又爽视频免费| 亚洲欧美日韩另类电影网站| 91午夜精品亚洲一区二区三区| 亚洲国产色片| 国产av精品麻豆| 亚洲欧美一区二区三区久久| 午夜福利在线免费观看网站| 亚洲精品久久午夜乱码| 久久毛片免费看一区二区三区| 中文字幕色久视频| 久久精品国产亚洲av天美| 久久99精品国语久久久| 欧美日韩av久久| 亚洲一码二码三码区别大吗| 99久久综合免费| 国产在线视频一区二区| 亚洲国产精品一区三区| 秋霞伦理黄片| 熟女少妇亚洲综合色aaa.| 老女人水多毛片| 日韩一卡2卡3卡4卡2021年| 欧美成人午夜精品| 伊人亚洲综合成人网| www日本在线高清视频| 免费观看av网站的网址| 久久午夜福利片| 看十八女毛片水多多多| 亚洲精品av麻豆狂野| 国产精品二区激情视频| 9色porny在线观看| 欧美老熟妇乱子伦牲交| 久久ye,这里只有精品| 另类亚洲欧美激情| www.熟女人妻精品国产| 考比视频在线观看| 日韩av免费高清视频| 国产又爽黄色视频| 777米奇影视久久| 天天影视国产精品| 中文字幕色久视频| 亚洲国产毛片av蜜桃av| 一本—道久久a久久精品蜜桃钙片| 日日啪夜夜爽| 桃花免费在线播放| 男女午夜视频在线观看| 成人国产av品久久久| 国产国语露脸激情在线看| 日韩中文字幕欧美一区二区 | 热re99久久精品国产66热6| 亚洲精品久久久久久婷婷小说| 少妇熟女欧美另类| 亚洲精品,欧美精品| 免费看av在线观看网站| 成人黄色视频免费在线看| 香蕉精品网在线| 国产欧美日韩综合在线一区二区| 久久久久久人妻| 一区二区av电影网| 国产日韩欧美亚洲二区| 亚洲精品乱久久久久久| 美女午夜性视频免费| 多毛熟女@视频|