• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于自然標(biāo)注信息和隱含主題模型的無(wú)監(jiān)督文本特征抽取

    2015-06-09 23:45:58饒高琦于東荀恩東
    中文信息學(xué)報(bào) 2015年6期
    關(guān)鍵詞:詞表語(yǔ)塊術(shù)語(yǔ)

    饒高琦,于東,荀恩東

    (1. 北京語(yǔ)言大學(xué) 大數(shù)據(jù)與語(yǔ)言教育研究所,北京 100083; 2.中國(guó)語(yǔ)言政策與標(biāo)準(zhǔn)研究所,北京 100083)

    ?

    基于自然標(biāo)注信息和隱含主題模型的無(wú)監(jiān)督文本特征抽取

    饒高琦1,2,于東1,荀恩東1

    (1. 北京語(yǔ)言大學(xué) 大數(shù)據(jù)與語(yǔ)言教育研究所,北京 100083; 2.中國(guó)語(yǔ)言政策與標(biāo)準(zhǔn)研究所,北京 100083)

    術(shù)語(yǔ)和慣用短語(yǔ)可以體現(xiàn)文本特征。無(wú)監(jiān)督的抽取特征詞語(yǔ)對(duì)諸多自然語(yǔ)言處理工作起到支持作用。該文提出了“聚類(lèi)-驗(yàn)證”過(guò)程,使用主題模型對(duì)文本中的字符進(jìn)行聚類(lèi),并采用自然標(biāo)注信息對(duì)提取出的字符串進(jìn)行驗(yàn)證和過(guò)濾,從而實(shí)現(xiàn)了從未分詞領(lǐng)域語(yǔ)料中無(wú)監(jiān)督獲得詞語(yǔ)表的方法。通過(guò)優(yōu)化和過(guò)濾,我們可以進(jìn)一步獲得了富含有術(shù)語(yǔ)信息和特征短語(yǔ)的高置信度特征詞表。在對(duì)計(jì)算機(jī)科學(xué)等六類(lèi)不同領(lǐng)域語(yǔ)料的實(shí)驗(yàn)中,該方法抽取的特征詞表具有較好的文體區(qū)分度和領(lǐng)域區(qū)分度。

    自然標(biāo)注信息;自然語(yǔ)塊;隱含主題模型;領(lǐng)域特征;文體特征

    1 引言

    文本特征可以從兩個(gè)方面得到體現(xiàn):領(lǐng)域性和文體性。前者通過(guò)術(shù)語(yǔ)的形式得到體現(xiàn),而后者往往以慣用短語(yǔ)的方式出現(xiàn)。本文統(tǒng)稱(chēng)這兩者為特征詞語(yǔ)。對(duì)于自然語(yǔ)言處理而言,以詞和短語(yǔ)形式體現(xiàn)出的文本特征,可以對(duì)分詞、文本分類(lèi)和自動(dòng)文摘等諸多自然語(yǔ)言處理工作提供支持。

    當(dāng)前刻畫(huà)文本特征的思想多來(lái)源于BOW(Bag of Words)模型或其變種,如帶有領(lǐng)域詞典的特征袋BOF模型[1],使用加入命名實(shí)體描寫(xiě)的FLIC[2],帶有短語(yǔ)與N-gram描寫(xiě)的STC[3]和利用詞間關(guān)系進(jìn)行描寫(xiě)[4]等。它們大多在自建或通用測(cè)試集上達(dá)到了80%~95%的精確率。但是注意到現(xiàn)有的方法都以詞項(xiàng)為語(yǔ)義的承載單元,因而過(guò)分依賴(lài)于分詞和命名實(shí)體識(shí)別所提供的信息。中文分詞雖然在通用語(yǔ)料上取得了較大進(jìn)步,但在領(lǐng)域性較強(qiáng)的語(yǔ)料中,以術(shù)語(yǔ)為代表的未登錄詞依然是分詞F值失落的重要原因。并且領(lǐng)域語(yǔ)料的標(biāo)注語(yǔ)料十分稀少,訓(xùn)練十分困難。有些領(lǐng)域甚至連生語(yǔ)料也較難收集。基于以上困難,本文提出了一種無(wú)需分詞與命名實(shí)體信息的無(wú)監(jiān)督特征抽取方法,對(duì)面向領(lǐng)域語(yǔ)料的自然語(yǔ)言處理具有重要的價(jià)值。

    自然標(biāo)注信息(Natural Annotation)來(lái)自于語(yǔ)料本身,本質(zhì)上是語(yǔ)言使用者提供的一種原始眾包標(biāo)注。在海量語(yǔ)料中對(duì)自然標(biāo)注信息進(jìn)行挖掘和獲取幾乎不需要標(biāo)注語(yǔ)料,也極少需要先驗(yàn)知識(shí),但需要大量訓(xùn)練語(yǔ)料。我們注意到以LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)模型為代表的主題模型具有較好的無(wú)監(jiān)督聚類(lèi)功能,可以對(duì)詞語(yǔ)間的隱含語(yǔ)義關(guān)系進(jìn)行描述。我們利用這一特點(diǎn)對(duì)文本內(nèi)容進(jìn)行事先聚類(lèi),可以有效地克服自然標(biāo)注信息需要海量訓(xùn)練語(yǔ)料的缺陷,將自然標(biāo)注信息的使用大大“輕量化”,使特征詞語(yǔ)的整個(gè)抽取過(guò)程可以在較小規(guī)模語(yǔ)料上完成。所以本文將主題建模和自然標(biāo)注信息相結(jié)合,提出了“聚類(lèi)-驗(yàn)證(Cluster-Verification)”方法,以較少的信息注入在小規(guī)模語(yǔ)料上獲取文本的領(lǐng)域特征和文體特征。不同于以往的研究,本文方法不需要分詞和命名實(shí)體信息。而且,其提取的特征并不拘泥于傳統(tǒng)意義上詞的范疇,而與閱讀直覺(jué)更加相符。

    本文的組織結(jié)構(gòu)如下,第二節(jié)簡(jiǎn)述本文的工作基礎(chǔ)即LDA模型和自然標(biāo)注信息;第三節(jié)介紹基于LDA和自然標(biāo)注信息的無(wú)監(jiān)督“聚類(lèi)-驗(yàn)證”方法;第四節(jié)將描述在計(jì)算機(jī)領(lǐng)域語(yǔ)料和環(huán)境、金融等其余五類(lèi)領(lǐng)域語(yǔ)料上的實(shí)驗(yàn)和結(jié)果;第五節(jié)中,本文討論特征詞表的領(lǐng)域區(qū)分度和文體區(qū)分度,并描述了實(shí)驗(yàn)中出現(xiàn)的一種術(shù)語(yǔ)“生長(zhǎng)現(xiàn)象”,第六節(jié)是結(jié)論和未來(lái)的工作。

    2 工作基礎(chǔ)

    2.1 隱含主題模型

    LDA模型最早由Blei、Ng和Jordan在2003年提出[5],用以發(fā)掘文本中的隱含主題。LDA模型是一種完全的生成模型,其假設(shè)一個(gè)文本集中存在以狄利克雷分布為先驗(yàn)的隱含主題分布,而對(duì)于任一主題也存在一個(gè)隱含的詞選擇分布。它的概率圖表示如圖1所示,M為文檔集中的文檔數(shù)目,N為文檔中的詞數(shù)。整個(gè)過(guò)程中的外顯參數(shù)為詞w和超參數(shù)α與β。其經(jīng)驗(yàn)性的選擇一般為α=50/T,β=0.01,T為主題個(gè)數(shù)。

    圖1 隱含主題模型LDA的概率圖表示

    2004年,Griffiths與Steyvers[6]開(kāi)始采用吉布斯采樣(Gibbs Sampling)學(xué)習(xí)LDA模型。本文使用的工具也采用了該采樣方法。

    2.2 自然標(biāo)注信息

    自然標(biāo)注信息的概念來(lái)自互聯(lián)網(wǎng)應(yīng)用中的用戶(hù)生成信息(User Generated Content)。它作為一個(gè)概念最早由孫茂松在2011年提出[7],用以從海量互聯(lián)網(wǎng)數(shù)據(jù)中提取對(duì)自然語(yǔ)言處理可用的信息。其后饒高琦和黃志娥[8-9]將其發(fā)展,用于無(wú)監(jiān)督發(fā)掘語(yǔ)料庫(kù)中的詞匯信息。不少學(xué)者也在中文分詞和博客信息挖掘中使用自然標(biāo)注信息進(jìn)行嘗試[10-12]。近幾年,關(guān)于自然標(biāo)注信息的研究日益廣泛,逐漸擴(kuò)展到信息檢索[13]、社會(huì)計(jì)算[14]、情感分析[15]、信息抽取[16]。但總體而言,該領(lǐng)域的研究都需要較大的訓(xùn)練語(yǔ)料,并且方法仍處于起步階段。

    人類(lèi)語(yǔ)言中蘊(yùn)含有豐富的自然標(biāo)注信息,其中以標(biāo)點(diǎn)符號(hào)為代表的顯性自然標(biāo)注信息對(duì)詞邊界的探測(cè)具有重要意義。如式(1)所示,Pi為一處自然標(biāo)注(如標(biāo)點(diǎn)符號(hào)),如果其在中文里絕不與其他符號(hào)構(gòu)成詞,則其自身就形成了一處天然的詞邊界。

    饒高琦[8]的工作發(fā)現(xiàn),大規(guī)模語(yǔ)料中僅通過(guò)顯性自然標(biāo)注信息(主要包括標(biāo)點(diǎn)符號(hào)、拉丁字母和阿拉伯?dāng)?shù)字)對(duì)字符串進(jìn)行切分就可以獲得《現(xiàn)代漢語(yǔ)詞典》中幾乎所有的詞項(xiàng)。僅使用1998年《人民日?qǐng)?bào)》的語(yǔ)料進(jìn)行切分也可以獲得現(xiàn)漢87.84%的詞項(xiàng)。這樣出現(xiàn)在顯性自然標(biāo)注信息之間的漢字字符串被稱(chēng)作“自然語(yǔ)塊”(Natural Chunk),其邊界是詞邊界的子集。

    基于此,本文假設(shè)在領(lǐng)域語(yǔ)料中通過(guò)自然標(biāo)注信息對(duì)字符串的切分也可以無(wú)監(jiān)督的獲得具有領(lǐng)域性的詞語(yǔ)或語(yǔ)塊。本文使用了來(lái)自2002年《計(jì)算機(jī)學(xué)報(bào)》的文本220篇。將標(biāo)點(diǎn)符號(hào)、運(yùn)算符號(hào)、拉丁字母和阿拉伯?dāng)?shù)字視作標(biāo)記詞邊界的自然標(biāo)注信息,并替換為標(biāo)記‘SPACE’。這樣整個(gè)語(yǔ)料僅存留漢字字符和‘SPACE’標(biāo)記(替換后約217萬(wàn)字)。將由此形成的自然語(yǔ)塊進(jìn)行統(tǒng)計(jì)可以獲得結(jié)果如表1所示。

    表1 計(jì)算機(jī)科學(xué)語(yǔ)料上的自然語(yǔ)塊舉例

    續(xù)表

    自然語(yǔ)塊頻次語(yǔ)塊頻次自然語(yǔ)塊頻次一847因此485若458在630則481與449………………國(guó)家自然科學(xué)基金94計(jì)算機(jī)學(xué)報(bào)58中國(guó)科學(xué)院計(jì)算技術(shù)研究所38

    由表1可注意到,由自然標(biāo)注信息標(biāo)識(shí)的詞邊界具有很高的正確率。饒和黃都報(bào)告了由顯示自然標(biāo)注信息而來(lái)的詞邊界識(shí)別在通用語(yǔ)料上具有較高正確率[8-9]。而在本文所使用的計(jì)算機(jī)科學(xué)領(lǐng)域語(yǔ)料中,顯示標(biāo)注信息和漢字字符結(jié)合成詞的現(xiàn)象同樣少見(jiàn)。少量例外現(xiàn)象多為如“χ2檢驗(yàn)”這樣處于半譯寫(xiě)狀態(tài)的外來(lái)術(shù)語(yǔ)。

    原始語(yǔ)料在加入標(biāo)點(diǎn)符號(hào)和拉丁字母的自然標(biāo)注信息后形成加工語(yǔ)料。但是從上表所示的現(xiàn)象中還可以注意到,該抽取結(jié)果并不能體現(xiàn)出其作為科技論文的文體特征。另一方面在領(lǐng)域特性上,語(yǔ)塊頻次也無(wú)法顯示其作為計(jì)算機(jī)語(yǔ)料的領(lǐng)域特性,排位最高的術(shù)語(yǔ)僅占到第80位。其他技術(shù)性術(shù)語(yǔ)排名更加靠后。其原因在于文本所具有的領(lǐng)域性并不完全由字詞的頻次體現(xiàn)。領(lǐng)域性的短語(yǔ)和詞匯往往隱藏在文本所述的眾多主題之中。因此有必要使用主題建模的方法對(duì)文本進(jìn)行加工。

    3 “聚類(lèi)-驗(yàn)證”方法

    3.1 LDA聚類(lèi)方法

    本文假設(shè)如果一個(gè)字符串可以形成穩(wěn)定使用的詞或慣用短語(yǔ),則其內(nèi)部成分(字或字組)出現(xiàn)的相對(duì)位置,上下文環(huán)境,甚至概率都趨于相近。又因?yàn)榉€(wěn)定使用的詞(或短語(yǔ))的子串共同參與了該詞(或短語(yǔ))的語(yǔ)義表達(dá),則它們也傾向于出現(xiàn)在同一個(gè)主題之中。基于統(tǒng)計(jì)方法的主題建模通常以詞簇來(lái)表現(xiàn)主題。在只存在字符邊界(沒(méi)有分詞信息)和顯性自然標(biāo)注信息的語(yǔ)料中,構(gòu)成一個(gè)詞(或短語(yǔ))的字(或字組),也傾向于被LDA模型聚類(lèi)別同一主題內(nèi),如圖2所示。

    0號(hào)主題:型?;暮?jiǎn)細(xì)存原表簇角頂三們外量向二我1號(hào)主題:概的念格所而則更應(yīng)了及稱(chēng)被本某名前當(dāng)優(yōu)2號(hào)主題:信息中據(jù)來(lái)獲確基的對(duì)相地是通部標(biāo)首目三3號(hào)主題:存儲(chǔ)問(wèn)訪一之和方共享可為表沖完執(zhí)指比或圖2 無(wú)詞邊界語(yǔ)料上的LDA聚類(lèi)結(jié)果舉例

    形成上例的語(yǔ)料為《計(jì)算機(jī)學(xué)報(bào)》生語(yǔ)料,標(biāo)點(diǎn)符號(hào)為停用詞,處理單元是漢字,參數(shù)為α=0.23,β=0.01,迭代次數(shù)1 000。注意到,雖然LDA模型在生語(yǔ)料上體現(xiàn)出了較好的字聚類(lèi)性能,但是構(gòu)成某詞語(yǔ)的漢字也可能構(gòu)成其他主題的其它詞語(yǔ),因此一個(gè)詞的內(nèi)部構(gòu)件間的概率并非完全相等。加之LDA模型的隨機(jī)采樣方法,這些都決定了一個(gè)主題雖傾向于包含構(gòu)成一個(gè)詞的眾多子串,但其相對(duì)位置和詞內(nèi)原來(lái)的字序很少相同。對(duì)此,本文選取每個(gè)主題中出現(xiàn)概率最高的N個(gè)字,對(duì)其進(jìn)行N x N的兩兩匹配,形成每個(gè)主題的候選詞集S。又因?yàn)樽匀粯?biāo)注信息標(biāo)記詞邊界具有高正確率的特性。我們使用它對(duì)S中的成員進(jìn)行過(guò)濾和確認(rèn),經(jīng)過(guò)優(yōu)化打分(即自然標(biāo)注信息的驗(yàn)證過(guò)程)之后形成篩選詞表。

    在生語(yǔ)料中,經(jīng)過(guò)一次主題成員的兩兩匹配,所獲得的候選詞顯然都是二字串。我們選取其中高置信度的成員,回標(biāo)原始語(yǔ)料,從而增加原始語(yǔ)料內(nèi)的詞邊界信息,以形成結(jié)構(gòu)更加豐富的“字-詞”混合語(yǔ)料。這一過(guò)程改變了LDA的聚類(lèi)對(duì)象和概率空間,使得主題成員得到改變,從而再進(jìn)行下一輪迭代后,獲取更多特征詞語(yǔ)。

    3.2 自然標(biāo)注信息驗(yàn)證過(guò)程

    對(duì)LDA聚類(lèi)產(chǎn)生的候選詞表S中的成員,我們可以使用其在原始語(yǔ)料中與自然標(biāo)注信息的相對(duì)位置來(lái)判斷其成為詞(或短語(yǔ))的可能性。因?yàn)楸竟ぷ鞑捎昧孙@性的自然標(biāo)注信息如標(biāo)點(diǎn)符號(hào)和數(shù)字。它們直接表達(dá)了作者的切分意圖。在語(yǔ)料中,自然標(biāo)注信息被替換為‘SPACE’符號(hào)。兩個(gè)‘SPACE’標(biāo)記之間的字符串(自然語(yǔ)塊)Ci+1……Ci+n可以被認(rèn)為是一個(gè)獨(dú)立單元,其左右邊界為詞邊界。它未必是語(yǔ)言學(xué)上的詞,然而語(yǔ)塊Ci+1……Ci+n與語(yǔ)言學(xué)上的詞Word之間必然存在如下四種包含關(guān)系,如式(2)~式(5)所示。

    即Word與自然語(yǔ)塊的兩個(gè)邊界同時(shí)鄰接(式(2),Word等于語(yǔ)塊本身),與自然語(yǔ)塊左邊界鄰接(如式(3)),與自然語(yǔ)塊右邊界鄰接(如式(4))和成為自然語(yǔ)塊的子串(如式(5))。

    對(duì)于待驗(yàn)證的詞(或短語(yǔ)),其是否穩(wěn)定使用則可以用其在原始語(yǔ)料中出現(xiàn)四種蘊(yùn)含關(guān)系的頻次來(lái)衡量。因此使用式(6)來(lái)對(duì)候選詞集成員打分。

    Score=λbfb+λs(fl+fr)+λnfn

    (6)

    Score為候選詞集成員成為一個(gè)穩(wěn)定使用詞的可能性打分,λb、λs、λn是四種蘊(yùn)含狀況所占有的權(quán)重。當(dāng)一個(gè)候選詞Word首尾與自然語(yǔ)塊一致,都是詞邊界的時(shí)候,其成為一個(gè)語(yǔ)言學(xué)上的詞的可能性最大。我們樸素地認(rèn)為左鄰接與右鄰接的權(quán)重相等,且略小于兩側(cè)鄰接的權(quán)重。考慮到使用語(yǔ)料的規(guī)模較小,有很多詞沒(méi)有機(jī)會(huì)出現(xiàn)在含有自然標(biāo)注信息的上下文中,因此其在單純漢字字符上下文中出現(xiàn)的頻率也應(yīng)被考慮。所以式(6)的參數(shù)有λb>λs>λn,且λb+2λs+λn=1的關(guān)系。

    候選詞表成員經(jīng)過(guò)打分排序,形成重排過(guò)濾詞表S_f。本文利用該詞表,使用最大正向分詞方法,對(duì)語(yǔ)料進(jìn)行回標(biāo),使得原始語(yǔ)料的結(jié)構(gòu)得到改變,詞邊界更加豐富,進(jìn)而優(yōu)化下一輪迭代中的聚類(lèi)結(jié)果。整個(gè)聚類(lèi)-驗(yàn)證的迭代過(guò)程如圖3所示。

    審計(jì)委員會(huì)特征與審計(jì)費(fèi)用相關(guān)性的實(shí)證研究 ……………………………………………………………………… 陳 丹(3/32)

    圖3 聚類(lèi)-驗(yàn)證方法的工作流程

    4 實(shí)驗(yàn)

    4.1 自然標(biāo)注信息的注入

    本文選取了來(lái)自2002年《計(jì)算機(jī)學(xué)報(bào)》的文本220篇,漢字字符約217萬(wàn)個(gè)。將標(biāo)點(diǎn)符號(hào)、運(yùn)算符號(hào)、拉丁字母和阿拉伯?dāng)?shù)字等顯性自然標(biāo)注信息替換為標(biāo)記‘SPACE’后(語(yǔ)料樣例見(jiàn)圖4),共形成自然語(yǔ)塊87 348個(gè)(舉例見(jiàn)表1)。

    SPACE在處理器內(nèi)部有SPACE個(gè)開(kāi)關(guān)控制這SPACE個(gè)端口之間的連接關(guān)系SPACE如圖SPACE所示SPACE這SPACE個(gè)端口之間共有SPACE種連接方式SPACE如圖SPACE所示SPACE處理器內(nèi)部的這些開(kāi)關(guān)可以在算法的執(zhí)行過(guò)程中動(dòng)態(tài)地置成開(kāi)或關(guān)SPACE從而將整根總線分成一些相互獨(dú)立的子總線SPACE圖4 引入顯性自然標(biāo)注信息后的原始語(yǔ)料舉例

    本文使用馬薩諸塞大學(xué)的開(kāi)源工具M(jìn)allet實(shí)現(xiàn)LDA模型[17],并根據(jù)經(jīng)驗(yàn)選擇主題數(shù)目為220個(gè),α=50/220,β=0.01,迭代次數(shù)1 000。第一輪主題訓(xùn)練結(jié)果的舉例見(jiàn)圖2。對(duì)每個(gè)主題我們選取出現(xiàn)概率最高的20個(gè)字進(jìn)行N x N組合,形成每個(gè)主題的候選詞集S。在自然標(biāo)注信息驗(yàn)證過(guò)程中,使用式(6)打分。并在參數(shù)約束條件下,根據(jù)經(jīng)驗(yàn)選取了λb=0.5, λs=0.2, λn=0.1。

    第一次迭代共得到候選詞4 708個(gè),得分最高的15個(gè)如表2所示。因?yàn)樵颊Z(yǔ)料沒(méi)有詞邊界,則聚類(lèi)對(duì)象均為單字,故得到的候選詞都是二字詞。

    表2 過(guò)濾重排詞表中打分前十五的詞語(yǔ)舉例

    與表1相比,其對(duì)領(lǐng)域性的表達(dá)得到了較大增強(qiáng)。如果將單字詞的組合視作詞組,也判為抽取正確(因?yàn)槠洳⑽创蚱圃~邊界),得分最高的600個(gè)候選詞中正確率為92.7%。

    并且注意到600個(gè)候選詞中44個(gè)錯(cuò)例里有43個(gè)是和“的”字的組合,如“的對(duì)”、“的數(shù)”、“義的”等。出現(xiàn)這一現(xiàn)象的原因在于“的”字是現(xiàn)代漢語(yǔ)各類(lèi)語(yǔ)料中出現(xiàn)頻率最高的漢字。雖然很少與顯性自然標(biāo)注信息鄰接出現(xiàn),但是其自身過(guò)高的頻率也拉高了它和自己鄰接漢字組成的候選詞的得分??梢杂^察到,“的”字組合錯(cuò)例中的另一個(gè)字都是計(jì)算機(jī)領(lǐng)域中高頻詞的首字或末字,如“的對(duì)(話(huà)、象)”和“的網(wǎng)(絡(luò)、關(guān)、口、端、卡)”等。

    “的”、“著”、“也”、“是”與“和”等在自然標(biāo)注信息的研究中通常被稱(chēng)作隱性自然標(biāo)注信息[8]。本文參考了饒?jiān)诖笠?guī)模通用語(yǔ)料中的統(tǒng)計(jì)結(jié)果,從選取詞邊界標(biāo)記置信度較高的隱性自然標(biāo)注信息11個(gè)*′是′,′和′,′的′,′也′,′著′,′與′,′個(gè)′,′在′,′之′,′有′,′為′,對(duì)候選詞集S進(jìn)行過(guò)濾,大大地提升了正確率(99.8%)。并且為了在語(yǔ)料回標(biāo)過(guò)程中減少交搭型歧義的出現(xiàn),我們將詞語(yǔ)長(zhǎng)度加入打分公式以獲得更長(zhǎng)的切分單元。修正后公式如式(7)所示。

    Score′ =Length(Word)*Score

    (7)

    4.2 迭代實(shí)驗(yàn)

    在處理器內(nèi)部有SPACE個(gè)開(kāi)關(guān)控制這SPACE個(gè)端口之間的連接關(guān)系SPACE如圖SPACE所示SPACE這SPACE個(gè)端口之間共有SPACE種連接方式SPACE如圖SPACE所示SPACE處理器內(nèi)部的這些開(kāi)關(guān)可以在算法的執(zhí)行過(guò)程中動(dòng)態(tài)地置成開(kāi)或關(guān)SPACE從而將整根總線分成一些相互獨(dú)立的子總線SPACE圖5 第二輪迭代后回標(biāo)形成的語(yǔ)料樣例

    對(duì)重新注入過(guò)自然標(biāo)注信息的語(yǔ)料進(jìn)行新一輪的迭代。

    隨著自然標(biāo)注信息的注入,原始語(yǔ)料的邊界信息更加豐富。抽取出的“總詞表”規(guī)模隨迭代次數(shù)明顯增長(zhǎng)(圖6)。原始語(yǔ)料的字表規(guī)模為2 495個(gè),即語(yǔ)料共使用漢字2 494種。在第20次迭代后詞表規(guī)模則達(dá)到5 376個(gè)。

    圖6 重排過(guò)濾詞表的規(guī)模隨迭代次數(shù)的變化

    通用詞語(yǔ)的領(lǐng)域性和文體性特征均不明顯。因此為了進(jìn)一步提高重排過(guò)濾詞表中術(shù)語(yǔ)和特征詞組所占的比例,降低通用詞語(yǔ)的排名,本文使用了1998年1月的《人民日?qǐng)?bào)》所生成的詞表對(duì)重排過(guò)濾詞表進(jìn)行剪枝。在諸次迭代所產(chǎn)生的詞表中,剪枝率為5.2%~21.3%。

    表3、表4和圖7—圖9分別為在計(jì)算機(jī)領(lǐng)域語(yǔ)料上迭代20次過(guò)程中,特征詞表、通用詞、術(shù)語(yǔ)、特征短語(yǔ)和抽取規(guī)模的變化。還可以看到詞表正確率(既抽取出的字符串是詞或詞組,下同)基本穩(wěn)定,術(shù)語(yǔ)和短語(yǔ)數(shù)量穩(wěn)步上升。術(shù)語(yǔ)比例在七次迭代前后收斂。表5為第九次迭代時(shí)抽取結(jié)果的舉例??梢钥吹匠槿〕龅脑~項(xiàng)由短語(yǔ)(如“本算法”、“我們采用”)和術(shù)語(yǔ)(如“數(shù)字音頻信號(hào)”、“軟件體系結(jié)構(gòu)”)構(gòu)成。在第五部分中我們將對(duì)短語(yǔ)和術(shù)語(yǔ)分別進(jìn)行分析。類(lèi)似的,本文也在其他領(lǐng)域語(yǔ)料上進(jìn)行了相同的實(shí)驗(yàn)。表6為在環(huán)境科學(xué)、金融學(xué)、醫(yī)學(xué)和土木工程四個(gè)領(lǐng)域各選取期刊論文100篇,迭代九次后的結(jié)果。它們與在計(jì)算機(jī)科學(xué)語(yǔ)料上第九次迭代后的結(jié)果具有可比性。

    表3 抽取詞數(shù)和通用詞比例

    表4 特征詞表中術(shù)語(yǔ)比例和特征短語(yǔ)比例

    圖7 短語(yǔ)數(shù)量隨迭代次數(shù)變化(橫軸為迭代輪數(shù),主縱軸為詞數(shù),副縱為短語(yǔ)正確率)

    圖8 術(shù)語(yǔ)數(shù)量隨迭代次數(shù)變化(橫軸為迭代輪數(shù),主縱軸為詞數(shù),副縱為術(shù)語(yǔ)正確率)

    圖9 特征詞表規(guī)模與正確率(橫軸為迭代輪數(shù),主縱軸為詞數(shù),副縱為詞語(yǔ)正確率)

    表5 計(jì)算機(jī)學(xué)報(bào)語(yǔ)料下第九次迭代打分前二十詞舉例

    表6 在非計(jì)算機(jī)領(lǐng)域語(yǔ)料上的迭代實(shí)驗(yàn)結(jié)果

    5 實(shí)驗(yàn)分析和討論

    5.1 領(lǐng)域區(qū)分度

    通過(guò)觀察不同語(yǔ)料中特征詞表,我們驗(yàn)證了特征詞表和術(shù)語(yǔ)對(duì)領(lǐng)域性充分刻畫(huà)的性能。如表7所示,學(xué)科間的差異通過(guò)詞表重合率得到較好體現(xiàn)。如環(huán)境科學(xué)和醫(yī)學(xué)、計(jì)算機(jī)科學(xué)術(shù)語(yǔ)重合較多,和土木工程、金融重合很少,這符合一般直覺(jué)。這樣的差異是通過(guò)分詞詞表的比較無(wú)法獲得的。其中我們對(duì)語(yǔ)料分詞后,不同領(lǐng)域語(yǔ)料的最高頻1 000個(gè)詞(已去停用詞)形成的詞表之間的重合度遠(yuǎn)大于特征詞表(術(shù)語(yǔ)+慣用短語(yǔ))和其中術(shù)語(yǔ)的重合度且差異不大。這表明了抽取出的特征詞表對(duì)不同領(lǐng)域文本具有很強(qiáng)的區(qū)分度。

    表7 不同領(lǐng)域語(yǔ)料特征詞表中的術(shù)語(yǔ)重合度(每一個(gè)單元格中左欄為兩個(gè)領(lǐng)域分詞詞表中最高頻1000詞的重合比例,中欄為兩個(gè)領(lǐng)域所抽取特征詞語(yǔ)表的重合比例,右欄為兩個(gè)領(lǐng)域中所抽取術(shù)語(yǔ)的重合比例)

    環(huán)境科學(xué)金融醫(yī)學(xué)土木工程計(jì)算機(jī)科學(xué)環(huán)境科學(xué)1.32.085.003.38.092.093.44.098.048.36.136.115金融.32.072.0051.28.043.005.44.084.01.34.091.001醫(yī)學(xué).38.085.073.28.047.0031.33.059.005.28.13.068土木工程.44.087.035.32.088.005.33.056.0031.46.13.066計(jì)算機(jī)科學(xué).36.093.064.34.074.004.28.06.048.46.101.051

    5.2 特征短語(yǔ)與文體區(qū)分度

    對(duì)過(guò)濾后的特征詞表進(jìn)行標(biāo)注和統(tǒng)計(jì)可以觀察到隨著迭代次數(shù)的增加,詞表規(guī)模、術(shù)語(yǔ)和通用詞的絕對(duì)數(shù)量都在增加,整體正確率基本穩(wěn)定(圖7—圖9)。比例和絕對(duì)數(shù)量增長(zhǎng)最為明顯的是一類(lèi)“特征短語(yǔ)”。文體特征可以由這類(lèi)短語(yǔ)進(jìn)行刻畫(huà)。

    本文將特征短語(yǔ)分為兩類(lèi):術(shù)語(yǔ)增生而形成的和表示習(xí)慣用法的。如“服務(wù)器上”、“滿(mǎn)足約束條件”和“基于斐波那契數(shù)列”這樣的短語(yǔ)包含有術(shù)語(yǔ),屬于術(shù)語(yǔ)增生型,通常是術(shù)語(yǔ)和虛詞或動(dòng)詞的組合。這是隨著迭代次數(shù)增加,已形成的術(shù)語(yǔ)和高共現(xiàn)詞語(yǔ)組合構(gòu)成的。在特征短語(yǔ)中,術(shù)語(yǔ)增生而得的短語(yǔ)比例相對(duì)較少,而且集中于一些極高頻術(shù)語(yǔ)的周?chē)?,如“在算法”、“算法中”、“由算法”和“算法進(jìn)行”等,帶有較強(qiáng)的領(lǐng)域性。

    “一種基于”、“我們提出了”、“下面給出”和“如圖”等則屬于慣用短語(yǔ)。 對(duì)20次迭代后產(chǎn)生的短語(yǔ)進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn)18.9%的短語(yǔ)為術(shù)語(yǔ)增生型,慣用短語(yǔ)占81.1%。在學(xué)術(shù)期刊語(yǔ)料中,發(fā)現(xiàn)后者普遍體現(xiàn)了學(xué)術(shù)、技術(shù)寫(xiě)作的文體特點(diǎn)。由于上一部分實(shí)驗(yàn)中選取的五種語(yǔ)料均為科技論文,語(yǔ)體相同。本文以《圣經(jīng)》中記錄耶穌言行的馬太福音為語(yǔ)料進(jìn)行實(shí)驗(yàn)以進(jìn)行對(duì)比分析。結(jié)果發(fā)現(xiàn)與計(jì)算機(jī)科學(xué)語(yǔ)料短語(yǔ)的重合度僅為1.4%。圖10為兩者慣用短語(yǔ)的舉例。

    《計(jì)算機(jī)學(xué)報(bào)》本文采用當(dāng)且僅當(dāng)實(shí)驗(yàn)表明我們給出了定義如下《馬太福音》我告訴你們所以你們要記著說(shuō)不要怕他們回答說(shuō)

    圖10 馬太福音與計(jì)算機(jī)學(xué)報(bào)的特征短語(yǔ)舉例

    注意到,特征短語(yǔ)與陳文亮[1]的工作中所提出的特征關(guān)聯(lián)詞有一定的相似性,但它的粒度超過(guò)復(fù)合詞,多為短語(yǔ)。例如本文方法提取的“本文采用”比“本文”和“采用”兩個(gè)詞更能體現(xiàn)科技論文的文體性。因而文本特征中文體風(fēng)格這一特點(diǎn)可以由特征短語(yǔ)體現(xiàn)。

    5.3 復(fù)雜術(shù)語(yǔ)生長(zhǎng)

    在諸次迭代中,LDA聚類(lèi)后形成的主題由“字簇”變?yōu)椤白?詞簇”,并逐漸向“詞簇”變化(圖11為第三次迭代中LDA聚類(lèi)產(chǎn)生的簇)。類(lèi)似的,在候選詞表與后續(xù)的過(guò)濾重排詞表中,詞語(yǔ)長(zhǎng)度也在逐漸增長(zhǎng),呈現(xiàn)出一種生長(zhǎng)態(tài)勢(shì)。如上一部分提到的第一次迭代中的錯(cuò)例“務(wù)器”,在第二次迭代中就和“服”組合成為“服務(wù)器”?!熬W(wǎng)絡(luò)”是在第一次迭代中形成的二字術(shù)語(yǔ)。更長(zhǎng)的術(shù)語(yǔ)“服務(wù)器網(wǎng)絡(luò)”則在第17次迭代中出現(xiàn)。

    0號(hào)主題:的超頂點(diǎn)圖鄰中有最小量通分樹(shù)孔連矩陣含維次所相1號(hào)主題:區(qū)間值離散化概率屬性模型參數(shù)葉斯樣本學(xué)習(xí)貝數(shù)目合督處理數(shù)監(jiān)混2號(hào)主題:時(shí)間本次可新并復(fù)圖所重在及若將可以號(hào)結(jié)果多過(guò)3號(hào)主題:圖形相似尺寸幾何相似性特征識(shí)別圖中元素結(jié)構(gòu)約束對(duì)其性方法模式連接圖11 第三輪迭代中經(jīng)過(guò)LDA聚類(lèi)后的主題舉例

    又如“自組織隱馬爾可夫模型”這一復(fù)雜術(shù)語(yǔ),它的生長(zhǎng)過(guò)程如圖12所示,圖中數(shù)字為該字符串第一次出現(xiàn)時(shí)的迭代輪數(shù)。其中“自組織”和“模型”在語(yǔ)言學(xué)上都是該術(shù)語(yǔ)的子成分。而且它們很晚才發(fā)生組合。這是因?yàn)椤白越M織”和“模型”頻率很大,而且本身可以出現(xiàn)在大量的其他術(shù)語(yǔ)中,因而作為“自組織隱馬爾可夫模型”的組分不如其他組分(如“隱馬爾可夫”)的結(jié)合程度高。

    圖12 “自組織隱馬爾可夫模型”的生長(zhǎng)過(guò)程

    6 結(jié)論與展望

    本文提出了無(wú)監(jiān)督提取文本特征的“聚類(lèi)-驗(yàn)證”方法:使用隱含主題模型在領(lǐng)域語(yǔ)料中進(jìn)行無(wú)監(jiān)督聚類(lèi),并采用隱性和顯性的自然標(biāo)注信息對(duì)提取出的候選字串進(jìn)行驗(yàn)證,從而獲得特征詞表。統(tǒng)計(jì)顯示該詞表具有較高的正確率。通過(guò)對(duì)原始語(yǔ)料進(jìn)行回標(biāo),我們改變主題模型的概率空間和字詞分布。迭代多次后可以獲得較好體現(xiàn)語(yǔ)料領(lǐng)域特征和文體特征的詞語(yǔ)表。實(shí)驗(yàn)從217萬(wàn)字的計(jì)算機(jī)領(lǐng)域語(yǔ)料中獲得了可表征其領(lǐng)域特性和文體特征的詞語(yǔ)表,并在和環(huán)境、金融等語(yǔ)料上實(shí)驗(yàn)的比較中體現(xiàn)出了其領(lǐng)域性差異。我們還通過(guò)科技論文和《圣經(jīng)》語(yǔ)料對(duì)比的實(shí)驗(yàn)結(jié)果,驗(yàn)證了該方法對(duì)語(yǔ)體差異描寫(xiě)的有效性。

    本文方法使用主題模型對(duì)候選字符串進(jìn)行預(yù)聚類(lèi),有助于加速通過(guò)自然標(biāo)注信息發(fā)現(xiàn)詞語(yǔ)的過(guò)程。相較于以往自然標(biāo)注信息的使用方法,本方法所需訓(xùn)練語(yǔ)料少。全過(guò)程中待處理語(yǔ)料的信息注入僅限于顯性自然標(biāo)注信息(標(biāo)點(diǎn)符號(hào)、運(yùn)算符號(hào)、字母和數(shù)字)與11個(gè)隱性自然標(biāo)記,在過(guò)濾優(yōu)化過(guò)程中也僅使用了1998年1月人民日?qǐng)?bào)詞表。

    不同于以往的研究,該方法不需要分詞語(yǔ)料和命名實(shí)體信息。因而對(duì)缺乏資源的語(yǔ)種和語(yǔ)料處理具有較好的借鑒意義。然而本文只是無(wú)監(jiān)督聚類(lèi)和自然標(biāo)注信息相結(jié)合的一次嘗試。從表3的錯(cuò)例(如“出一”、“現(xiàn)了”)所代表的現(xiàn)象可以發(fā)現(xiàn),如果在實(shí)驗(yàn)過(guò)程中注入饒高琦[8]的隱性自然標(biāo)注信息將有助于效果的提升。

    本文方法在主題模型本身的優(yōu)化、求優(yōu)打分的調(diào)參和自然標(biāo)注信息的靈活應(yīng)用等方面都有待未來(lái)更深入的研究。在詞語(yǔ)生長(zhǎng)這一現(xiàn)象中,如何使用不同無(wú)監(jiān)督學(xué)習(xí)策略來(lái)控制和發(fā)掘詞語(yǔ)的組分和生長(zhǎng)過(guò)程,將對(duì)更深入的研究構(gòu)詞,實(shí)現(xiàn)詞法自動(dòng)分析帶來(lái)巨大幫助。

    [1] 陳文亮, 朱靖波, 朱慕華, 姚天順. 基于領(lǐng)域詞典的文本特征表示[J]. 計(jì)算機(jī)研究與發(fā)展, 2006, 42(12):2154-2160.

    [2] 趙世奇, 劉挺, 李生. 一種基于主題的文本聚類(lèi)方法[J]. 中文信息學(xué)報(bào), 2007, 21(2):59-62.

    [3] Zamir O and Etzioni O. Web Document Clustering: A Feasibility Demonstration [C]//Proceedings of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 1998). Melbourne, Australia, 1998:46-54.

    [4] 吳雙, 張文生, 徐海瑞. 基于詞間關(guān)系分析的文本特征選擇算法[J]. 計(jì)算機(jī)工程與科學(xué), 2012, 34(6):140-145.

    [5] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3:993-1022.

    [6] Griffiths T L, Steyvers M. Finding scientific topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101 (Suppl 1):5228-5235.

    [7] 孫茂松: 基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語(yǔ)言處理[J]. 中文信息學(xué)報(bào), 2011, 25(6):26-32.

    [8] 饒高琦, 修馳, 荀恩東. 語(yǔ)料庫(kù)自然標(biāo)注信息與中文分詞應(yīng)用研究[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 49(1):140-146

    [9] Huang Z E, Xun E D, Rao G Q, et al. Chinese Natural Chunk Research Based on Natural Annotations in Massive Scale Corpora [C]//Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data. Springer Berlin Heidelberg, 2013:13-24.

    [10] Zhongguo Li, Maosong Sun. Punctuation as Implicit Annotations for Chinese Word Segmentation [J]. Computational Linguistics, 2009, 35(4):505-512.

    [11] Si X, Liu Z, Sun M. Modeling Social Annotations via Latent Reason Identification [J]. Intelligent Systems IEEE, 2010, 25(6):42-49.

    [12] 劉知遠(yuǎn), 司憲策, 鄭亞斌,等. 中文博客標(biāo)簽的若干統(tǒng)計(jì)性質(zhì)[C]//中國(guó)計(jì)算技術(shù)與語(yǔ)言問(wèn)題研究——第七屆中文信息處理國(guó)際會(huì)議論文集. 2007.

    [13] Jeremy, Ginsberg, Matthew H, Mohebbi, Rajan S, Patel, et al. Detecting Influenza Epidemics Using Search Engine Query Data [J]. Nature, 2008, 457(7232):1012-1014.

    [14] Sepandar D. Kamvar and Jonathan Harris. We Feel Fine and Searching the Emotional Web [C]//Proceeding s of the Fourth ACM International Conference on Web Search and Data Mining (WSDM 2011). HongKong, China, 2011:117-126.

    [15] Qu and Liu. Interactive Group Suggesting for Twitter [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011), Portland, USA, 2011:519-523.

    [16] Wu and Weld. Open Information Extraction using Wikipedia [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010). Uppsala, Sweden, 2010:118-127.

    [17] McCallum, Andrew Kachites. MALLET: A Machine Learning for Language Toolkit [OL], http://mallet.cs.umass.edu. 2002.

    Unsupervised Text Feature Extraction Based on Natural Annotation and Latent Topic Model

    RAO Gaoqi1, 2, YU Dong1, XUN Endong1

    (1. Beijing Language and Culture University, Institute of BigData and Language Education, Beijing 100083, China;2.Institute for Chinese Language Policies and Standards,Beijing 100083, China)

    Text features are often shown by its terms and phrases. Their unsupervised extraction can support various natural language processing. We propose a “Cluster-Verification” method to gain the lexicon from raw corpus, by combining latent topic model and natural annotation. Topic modeling is used to cluster strings, while we filter and optimize its result by natural annotations in raw corpus. High accuracy is found in the lexicon we gained, as well as good performance on describing domains and writing styles of the texts. Experiments on 6 kinds of domain corpora showed its promising effect on classifying their domains or writing styles.

    natural annotation; natural chunk; latent topic model; domain feature; stylistic features

    饒高琦(1987—),博士研究生,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、語(yǔ)言政策與語(yǔ)言規(guī)劃。E-mail:raogaoqi-fj@163.com于東(1982—),通信作者,講師,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)。E-mail:yudong@blcu.edu.cn荀恩東(1967—),教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、計(jì)算機(jī)教育技術(shù)。E-mail:edxun@126.com

    1003-0077(2015)06-0141-09

    2015-07-10 定稿日期: 2015-09-03

    國(guó)家自然科學(xué)基金(61300081,61170162);國(guó)家社科重大基金(12&ZD173);國(guó)家語(yǔ)委科研基金(YB125-42);北京語(yǔ)言大學(xué)研究生創(chuàng)新基金(14YCX074)

    TP391

    A

    猜你喜歡
    詞表語(yǔ)塊術(shù)語(yǔ)
    A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱(chēng)漢英對(duì)照詞表
    敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
    英語(yǔ)語(yǔ)塊在漢英翻譯中的積極作用
    從語(yǔ)塊類(lèi)型看英語(yǔ)專(zhuān)業(yè)大學(xué)生語(yǔ)塊獲取能力與聽(tīng)力理解能力的相關(guān)性研究
    語(yǔ)塊的性質(zhì)及漢語(yǔ)語(yǔ)塊系統(tǒng)的層級(jí)關(guān)系
    國(guó)外敘詞表的應(yīng)用與發(fā)展趨勢(shì)探討*
    有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
    從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
    詮釋學(xué)視域中的語(yǔ)塊研究
    常用聯(lián)綿詞表
    久久久久久久精品吃奶| 99久久精品国产亚洲精品| 一边摸一边做爽爽视频免费| 午夜免费激情av| 国产精品,欧美在线| 久久人人精品亚洲av| 亚洲三区欧美一区| 精品无人区乱码1区二区| 亚洲专区国产一区二区| 久久伊人香网站| 久久久精品国产亚洲av高清涩受| 不卡一级毛片| 老司机午夜十八禁免费视频| 免费搜索国产男女视频| 99热只有精品国产| 欧美又色又爽又黄视频| 无限看片的www在线观看| svipshipincom国产片| 国产精华一区二区三区| 一区福利在线观看| 国产三级在线视频| 午夜福利成人在线免费观看| 欧美黑人巨大hd| 日韩欧美三级三区| 国产成人欧美| 色播在线永久视频| 色综合欧美亚洲国产小说| 69av精品久久久久久| 一进一出好大好爽视频| 午夜视频精品福利| 国产伦一二天堂av在线观看| 黄色片一级片一级黄色片| 成人亚洲精品一区在线观看| 搡老岳熟女国产| 女性被躁到高潮视频| 观看免费一级毛片| 一进一出抽搐动态| 久久久久久人人人人人| 99精品在免费线老司机午夜| 亚洲人成网站高清观看| 99精品在免费线老司机午夜| 久热这里只有精品99| 久久99热这里只有精品18| 国产精品久久久久久精品电影 | 好男人电影高清在线观看| 亚洲 国产 在线| 无限看片的www在线观看| 欧美中文综合在线视频| 女警被强在线播放| 亚洲国产精品成人综合色| 久久久久久大精品| 国产欧美日韩一区二区三| 亚洲av成人不卡在线观看播放网| 777久久人妻少妇嫩草av网站| 亚洲欧洲精品一区二区精品久久久| av福利片在线| 亚洲aⅴ乱码一区二区在线播放 | 夜夜看夜夜爽夜夜摸| 人人妻人人看人人澡| 欧美中文综合在线视频| 精品一区二区三区四区五区乱码| 两人在一起打扑克的视频| 欧美黄色淫秽网站| 欧美久久黑人一区二区| 中文字幕av电影在线播放| 日本一本二区三区精品| 欧美日韩亚洲国产一区二区在线观看| 国产单亲对白刺激| 色尼玛亚洲综合影院| 欧美成人免费av一区二区三区| 亚洲精品国产一区二区精华液| 国产亚洲欧美精品永久| 淫妇啪啪啪对白视频| 久久国产精品人妻蜜桃| 久久伊人香网站| 一级毛片精品| 国产精品亚洲美女久久久| 人人妻人人看人人澡| 757午夜福利合集在线观看| 又黄又粗又硬又大视频| 免费观看精品视频网站| 欧美日韩一级在线毛片| 亚洲黑人精品在线| 欧美黑人巨大hd| 亚洲人成电影免费在线| 成在线人永久免费视频| 琪琪午夜伦伦电影理论片6080| 一个人免费在线观看的高清视频| 久久中文字幕人妻熟女| 中亚洲国语对白在线视频| 精品欧美国产一区二区三| 欧美日韩一级在线毛片| 午夜福利在线观看吧| 女生性感内裤真人,穿戴方法视频| 女性生殖器流出的白浆| 亚洲无线在线观看| 精品久久久久久久毛片微露脸| 免费看美女性在线毛片视频| 久久久久久久午夜电影| av中文乱码字幕在线| 夜夜爽天天搞| 国产一区在线观看成人免费| 精品欧美一区二区三区在线| 三级毛片av免费| 中文字幕另类日韩欧美亚洲嫩草| 免费女性裸体啪啪无遮挡网站| 91av网站免费观看| 亚洲av电影在线进入| 国产免费av片在线观看野外av| 中文字幕人成人乱码亚洲影| 国产男靠女视频免费网站| 国产精品影院久久| 男人舔奶头视频| 亚洲第一av免费看| 国产野战对白在线观看| 国产真人三级小视频在线观看| 精品国产美女av久久久久小说| 天堂动漫精品| 欧美激情 高清一区二区三区| 一区福利在线观看| 久久欧美精品欧美久久欧美| 精品人妻1区二区| 国产亚洲精品第一综合不卡| 国产爱豆传媒在线观看 | 精品久久久久久成人av| 国产在线精品亚洲第一网站| 国产成人精品久久二区二区免费| 亚洲,欧美精品.| 欧美日本视频| 窝窝影院91人妻| 国产精品九九99| 久久亚洲真实| av有码第一页| 90打野战视频偷拍视频| 亚洲七黄色美女视频| 满18在线观看网站| 男人舔女人下体高潮全视频| 国内少妇人妻偷人精品xxx网站 | 国产精品久久久久久人妻精品电影| 国产真人三级小视频在线观看| 黄色 视频免费看| www日本在线高清视频| 国产精品美女特级片免费视频播放器 | 中文字幕精品亚洲无线码一区 | 久99久视频精品免费| www.www免费av| 99国产精品一区二区蜜桃av| 国产不卡一卡二| 国产99久久九九免费精品| 在线av久久热| bbb黄色大片| 特大巨黑吊av在线直播 | 久久久久久人人人人人| 午夜福利成人在线免费观看| 中文字幕人妻熟女乱码| 欧美激情极品国产一区二区三区| 成人免费观看视频高清| 大香蕉久久成人网| 精品午夜福利视频在线观看一区| 好看av亚洲va欧美ⅴa在| 少妇熟女aⅴ在线视频| 亚洲欧美精品综合一区二区三区| 亚洲成国产人片在线观看| 可以在线观看毛片的网站| 黄色 视频免费看| 国产精品二区激情视频| a在线观看视频网站| 日本一区二区免费在线视频| 最新美女视频免费是黄的| www日本在线高清视频| 午夜福利在线在线| 变态另类丝袜制服| 制服诱惑二区| 国产高清videossex| 国产伦在线观看视频一区| 老熟妇仑乱视频hdxx| 欧美午夜高清在线| cao死你这个sao货| 欧美黄色淫秽网站| 久久精品国产综合久久久| 黄色 视频免费看| 在线永久观看黄色视频| 欧美zozozo另类| 国产单亲对白刺激| 成人永久免费在线观看视频| 亚洲av成人不卡在线观看播放网| 亚洲精品色激情综合| 母亲3免费完整高清在线观看| e午夜精品久久久久久久| 国内久久婷婷六月综合欲色啪| 99精品在免费线老司机午夜| 国产免费男女视频| 欧美性长视频在线观看| 国产99白浆流出| 午夜免费成人在线视频| 亚洲国产看品久久| 琪琪午夜伦伦电影理论片6080| 一边摸一边抽搐一进一小说| 国内精品久久久久久久电影| 可以免费在线观看a视频的电影网站| 99国产精品99久久久久| 亚洲国产中文字幕在线视频| 最好的美女福利视频网| 亚洲真实伦在线观看| 亚洲 国产 在线| 亚洲成人精品中文字幕电影| 香蕉av资源在线| 国产亚洲精品久久久久5区| 男女视频在线观看网站免费 | 亚洲精品中文字幕一二三四区| 精品无人区乱码1区二区| 伦理电影免费视频| 手机成人av网站| 免费av毛片视频| 久久九九热精品免费| 国产激情久久老熟女| 一级a爱视频在线免费观看| 国产又色又爽无遮挡免费看| 精品免费久久久久久久清纯| 精品欧美一区二区三区在线| 国产精品免费视频内射| 国产私拍福利视频在线观看| 这个男人来自地球电影免费观看| 国产亚洲欧美精品永久| 岛国在线观看网站| 美女午夜性视频免费| 日本 欧美在线| 91老司机精品| 色哟哟哟哟哟哟| 女生性感内裤真人,穿戴方法视频| 欧美zozozo另类| 99久久国产精品久久久| 级片在线观看| 婷婷精品国产亚洲av| 亚洲国产精品sss在线观看| 亚洲av第一区精品v没综合| www国产在线视频色| www日本在线高清视频| 国产又爽黄色视频| а√天堂www在线а√下载| 精品日产1卡2卡| 欧美日韩精品网址| 日韩欧美一区视频在线观看| 一个人免费在线观看的高清视频| 国产不卡一卡二| avwww免费| 日韩av在线大香蕉| 熟女少妇亚洲综合色aaa.| 欧美精品亚洲一区二区| 亚洲片人在线观看| 天堂√8在线中文| cao死你这个sao货| 日本三级黄在线观看| 又紧又爽又黄一区二区| 美女午夜性视频免费| 久久久久久久久久黄片| 久久性视频一级片| 国产精品一区二区免费欧美| 亚洲一区二区三区色噜噜| 亚洲无线在线观看| 一级作爱视频免费观看| 午夜成年电影在线免费观看| 亚洲最大成人中文| 天天躁狠狠躁夜夜躁狠狠躁| 国产一区二区三区在线臀色熟女| 性欧美人与动物交配| 不卡av一区二区三区| 成人国产一区最新在线观看| 女生性感内裤真人,穿戴方法视频| 亚洲成av人片免费观看| 亚洲天堂国产精品一区在线| 欧美日韩瑟瑟在线播放| 国产主播在线观看一区二区| 亚洲精华国产精华精| 欧美另类亚洲清纯唯美| 国产亚洲精品久久久久久毛片| 久热这里只有精品99| 视频在线观看一区二区三区| 观看免费一级毛片| 免费无遮挡裸体视频| 国产主播在线观看一区二区| 欧美乱妇无乱码| 看黄色毛片网站| 自线自在国产av| 亚洲九九香蕉| 日韩一卡2卡3卡4卡2021年| 美国免费a级毛片| 丰满的人妻完整版| 久99久视频精品免费| 国产亚洲精品av在线| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲国产欧美一区二区综合| 两人在一起打扑克的视频| 美国免费a级毛片| 亚洲国产精品999在线| 天天添夜夜摸| 久久久久国产一级毛片高清牌| 好看av亚洲va欧美ⅴa在| 一a级毛片在线观看| 免费女性裸体啪啪无遮挡网站| 日本撒尿小便嘘嘘汇集6| 中文字幕精品免费在线观看视频| 日本五十路高清| 亚洲精品国产精品久久久不卡| 亚洲成人久久爱视频| 国产成人啪精品午夜网站| 精品久久久久久久毛片微露脸| 在线观看免费午夜福利视频| 色播在线永久视频| av中文乱码字幕在线| 欧美日韩中文字幕国产精品一区二区三区| 亚洲人成电影免费在线| 一卡2卡三卡四卡精品乱码亚洲| 精品高清国产在线一区| 999久久久精品免费观看国产| 久久久国产欧美日韩av| 日韩视频一区二区在线观看| 国产成人精品无人区| 黄色片一级片一级黄色片| 精品久久久久久久久久免费视频| 精品高清国产在线一区| 国产av在哪里看| 亚洲国产毛片av蜜桃av| 午夜免费成人在线视频| 久久久精品欧美日韩精品| 精品一区二区三区四区五区乱码| 淫妇啪啪啪对白视频| 91字幕亚洲| 叶爱在线成人免费视频播放| 中文字幕人妻熟女乱码| 精品卡一卡二卡四卡免费| 日本五十路高清| 亚洲精品中文字幕一二三四区| 久久久久国产一级毛片高清牌| 天天一区二区日本电影三级| 国产真人三级小视频在线观看| 黄频高清免费视频| 国产精品亚洲av一区麻豆| 无限看片的www在线观看| 天天躁夜夜躁狠狠躁躁| 波多野结衣高清作品| 日韩大码丰满熟妇| 成人18禁在线播放| 久久香蕉精品热| 19禁男女啪啪无遮挡网站| 亚洲成国产人片在线观看| 好看av亚洲va欧美ⅴa在| 久久精品亚洲精品国产色婷小说| 一二三四在线观看免费中文在| 国产不卡一卡二| www.www免费av| 窝窝影院91人妻| 波多野结衣高清无吗| 国产亚洲精品久久久久5区| bbb黄色大片| 淫妇啪啪啪对白视频| 婷婷精品国产亚洲av| 男女做爰动态图高潮gif福利片| 国产成人影院久久av| 丰满人妻熟妇乱又伦精品不卡| 麻豆成人av在线观看| 国产一区在线观看成人免费| 一夜夜www| 中文字幕精品亚洲无线码一区 | 亚洲欧美精品综合久久99| 又黄又粗又硬又大视频| 波多野结衣av一区二区av| 国产精品自产拍在线观看55亚洲| 亚洲第一欧美日韩一区二区三区| 欧美精品啪啪一区二区三区| 精品乱码久久久久久99久播| 99精品久久久久人妻精品| 女生性感内裤真人,穿戴方法视频| 中出人妻视频一区二区| 欧美一区二区精品小视频在线| 狠狠狠狠99中文字幕| 波多野结衣巨乳人妻| avwww免费| 日韩有码中文字幕| 国语自产精品视频在线第100页| 男女床上黄色一级片免费看| www国产在线视频色| 每晚都被弄得嗷嗷叫到高潮| 日本免费a在线| 欧美一级a爱片免费观看看 | 两个人免费观看高清视频| 午夜老司机福利片| 90打野战视频偷拍视频| 国产精品 欧美亚洲| 日本五十路高清| 国产精华一区二区三区| 欧美乱色亚洲激情| 一二三四社区在线视频社区8| 特大巨黑吊av在线直播 | 视频在线观看一区二区三区| 欧美乱码精品一区二区三区| 国产成年人精品一区二区| 精品日产1卡2卡| 欧美又色又爽又黄视频| 久久精品成人免费网站| 精品卡一卡二卡四卡免费| 久久天堂一区二区三区四区| 国产亚洲欧美98| 亚洲 欧美 日韩 在线 免费| 免费高清在线观看日韩| 91大片在线观看| 日韩精品青青久久久久久| 成在线人永久免费视频| 亚洲第一电影网av| 日本 av在线| 法律面前人人平等表现在哪些方面| 日韩欧美一区视频在线观看| 中出人妻视频一区二区| 韩国精品一区二区三区| 成人国语在线视频| 少妇粗大呻吟视频| 亚洲欧美激情综合另类| 国产野战对白在线观看| 欧美人与性动交α欧美精品济南到| 国产爱豆传媒在线观看 | 国产在线观看jvid| 三级毛片av免费| 欧美日本亚洲视频在线播放| 少妇的丰满在线观看| 18禁裸乳无遮挡免费网站照片 | 精品乱码久久久久久99久播| 亚洲精品国产一区二区精华液| 男女下面进入的视频免费午夜 | 好看av亚洲va欧美ⅴa在| 一二三四社区在线视频社区8| 日日夜夜操网爽| 欧美黑人精品巨大| 人人澡人人妻人| 亚洲av成人av| 国产片内射在线| 中文字幕人妻丝袜一区二区| 九色国产91popny在线| 一区福利在线观看| 成人国语在线视频| 一a级毛片在线观看| 国产精品av久久久久免费| 精品久久久久久久人妻蜜臀av| 亚洲成av片中文字幕在线观看| 亚洲精品av麻豆狂野| 亚洲精品美女久久久久99蜜臀| 成人欧美大片| 国产91精品成人一区二区三区| 男女那种视频在线观看| 国产黄a三级三级三级人| 国产激情久久老熟女| 宅男免费午夜| 精品久久久久久成人av| 88av欧美| 精品国内亚洲2022精品成人| 日韩欧美三级三区| 国产精品野战在线观看| 精品国产一区二区三区四区第35| 国产久久久一区二区三区| 1024香蕉在线观看| 久久国产精品人妻蜜桃| 哪里可以看免费的av片| svipshipincom国产片| 美女午夜性视频免费| 真人一进一出gif抽搐免费| 亚洲国产日韩欧美精品在线观看 | 色哟哟哟哟哟哟| 国产精品久久久久久人妻精品电影| 久久香蕉精品热| 在线观看日韩欧美| 亚洲精品一区av在线观看| 亚洲欧美精品综合久久99| 无遮挡黄片免费观看| 日本三级黄在线观看| 婷婷精品国产亚洲av在线| 免费在线观看成人毛片| 久久午夜综合久久蜜桃| 午夜福利一区二区在线看| 制服人妻中文乱码| 淫秽高清视频在线观看| 黑人欧美特级aaaaaa片| 黑丝袜美女国产一区| 亚洲色图av天堂| 听说在线观看完整版免费高清| 成人永久免费在线观看视频| a级毛片a级免费在线| 色老头精品视频在线观看| 久久久久久国产a免费观看| 国产熟女xx| 国产精品 国内视频| 免费无遮挡裸体视频| 好男人在线观看高清免费视频 | 欧美在线一区亚洲| 窝窝影院91人妻| 亚洲中文av在线| 不卡av一区二区三区| 亚洲欧美一区二区三区黑人| 亚洲 欧美 日韩 在线 免费| 老司机午夜十八禁免费视频| 色哟哟哟哟哟哟| 国产97色在线日韩免费| 男女下面进入的视频免费午夜 | 欧美精品亚洲一区二区| 满18在线观看网站| 色哟哟哟哟哟哟| 91国产中文字幕| 丝袜在线中文字幕| xxxwww97欧美| 久久精品夜夜夜夜夜久久蜜豆 | 母亲3免费完整高清在线观看| 一区二区三区激情视频| 国产一区二区三区在线臀色熟女| 婷婷精品国产亚洲av| 中文字幕人妻熟女乱码| 97碰自拍视频| 日本在线视频免费播放| 欧美激情极品国产一区二区三区| 色播在线永久视频| 麻豆av在线久日| 777久久人妻少妇嫩草av网站| 大型av网站在线播放| 亚洲精品中文字幕在线视频| 美女免费视频网站| 国产在线精品亚洲第一网站| 在线视频色国产色| 色尼玛亚洲综合影院| 国产欧美日韩精品亚洲av| 欧美一级a爱片免费观看看 | 成人午夜高清在线视频 | 最新在线观看一区二区三区| 老汉色∧v一级毛片| 欧美三级亚洲精品| 一级片免费观看大全| 欧美激情久久久久久爽电影| 国产欧美日韩精品亚洲av| 精品国产乱子伦一区二区三区| 国产成人系列免费观看| 女人被狂操c到高潮| 成人av一区二区三区在线看| 成人手机av| 99国产精品99久久久久| 免费高清视频大片| 伦理电影免费视频| 宅男免费午夜| 欧美日韩一级在线毛片| 精品国产亚洲在线| 大型av网站在线播放| 亚洲欧美精品综合一区二区三区| 亚洲国产欧美一区二区综合| av电影中文网址| 亚洲性夜色夜夜综合| 亚洲人成网站高清观看| 丰满的人妻完整版| www.精华液| 国产不卡一卡二| 久久久精品国产亚洲av高清涩受| 老汉色∧v一级毛片| 亚洲欧美一区二区三区黑人| 亚洲最大成人中文| 欧美黄色片欧美黄色片| 淫妇啪啪啪对白视频| 国产午夜精品久久久久久| 九色国产91popny在线| 老汉色av国产亚洲站长工具| 国产片内射在线| av天堂在线播放| 国产成人欧美在线观看| 久久精品影院6| 黄色丝袜av网址大全| 成在线人永久免费视频| 一区二区三区激情视频| 操出白浆在线播放| 丁香欧美五月| 国产在线精品亚洲第一网站| 黑丝袜美女国产一区| 精品不卡国产一区二区三区| 在线观看午夜福利视频| av免费在线观看网站| 人人妻人人澡人人看| 国产亚洲精品久久久久久毛片| 99精品久久久久人妻精品| 欧美黑人精品巨大| 看黄色毛片网站| 日韩欧美三级三区| 日日爽夜夜爽网站| 国产精品久久久人人做人人爽| 日日干狠狠操夜夜爽| 欧美另类亚洲清纯唯美| 欧美亚洲日本最大视频资源| 国产成人影院久久av| 国产激情偷乱视频一区二区| 动漫黄色视频在线观看| av视频在线观看入口| 国产人伦9x9x在线观看| 成人三级黄色视频| 免费在线观看成人毛片| avwww免费| 精品一区二区三区av网在线观看| 亚洲成人国产一区在线观看| 亚洲人成网站高清观看| 久热这里只有精品99| 午夜福利成人在线免费观看| 日本五十路高清| 首页视频小说图片口味搜索| 成人三级黄色视频| 欧美黄色淫秽网站| 亚洲美女黄片视频| 桃色一区二区三区在线观看| 国产精品久久久av美女十八| 日本撒尿小便嘘嘘汇集6| 国产真人三级小视频在线观看| 女警被强在线播放| 亚洲国产毛片av蜜桃av| 国产亚洲欧美精品永久| 啦啦啦免费观看视频1| 高清在线国产一区|