• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析

    2015-03-17 02:53:32程學(xué)旗蘭艷艷
    大數(shù)據(jù) 2015年3期
    關(guān)鍵詞:短文文檔排序

    程學(xué)旗,蘭艷艷

    中國科學(xué)院計(jì)算技術(shù)研究所 北京 100019

    網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析

    程學(xué)旗,蘭艷艷

    中國科學(xué)院計(jì)算技術(shù)研究所 北京 100019

    文本內(nèi)容分析是實(shí)現(xiàn)大數(shù)據(jù)的理解與價(jià)值發(fā)現(xiàn)的有效手段。嘗試從短文本主題建模、單詞表達(dá)學(xué)習(xí)和網(wǎng)頁排序?qū)W習(xí)3個(gè)子方向,探討網(wǎng)絡(luò)大數(shù)據(jù)文本內(nèi)容分析的挑戰(zhàn)和研究成果,最后指出未來大數(shù)據(jù)文本內(nèi)容分析的一些研究方向和問題。

    文本內(nèi)容分析;短文本主題建模;單詞表達(dá);排序?qū)W習(xí)

    1 引言

    伴隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和普及以及用戶規(guī)模的爆發(fā)式增長,互聯(lián)網(wǎng)已經(jīng)步入了“大數(shù)據(jù)”時(shí)代。網(wǎng)絡(luò)大數(shù)據(jù)的“大”,不僅僅體現(xiàn)在其體量巨大(大數(shù)據(jù)的起始計(jì)量單位至少是Petabyte11 Petabyte=1× 1015byte、Exabyte21 Exabyte=1× 1018byte或Zettabyte31 Zettabyte=1× 1021byte),而且還體現(xiàn)在其增長異常迅猛(通常是指數(shù)級的速率),數(shù)據(jù)類型多樣(包括了文本、圖像、聲音、視頻等),數(shù)據(jù)質(zhì)量良莠不齊并且關(guān)聯(lián)關(guān)系復(fù)雜。同時(shí),網(wǎng)絡(luò)大數(shù)據(jù)另外一個(gè)突出的特點(diǎn)就是其價(jià)值密度低,大數(shù)據(jù)中包含了大量重復(fù)、噪聲和垃圾數(shù)據(jù),存在大量共現(xiàn)但又毫無意義的關(guān)聯(lián)模式,如果缺乏有效的信息處理手段提取網(wǎng)絡(luò)大數(shù)據(jù)中潛在的價(jià)值,網(wǎng)絡(luò)大數(shù)據(jù)不僅不能成為一個(gè)價(jià)值“寶藏”,反倒會成為一個(gè)數(shù)據(jù)的“墳?zāi)埂薄?/p>

    文本內(nèi)容分析是網(wǎng)絡(luò)信息處理的關(guān)鍵技術(shù)。網(wǎng)絡(luò)大數(shù)據(jù)對于文本內(nèi)容分析而言是一把雙刃劍:一方面,網(wǎng)絡(luò)大數(shù)據(jù)提供了需要文本分析豐富的數(shù)據(jù)源,大規(guī)模的樣本資源可以更好地支持文本分析關(guān)鍵技術(shù)的發(fā)展;另一方面,網(wǎng)絡(luò)大數(shù)據(jù)復(fù)雜的內(nèi)在特征對傳統(tǒng)文本分析技術(shù)提出了嚴(yán)峻的挑戰(zhàn)。例如,網(wǎng)絡(luò)大數(shù)據(jù)越來多地存在于電商、問答等私有化網(wǎng)絡(luò)或者深網(wǎng)中,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的獲取和存儲更加困難;數(shù)據(jù)龐大的規(guī)模、復(fù)雜的關(guān)聯(lián)關(guān)系,使得傳統(tǒng)的文本分析和挖掘技術(shù)在計(jì)算的時(shí)空復(fù)雜度上激增;另外,迅猛的數(shù)據(jù)增長速率、巨大的數(shù)據(jù)體量也使得傳統(tǒng)的全量計(jì)算模式(依賴于全體樣本的計(jì)算模式)不再適用。本文從短文本主題建模、單詞表達(dá)學(xué)習(xí)和網(wǎng)頁排序?qū)W習(xí)3個(gè)子方向探討網(wǎng)絡(luò)大數(shù)據(jù)文本內(nèi)容分析的挑戰(zhàn)和研究成果。

    2 文本內(nèi)容分析關(guān)鍵技術(shù)

    2.1 短文本主題建模

    隨著Web2.0、社交媒體和移動(dòng)互聯(lián)網(wǎng)等技術(shù)的發(fā)展,每個(gè)網(wǎng)民都成為了互聯(lián)網(wǎng)上信息的創(chuàng)造者與傳播者,促使網(wǎng)上文本信息爆炸式增長。與此同時(shí),互聯(lián)網(wǎng)上的文本內(nèi)容形式也在不斷變化。從博客到輕博客和微博、從郵件到論壇和即時(shí)通信、從新聞到評論等,一個(gè)顯著的特點(diǎn)就是這些文本信息的長度越來越短。這是因?yàn)槎涛谋拘畔⒕帉懞唵坞S意,發(fā)布更為便捷。同時(shí),短文本信息比長文本更簡約、緊湊,能節(jié)省其他用戶閱讀消息的時(shí)間和精力。短文本信息比傳統(tǒng)文本信息來源要廣得多,更新頻率也快得多,大大加速了互聯(lián)網(wǎng)上信息產(chǎn)生與傳播的速度。

    海量的短文本數(shù)據(jù)中蘊(yùn)藏著大量有價(jià)值的信息,但也給現(xiàn)有文本語義分析技術(shù)帶來了新的挑戰(zhàn)。與長文本相比,短文本信息內(nèi)部上下文信息缺乏。此外,普通用戶常常用語不規(guī)范,新詞、多義詞等比較普遍。因此,對一條短文本信息的理解要比長文本要困難得多。在以往的長文本語義分析領(lǐng)域,一種普遍的方法就是利用概率話題模型(如LDA[1]和PLSA[2])對文檔內(nèi)部的話題結(jié)構(gòu)進(jìn)行建模,然后利用統(tǒng)計(jì)推斷手段學(xué)習(xí)出文檔集合中潛在的話題以及話題結(jié)構(gòu)。這些模型的一個(gè)基本假設(shè)是文檔是話題的一個(gè)混合分布,其中每個(gè)詞來源于一個(gè)話題。當(dāng)文檔長度較長時(shí),可以較準(zhǔn)確地根據(jù)文檔中的詞推斷出文檔的話題屬性。然而,當(dāng)文檔很短(只有幾個(gè)或十幾個(gè)詞,甚至少于話題的個(gè)數(shù))時(shí),由于數(shù)據(jù)不足,難以準(zhǔn)確推斷出文檔中話題混合分布的參數(shù)以及每個(gè)詞的話題屬性,從而影響話題學(xué)習(xí)的效果。

    為克服短文本信息的數(shù)據(jù)稀疏性,一種簡單做法是利用外部數(shù)據(jù)(如Wikipedia、搜索結(jié)果)擴(kuò)充文檔的表示,再利用現(xiàn)有的長文本語義建模工具處理。但這種方式的效果嚴(yán)重依賴于原短文本文檔與擴(kuò)充的外部數(shù)據(jù)的相關(guān)程度。對于一些實(shí)時(shí)性強(qiáng)的數(shù)據(jù)(如微博),要找到合適的外部數(shù)據(jù)源是很困難的。為此,很多人嘗試?yán)脙?nèi)部數(shù)據(jù)擴(kuò)充文檔的表示,如偽相關(guān)反饋、加入短語特征[3]、相關(guān)消息聚合[4]等。無論是利用外部數(shù)據(jù)擴(kuò)充,還是利用內(nèi)部數(shù)據(jù)擴(kuò)充,都面臨著擴(kuò)充數(shù)據(jù)選擇不當(dāng)帶來額外噪音的風(fēng)險(xiǎn)。另外,這兩種方法并沒有從模型上帶來任何改變,只是治標(biāo)不治本。另外,一些研究者[5,6]則提出一條短文本消息只包含一個(gè)話題,將短文本消息用單詞混合模型(mixture of unigrams)建模。該方式雖然可緩解參數(shù)估計(jì)時(shí)的數(shù)據(jù)稀疏性問題,但對短文本消息的建模過于簡化?,F(xiàn)實(shí)情況下,一條短文本消息仍然可能包含多個(gè)話題,尤其是在話題粒度較細(xì)的時(shí)候。此時(shí),單詞混合模型無法區(qū)分。

    由于短文本消息和長文本文檔顯著不同,傳統(tǒng)面向長文本的話題建模方法并不能簡單地套用到短文本文檔上。為了更好地對短文本進(jìn)行語義建模,提出了一種新的話題建模方法——雙詞話題模型(biterm topic model,BTM)[7]。BTM和傳統(tǒng)基于文檔產(chǎn)生式建模的話題模型的最大區(qū)別是,它通過建模文檔集合中雙詞的產(chǎn)生來學(xué)習(xí)話題。這里,雙詞指的是在同一個(gè)上下文中共現(xiàn)的詞對。由于一條短文本消息很短,可以簡單地認(rèn)為每條消息是一條上下文4對于較長的文本,可認(rèn)為在一個(gè)固定長度的窗口內(nèi)的文本片段為一個(gè)上下文。。比如在“短文本語義建?!敝校梢猿槿〕?個(gè)雙詞:(“短文本”,“語義”)、(“短文本”,“建?!保ⅲā罢Z義”,“建模”)。其直接體現(xiàn)了詞的共現(xiàn)關(guān)系,因此采用雙詞作為建模單元。直觀地講,兩個(gè)詞共現(xiàn)次數(shù)越多,其語義越相關(guān),也就越可能屬于同一話題。根據(jù)這一認(rèn)識,假設(shè)每個(gè)雙詞由同一個(gè)話題產(chǎn)生,而話題從一個(gè)定義在整個(gè)語料集合上的話題混合分布產(chǎn)生。與LDA相比,BTM通過直接建模雙詞(即詞共現(xiàn)模式)來學(xué)習(xí)話題,從而避免短文本文檔過短導(dǎo)致的文檔建模困難問題。二者的圖模型表示如圖1所示。實(shí)驗(yàn)結(jié)果表明,BTM在短文本上的效果相比LDA等傳統(tǒng)方法有明顯提升,而且在長文本上的效果也不輸于LDA。

    圖1 LDA和BTM的圖模型表示

    除了長度短之外,互聯(lián)網(wǎng)上的短文本大數(shù)據(jù)還具有規(guī)模大、更新快的特點(diǎn)。為此,提出了BTM的兩種在線學(xué)習(xí)算法:在線BTM(oBTM)和增量BTM(iBTM)[8]。這兩種算法的主要思想是用最近時(shí)間段內(nèi)接收到的數(shù)據(jù)來持續(xù)更新模型,而不必反復(fù)計(jì)算較久遠(yuǎn)的歷史數(shù)據(jù)。這兩種算法不僅可以用來處理大規(guī)模流式短文本數(shù)據(jù),其學(xué)到的模型還可以即時(shí)反映話題的動(dòng)態(tài)變化,比較適合用于大規(guī)模流式短文本語義建模。在微博等互聯(lián)網(wǎng)應(yīng)用中,短文本信息還具備很強(qiáng)的時(shí)效性,因此其潛在的話題結(jié)構(gòu)也會劇烈變化。尤其受一些突發(fā)和熱點(diǎn)事件、活動(dòng)的影響,每天都可能涌現(xiàn)出大量的突發(fā)話題。為了對微博中突發(fā)話題建模,在BTM的基礎(chǔ)上提出了一種突發(fā)雙詞話題模型(BBTM或Bursty BTM)[9]。BBTM的做法是利用雙詞的突發(fā)性來指導(dǎo)突發(fā)話題的建模。原因是雙詞的突發(fā)性可以根據(jù)其時(shí)序頻率估算出來,突發(fā)性越強(qiáng)、共現(xiàn)次數(shù)越多的雙詞,越可能來源于某個(gè)突發(fā)話題?;谶@一思想,BBTM首先將文檔集合中的話題分為突發(fā)和非突發(fā)兩類,然后將雙詞的突發(fā)性作為一個(gè)雙詞話題類別判定的先驗(yàn)。在實(shí)驗(yàn)驗(yàn)證過程中,發(fā)現(xiàn)BBTM識別出來的突發(fā)話題的準(zhǔn)確性和可讀性都顯著優(yōu)于現(xiàn)有的啟發(fā)式方法。

    盡管在短文本語義建模方向取得了一些進(jìn)展,但和人對短文本信息的認(rèn)知能力相比,目前的研究仍然非常初步。在該方向上,筆者認(rèn)為目前值得深入探索的一些研究點(diǎn)如下。

    (1)多源異質(zhì)數(shù)據(jù)下的短文本語義建模

    在大數(shù)據(jù)時(shí)代的背景下,如何廣泛利用其他數(shù)據(jù)源中的知識(如Wikipedia、開放網(wǎng)頁、知識庫等),進(jìn)一步提高計(jì)算機(jī)短文本的理解與處理能力,是進(jìn)一步提升短文本語義建模的必經(jīng)之路。

    (2)復(fù)雜結(jié)構(gòu)語義建模

    目前研究的話題模型結(jié)構(gòu)都比較簡單,只有一層潛在語義結(jié)構(gòu),話題的數(shù)目也很有限。這種簡單結(jié)構(gòu)的話題模型只能大概反映文本中的語義,難以準(zhǔn)確、全面地描述文本內(nèi)容。真實(shí)文本數(shù)據(jù)中的語義結(jié)構(gòu)很復(fù)雜,可以考慮采用層次、圖狀等結(jié)構(gòu)提升模型的表達(dá)能力。

    (3)融合上下文特征的話題建模

    目前的語義建模方法大多仍然局限在利用詞共現(xiàn)信息上。在真實(shí)的應(yīng)用環(huán)境中,短文本消息還包含大量的上下文信息(如詞性、詞序等內(nèi)源特征)以及作者、地點(diǎn)、人物關(guān)系、時(shí)間等外源特征。豐富的上下文特征對解決短文本內(nèi)容稀疏性會有很大幫助。

    (4)與應(yīng)用結(jié)合

    對短文本語義建模能力的提升最終還需要落地于具體應(yīng)用中。要最大限度地提升應(yīng)用效果,需要研究與具體應(yīng)用相關(guān)的語義建模方法。

    2.2 單詞表示學(xué)習(xí)

    單詞表示一直是人工智能、自然語言處理、信息檢索等領(lǐng)域的一個(gè)基本核心問題。

    自然語言處理等相關(guān)領(lǐng)域最常用的單詞表示方法是one-hot表達(dá),將單詞表示為一個(gè)高維向量,這個(gè)向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個(gè)維度的值為1,這個(gè)維度就代表了當(dāng)前的詞。這種one-hot表達(dá)如果采用稀疏方式存儲,非常簡潔、高效,配合上最大熵、SVM、CRF等算法,已經(jīng)很好地完成了NLP(natural language processing,自然語言處理)領(lǐng)域的各種主流任務(wù)。

    但是,這種表達(dá)有著根本性的缺陷,其假設(shè)所有詞都是獨(dú)立無關(guān)的,拋棄了單詞之間的相關(guān)性。這意味著,即使是兩個(gè)同義詞,在此表達(dá)下,它們的相似度也是0,這顯然是不合理的。同時(shí),也因?yàn)槊總€(gè)單詞都是一個(gè)孤立的離散單元,在許多實(shí)際問題中會遇到維度災(zāi)難問題。例如語言模型中,對于一個(gè)詞匯集合為100 000的模型,即使只使用二元組,其可能的組合情況便可以達(dá)到100億種。這樣就面臨嚴(yán)重的稀疏問題,傳統(tǒng)的語言模型必須使用各種復(fù)雜的平滑技術(shù)來估計(jì)那些沒有在語料中出現(xiàn)的組合的概率。

    為解決語言模型中的維度災(zāi)難和稀疏問題,Bengio等人提出了神經(jīng)網(wǎng)絡(luò)語言模型[10]。此模型將每個(gè)單詞表示為一個(gè)連續(xù)的低維稠密實(shí)數(shù)向量,這樣得到的語言模型自帶平滑,無須傳統(tǒng)n-gram模型中那些復(fù)雜的平滑算法。這樣的連續(xù)低維稠密實(shí)數(shù)向量叫做分布式表達(dá)(distributed representation),最早由Hinton提出[7],有別于傳統(tǒng)語義網(wǎng)絡(luò)中用一個(gè)獨(dú)立節(jié)點(diǎn)表示一個(gè)概念的局部表達(dá)(local representation)的方式。而其真正意義上流行開來,始于Bengio在語言模型上取得的成功。現(xiàn)在,單詞的分布式表達(dá)已經(jīng)廣泛應(yīng)用于自然語言處理的各個(gè)方面,如機(jī)器翻譯、情感分析和詞性標(biāo)注等。

    使用語言模型來學(xué)習(xí)單詞表達(dá)涉及在給定前文下預(yù)測下一個(gè)單詞出現(xiàn)的概率,因此需要在整個(gè)詞匯集合中進(jìn)行歸一化操作,這是非常耗時(shí)的一個(gè)操作。而當(dāng)年Bengio的神經(jīng)網(wǎng)絡(luò)語言模型在今天看來并不很大的語料上訓(xùn)練了4個(gè)月之久,即使后來的C&W的工作,也花了兩個(gè)月時(shí)間才得到一份單詞的表達(dá)。這在更大的數(shù)據(jù)上幾乎是不可忍受的。早期的單詞分布式表達(dá)工作主要集中在如何加速訓(xùn)練上面。

    代表性工作有Bengio等人2005年提出的層次神經(jīng)網(wǎng)絡(luò)模型,輸出端不再是一個(gè)平坦的softmax層,而是一個(gè)樹狀輸出,利用WordNet將一個(gè)多項(xiàng)分布分解為一串伯努利分布來優(yōu)化[11]。AndriyMnih和 Geoffrey Hinton提出Log-Bilinear模型,去掉了網(wǎng)絡(luò)中隱層的非線性,在此基礎(chǔ)上又提出hierarchical log-bilinear模型,同樣也是將模型的輸出改為層級輸出,從而加速模型的訓(xùn)練,并且效果也有一定的提升[12,13]。此后,Mnih將噪聲對比估計(jì)(noise contrastive estimation,NCE)用于近似優(yōu)化神經(jīng)網(wǎng)絡(luò)語言模型中的sofmax目標(biāo)函數(shù)[14]。而在這方面走得最遠(yuǎn)的當(dāng)屬目前最受關(guān)注的Mikolov等人的工作——Word2Vec。Mikolov在循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型的工作中發(fā)現(xiàn),將單詞的表達(dá)學(xué)習(xí)與語言模型的學(xué)習(xí)分離開來,可以獲得很好的結(jié)果。于是提出了continuous bag-ofwords(CBOW)和skip-gram(SG)兩種單詞表達(dá)學(xué)習(xí)模型[15]。這兩種模型的目標(biāo)不再是學(xué)習(xí)語言模型,而是直接利用自然語言處理中的分布式假設(shè)(distributional hypothesis)來學(xué)習(xí)單詞表達(dá)。這個(gè)假設(shè)認(rèn)為一個(gè)單詞的語義由其周圍的上下文決定,因此出現(xiàn)在相似上下文中的詞,其含義也相似。CBOW模型利用上下文單詞的表達(dá),直接預(yù)測當(dāng)前詞的表達(dá);而SG模型則是使用當(dāng)前詞預(yù)測上下文中的每一個(gè)詞。這兩種模型都可以使用哈夫曼樹或者negative sampling加速優(yōu)化。

    單詞表達(dá)學(xué)習(xí)算法大體都是基于一個(gè)同樣的假設(shè)——分布式假設(shè)。其假設(shè)一個(gè)單詞的語義由其周圍的上下文決定。由于單詞之間存在橫向(syntagmatic)和縱向(paradigmatic)兩種關(guān)系,如圖2所示。其中,橫向關(guān)系主要關(guān)注的是詞與詞之間在上下文中的共現(xiàn)關(guān)系,是一種組合性關(guān)系;而縱向關(guān)系則關(guān)注的是詞與詞之間具有相似上下文的關(guān)系,是一種替代性關(guān)系。根據(jù)所使用的分布信息的不同,單詞表達(dá)學(xué)習(xí)方法就可以分為兩大類:基于橫向關(guān)系和基于縱向關(guān)系。現(xiàn)有模型都只單獨(dú)考慮了一種關(guān)系。如隱式語義索引(latent semantic indexing,LSI),假設(shè)在文檔中共現(xiàn)的單詞具有相似的語義,其利用了橫向關(guān)系;而Word2Vec這類方法認(rèn)為,如果兩個(gè)單詞其周圍上下文相似,則其語義相似,其利用了縱向關(guān)系。

    如圖2所示,如果僅僅使用橫向關(guān)系,不能得到wolf和tiger相似,這并不合理;另一方面,如果只是用縱向關(guān)系,則wolf和fierce也不相似??梢?,單獨(dú)使用任一關(guān)系,都不能很好地捕捉單詞間的關(guān)聯(lián)。在ACL2015的工作[16]提出了兩種新的單詞表達(dá)學(xué)習(xí)模型(如圖3所示),有別于現(xiàn)有模型只建模單詞間的橫向關(guān)系或縱向關(guān)系,以并列(PDC模型)或?qū)哟危℉DC模型)的方式同時(shí)建模這兩種關(guān)系,以得到更好的單詞表達(dá)。PDC模型和HDC模型對應(yīng)地?cái)U(kuò)展了Word2Vec中CBOW和HDC模型,在其基礎(chǔ)上,利用文檔表達(dá)來預(yù)測文檔中出現(xiàn)的單詞,以捕捉單詞間的橫向關(guān)系。

    在單詞的類似與相似度任務(wù)上,這兩個(gè)模型均取得了state-of-the-art結(jié)果。

    分布式表達(dá)的假設(shè)自身也有不足之處,比如不能很好地處理反義詞情形。因?yàn)榛榉戳x詞的兩個(gè)詞,經(jīng)常出現(xiàn)在同樣的上下文中,所以往往反義詞之間的相似度反而高于其他近義詞。針對此問題,主流思路都是利用外部的知識庫來輔助單詞的表達(dá)學(xué)習(xí)。這類工作的思路大體類似,都是利用外部知識庫如Wikipedia、WordNet約束單詞表達(dá)的學(xué)習(xí)過程,比如讓更新同義詞表達(dá)、限制反義詞表達(dá)等。此外,分布式表達(dá)的假設(shè)也不能很好地處理那些出現(xiàn)次數(shù)很少的單詞。因?yàn)檫@些單詞的上下文信息太少,不足以學(xué)到一個(gè)很好的表達(dá)。比較直接的辦法就是直接利用語素信息來改善單詞的表達(dá),如果兩個(gè)單詞具有相同的詞根,則其語義相似。

    圖2 縱向與橫向關(guān)系示例

    另外,目前單詞的表達(dá)學(xué)習(xí)主要還是無監(jiān)督的學(xué)習(xí)。因此,評價(jià)更多地集中在對單詞本身的語義表達(dá)性能,如各種word similarity和word analogy任務(wù)。然而,這些任務(wù)并不能反映單詞表達(dá)在真實(shí)的自然語言處理或者信息檢索任務(wù)中的性能,所以更應(yīng)該使用真實(shí)的任務(wù)作為實(shí)驗(yàn)。但這樣帶來的一個(gè)問題就是前端表達(dá)學(xué)習(xí)作為無監(jiān)督學(xué)習(xí),與后端的具體任務(wù)是脫節(jié)的。這也導(dǎo)致許多研究反映,雖然不同的單詞學(xué)習(xí)模型在單詞表達(dá)任務(wù)上可能性能差異很大,但是在具體實(shí)際任務(wù)中并沒有顯著差異。但如果直接根據(jù)任務(wù)設(shè)計(jì)有監(jiān)督的單詞學(xué)習(xí)模型,又會面臨可用的標(biāo)注數(shù)據(jù)太少的問題。一種可行的方案可能是先利用大規(guī)模數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),得到初始的單詞表達(dá),然后根據(jù)具體的監(jiān)督任務(wù)調(diào)整單詞表達(dá),以期望實(shí)現(xiàn)更好的應(yīng)用性能。

    圖3 PDC模型和HDC模型

    2.3 網(wǎng)頁排序?qū)W習(xí)

    網(wǎng)絡(luò)搜索引擎已經(jīng)成為人們?nèi)粘I钪械闹匾ぞ?,在搜索引擎的各個(gè)組成部分中,排序模型直接決定了人們看到的搜索結(jié)果,因此這種模型對于搜索引擎的性能起著至關(guān)重要的作用。

    在信息檢索發(fā)展的歷史上,人們提出了很多排序模型,如進(jìn)行相關(guān)性排序的BM25模型[17]和語言模型[18]以及進(jìn)行搜索結(jié)果多樣化的MMR[19]模型等。這些模型對推動(dòng)搜索技術(shù)發(fā)展起到了一定作用,但是也存在一些問題:有的模型建立在人們對搜索問題的主觀理解之上,需要根據(jù)經(jīng)驗(yàn)人為設(shè)定模型參數(shù);還有一些模型雖然可以從大量網(wǎng)頁中學(xué)習(xí),不斷調(diào)整參數(shù),但無法利用用戶的反饋信息對模型參數(shù)進(jìn)行優(yōu)化。由于用戶提交不同的查詢詞或者不同用戶提交相同的查詢詞都有可能代表不同的信息需求,因此僅從研究者的主觀理解或者僅從網(wǎng)頁數(shù)據(jù)中學(xué)習(xí)排序模型,都無法很好地解決復(fù)雜的網(wǎng)絡(luò)搜索問題。在這樣的背景下,近年來研究人員開始嘗試使用有監(jiān)督的機(jī)器學(xué)習(xí)方法,即從用戶標(biāo)注或者反饋中學(xué)習(xí)最優(yōu)的相關(guān)性排序模型,稱為排序?qū)W習(xí)(learning to rank)[20]。

    為了學(xué)習(xí)最優(yōu)的相關(guān)性排序模型,需要一個(gè)訓(xùn)練數(shù)據(jù)集。該集合包含隨機(jī)抽取的查詢詞、與查詢詞有關(guān)的網(wǎng)頁以及這些網(wǎng)頁的標(biāo)注。這些標(biāo)注可能是由用戶顯式提供的絕對信息,如一個(gè)網(wǎng)頁和查詢詞是非常相關(guān)、相關(guān)還是不相關(guān)等;也可能是從搜索引擎的用戶行為中挖掘出來的相對信息,如某個(gè)網(wǎng)頁是否比另外一個(gè)網(wǎng)頁更加相關(guān)。為了從這些標(biāo)注數(shù)據(jù)中學(xué)到最優(yōu)的排序模型,通常需要定義3個(gè)部分:一是表征網(wǎng)頁信息的特征向量(如詞頻、頁面分級(PageRank)等)和網(wǎng)頁間關(guān)系的特征向量(如網(wǎng)頁相似度等);二是模型的基本形式(如線性、非線性等);三是用來控制學(xué)習(xí)過程的損失函數(shù)(它衡量了當(dāng)前模型的排序結(jié)果和標(biāo)注信息之間的差別)。極小化損失函數(shù)可以得到與標(biāo)注數(shù)據(jù)最吻合的模型參數(shù)。經(jīng)過優(yōu)化的模型將用于回答新的查詢詞。給定新的查詢詞,首先通過倒排表找到包含該查詢詞的網(wǎng)頁,然后為每個(gè)網(wǎng)頁提取特征向量,并將排序模型應(yīng)用到這些特征向量上,從而給每個(gè)網(wǎng)頁輸出一個(gè)分?jǐn)?shù),最后將網(wǎng)頁按照分?jǐn)?shù)的降序進(jìn)行排列并返回給用戶。

    目前針對相關(guān)性的排序?qū)W習(xí)算法效果已經(jīng)做得很好,部分算法甚至還應(yīng)用到了搜索引擎的部分模塊中。然而一個(gè)好的排序不僅依賴于相關(guān)性,多樣化也是一個(gè)重要考慮。其目標(biāo)在于在排序結(jié)果的頂部盡量多地展現(xiàn)不同子話題的網(wǎng)頁,因此在排序的同時(shí)需要考慮網(wǎng)頁間的相似度。然而,這種解決方案的難點(diǎn)在于傳統(tǒng)的排序算法都以查詢和單個(gè)文檔作為輸入,計(jì)算查詢—文檔相關(guān)性很難將文檔間的關(guān)系融入排序模型內(nèi)。

    為了解決上述問題,有的研究者們直接利用結(jié)構(gòu)化支持向量機(jī)直接優(yōu)化多樣化排序評價(jià)準(zhǔn)則[21],樂(Yue)等[22]也利用結(jié)構(gòu)化支持向量機(jī)尋找最佳文檔子集。然而,由于上述算法沒有對排序模型進(jìn)行本質(zhì)上的改變,模型仍然難以勝任多樣化排序任務(wù)。

    朱(Zhu)等人[23]提出了關(guān)系排序?qū)W習(xí)模型R-LTR, 其基本思想是:利用傳統(tǒng)的搜索結(jié)果多樣化模型MMR的思想,使用序列文檔選擇的方式構(gòu)造文檔排序,即從序列的頂部開始,依次選擇排在每一個(gè)位置上的文檔。在每一次進(jìn)行文檔選擇時(shí),考慮查詢—文檔的相關(guān)性和當(dāng)前文檔與已選擇文檔間的相似性,如圖4所示。

    因此,R-LTR模型的參數(shù)分成兩個(gè)部分:第一部分為相關(guān)性參數(shù),其對應(yīng)的特征描述了與查詢—文檔之間匹配的情況和文檔的重要性等;第二部分為文檔關(guān)系參數(shù),其對應(yīng)的特征描述了文檔—文檔之間的關(guān)系,包括文檔在話題、詞等級別的相似性等。在訓(xùn)練過程中,R-LTR通過最大化似然的方式進(jìn)行參數(shù)估計(jì)。在TREC標(biāo)注數(shù)據(jù)集合上的測試表明,在搜索結(jié)果多樣化的任務(wù)上,R-LTR能夠超過傳統(tǒng)的排序?qū)W習(xí)模型,取得了顯著的效果提升。

    夏(Xia)等人[24]針對R-LTR算法只利用了“正例”排序(如α-NDCG=1的最佳排序)進(jìn)行訓(xùn)練的問題,提出了PAMM算法,其主要思想是:同時(shí)利用“正例”排序和“負(fù)例”排序進(jìn)行訓(xùn)練;在排序過程中直接優(yōu)化多樣化排序評價(jià)準(zhǔn)則。實(shí)驗(yàn)結(jié)果表明,上述改進(jìn)方法進(jìn)一步改善了搜索結(jié)果多樣化的排序效果,且使得算法具有優(yōu)化制定的評價(jià)準(zhǔn)則的能力。

    盡管上述各項(xiàng)工作取得了一定的成功,但是由于搜索結(jié)果多樣化任務(wù)本身的復(fù)雜性,且評價(jià)準(zhǔn)則本身不連續(xù)、不可導(dǎo),使得直接對其進(jìn)行優(yōu)化仍然存在很多困難。相關(guān)的學(xué)習(xí)算法可能無法收斂或者很容易陷入局部極值點(diǎn)。總體上講,這個(gè)方向還面臨很多挑戰(zhàn),需要不斷探索。另外,是否能夠利用深度學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)多樣性排序的特征和樣本之間的依賴關(guān)系也是一個(gè)非常有前景的方向。

    圖4 順序文檔選擇過程

    3 結(jié)束語

    綜上所述,內(nèi)容分析成為理解網(wǎng)絡(luò)大數(shù)據(jù)的重要手段。其中,短文本主題建模、單詞表達(dá)學(xué)習(xí)和多樣性排序?qū)W習(xí)是網(wǎng)絡(luò)大數(shù)據(jù)內(nèi)容分析的熱點(diǎn)問題。隨著網(wǎng)絡(luò)大數(shù)據(jù)的發(fā)展,這些方向還存在很多值得探討的科學(xué)問題,例如多源異構(gòu)數(shù)據(jù)的主題建模、如何有效利用監(jiān)督信息得到特定主題的單詞表達(dá)以及如何使用深度學(xué)習(xí)的方法來自動(dòng)學(xué)習(xí)多樣性的特征等。這些問題的解決有助于更好地理解和挖掘網(wǎng)絡(luò)大數(shù)據(jù),從而達(dá)到內(nèi)容分析的目的,為精準(zhǔn)檢索、推薦等應(yīng)用提供支持。

    [1] Hofmann T. Probabilistic latent semantic analysis. Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence, Stockholm, Sweden, 1999

    [2] Blei D M, Ng A Y, Jordan M I. Latentdirichlet allocation. The Journal of Machine Learning Research, 2003, 3: 993~1022

    [3] Metzler D, Dumais S, Meek C. Similarity measures for short segments of text. Proceedings of the 29th European Conference on IR Research, Rome, Italy, 2007: 16~27

    [4] Hong L, Davison B. Empirical study of topic modeling in Twitter. Proceedings of the 1st Workshop on Social Media Analytics, Washington DC, USA, 2010: 80~88

    [5] Zhao W, Jiang J, Weng J,et al. Comparing Twitter and traditional media using topic models, Proceedings of the 33rd European Conference on IR Research, Dublin, Ireland, 2011: 338~349

    [6] Lakkaraju H, Bhattacharya I, Bhattacharyya C. Dynamic multirelational Chinese restaurant process for analyzing influences on users in social media. Proceedings of the 12th IEEE International Conference on Data Mining, Brussels, Belgium, 2012

    [7] Yan X H, Guo J F, Lan Y Y,et al. A biterm topic model for short texts. Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil, 2013: 1445~1456

    [8] Cheng X Q, Yan X H, Lan Y Y,et al. BTM: topic modeling over short texts. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(12): 2928~2941

    [9] Yan X H, Guo J F, Lan Y Y,et al. A probabilistic model for bursty topic discovery in microblogs. Proceedings of the 29th AAAI Conference on Artificial Intelligence, Austin Texas, USA, 2015

    [10] Bengio Y, Ducharme R, Vincent P,et al. A neural probabilistic language model. Journal of Machine Learning Research, 2003, 3: 1137~1155

    [11] Morin F, Bengio Y. Hierarchical probabilistic neural network language model. Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, Barbados, 2005

    [12] Mnih A, Hinton G. Three new graphical models for statistical language modelling. Proceedings of the 24th International Conference on Machine Learning, New York, USA, 2007: 641~648

    [13] Mnih A, Hinton G E. A scalable hierarchical distributed language model. Proceedings of the 23rd Annual Conference on Neural Information Processing Systems (NIPS), Vancouver, Canada, 2009

    [14] Mnih A, Kavukcuoglu K. Learning word embeddings efficiently with noisecontrastive estimation. Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada, USA, 2013

    [15] Mikolov T, Chen K, Corrado G,et al. Efficient estimation of word representations in vector space. Proceedings of Workshop of ICLR, Arizona, USA, 2013

    [16] Sun F, Guo J F, Lan Y Y,et al. Learning word representation by jointly modeling syntagmatic and paradigmatic relations. Proceedings of the 53rd Annual Metting of the Association for Computational Linguistics, Beijing, China, 2015

    [17] Robertson S E. Overview of the okapi projects. Journal of Documentation, 1997, 53(1): 3~7

    [18] Zhai C, Lafferty J. A study of smoothing methods for language models applied to Ad Hoc information retrieval. Proceedings of the 24th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, New Orleans, USA, 2001: 334~342

    [19] Carbonell J, Goldstein J. The use of mmr, diversity-based reranking for reordering documents and producing summaries. Proceedings of the 21st Annual International ACM SIGIR Conference on Research & Development on InformationRetrieval, Melbourne, Australia, 1998: 335~336

    [20] Liu T Y. Learning to Rank for Information Retrieval. New York: Springer-Verlag New York Inc, 2011

    [21] Liang S S, Ren Z C, Maarten D R. Personalized search result diversification via structured learning. In Proceedings of the 20th ACM SIGKDD, New York, USA, 2014: 751~760

    [22] Yue Y, Joachims T. Predicting diverse subsets using structural svms. Proceedings of the 25th ICML, Helsinki, Finland, 2008:1224~1231

    [23] Zhu Y, Lan Y, Guo J,et al. Learning for search result diversification. Proceedings of the 37th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, Gold Coast, QLD, Australia, 2014: 293~302

    [24] Xia L, Xu J, Lan Y Y,et al. Learning maximal marginal relevance model via directly optimizing diversity evaluation measures. Proceedings of the 38th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Santiago, Chile, 2015

    程學(xué)旗,男,中國科學(xué)院計(jì)算技術(shù)研究所研究員、博士生導(dǎo)師,中國科學(xué)院“網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)”重點(diǎn)實(shí)驗(yàn)室主任,目前主要從事網(wǎng)絡(luò)數(shù)據(jù)科學(xué)和社會計(jì)算等研究領(lǐng)域的工作,主持和參與多項(xiàng)國家“973”計(jì)劃、“863”計(jì)劃、國家自然科學(xué)基金項(xiàng)目和國家自然科學(xué)基金委杰出青年基金項(xiàng)目,并多次榮獲國家科技進(jìn)步獎(jiǎng)一等獎(jiǎng)。近年來,在IEEE TKDE、ACM SIGIR、WWW等本領(lǐng)域頂級期刊與國際會議發(fā)表論文40余篇,并榮獲CIKM最佳論文獎(jiǎng)和SIGIR最佳學(xué)生論文獎(jiǎng)。

    蘭艷艷,女,中國科學(xué)院計(jì)算技術(shù)研究所副研究員、碩士生導(dǎo)師,目前主要從事機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘領(lǐng)域的研究工作,在ACM SIGIR、NIPS、ICML等本領(lǐng)域頂級會議發(fā)表論文20余篇,并榮獲SIGIR最佳學(xué)生論文獎(jiǎng)。

    Cheng X Q, Lan Y Y. Text content analysis for web big data. Big Data Research, 2015029

    Text Content Analysis for Web Big Data

    Cheng Xueqi, Lan Yanyan
    Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100019, China

    Text content analysis is an effective way to understand and acquire the “value” of big fata. The challenges and research results were investigated in the three hot topics: topic modeling for short texts, word embedding and learning to rank for web pages. In the end, some remaining problems in this area were proposed.

    text content analysis, topic modeling for short texts, word embedding, learning to rank

    10.11959/j.issn.2096-0271.2015029

    2015-08-16

    國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)基金資助項(xiàng)目(No.2014CB340402),國家自然科學(xué)基金資助項(xiàng)目(No.61170008,No.61272055)

    Foundation Items:The National Basic Research Program of China(973 Program)( No.2014CB340402), The National Natural Science Foundation of China (No.61170008,No.61272055)

    程學(xué)旗,蘭艷艷. 網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析. 大數(shù)據(jù), 2015029

    猜你喜歡
    短文文檔排序
    排序不等式
    有人一聲不吭向你扔了個(gè)文檔
    恐怖排序
    節(jié)日排序
    KEYS
    Keys
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    短文改錯(cuò)
    男女那种视频在线观看| 亚洲av日韩精品久久久久久密| 亚洲中文字幕日韩| 看黄色毛片网站| 色尼玛亚洲综合影院| 国产69精品久久久久777片| 高清毛片免费观看视频网站| 一二三四社区在线视频社区8| 久久久成人免费电影| 丁香欧美五月| 欧美一区二区精品小视频在线| 欧美日韩黄片免| av国产免费在线观看| 久久久久久大精品| 久久久色成人| 午夜久久久久精精品| 一个人看视频在线观看www免费| 日韩人妻高清精品专区| 成人特级av手机在线观看| 国产精品久久视频播放| 国产成人av教育| 亚洲三级黄色毛片| 亚洲专区中文字幕在线| 有码 亚洲区| 给我免费播放毛片高清在线观看| 久久伊人香网站| 成人高潮视频无遮挡免费网站| 久久人人精品亚洲av| 色哟哟·www| 久久午夜亚洲精品久久| 一本精品99久久精品77| 欧美日韩黄片免| 丰满人妻一区二区三区视频av| 老鸭窝网址在线观看| 国产精品久久久久久久久免 | 国产老妇女一区| 国产不卡一卡二| 日韩欧美免费精品| 亚洲欧美精品综合久久99| 成人精品一区二区免费| 一区二区三区高清视频在线| 欧美一区二区国产精品久久精品| 夜夜夜夜夜久久久久| 成人精品一区二区免费| 亚洲自拍偷在线| 噜噜噜噜噜久久久久久91| 日韩 亚洲 欧美在线| 99精品在免费线老司机午夜| 国产精品久久久久久亚洲av鲁大| 久久久久久国产a免费观看| 久久久色成人| 国产精品人妻久久久久久| 日韩免费av在线播放| 亚洲精品粉嫩美女一区| 精品熟女少妇八av免费久了| 国产精品电影一区二区三区| 永久网站在线| 中文字幕人成人乱码亚洲影| 变态另类丝袜制服| 男女视频在线观看网站免费| 欧美乱妇无乱码| 精品人妻熟女av久视频| 两人在一起打扑克的视频| 蜜桃亚洲精品一区二区三区| 欧美一级a爱片免费观看看| 丁香六月欧美| 亚洲专区国产一区二区| 麻豆久久精品国产亚洲av| 日韩精品青青久久久久久| 日本与韩国留学比较| 一a级毛片在线观看| 国产蜜桃级精品一区二区三区| 一区福利在线观看| 午夜福利18| 亚洲精品一卡2卡三卡4卡5卡| 亚洲avbb在线观看| 午夜激情福利司机影院| 男人的好看免费观看在线视频| xxxwww97欧美| 又爽又黄a免费视频| 国产熟女xx| 久久精品91蜜桃| 成人三级黄色视频| 国产av不卡久久| 男女之事视频高清在线观看| 欧美色视频一区免费| 特大巨黑吊av在线直播| 欧美最黄视频在线播放免费| 少妇高潮的动态图| 少妇熟女aⅴ在线视频| 波野结衣二区三区在线| 婷婷精品国产亚洲av在线| 色综合亚洲欧美另类图片| 亚洲av电影在线进入| 十八禁人妻一区二区| 又爽又黄无遮挡网站| 午夜精品一区二区三区免费看| 黄色一级大片看看| 免费在线观看影片大全网站| 午夜a级毛片| 俄罗斯特黄特色一大片| 亚洲精品影视一区二区三区av| 男插女下体视频免费在线播放| 中国美女看黄片| 国模一区二区三区四区视频| 两个人视频免费观看高清| 亚洲七黄色美女视频| 亚洲性夜色夜夜综合| or卡值多少钱| 岛国在线免费视频观看| 18美女黄网站色大片免费观看| 久久九九热精品免费| 极品教师在线视频| 日韩大尺度精品在线看网址| 麻豆一二三区av精品| 特级一级黄色大片| 永久网站在线| 久久亚洲精品不卡| 免费av毛片视频| 琪琪午夜伦伦电影理论片6080| 欧美黑人欧美精品刺激| 嫩草影院精品99| 国内毛片毛片毛片毛片毛片| 天美传媒精品一区二区| www.www免费av| av女优亚洲男人天堂| 日本黄色片子视频| 亚洲精品乱码久久久v下载方式| 国产欧美日韩精品一区二区| 黄色日韩在线| 免费看a级黄色片| 黄片小视频在线播放| 亚洲精品久久国产高清桃花| 乱码一卡2卡4卡精品| 1000部很黄的大片| 少妇的逼好多水| 亚洲精品影视一区二区三区av| 欧美高清性xxxxhd video| 国产在线男女| 国产一区二区在线观看日韩| 麻豆成人午夜福利视频| 99久久九九国产精品国产免费| 亚洲激情在线av| 欧美日韩福利视频一区二区| 欧美激情久久久久久爽电影| 免费电影在线观看免费观看| 毛片女人毛片| 久久精品国产亚洲av涩爱 | 成人性生交大片免费视频hd| 黄色一级大片看看| 哪里可以看免费的av片| bbb黄色大片| 99国产精品一区二区三区| 日本 av在线| 成年人黄色毛片网站| 天堂av国产一区二区熟女人妻| 最好的美女福利视频网| 久久性视频一级片| 伊人久久精品亚洲午夜| 欧美精品国产亚洲| 欧美3d第一页| 色哟哟哟哟哟哟| 极品教师在线免费播放| 亚洲人成网站在线播| 永久网站在线| 日韩av在线大香蕉| 免费一级毛片在线播放高清视频| 久久精品久久久久久噜噜老黄 | 亚洲在线观看片| 精品一区二区三区人妻视频| 乱人视频在线观看| 老女人水多毛片| 亚洲av成人不卡在线观看播放网| 中亚洲国语对白在线视频| 淫妇啪啪啪对白视频| 亚洲av成人不卡在线观看播放网| 18禁裸乳无遮挡免费网站照片| 啦啦啦韩国在线观看视频| 亚洲美女黄片视频| 国产亚洲精品久久久com| 成人精品一区二区免费| 宅男免费午夜| 久久精品国产99精品国产亚洲性色| 久久国产精品影院| 90打野战视频偷拍视频| 久久精品国产亚洲av天美| 免费在线观看影片大全网站| 色播亚洲综合网| 亚洲av成人精品一区久久| 日韩欧美国产一区二区入口| 18禁裸乳无遮挡免费网站照片| 小蜜桃在线观看免费完整版高清| 国产精品免费一区二区三区在线| 免费看日本二区| 一区二区三区激情视频| 一个人免费在线观看电影| 久久国产精品人妻蜜桃| 久久国产乱子免费精品| 久久久国产成人免费| 欧美+日韩+精品| 国产91精品成人一区二区三区| 国产美女午夜福利| 成年版毛片免费区| 麻豆国产97在线/欧美| 女人被狂操c到高潮| 欧美日韩综合久久久久久 | а√天堂www在线а√下载| 午夜久久久久精精品| 亚洲真实伦在线观看| 一边摸一边抽搐一进一小说| 久久久久久久久久成人| 精品久久国产蜜桃| 乱码一卡2卡4卡精品| 国产av在哪里看| 一区二区三区免费毛片| 欧美日韩国产亚洲二区| 国产成人福利小说| 国产精品久久电影中文字幕| 欧美又色又爽又黄视频| 一本一本综合久久| 国产黄片美女视频| 精品久久久久久久久av| 久久久久精品国产欧美久久久| 亚洲av成人不卡在线观看播放网| 欧美乱妇无乱码| 日本熟妇午夜| 亚洲18禁久久av| 亚洲精品456在线播放app | 天堂√8在线中文| 成人亚洲精品av一区二区| 九九在线视频观看精品| 亚洲七黄色美女视频| 啦啦啦韩国在线观看视频| 最新中文字幕久久久久| 最新在线观看一区二区三区| 身体一侧抽搐| 高清毛片免费观看视频网站| 白带黄色成豆腐渣| 超碰av人人做人人爽久久| 亚洲在线观看片| 欧美bdsm另类| aaaaa片日本免费| 欧美区成人在线视频| 国产精品自产拍在线观看55亚洲| 怎么达到女性高潮| 欧美午夜高清在线| 欧美成人免费av一区二区三区| 每晚都被弄得嗷嗷叫到高潮| or卡值多少钱| 中文字幕免费在线视频6| 国产黄片美女视频| 一区福利在线观看| 色精品久久人妻99蜜桃| 亚洲精品456在线播放app | 波多野结衣巨乳人妻| 亚洲成人久久性| 精品一区二区三区人妻视频| 国产主播在线观看一区二区| 亚洲aⅴ乱码一区二区在线播放| 女人被狂操c到高潮| 熟妇人妻久久中文字幕3abv| 神马国产精品三级电影在线观看| 国产成年人精品一区二区| 97热精品久久久久久| 亚洲av不卡在线观看| 欧美日韩瑟瑟在线播放| www.色视频.com| 免费在线观看成人毛片| 亚洲成人久久性| 久久天躁狠狠躁夜夜2o2o| 亚洲成av人片在线播放无| 国产精品,欧美在线| 欧美中文日本在线观看视频| 欧美+亚洲+日韩+国产| www.www免费av| 在线十欧美十亚洲十日本专区| 色哟哟·www| 日韩欧美国产在线观看| 婷婷六月久久综合丁香| 亚洲久久久久久中文字幕| 精品人妻1区二区| 亚洲成av人片免费观看| 日本黄色视频三级网站网址| 色精品久久人妻99蜜桃| 国产黄片美女视频| 欧美在线一区亚洲| 欧美激情国产日韩精品一区| 欧美成人a在线观看| 亚洲成av人片在线播放无| 五月玫瑰六月丁香| 又黄又爽又刺激的免费视频.| 国产av在哪里看| 一级作爱视频免费观看| 麻豆久久精品国产亚洲av| 97热精品久久久久久| 在线十欧美十亚洲十日本专区| 欧美性猛交黑人性爽| 国产aⅴ精品一区二区三区波| 中文字幕人成人乱码亚洲影| 91麻豆av在线| 91av网一区二区| 在线免费观看不下载黄p国产 | 国产私拍福利视频在线观看| 精品久久久久久久久久久久久| 欧美在线黄色| 精品午夜福利视频在线观看一区| 91av网一区二区| x7x7x7水蜜桃| 精品人妻偷拍中文字幕| 国产精品嫩草影院av在线观看 | 午夜精品在线福利| 欧美最新免费一区二区三区 | 午夜视频国产福利| 国产av不卡久久| 十八禁国产超污无遮挡网站| 久久久久久久久大av| 如何舔出高潮| 久久精品国产自在天天线| 成年免费大片在线观看| 人人妻,人人澡人人爽秒播| 美女cb高潮喷水在线观看| 亚洲精品一卡2卡三卡4卡5卡| 狠狠狠狠99中文字幕| 亚洲成av人片在线播放无| 精品久久国产蜜桃| 亚洲av中文字字幕乱码综合| a级毛片免费高清观看在线播放| 国产色爽女视频免费观看| 日韩欧美一区二区三区在线观看| 国产成人啪精品午夜网站| 精华霜和精华液先用哪个| aaaaa片日本免费| 国产乱人视频| 青草久久国产| 日本黄大片高清| 最近最新免费中文字幕在线| 婷婷亚洲欧美| 丝袜美腿在线中文| 成人国产综合亚洲| 丝袜美腿在线中文| 国产精品98久久久久久宅男小说| 久久午夜福利片| 成人永久免费在线观看视频| 欧美性猛交黑人性爽| 99热这里只有精品一区| 亚洲成人精品中文字幕电影| 欧美3d第一页| 91av网一区二区| 国产成人欧美在线观看| 精品人妻视频免费看| 成年免费大片在线观看| 亚洲精品日韩av片在线观看| 中出人妻视频一区二区| 久久精品夜夜夜夜夜久久蜜豆| 99久国产av精品| 18禁黄网站禁片免费观看直播| 99久久精品国产亚洲精品| 中文字幕av成人在线电影| 国产美女午夜福利| av天堂在线播放| 日本撒尿小便嘘嘘汇集6| 97碰自拍视频| 国产亚洲欧美98| 自拍偷自拍亚洲精品老妇| 久久久久性生活片| 最好的美女福利视频网| 国产精品久久久久久久久免 | 精品无人区乱码1区二区| 成人毛片a级毛片在线播放| av女优亚洲男人天堂| 国产高清视频在线播放一区| 久99久视频精品免费| 久久热精品热| 午夜激情欧美在线| 久久人人精品亚洲av| 成年女人毛片免费观看观看9| 亚洲真实伦在线观看| 亚洲成a人片在线一区二区| 神马国产精品三级电影在线观看| 美女高潮的动态| 亚洲真实伦在线观看| 最新在线观看一区二区三区| eeuss影院久久| 校园春色视频在线观看| 午夜a级毛片| 亚洲美女搞黄在线观看 | 国产精品影院久久| 97超级碰碰碰精品色视频在线观看| 国产男靠女视频免费网站| 亚洲人与动物交配视频| 91午夜精品亚洲一区二区三区 | 日本在线视频免费播放| 久久久久久久久久黄片| 久久久精品大字幕| 男女床上黄色一级片免费看| 中文字幕久久专区| a级毛片a级免费在线| 在线观看舔阴道视频| 我要搜黄色片| 成人国产综合亚洲| 日韩高清综合在线| 国产午夜福利久久久久久| 国产精品久久视频播放| 亚洲精品在线美女| 日韩有码中文字幕| 村上凉子中文字幕在线| 精品日产1卡2卡| eeuss影院久久| 亚洲不卡免费看| 男女做爰动态图高潮gif福利片| 国产成人啪精品午夜网站| 香蕉av资源在线| 成人美女网站在线观看视频| 最新中文字幕久久久久| 久久99热6这里只有精品| 久久香蕉精品热| a级毛片a级免费在线| 欧洲精品卡2卡3卡4卡5卡区| 日本免费一区二区三区高清不卡| 国产黄色小视频在线观看| 久久久精品大字幕| 久久国产乱子伦精品免费另类| 一个人观看的视频www高清免费观看| 免费观看精品视频网站| 一区福利在线观看| 在线免费观看不下载黄p国产 | 国产一区二区三区视频了| 深爱激情五月婷婷| 亚洲在线自拍视频| 搡老岳熟女国产| 三级毛片av免费| 欧美日韩综合久久久久久 | 精品乱码久久久久久99久播| 欧美日韩亚洲国产一区二区在线观看| 国产精品影院久久| 人妻久久中文字幕网| 婷婷精品国产亚洲av在线| 欧美色视频一区免费| 12—13女人毛片做爰片一| 一级黄片播放器| av天堂在线播放| 婷婷丁香在线五月| 丰满的人妻完整版| 欧洲精品卡2卡3卡4卡5卡区| www日本黄色视频网| 欧美国产日韩亚洲一区| 91麻豆精品激情在线观看国产| 婷婷丁香在线五月| 美女免费视频网站| 99久久成人亚洲精品观看| 男女床上黄色一级片免费看| 9191精品国产免费久久| 岛国在线免费视频观看| 夜夜看夜夜爽夜夜摸| 日韩有码中文字幕| 亚洲精品日韩av片在线观看| 中文字幕人妻熟人妻熟丝袜美| 国产国拍精品亚洲av在线观看| 9191精品国产免费久久| 啪啪无遮挡十八禁网站| 亚洲电影在线观看av| 日韩 亚洲 欧美在线| 久久国产乱子伦精品免费另类| 亚洲美女搞黄在线观看 | 亚洲美女视频黄频| 国内精品久久久久精免费| 国产精品爽爽va在线观看网站| 国产精品乱码一区二三区的特点| 一本久久中文字幕| 国产精品影院久久| 日韩欧美在线二视频| 丰满人妻一区二区三区视频av| 国产精品野战在线观看| 精品免费久久久久久久清纯| 在线观看免费视频日本深夜| 无人区码免费观看不卡| 久久精品久久久久久噜噜老黄 | 中文字幕精品亚洲无线码一区| 91字幕亚洲| 老司机午夜福利在线观看视频| 草草在线视频免费看| 日本一本二区三区精品| 淫秽高清视频在线观看| 精品福利观看| 1024手机看黄色片| 精品人妻视频免费看| 日韩欧美国产在线观看| 国产精品爽爽va在线观看网站| 婷婷亚洲欧美| 亚洲国产色片| 亚洲乱码一区二区免费版| 亚洲久久久久久中文字幕| 亚洲国产欧洲综合997久久,| 欧美乱色亚洲激情| 亚洲欧美清纯卡通| 午夜福利在线在线| 国产精品久久电影中文字幕| 亚洲熟妇熟女久久| 搞女人的毛片| 日本一二三区视频观看| 亚洲真实伦在线观看| 日本在线视频免费播放| 欧美一区二区国产精品久久精品| 老熟妇乱子伦视频在线观看| 简卡轻食公司| 少妇丰满av| 日本一本二区三区精品| 超碰av人人做人人爽久久| 国产精品亚洲一级av第二区| 国产麻豆成人av免费视频| 少妇丰满av| 精品国内亚洲2022精品成人| 69人妻影院| 亚洲中文字幕一区二区三区有码在线看| 两人在一起打扑克的视频| 免费av毛片视频| 看黄色毛片网站| 嫩草影院入口| 国内少妇人妻偷人精品xxx网站| 欧美成人免费av一区二区三区| 五月玫瑰六月丁香| 国产免费男女视频| 男人和女人高潮做爰伦理| 深夜a级毛片| 又黄又爽又刺激的免费视频.| 欧美性感艳星| 欧美区成人在线视频| 亚洲欧美激情综合另类| 欧美午夜高清在线| 91九色精品人成在线观看| 午夜老司机福利剧场| 99国产极品粉嫩在线观看| 99久久成人亚洲精品观看| 淫秽高清视频在线观看| 女同久久另类99精品国产91| 欧美色欧美亚洲另类二区| 亚洲av.av天堂| 中文字幕高清在线视频| 一区二区三区免费毛片| 国产av在哪里看| 国产aⅴ精品一区二区三区波| av在线天堂中文字幕| 午夜两性在线视频| xxxwww97欧美| 日韩欧美三级三区| 搡老熟女国产l中国老女人| 久久久久九九精品影院| 久久国产乱子伦精品免费另类| 亚洲人成网站高清观看| 日本a在线网址| 午夜福利在线观看免费完整高清在 | 日日夜夜操网爽| 欧美在线一区亚洲| 久久精品人妻少妇| 精品久久久久久久久久久久久| 久久久精品欧美日韩精品| 精品不卡国产一区二区三区| 一级黄片播放器| 亚洲av.av天堂| 一本综合久久免费| 在现免费观看毛片| 久久精品久久久久久噜噜老黄 | 亚洲精品在线观看二区| 国产av一区在线观看免费| 中文字幕熟女人妻在线| 日本黄色视频三级网站网址| 亚洲片人在线观看| 少妇的逼水好多| 精品久久久久久久末码| 人人妻人人澡欧美一区二区| 亚洲在线自拍视频| 亚洲av熟女| 日本免费一区二区三区高清不卡| www.熟女人妻精品国产| 免费大片18禁| 两个人的视频大全免费| 欧洲精品卡2卡3卡4卡5卡区| 嫩草影院精品99| 亚洲精品在线美女| 如何舔出高潮| 欧美日韩中文字幕国产精品一区二区三区| 精品福利观看| 桃色一区二区三区在线观看| 天堂动漫精品| 精品福利观看| 亚洲成a人片在线一区二区| 精品午夜福利在线看| 欧美不卡视频在线免费观看| 很黄的视频免费| 88av欧美| 伦理电影大哥的女人| 免费在线观看亚洲国产| 国产精品免费一区二区三区在线| 天天一区二区日本电影三级| 国产成人aa在线观看| 我的女老师完整版在线观看| 欧美+日韩+精品| 久99久视频精品免费| 久久久久久久久大av| 两性午夜刺激爽爽歪歪视频在线观看| 欧美色视频一区免费| 男女做爰动态图高潮gif福利片| 91狼人影院| 国产人妻一区二区三区在| 国产欧美日韩一区二区三| 亚洲一区二区三区不卡视频| 国产欧美日韩一区二区精品| 久久精品国产亚洲av香蕉五月| 亚洲,欧美,日韩| 久99久视频精品免费| 我的女老师完整版在线观看| 欧美日韩瑟瑟在线播放| 很黄的视频免费| 免费高清视频大片| 国产白丝娇喘喷水9色精品|