• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)時(shí)代的互聯(lián)網(wǎng)分析引擎

    2015-03-17 02:53:30竇志成文繼榮
    大數(shù)據(jù) 2015年3期
    關(guān)鍵詞:引言

    竇志成,文繼榮

    中國人民大學(xué)信息學(xué)院大數(shù)據(jù)管理與分析方法研究北京市重點(diǎn)實(shí)驗(yàn)室 北京 100872

    大數(shù)據(jù)時(shí)代的互聯(lián)網(wǎng)分析引擎

    竇志成,文繼榮

    中國人民大學(xué)信息學(xué)院大數(shù)據(jù)管理與分析方法研究北京市重點(diǎn)實(shí)驗(yàn)室 北京 100872

    隨著互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)文檔的數(shù)量、內(nèi)容的豐富度和復(fù)雜度都大大增加,互聯(lián)網(wǎng)正朝大數(shù)據(jù)時(shí)代邁進(jìn),而用戶的信息需求也趨于復(fù)雜化。除了基本的信息檢索需求外,對(duì)大量相關(guān)文檔的深入理解與聚合分析的需求也越來越強(qiáng)烈,而傳統(tǒng)的互聯(lián)網(wǎng)搜索引擎已經(jīng)無法滿足人們對(duì)該類信息的需求。針對(duì)這一問題,提出“互聯(lián)網(wǎng)分析引擎”的構(gòu)想,闡述了其與搜索引擎和OLAP分析系統(tǒng)的區(qū)別,介紹了一種互聯(lián)網(wǎng)分析引擎的架構(gòu),并詳細(xì)討論了實(shí)現(xiàn)該引擎的核心問題。

    互聯(lián)網(wǎng)大數(shù)據(jù);分析引擎;數(shù)據(jù)感知與采集

    1 引言

    隨著移動(dòng)互聯(lián)網(wǎng)、智能手機(jī)、社交媒體、自媒體技術(shù)的飛速發(fā)展以及“互聯(lián)網(wǎng)+”戰(zhàn)略的推廣,互聯(lián)網(wǎng)對(duì)個(gè)人生活方式的影響進(jìn)一步深化?;ヂ?lián)網(wǎng)從原來僅提供資料發(fā)布、信息共享、鏈接互聯(lián)等簡單功能,開始轉(zhuǎn)變?yōu)槿藗兩钪斜夭豢缮俚男畔@取和溝通娛樂的工具,并且發(fā)展為與醫(yī)療、教育、交通等公用服務(wù)深度融合的民生服務(wù)。海量的普通用戶也逐漸從信息的瀏覽者變成了信息的制造者。中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第36次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2015年6月,中國網(wǎng)站總數(shù)為357萬個(gè),網(wǎng)民規(guī)模達(dá)6.68億戶,手機(jī)網(wǎng)民規(guī)模達(dá)5.94億戶[1]?;ヂ?lián)網(wǎng)上的信息呈現(xiàn)幾何級(jí)的增長,體量大、變化快、復(fù)雜多樣,呈現(xiàn)出典型的大數(shù)據(jù)特征。

    互聯(lián)網(wǎng)大數(shù)據(jù)的飛速增長給人們生活帶來便利的同時(shí),也導(dǎo)致“信息過載”問題日趨嚴(yán)重。例如,2014年3月8日“馬航失聯(lián)”事件發(fā)生后,截至2014年5月21日,僅在百度中被索引的相關(guān)網(wǎng)頁數(shù)量就有500多萬篇,新浪微博上關(guān)于“MH370”的微博有1 580萬條,并產(chǎn)生了大量的轉(zhuǎn)發(fā)和評(píng)論。如此大量的數(shù)據(jù)和信息往往超過了個(gè)人所能接受的范圍。首先,用戶從如此海量的互聯(lián)網(wǎng)數(shù)據(jù)中查找和瀏覽有用信息變得越來越困難;其次,用戶在查找有用信息的同時(shí)會(huì)遇到大量的冗余信息;此外,用戶在海量的文本內(nèi)容中進(jìn)行匯總和理解非常困難。信息檢索技術(shù)和互聯(lián)網(wǎng)搜索引擎[2]在一定程度上能夠解決上述問題。搜索引擎可以幫用戶從海量互聯(lián)網(wǎng)文檔中檢索到和用戶需求關(guān)鍵詞相關(guān)的文檔,并按照相關(guān)性高低進(jìn)行排序。截至2015年6月,中國搜索引擎用戶規(guī)模達(dá) 5.36 億戶,使用率為 80.3%,搜索引擎是中國網(wǎng)民除了即時(shí)通信外使用率最高的互聯(lián)網(wǎng)應(yīng)用,并成為人們從互聯(lián)網(wǎng)獲取信息的一個(gè)必不可少的工具。但是,隨著互聯(lián)網(wǎng)數(shù)據(jù)的不斷增加以及數(shù)據(jù)類型的日趨復(fù)雜,搜索引擎已經(jīng)不能很好地滿足用戶對(duì)于信息的深入分析與理解的需求。搜索引擎本質(zhì)上只能夠提供基本的檢索功能,而用戶往往具有高階知識(shí)獲取的需求。例如,當(dāng)用戶在搜索引擎中搜索“馬航失聯(lián)”的時(shí)候,很有可能不是在尋找某一條特定新聞或網(wǎng)頁,而是希望獲取對(duì)整個(gè)事件或最近進(jìn)展的一個(gè)高度濃縮的知識(shí)或結(jié)論,如了解“馬航失聯(lián)”事件中各個(gè)搜救階段的主要進(jìn)行地點(diǎn)和負(fù)責(zé)機(jī)構(gòu)以及它們之間的關(guān)聯(lián)關(guān)系。用戶在搜索“天津?yàn)I海爆炸”時(shí),是需要了解整個(gè)事件的起因、損失情況、救援過程、相關(guān)企業(yè)信息、民眾觀點(diǎn)等各方面信息。目前,搜索引擎不能滿足用戶這種對(duì)大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)的深層次聚合分析的需求。用戶只能先通過搜索引擎或其他應(yīng)用獲取相關(guān)網(wǎng)頁列表,然后逐一閱讀每個(gè)網(wǎng)頁來對(duì)相關(guān)內(nèi)容進(jìn)行理解和匯總,才能總結(jié)出這些檢索結(jié)果中蘊(yùn)含的高階知識(shí)。這一過程非常耗時(shí)耗力,而在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,用戶也不可能逐一閱讀所有相關(guān)文檔。例如在“馬航失聯(lián)”事件上,百度搜索引擎返回的相關(guān)文檔有500多萬篇,超出了普通用戶可以閱讀的范圍。用戶迫切需要一種新的能夠幫助用戶完成復(fù)雜分析任務(wù)的系統(tǒng)。和互聯(lián)網(wǎng)搜索引擎提供的“搜索”功能不同,該系統(tǒng)能夠?qū)A炕ヂ?lián)網(wǎng)大數(shù)據(jù)進(jìn)行深入分析,因此稱之為“互聯(lián)網(wǎng)分析引擎”?;ヂ?lián)網(wǎng)分析引擎就像一個(gè)“超人”,代替普通用戶完成對(duì)大規(guī)模文檔的閱讀和理解,并對(duì)其中所包含的關(guān)鍵信息與知識(shí)進(jìn)行抽取、挖掘和匯總,并最終通過交互式的分析過程讓用戶對(duì)挖掘到的高階知識(shí)進(jìn)行瀏覽和分析,進(jìn)而為用戶決策提供支持。本文將介紹互聯(lián)網(wǎng)分析引擎設(shè)計(jì)構(gòu)架與數(shù)據(jù)處理流程,并對(duì)其中關(guān)鍵研究問題進(jìn)行詳細(xì)闡述。

    2 互聯(lián)網(wǎng)分析引擎

    分析引擎旨在提供給用戶一個(gè)基于海量互聯(lián)網(wǎng)大數(shù)據(jù)的多維分析服務(wù),而不僅僅是搜索。搜索引擎重點(diǎn)解決“用戶需求的信息在哪里”。給定用戶查詢后,搜索引擎返回網(wǎng)頁或網(wǎng)站列表。例如,若用戶查詢“霧霾”,搜索引擎可返回一系列關(guān)于霧霾的網(wǎng)頁和新聞。很多情況下,返回的結(jié)果并不能直接滿足用戶的信息需求。用戶仍然需要自己瀏覽、總結(jié)和歸納文檔中相關(guān)信息。而分析引擎試圖在滿足用戶信息需求的方向上邁進(jìn)一步,除了找到相關(guān)結(jié)果外,還要重點(diǎn)回答“這些相關(guān)信息從統(tǒng)計(jì)上有什么特征”。一個(gè)簡單的分析引擎中查詢“霧霾”的部分輸出結(jié)果示例如圖1所示。該分析引擎可返回霧霾成因、霧霾治理、霧霾成分等維度的內(nèi)容以及它們的重要性,還可返回關(guān)于霧霾的機(jī)構(gòu)、地點(diǎn)、人物、話題、事件等維度以及它們?cè)诨ヂ?lián)網(wǎng)上的熱度隨時(shí)間變化的趨勢(shì)。分析引擎還允許用戶在分析結(jié)果上進(jìn)行交互。例如,用戶在分析結(jié)果上選擇人物“柴靜”,則可進(jìn)一步分析出在霧霾這一問題上,與柴靜相關(guān)的互聯(lián)網(wǎng)信息中其他各維度內(nèi)容的分布情況:相關(guān)的最熱話題是“穹頂之下”,相關(guān)話題的討論時(shí)間范圍是2015年2-3月,這個(gè)子話題的相關(guān)人物還包括陳吉寧等。

    2.1 與搜索引擎的對(duì)比

    互聯(lián)網(wǎng)分析引擎和現(xiàn)在廣泛使用的互聯(lián)網(wǎng)搜索引擎的功能對(duì)比如圖2所示。在搜索引擎的處理邏輯中,文檔是基本的檢索單位。搜索引擎的核心任務(wù)是匹配用戶查詢?cè)~q和互聯(lián)網(wǎng)上存在的文檔d,計(jì)算它們的相關(guān)性,進(jìn)而篩選出滿足用戶意圖的文檔子集,并按照相關(guān)性高低進(jìn)行排序輸出。近年來,雖然各大商業(yè)搜索引擎也在不斷改變和豐富SERP(search result page,搜索結(jié)果頁面)的內(nèi)容,例如集成知識(shí)圖譜搜索的內(nèi)容,但搜索結(jié)果的主體仍然是網(wǎng)頁列表。與搜索引擎類似,互聯(lián)網(wǎng)分析引擎也以查詢?cè)~為用戶需求的基本表達(dá)方式,這一方式延續(xù)了這一簡單的輸入方式給用戶帶來的便利性。但分析引擎打破了搜索引擎的模式。

    第一,系統(tǒng)返回的不再是簡單的文檔列表,而是高階知識(shí)k。這些知識(shí)往往不以具體的形式存在于某個(gè)特定互聯(lián)網(wǎng)文檔中,必須對(duì)大量文檔內(nèi)容進(jìn)行理解分析和統(tǒng)計(jì)后才能得到。

    第二,分析引擎額外強(qiáng)調(diào)了時(shí)間維度。一方面,分析引擎期望對(duì)歷史所有文檔進(jìn)行統(tǒng)計(jì)分析,結(jié)果中可明確地對(duì)時(shí)間維度進(jìn)行建模和分析,而現(xiàn)在的搜索引擎一般僅對(duì)最新版本的網(wǎng)頁進(jìn)行抓取和處理,這往往忽略了時(shí)間維度上所隱含的有用信息;另一方面,在分析引擎中,所處理文檔的生成時(shí)間和查詢時(shí)間的間隔要盡量小,即強(qiáng)調(diào)分析結(jié)果的實(shí)時(shí)性,而普通的搜索引擎對(duì)時(shí)效性的要求并不高。

    第三,傳統(tǒng)搜索引擎能夠主要通過簡單結(jié)果列表的方式展示檢索結(jié)果,而互聯(lián)網(wǎng)分析引擎的結(jié)果展現(xiàn)和用戶交互方式更接近數(shù)據(jù)倉庫系統(tǒng)中的OLAP(online analytical processing,在線聯(lián)機(jī)分析處理)系統(tǒng)[3,4]。主要通過折線圖、直方圖、面積圖、堆積圖、餅圖、多坐標(biāo)軸圖等統(tǒng)計(jì)圖表的形式對(duì)基于文本立方體的分析結(jié)果進(jìn)行展示,并允許用戶基于這些圖表進(jìn)行鉆?。╠rill-up和drill-down)、切片(slice)、切塊(dice)以及旋轉(zhuǎn)(pivot)等操作,以完成對(duì)相關(guān)內(nèi)容的全方位分析。搜索引擎和分析引擎的其他對(duì)比見表1。

    圖1 分析引擎中查詢“霧霾”的交互式結(jié)果示例

    圖2 搜索引擎和分析引擎功能

    高效率的檢索系統(tǒng)和高質(zhì)量的檢索結(jié)果是獲得準(zhǔn)確分析結(jié)果的前提?;ヂ?lián)網(wǎng)搜索引擎的底層技術(shù)對(duì)實(shí)現(xiàn)高性能、高質(zhì)量的分析引擎提供了基礎(chǔ)?;ヂ?lián)網(wǎng)搜索引擎主要采用倒排表的方式對(duì)文檔進(jìn)行全文索引,并通過對(duì)查詢?cè)~對(duì)應(yīng)的倒排索引列表進(jìn)行高效的集合操作來匹配文檔和查詢關(guān)鍵詞。搜索引擎在這種高效文檔匹配的相關(guān)技術(shù)上已經(jīng)非常成熟。給定查詢?cè)~,搜索引擎通??梢栽诤撩爰?jí)別的時(shí)間內(nèi)從數(shù)十億的互聯(lián)網(wǎng)文檔中匹配到相關(guān)文檔,選擇出相關(guān)性最高的前N個(gè)結(jié)果返回給用戶。在這個(gè)過程中應(yīng)用了一系列技術(shù)來提高系統(tǒng)性能。例如,通過對(duì)文檔進(jìn)行預(yù)處理以便進(jìn)行高效的Top k文檔初選[5],從而大大減少后續(xù)操作涉及的文檔數(shù)量。文檔相關(guān)性打分等操作僅僅需要在小規(guī)模的滿足初選條件的文檔集上進(jìn)行,這將大幅度提高檢索性能。并且僅僅需要對(duì)要顯示給用戶的某一頁文檔(通常是10個(gè))生成摘要,而不是對(duì)所有匹配文檔都生成摘要,也大大節(jié)省了磁盤讀取和CPU計(jì)算代價(jià)。而在互聯(lián)網(wǎng)分析引擎中,搜索引擎中的某些優(yōu)化策略將不再生效。例如,分析引擎通常需要對(duì)匹配到的所有文檔進(jìn)行匯總和計(jì)算。如果僅僅在返回的前幾個(gè)結(jié)果上應(yīng)用分析操作,則很可能因?yàn)閿?shù)據(jù)量不足導(dǎo)致分析結(jié)果不準(zhǔn)確。這意味著分析引擎的I/O和CPU開銷將遠(yuǎn)遠(yuǎn)高于搜索引擎。

    表1 搜索引擎和分析引擎對(duì)比

    2.2 與OLAP技術(shù)的區(qū)別和聯(lián)系

    OLAP系統(tǒng)[3,4]是一種基于結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)倉庫的分析系統(tǒng),專門用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持。最為常見的方法就是基于多維數(shù)據(jù)構(gòu)建數(shù)據(jù)立方體(cube)模型。通過大量的預(yù)聚集計(jì)算,生成支持多維分析的數(shù)據(jù)立方體,并在此基礎(chǔ)上支持下鉆、上卷、切片、切塊、旋轉(zhuǎn)等OLAP操作[6~8]。

    OLAP主要構(gòu)建在結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上,而互聯(lián)網(wǎng)分析引擎處理的對(duì)象則主要是非結(jié)構(gòu)化的互聯(lián)網(wǎng)文檔,如網(wǎng)頁、微博、帖子等。與傳統(tǒng)的OLAP多維分析技術(shù)相比,互聯(lián)網(wǎng)分析引擎的挑戰(zhàn)更大,主要原因如下。

    (1)數(shù)據(jù)無結(jié)構(gòu)。大部分互聯(lián)網(wǎng)文檔是無結(jié)構(gòu)的文本數(shù)據(jù),無法像結(jié)構(gòu)化數(shù)據(jù)一樣預(yù)定義數(shù)據(jù)模式(schema),因此處理起來更為復(fù)雜。例如在電信業(yè)大數(shù)據(jù)中,基本的通話記錄可由主叫號(hào)碼、被叫號(hào)碼、通話時(shí)長、主叫地點(diǎn)、被叫地點(diǎn)等可枚舉的強(qiáng)類型字段構(gòu)成,并且這些字段的值一般可由數(shù)據(jù)源直接獲取。文本數(shù)據(jù)一般由自然語言生成,每個(gè)無模式的文檔記錄由不定個(gè)數(shù)的單字構(gòu)成,不具有可確定的字段。

    (2)依賴于復(fù)雜的自然語言理解技術(shù)。如前所述,文本數(shù)據(jù)一般由自然語言生成。如果希望在單字的基礎(chǔ)上進(jìn)一步理解文本包含的語義和知識(shí),例如理解文本包含的實(shí)體(人、地點(diǎn)、機(jī)構(gòu)、時(shí)間等),則要依賴于復(fù)雜的文本挖掘和自然語言理解技術(shù)。通過自然語言理解技術(shù)獲取結(jié)構(gòu)化內(nèi)容的準(zhǔn)確性往往依賴于所采用的分析技術(shù),因此分析引擎中數(shù)據(jù)中的不確定性因素更多,可疑性(veracity)更高。

    (3)開放主題。文本數(shù)據(jù)的主題和值域是開放的。在傳統(tǒng)的分析服務(wù)中,每個(gè)應(yīng)用的主題是唯一或者有限的。在整個(gè)數(shù)據(jù)集一般可建立有限個(gè)數(shù)的數(shù)據(jù)立方體,通過固定的維度(如區(qū)域和時(shí)間等)對(duì)其進(jìn)行統(tǒng)計(jì)和分析。而互聯(lián)網(wǎng)數(shù)據(jù)的主題是開放的。例如,每天的互聯(lián)網(wǎng)文檔可能是在分別描述成千上萬個(gè)無任何關(guān)系的主題,每個(gè)主題所涉及的維度和文檔可能完全不同,其復(fù)雜度遠(yuǎn)遠(yuǎn)高于OLAP系統(tǒng)。

    近年來也有部分學(xué)者開始研究如何將OLAP技術(shù)應(yīng)用在分析大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)上。但目前的研究主要針對(duì)語義網(wǎng)和RDF數(shù)據(jù)[9,10]。如何將OLAP技術(shù)應(yīng)用在大規(guī)?;ヂ?lián)網(wǎng)文檔上來實(shí)現(xiàn)互聯(lián)網(wǎng)分析引擎,仍然是一個(gè)未被深入研究和討論的問題。

    2.3 小結(jié)

    事實(shí)上,在數(shù)據(jù)庫和數(shù)據(jù)挖掘領(lǐng)域,OLAP是為了解決OLTP(online transaction processing,在線事務(wù)處理)系統(tǒng)分析處理能力低下的問題而被提出的。在互聯(lián)網(wǎng)上,搜索引擎相當(dāng)于一個(gè)OLTP系統(tǒng)。用戶的每一個(gè)查詢,搜索引擎都能快速地返回檢索結(jié)果集。但和OLTP的問題類似,搜索引擎無法有效支持分析處理的需求,而互聯(lián)網(wǎng)分析引擎也正是為了解決這一問題而生。因此,可以把互聯(lián)網(wǎng)分析引擎看作互聯(lián)網(wǎng)搜索引擎和OLAP技術(shù)的合體,或者說互聯(lián)網(wǎng)分析引擎是面向海量互聯(lián)網(wǎng)非結(jié)構(gòu)化大數(shù)據(jù)的OLAP系統(tǒng)。

    3 互聯(lián)網(wǎng)分析引擎的設(shè)計(jì)

    如前所述,互聯(lián)網(wǎng)分析引擎和搜索引擎及OLAP系統(tǒng)都是緊密相關(guān)的,在設(shè)計(jì)分析引擎時(shí),可充分吸收和利用現(xiàn)有系統(tǒng)和算法中的優(yōu)點(diǎn),并將二者進(jìn)行有機(jī)結(jié)合。簡單的想法是先通過搜索引擎技術(shù)檢索到相關(guān)文檔,然后利用OLAP分析技術(shù)對(duì)檢索結(jié)果進(jìn)行分析。

    一個(gè)簡單的互聯(lián)網(wǎng)分析系統(tǒng)架構(gòu)如圖3所示。整個(gè)系統(tǒng)分為離線處理和在線處理兩個(gè)部分。離線部分主要完成數(shù)據(jù)獲取并將文本處理成結(jié)構(gòu)化數(shù)據(jù),對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行索引。在線處理部分主要完成相關(guān)文檔檢索并基于檢索到的結(jié)果,對(duì)其中包含的結(jié)構(gòu)化知識(shí)信息進(jìn)行高效率的匯總分析操作。

    3.1 離線處理

    離線部分主要包括互聯(lián)網(wǎng)數(shù)據(jù)采集、文檔理解及結(jié)構(gòu)化數(shù)據(jù)抽取、數(shù)據(jù)索引等幾個(gè)部分。

    (1)數(shù)據(jù)采集部分與搜索引擎中的數(shù)據(jù)采集系統(tǒng)類似,使用網(wǎng)絡(luò)爬蟲對(duì)互聯(lián)網(wǎng)內(nèi)容進(jìn)行抓取。但互聯(lián)網(wǎng)分析引擎在數(shù)據(jù)抓取時(shí)還需要考慮抓取周期和抓取策略對(duì)最終分析結(jié)果的影響,避免因?yàn)閿?shù)據(jù)抓取不及時(shí)或者數(shù)據(jù)來源分布不均衡而影響分析結(jié)果的一致性和可比性。

    圖3 分析引擎架構(gòu)

    (2)文檔理解部分主要是利用自然語言處理及信息檢索技術(shù),對(duì)互聯(lián)網(wǎng)文檔內(nèi)容進(jìn)行深入分析,從無結(jié)構(gòu)的文本數(shù)據(jù)中抽取結(jié)構(gòu)化信息,并將這些結(jié)構(gòu)化數(shù)據(jù)作為該文檔的屬性或字段進(jìn)行存儲(chǔ)。將無結(jié)構(gòu)的互聯(lián)網(wǎng)文檔轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)后,才能應(yīng)用OLAP等多維分析技術(shù)對(duì)文檔進(jìn)行分析??蛇M(jìn)行的文本理解工作包括:文檔正文及相關(guān)屬性(標(biāo)題、時(shí)間、作者、主要圖片等)抽取、文檔內(nèi)容段落及句子切分、文本分詞、命名實(shí)體(時(shí)間、地點(diǎn)、人物、機(jī)構(gòu)等)識(shí)別、動(dòng)詞、專有名詞抽取、情感分析及情感詞抽取、關(guān)鍵詞抽取、引言、語錄抽取、知識(shí)庫實(shí)體匹配及消歧等。

    (3)數(shù)據(jù)索引部分對(duì)互聯(lián)網(wǎng)文檔內(nèi)容建立高效索引,以支撐高效的在線檢索和分析操作。與搜索引擎類似,在文檔內(nèi)容上建立倒排索引,用以支持基于關(guān)鍵詞的文檔檢索。而對(duì)于從文檔中抽取出來的結(jié)構(gòu)化屬性,則可能既需要建立倒排索引,也需要建立正向索引。倒排索引用于在切片和切塊過程中快速匹配篩選維度,而正向索引用于快速獲取自定文檔的屬性。

    3.2 在線處理

    在線處理部分負(fù)責(zé)接收用戶查詢,檢索相關(guān)文檔,并應(yīng)用OLAP技術(shù),快速檢索、構(gòu)建或更新文本立方體。在整個(gè)在線處理流程中,基于信息檢索和搜索引擎的積累,檢索相關(guān)文檔所用的時(shí)間較短。在進(jìn)行多維分析時(shí),需要讀取到所有相關(guān)文檔的結(jié)構(gòu)化屬性內(nèi)容,并需要對(duì)這些內(nèi)容按照維度進(jìn)行匯總和計(jì)算操作。與檢索相關(guān)文檔相比,在檢索結(jié)果上進(jìn)行多維分析的時(shí)間代價(jià)要高得多。

    4 技術(shù)要點(diǎn)與難點(diǎn)

    4.1 數(shù)據(jù)質(zhì)量控制及可信度評(píng)估

    提供可靠、可信、有理有據(jù)的分析結(jié)果是互聯(lián)網(wǎng)分析引擎能夠?qū)嵱貌⑶彝茝V的前提條件?;ヂ?lián)網(wǎng)分析引擎對(duì)質(zhì)量控制和可信度評(píng)估的相關(guān)技術(shù)要求要遠(yuǎn)遠(yuǎn)高于搜索引擎。搜索引擎采用了垃圾網(wǎng)頁識(shí)別技術(shù),盡量減少低質(zhì)量網(wǎng)頁出現(xiàn)的幾率,提高用戶滿意度。但事實(shí)上,搜索引擎為用戶返回的是在互聯(lián)網(wǎng)上真實(shí)存在的文檔(即使是低質(zhì)量的網(wǎng)頁),因此從某種意義上講,搜索引擎中不存在數(shù)據(jù)可靠性問題,因?yàn)橛脩粜枰约洪喿x網(wǎng)頁內(nèi)容、判別真?zhèn)尾⑿纬山Y(jié)論。而在分析引擎中,系統(tǒng)為用戶返回的不僅僅是真實(shí)存在的網(wǎng)頁,而且包括通過加工處理和聚合匯總后的數(shù)據(jù),如果這些數(shù)據(jù)是錯(cuò)誤或者有偏差的,則很可能直接導(dǎo)致用戶形成錯(cuò)誤的結(jié)論。因此,在分析引擎中,從數(shù)據(jù)采集、處理和分析的各個(gè)步驟,都需要進(jìn)行適當(dāng)?shù)馁|(zhì)量控制。例如,在進(jìn)行數(shù)據(jù)采集時(shí),適當(dāng)控制數(shù)據(jù)采集的廣度,避免片面采集某一網(wǎng)站的數(shù)據(jù)而造成偏差。同時(shí),在各個(gè)關(guān)鍵環(huán)節(jié)需要評(píng)估各處理對(duì)最終結(jié)果可信度的影響。如何在規(guī)模巨大、更新飛快、復(fù)雜多樣的互聯(lián)網(wǎng)大數(shù)據(jù)上,針對(duì)分析引擎的需求進(jìn)行質(zhì)量控制和可信度評(píng)估,是非常困難但也非常重要的研究課題。

    4.2 大規(guī)模文本立方體管理

    文本立方體是對(duì)某一查詢匹配的文檔中包含的結(jié)構(gòu)化屬性數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并建立的多維數(shù)據(jù)立方體。互聯(lián)網(wǎng)分析引擎中每個(gè)開放的主題或者每個(gè)查詢都可以建立一個(gè)對(duì)應(yīng)的文本立方體。不同的查詢都可以有不同維度和度量值的文本立方體,而且可以獨(dú)立管理。例如,查詢“馬航失聯(lián)”對(duì)應(yīng)了一個(gè)文本立方體,而“霧霾”則對(duì)應(yīng)了另外一個(gè)文本立方體,這兩個(gè)文本立方體中的數(shù)據(jù)、維度和值項(xiàng)都可以是不同的。單個(gè)文本立方體的規(guī)??赡苄∮趥鹘y(tǒng)的數(shù)據(jù)立方體,但會(huì)有大量小規(guī)模的文本立方體(many small cube)。這種大量小立方體的分析管理方式最大的優(yōu)點(diǎn)是靈活,每個(gè)查詢都可以進(jìn)行單獨(dú)的維度和度量值管理,而且對(duì)每個(gè)小立方體的創(chuàng)建和更新不影響其他立方體。同時(shí),這種設(shè)計(jì)也便于擴(kuò)展(scale out),當(dāng)用戶或查詢數(shù)量增加時(shí),可以簡單地增加服務(wù)器,并將立方體均勻分布在所有服務(wù)器上即可完成系統(tǒng)復(fù)雜均衡。LinkedIn公司的Wu等人[11]開發(fā)了針對(duì)互聯(lián)網(wǎng)級(jí)別OLAP分析的系統(tǒng)Avatara,解決了大量小立方體的問題,可以嘗試在互聯(lián)網(wǎng)分析引擎中應(yīng)用。

    除了創(chuàng)建和管理大量小規(guī)模文本立方體外,分析引擎中也可以試圖整合所有文本立方體而創(chuàng)建一個(gè)超大的通用文本立方體(one giant cube)。該超級(jí)立方體中包含所有互聯(lián)網(wǎng)文檔以及所有可能的維度及度量值。這種方式的好處是減少了大量文本立方體管理的代價(jià)。這種方式的問題是如果某個(gè)查詢或某類查詢下的分析維度發(fā)生變化時(shí),很可能需要重新對(duì)整個(gè)立方體進(jìn)行重建操作。當(dāng)查詢之間維度設(shè)置差異較大時(shí),在某些查詢下進(jìn)行相關(guān)維度的查詢和分析的代價(jià)可能要高于多個(gè)小文本立方體的設(shè)置。在系統(tǒng)擴(kuò)展方面,單個(gè)超級(jí)立方體的配置下對(duì)網(wǎng)絡(luò)之間的同步以及負(fù)載均衡的管理機(jī)制更為復(fù)雜。

    無論是哪種方式,如何高效地進(jìn)行文本立方體管理都是互聯(lián)網(wǎng)分析引擎要解決的核心問題,也是難點(diǎn)之一。文本立方體內(nèi)部存儲(chǔ)結(jié)構(gòu)如何設(shè)計(jì)、如何高效地創(chuàng)建文本立方體、如何動(dòng)態(tài)更新立方體、如何存儲(chǔ)和管理大量大規(guī)?;虼罅课谋玖⒎襟w,都是非常重要的研究問題。此外,互聯(lián)網(wǎng)分析引擎對(duì)數(shù)據(jù)的實(shí)時(shí)性要求較高,在文本立方體更新和查詢操作的同步上也需要仔細(xì)斟酌。

    4.3 分析維度挖掘與排序

    互聯(lián)網(wǎng)分析引擎的核心目標(biāo)是為用戶提供準(zhǔn)確且有效的多維分析結(jié)果。除了前文介紹的質(zhì)量控制和可行度評(píng)估外,如何挖掘出高價(jià)值的分析維度和度量項(xiàng)、如何對(duì)維度中的內(nèi)容進(jìn)行排序等也都是需要解決的問題。

    在維度發(fā)現(xiàn)與挖掘方面,一方面可預(yù)設(shè)一些通用性的維度,如時(shí)間、人物、機(jī)構(gòu)、地點(diǎn)等。同時(shí),還需要在這些基本維度的基礎(chǔ)上,挖掘出和用戶查詢主題相關(guān)的個(gè)性化維度。例如對(duì)于查詢“糖尿病”,挖掘出“類型”、“癥狀”、“藥物”、“醫(yī)院”、“醫(yī)生”等相關(guān)維度;對(duì)于查詢“過失失火”,可自動(dòng)挖掘出“刑罰”和“罪名”等維度。只有這樣,才能使分析引擎的輸出結(jié)果變得有用且有趣,才能真正滿足用戶真實(shí)的信息需求??蛇x的方法是分領(lǐng)域創(chuàng)建維度列表并在離線部分對(duì)文檔內(nèi)容和維度列表進(jìn)行匹配,在線通過分類的方法確定查詢所屬的領(lǐng)域來獲取相關(guān)維度。維度的生成可以通過統(tǒng)計(jì)分析查詢所匹配的文檔中包含的屬性及結(jié)構(gòu)化數(shù)據(jù)進(jìn)行自動(dòng)聚類和加權(quán),進(jìn)而自動(dòng)選出最相關(guān)的維度。

    在維度及度量項(xiàng)排序方面,在基于OLAP的分析模型下,用于建立文本立方體的每一條數(shù)據(jù)都需要提供一個(gè)度量值,該度量值決定了在最終文本立方體中每個(gè)統(tǒng)計(jì)項(xiàng)的權(quán)重。和傳統(tǒng)的數(shù)據(jù)立方體(例如基于業(yè)務(wù)數(shù)據(jù)生成的立方體)不同,在文本立方體中沒有直接的度量值可以使用。文本立方體中的度量值可以通過不同的方法生成,從數(shù)據(jù)獨(dú)立性的角度上可以分為下面3種不同類型的度量值。

    ● 全局一致的度量值。每個(gè)文檔(記錄)的度量值一致,最簡單的是每個(gè)文檔的度量值都為1。

    ● 與維度值無關(guān)的度量值。度量值和記錄有關(guān),但和記錄中包含的維度無關(guān)。例如,考慮到報(bào)道的可靠性,所有來自“新浪網(wǎng)”的報(bào)道的度量值高于來自“回龍觀社區(qū)網(wǎng)”的報(bào)道的度量值。此外,還可考慮應(yīng)用信息檢索模型來估計(jì)文檔和主題(查詢)的相關(guān)性[12~20],例如,若某個(gè)文檔和查詢的相關(guān)性較高,則其度量值較大。

    ● 和維度相關(guān)的度量值。進(jìn)一步考慮文檔(記錄)和維度的緊密程度,如對(duì)于相關(guān)人物A,考慮人物A在文檔D中出現(xiàn)的次數(shù)、出現(xiàn)的位置、所在句子的長短等特征,并同時(shí)考慮報(bào)道的來源,從而計(jì)算人物A在文檔D中的度量值。而對(duì)于另一相關(guān)人物B,即使同樣出現(xiàn)在文檔D中,因?yàn)槿宋顱的出現(xiàn)次數(shù)及位置和人物A不同,人物B的度量值也可能和人物A不同。

    和搜索引擎中的搜索結(jié)果排序模型一樣,在分析引擎中的維度以及度量項(xiàng)排序是非常重要但也是非常復(fù)雜的。分析維度挖掘與排序方法是互聯(lián)網(wǎng)分析引擎要重點(diǎn)研究的問題之一。

    4.4 數(shù)據(jù)采樣與摘要技術(shù)

    因?yàn)榉治鲆嬷刑幚淼幕ヂ?lián)網(wǎng)文檔數(shù)量非常龐大,而一個(gè)查詢特別是熱點(diǎn)查詢往往可以匹配上大量的相關(guān)文檔。在分析引擎中,匹配文檔代價(jià)較低,而對(duì)相關(guān)文檔上相應(yīng)結(jié)構(gòu)化數(shù)據(jù)的匯總分析和維度生成等操作則具有較高的I/O和計(jì)算代價(jià)。因此,當(dāng)數(shù)據(jù)量太大的時(shí)候,在不影響分析結(jié)果質(zhì)量的前提下,可以考慮對(duì)匹配到的結(jié)果集進(jìn)行采樣、摘要和壓縮操作。在數(shù)據(jù)采樣方面,在建立多維模型的時(shí)候不能對(duì)維度和子主題的優(yōu)先級(jí)進(jìn)行任何假設(shè),對(duì)于任何子主題的數(shù)據(jù)搜集,都需要保證搜集到足夠多的填充數(shù)據(jù)來體現(xiàn)它的真實(shí)語義,力圖花費(fèi)最小的代價(jià)重構(gòu)一個(gè)子主題內(nèi)部的信息點(diǎn)覆蓋??山Y(jié)合維度排序以及維度中包含的值的可信度來估計(jì)采用規(guī)模。同時(shí),對(duì)周期性和長期熱點(diǎn)話題采用可合并式數(shù)據(jù)摘要,并和文本立方體結(jié)合,力圖通過選擇性地保留一部分原始數(shù)據(jù)和總體上的摘要數(shù)據(jù),便能夠達(dá)到與使用全部數(shù)據(jù)類似分析效果的目的。同時(shí),結(jié)合前文介紹的可信度評(píng)估方法,準(zhǔn)確計(jì)算出各種采用和摘要方法對(duì)最終分析效果的影響,力圖在系統(tǒng)效率和效果之間達(dá)到一個(gè)合理的平衡點(diǎn)。

    5 結(jié)束語

    在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,用戶對(duì)獲取互聯(lián)網(wǎng)上蘊(yùn)含的高階知識(shí)的需求也越來越強(qiáng)烈。傳統(tǒng)的搜索引擎已經(jīng)不能很好地滿足用戶對(duì)互聯(lián)網(wǎng)文檔進(jìn)行深入分析與理解的需求,迫切需要發(fā)展到“互聯(lián)網(wǎng)分析引擎”,為用戶提供更為便利的信息獲取與分析工具?;ヂ?lián)網(wǎng)分析引擎比互聯(lián)網(wǎng)搜索引擎和OLAP系統(tǒng)更復(fù)雜,涉及一系列需要解決的研究難點(diǎn)問題,具有廣闊的研究和發(fā)展空間。

    [1] 中國互聯(lián)網(wǎng)絡(luò)信息中心. 第36次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告. http://www.cnnic. net.cn/hlwfzyj/ hlwxzbg/hlwtjbg/201507/ P020150723549500667087.pdf, 2006 China Internet Network Information Center. The 36th China Internet Development Report. http://www.cnnic. net.cn/hlwfzyj/ hlwxzbg/hlwtjbg/201507/ P020150723549500667087.pdf, 2006

    [2] Sergey B, Lawrence P. The anatomy of a large-scale hypertextual Web search engine. Computer Networks, 1998(30): 107~117

    [3] Codd E F, Codd S B, Salley C T. Providing OLAP (Online Analytical Processing) to User-Analysts: An IT Mandate. E F Codd &Associates, 1998

    [4] Thomsen E. OLAP Solutions: Building Multidimensional Information Systems (2nd Edition). Hoboken: John Wiley & Sons, 2002

    [5] Zhu M J, Shi S M, Li M J,et al. Effective top-k computation with term-proximity support. Information Processing and Management, 2009(45): 401~412

    [6] Gray J, Bosworth A, Layman A,et al. Data cube: a relational aggregation operator generalizing group-by, cross-tab, and sub-totals. Proceedings of IEEE Computer Society the 12th International Conference on Data Engineering, Washington DC, USA, 1996: 152~159

    [7] Han J, Wang J, Dong G,et al. Cube explorer: online exploration of data cubes. Proceedings of the 2002 ACM SIGMOD International Conference on Management of data, Madison, Wisconsin, USA, 2002: 626~626

    [8] Harinarayan V, Rajaraman A, Ullman J D. Implementing data cubes efficiently. Proceedings of ACM SIGMOD Conference, Montreal, Canada, 1996: 205~216

    [9] Etcheverry L, Vaisman A A. Enhancing OLAP analysis with web cubes. Proceedings of the 9th Extended Semantic Web Conference, Heraklion, Crete, Greece, 2012: 469~483

    [10] Colazzo D, Goasdou F, Manolescu I,et al. RDF analytics: lenses over semantic graphs. Proceedings of the 23rd International Conference on World Wide Web, New York, USA, 2014: 467~478

    [11] Wu L L, Sumbaly R, Riccomini C,et al. Avatara: OLAP for web-scale analytics products. Proceedings of the VLDB Endowment, Istanbul, Turkey, 2012: 1874~1877

    [12] Salton G, Wong A, Yang C S. A vector space model for automatic indexing. Communications of the ACM, 1974(18): 613~620

    [13] Croft B, Lafferty J. Language Modeling for Information Retrieval. Norwell: Kluwer Academic Publishers, 2003

    [14] Lafferty J, Zhai C X. Probabilistic relevance models based on document and query generation. Language Modeling for Information Retrieval, 2003

    [15] Zhai C X, Lafferty J. A study of smoothing methods for language models applied to ad hoc information retrieval. Proceedings of International ACM SIGIR Conference on Research and Development in Information Retrieva, New Orleans, Louisiana, USA, 2001: 334~342

    [16] Tao T, Wang X H, Mei Q Z,et al. Language model information retrieval with document expansion. Proceedings of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics (HLTNAACL’06), Stroudsburg, PA, USA, 2006: 407~414

    [17] Srikanth M, Srihari R. Exploiting syntactic structure of queries in a language modeling approach to IR. Proceedings of the 12th International Conference on Information and Knowledge Management, New York, NY, USA, 2003: 476~483

    [18] Bai J, Nie J Y, Cao G. Using query contexts in information retrieval. Proceedings of the 30th AnnualInternational ACM SIGIR Conference, Amsterdam, Holland, 2007: 15~22

    [19] Turtle H, Croft W B. Evaluation of an inference network-based retrieval model. ACM Transactions on Information Systems, 1991(9): 187~222

    [20] Li Z W, Wang B, Li M J,et al. A probabilistic model for retrospective news event detection. Proceedings of the 28th Annual International ACM SIGIR Conference, Salvador, Brazil, 2005: 106~113

    竇志成,男,中國人民大學(xué)信息學(xué)院研究員、碩士生導(dǎo)師,中國計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)通訊委員,中文信息學(xué)會(huì)信息檢索專委會(huì)通訊委員,中國中文信息學(xué)會(huì)青年工作委員會(huì)委員,亞洲信息檢索協(xié)會(huì)Steering Committee成員,美國ACM學(xué)會(huì)、IEEE會(huì)員,中國計(jì)算機(jī)學(xué)會(huì)會(huì)員。主要研究方向?yàn)樾畔z索、互聯(lián)網(wǎng)搜索、數(shù)據(jù)挖掘、大數(shù)據(jù)等。近年來,在國際知名會(huì)議和學(xué)術(shù)期刊上(如SIGIR、WWW、CIKM、WSDM、EMNLP及IEEE TKDE等)發(fā)表論文20余篇。

    文繼榮,男,博士,中國人民大學(xué)信息學(xué)院教授、博士生導(dǎo)師,國家“千人計(jì)劃”特聘專家。1999年至2013年就職于微軟亞洲研究院,自2008年起擔(dān)任高級(jí)研究員和互聯(lián)網(wǎng)搜索與數(shù)據(jù)挖掘組主任。在微軟亞洲研究院工作的14年中,獲得50多項(xiàng)美國專利,其中一些成果已經(jīng)被用于重要的微軟產(chǎn)品中(如微軟搜索引擎Bing)。所領(lǐng)導(dǎo)的研究團(tuán)隊(duì)開發(fā)出了微軟學(xué)術(shù)搜索(http://academic.research.microsoft.com)、人立方(http://renlifang. msra.cn/)、產(chǎn)品搜索等有影響力的互聯(lián)網(wǎng)應(yīng)用。在國際著名會(huì)議和期刊上發(fā)表了100多篇論文,擔(dān)任過許多國際會(huì)議和研討會(huì)的程序委員和主席。目前是信息檢索領(lǐng)域主要期刊ACM Transactions on Information Systems(TOIS)的副主編。

    Dou Z C, Wen J R. Web analytical engine in the big data era. Big Data Research, 2015027

    Web Analytical Engine in the Big Data Era

    Dou Zhicheng, Wen Jirong
    School of Information & Beijing Key Laboratory of Big Data Management and Analysis Methods, Renmin University of China, Beijing 100872, China

    Web search engines can only return a list of Web documents (the so-called ten blue links), whereas users may need high-order knowledge that is contained within the Web documents. The demand of analytical services atop the Web is becoming stronger with the rapid development of the internet and the increase of big Web data. The concept of“Web Analytical Engine”, which aims to provide analytical service atop the huge amount of Web documents, was introduced. A simple infrastructure was described and the key research problems for building such an engine were discussed.

    big Web data, analytical engine, data sensing and gathering

    10.11959/j.issn.2096-0271.2015027

    2015-08-20

    國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)基金資助項(xiàng)目(No.2014CB340403),國家自然科學(xué)基金資助項(xiàng)目(No.61502501),中國人民大學(xué)科學(xué)研究基金(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助)(No. 15XNLF03),國家文化科技提升計(jì)劃

    Foundation Items:The National Basic Research Program of China(973 Program)(No.2014CB340403), The National Natural Science Foundation of China(No. 61502501), The Fundamental Research Funds for the Central Universities, the Research Funds of Renmin University of China (No. 15XNLF03), The National Culture Science and Technology Promotion Plan

    竇志成, 文繼榮. 大數(shù)據(jù)時(shí)代的互聯(lián)網(wǎng)分析引擎. 大數(shù)據(jù), 2015027

    猜你喜歡
    引言
    藥用植物野外實(shí)踐體系構(gòu)建研究
    大學(xué)生創(chuàng)業(yè)力提升對(duì)策研究
    商(2016年26期)2016-08-10 13:47:59
    YK內(nèi)部控制體系研究
    商(2016年26期)2016-08-10 09:05:14
    淺談酒店成本管理控制
    商(2016年26期)2016-08-10 09:04:39
    以戰(zhàn)略為導(dǎo)向的全面預(yù)算執(zhí)行控制研究
    商(2016年26期)2016-08-10 09:03:26
    校企合作背景下高職院校學(xué)生管理制度的探索
    考試周刊(2016年50期)2016-07-12 23:23:23
    解讀《歐也妮·葛朗臺(tái)》中金錢禁錮下的人生
    考試周刊(2016年50期)2016-07-12 13:22:42
    小橋橋臺(tái)和隧道峒門基礎(chǔ)下沉原因分析及處理方案
    考試周刊(2016年50期)2016-07-12 09:40:07
    公路工程項(xiàng)目管理臺(tái)賬的編制原則與技巧
    商(2016年18期)2016-06-20 14:10:18
    基于思維導(dǎo)圖的線性代數(shù)復(fù)習(xí)策略
    考試周刊(2016年42期)2016-06-18 19:48:45
    曰老女人黄片| 国产亚洲欧美在线一区二区| 精品国产亚洲在线| 国产精品亚洲美女久久久| 美女扒开内裤让男人捅视频| 国模一区二区三区四区视频 | 精品欧美国产一区二区三| 床上黄色一级片| 国内揄拍国产精品人妻在线| 女人高潮潮喷娇喘18禁视频| 身体一侧抽搐| 亚洲精品一卡2卡三卡4卡5卡| 一级毛片高清免费大全| 黄色丝袜av网址大全| 热99re8久久精品国产| 国产成人精品久久二区二区91| 午夜亚洲福利在线播放| 嫩草影院精品99| 变态另类丝袜制服| 1024香蕉在线观看| 在线观看一区二区三区| 午夜福利在线在线| 黄色日韩在线| 欧美乱色亚洲激情| 美女被艹到高潮喷水动态| 国产激情久久老熟女| 国产精华一区二区三区| 亚洲欧美日韩卡通动漫| 五月玫瑰六月丁香| 久久天堂一区二区三区四区| 少妇人妻一区二区三区视频| 老熟妇仑乱视频hdxx| av福利片在线观看| 熟妇人妻久久中文字幕3abv| 99久久成人亚洲精品观看| 亚洲人成伊人成综合网2020| 国模一区二区三区四区视频 | 日韩大尺度精品在线看网址| 欧美一级毛片孕妇| 成年女人毛片免费观看观看9| 69av精品久久久久久| 国产一区二区三区在线臀色熟女| 亚洲av免费在线观看| 亚洲真实伦在线观看| 每晚都被弄得嗷嗷叫到高潮| 成年女人看的毛片在线观看| 免费无遮挡裸体视频| 国产精品99久久久久久久久| 丁香六月欧美| 99久久成人亚洲精品观看| 国产97色在线日韩免费| 午夜精品在线福利| 51午夜福利影视在线观看| 国产午夜精品久久久久久| 精品乱码久久久久久99久播| 国产免费av片在线观看野外av| 神马国产精品三级电影在线观看| 黄色日韩在线| 免费av不卡在线播放| 人人妻人人看人人澡| 一卡2卡三卡四卡精品乱码亚洲| 欧美成狂野欧美在线观看| 中国美女看黄片| 国产伦人伦偷精品视频| 免费av毛片视频| 久久人人精品亚洲av| 在线观看免费视频日本深夜| 在线十欧美十亚洲十日本专区| 亚洲午夜理论影院| netflix在线观看网站| 免费在线观看日本一区| 欧美国产日韩亚洲一区| 女人被狂操c到高潮| 欧美成人性av电影在线观看| 亚洲国产欧洲综合997久久,| 国产野战对白在线观看| 精品电影一区二区在线| 亚洲国产高清在线一区二区三| 精品国产超薄肉色丝袜足j| 成人国产一区最新在线观看| 一级a爱片免费观看的视频| 亚洲熟妇熟女久久| 性色avwww在线观看| 亚洲一区高清亚洲精品| 国产伦精品一区二区三区四那| 免费无遮挡裸体视频| 搡老岳熟女国产| 亚洲精品美女久久久久99蜜臀| 久久久久久国产a免费观看| 日韩av在线大香蕉| 日本 欧美在线| 校园春色视频在线观看| 脱女人内裤的视频| 精品一区二区三区视频在线观看免费| 搡老岳熟女国产| 51午夜福利影视在线观看| 禁无遮挡网站| 亚洲男人的天堂狠狠| 看黄色毛片网站| 国产一级毛片七仙女欲春2| 悠悠久久av| 欧美在线黄色| 日韩三级视频一区二区三区| 国产精品精品国产色婷婷| 久久久久久大精品| 久久香蕉国产精品| 露出奶头的视频| 哪里可以看免费的av片| 久久久久久久午夜电影| 丰满的人妻完整版| 国产高清激情床上av| 日韩欧美一区二区三区在线观看| 热99在线观看视频| 在线视频色国产色| 国产精品久久久久久精品电影| 最新中文字幕久久久久 | 婷婷六月久久综合丁香| av欧美777| 99久久精品热视频| 男女下面进入的视频免费午夜| 国产成年人精品一区二区| 日韩欧美一区二区三区在线观看| 桃红色精品国产亚洲av| 日本在线视频免费播放| 国产乱人伦免费视频| 女警被强在线播放| 国产精品九九99| 成人av一区二区三区在线看| 级片在线观看| 亚洲欧美日韩高清专用| 国产欧美日韩一区二区三| 亚洲一区二区三区色噜噜| 久久久久精品国产欧美久久久| 99riav亚洲国产免费| 欧美成人性av电影在线观看| 欧美日韩乱码在线| 俄罗斯特黄特色一大片| 无遮挡黄片免费观看| 亚洲精品在线观看二区| 国产极品精品免费视频能看的| 成人高潮视频无遮挡免费网站| 久久人妻av系列| 午夜两性在线视频| 一区二区三区激情视频| 激情在线观看视频在线高清| 欧美日韩精品网址| 变态另类成人亚洲欧美熟女| 日本熟妇午夜| 好看av亚洲va欧美ⅴa在| 久久久国产欧美日韩av| 可以在线观看的亚洲视频| 天天添夜夜摸| 亚洲av第一区精品v没综合| 欧美日韩乱码在线| 久久天堂一区二区三区四区| 一个人看的www免费观看视频| 久久午夜综合久久蜜桃| 精品一区二区三区视频在线 | 日韩欧美 国产精品| 一级毛片高清免费大全| 国产真实乱freesex| 欧美黑人欧美精品刺激| 91在线观看av| 亚洲国产精品成人综合色| 亚洲片人在线观看| 成年女人看的毛片在线观看| 国产亚洲精品久久久久久毛片| 三级男女做爰猛烈吃奶摸视频| 九九在线视频观看精品| 色哟哟哟哟哟哟| 欧美又色又爽又黄视频| av天堂在线播放| 精华霜和精华液先用哪个| 18禁国产床啪视频网站| 国产主播在线观看一区二区| 热99在线观看视频| 香蕉av资源在线| 在线永久观看黄色视频| 少妇丰满av| 精华霜和精华液先用哪个| 亚洲精品一区av在线观看| 久久婷婷人人爽人人干人人爱| 他把我摸到了高潮在线观看| 国产蜜桃级精品一区二区三区| 99久久精品热视频| 床上黄色一级片| or卡值多少钱| 99国产精品一区二区蜜桃av| 久久天躁狠狠躁夜夜2o2o| 后天国语完整版免费观看| 好男人在线观看高清免费视频| 亚洲人成电影免费在线| av片东京热男人的天堂| 国产精品久久电影中文字幕| 观看免费一级毛片| 人人妻人人看人人澡| 在线观看免费视频日本深夜| 午夜福利在线在线| 国产真人三级小视频在线观看| 国产高清激情床上av| 国产欧美日韩一区二区三| 国产av不卡久久| 麻豆国产97在线/欧美| 久久久久久久久久黄片| 成人特级av手机在线观看| 日本免费a在线| 高清毛片免费观看视频网站| 18禁黄网站禁片午夜丰满| 中出人妻视频一区二区| 欧美国产日韩亚洲一区| 黑人欧美特级aaaaaa片| 国产乱人伦免费视频| 日本免费一区二区三区高清不卡| 午夜福利18| 亚洲av免费在线观看| 国产av不卡久久| 精品国产乱码久久久久久男人| 国产精品久久久久久人妻精品电影| 十八禁人妻一区二区| 香蕉国产在线看| 亚洲成a人片在线一区二区| 色尼玛亚洲综合影院| 国产高清三级在线| 午夜日韩欧美国产| 又黄又粗又硬又大视频| 又黄又爽又免费观看的视频| 不卡一级毛片| 色噜噜av男人的天堂激情| 变态另类丝袜制服| 母亲3免费完整高清在线观看| 久久天躁狠狠躁夜夜2o2o| 很黄的视频免费| 99久久综合精品五月天人人| 国产av一区在线观看免费| 又黄又粗又硬又大视频| av在线蜜桃| 人人妻人人澡欧美一区二区| 中文字幕人妻丝袜一区二区| 18禁美女被吸乳视频| 国产成人aa在线观看| 久久国产精品人妻蜜桃| 老司机深夜福利视频在线观看| 国产精品久久久久久久电影 | 国产精品一区二区精品视频观看| 我的老师免费观看完整版| 亚洲欧美日韩无卡精品| 精品乱码久久久久久99久播| 成年女人永久免费观看视频| 露出奶头的视频| 成人无遮挡网站| av片东京热男人的天堂| 亚洲 欧美一区二区三区| 老熟妇乱子伦视频在线观看| 18禁观看日本| 丁香欧美五月| 亚洲av美国av| 国产精品女同一区二区软件 | 日韩高清综合在线| 久久久久性生活片| 级片在线观看| 日本熟妇午夜| 一二三四在线观看免费中文在| 午夜两性在线视频| 伊人久久大香线蕉亚洲五| 国产成人系列免费观看| 国产精品一区二区三区四区久久| 久久中文字幕人妻熟女| 青草久久国产| 桃色一区二区三区在线观看| 亚洲第一电影网av| 天堂av国产一区二区熟女人妻| 又黄又爽又免费观看的视频| 久久久久久九九精品二区国产| 亚洲国产精品sss在线观看| 麻豆国产97在线/欧美| 精品免费久久久久久久清纯| 精品熟女少妇八av免费久了| 欧美中文日本在线观看视频| 夜夜躁狠狠躁天天躁| 免费看光身美女| 成人av一区二区三区在线看| 免费看a级黄色片| 宅男免费午夜| 狠狠狠狠99中文字幕| 很黄的视频免费| 久久精品国产综合久久久| 免费av不卡在线播放| 人人妻人人澡欧美一区二区| 国产伦人伦偷精品视频| 性欧美人与动物交配| 日韩大尺度精品在线看网址| 国产爱豆传媒在线观看| 香蕉av资源在线| 国产精品久久视频播放| 亚洲男人的天堂狠狠| 欧美不卡视频在线免费观看| 国产午夜福利久久久久久| 97人妻精品一区二区三区麻豆| 亚洲狠狠婷婷综合久久图片| 国产淫片久久久久久久久 | 久久久久久久久免费视频了| 亚洲无线观看免费| 国产极品精品免费视频能看的| 88av欧美| 桃红色精品国产亚洲av| 高清在线国产一区| 丁香六月欧美| 国产亚洲av高清不卡| 精品久久久久久,| 琪琪午夜伦伦电影理论片6080| 亚洲aⅴ乱码一区二区在线播放| 久久久久国产一级毛片高清牌| 日韩欧美在线乱码| 成人av一区二区三区在线看| 男女床上黄色一级片免费看| 制服丝袜大香蕉在线| 一级作爱视频免费观看| 真实男女啪啪啪动态图| 欧美三级亚洲精品| 国产精品av视频在线免费观看| 欧美zozozo另类| 欧美丝袜亚洲另类 | 麻豆国产av国片精品| 校园春色视频在线观看| 首页视频小说图片口味搜索| 亚洲av电影不卡..在线观看| 欧美一级毛片孕妇| 久久久精品大字幕| 熟妇人妻久久中文字幕3abv| 999久久久国产精品视频| 国产精品,欧美在线| 1024手机看黄色片| 看黄色毛片网站| 欧美又色又爽又黄视频| 久久中文字幕人妻熟女| 亚洲欧美激情综合另类| 91九色精品人成在线观看| 国产三级中文精品| 极品教师在线免费播放| 99久久国产精品久久久| 天堂av国产一区二区熟女人妻| 午夜免费成人在线视频| 国产午夜精品久久久久久| 亚洲人成电影免费在线| 国产亚洲精品综合一区在线观看| 亚洲av成人不卡在线观看播放网| 天堂动漫精品| 亚洲欧美激情综合另类| 亚洲自偷自拍图片 自拍| 国产蜜桃级精品一区二区三区| 亚洲精品久久国产高清桃花| 国产高清三级在线| 午夜视频精品福利| 一个人免费在线观看的高清视频| 熟女人妻精品中文字幕| 国产亚洲精品综合一区在线观看| 国产真人三级小视频在线观看| 又大又爽又粗| 国产在线精品亚洲第一网站| 中文亚洲av片在线观看爽| 岛国视频午夜一区免费看| 桃红色精品国产亚洲av| 免费在线观看日本一区| 夜夜看夜夜爽夜夜摸| 长腿黑丝高跟| aaaaa片日本免费| 国产精品一区二区三区四区免费观看 | 免费av毛片视频| 日韩高清综合在线| 中文字幕久久专区| 日韩精品青青久久久久久| a级毛片a级免费在线| 国产精品亚洲av一区麻豆| 欧美日韩精品网址| 国产精品av视频在线免费观看| 亚洲色图 男人天堂 中文字幕| 国产成人精品久久二区二区免费| www日本黄色视频网| 国产精品 国内视频| 精品国内亚洲2022精品成人| 国产乱人视频| 欧美zozozo另类| 最近最新中文字幕大全电影3| ponron亚洲| 久久久精品欧美日韩精品| 欧美极品一区二区三区四区| 精品国产亚洲在线| 精品国产乱码久久久久久男人| www.熟女人妻精品国产| 黄色 视频免费看| 国产成人精品无人区| 精品国内亚洲2022精品成人| 99re在线观看精品视频| 久久久色成人| 欧美日本视频| 他把我摸到了高潮在线观看| 欧美日韩一级在线毛片| 老熟妇乱子伦视频在线观看| 99在线人妻在线中文字幕| 很黄的视频免费| 国语自产精品视频在线第100页| 天堂√8在线中文| 91麻豆av在线| 变态另类成人亚洲欧美熟女| 亚洲精品粉嫩美女一区| 成人三级做爰电影| 成年女人看的毛片在线观看| 免费观看人在逋| 99热这里只有是精品50| 国产野战对白在线观看| 母亲3免费完整高清在线观看| 怎么达到女性高潮| 成人国产一区最新在线观看| av视频在线观看入口| 国产伦精品一区二区三区四那| 男女做爰动态图高潮gif福利片| 一本一本综合久久| 少妇熟女aⅴ在线视频| 99精品欧美一区二区三区四区| xxxwww97欧美| 麻豆成人av在线观看| 亚洲狠狠婷婷综合久久图片| 中文字幕最新亚洲高清| 国产野战对白在线观看| 日韩高清综合在线| 亚洲专区字幕在线| 免费电影在线观看免费观看| 国产97色在线日韩免费| 色哟哟哟哟哟哟| 国产精品 国内视频| 一个人看视频在线观看www免费 | 他把我摸到了高潮在线观看| 可以在线观看的亚洲视频| 亚洲最大成人中文| 精品国产美女av久久久久小说| 在线看三级毛片| 欧美三级亚洲精品| 99国产精品一区二区蜜桃av| 黑人欧美特级aaaaaa片| 国产一区二区在线观看日韩 | 国产精品精品国产色婷婷| 丰满人妻熟妇乱又伦精品不卡| 99久久久亚洲精品蜜臀av| 免费搜索国产男女视频| 91久久精品国产一区二区成人 | 亚洲国产色片| 欧美精品啪啪一区二区三区| 亚洲中文av在线| 国产又黄又爽又无遮挡在线| 欧美+亚洲+日韩+国产| 亚洲成av人片免费观看| 99久久无色码亚洲精品果冻| 欧美日本视频| 国产黄a三级三级三级人| 伦理电影免费视频| 亚洲国产高清在线一区二区三| cao死你这个sao货| 亚洲午夜理论影院| 在线免费观看的www视频| 欧美极品一区二区三区四区| 亚洲av成人不卡在线观看播放网| 午夜免费激情av| 老司机在亚洲福利影院| 一个人免费在线观看电影 | 亚洲国产欧洲综合997久久,| 国产成人啪精品午夜网站| 日本五十路高清| 在线观看免费午夜福利视频| 欧美日韩黄片免| 欧美成人一区二区免费高清观看 | 最近最新中文字幕大全免费视频| 日韩大尺度精品在线看网址| 色综合亚洲欧美另类图片| 国产成人欧美在线观看| 99久久久亚洲精品蜜臀av| 俺也久久电影网| 黄色成人免费大全| 搡老妇女老女人老熟妇| 精品久久久久久久久久免费视频| 国产免费av片在线观看野外av| 精品日产1卡2卡| 男女午夜视频在线观看| 99精品久久久久人妻精品| 亚洲 欧美 日韩 在线 免费| 免费人成视频x8x8入口观看| 韩国av一区二区三区四区| 麻豆国产97在线/欧美| 两个人看的免费小视频| 国产伦精品一区二区三区视频9 | 久久精品91无色码中文字幕| 免费看光身美女| 叶爱在线成人免费视频播放| 波多野结衣巨乳人妻| 国产高清视频在线观看网站| 亚洲国产精品久久男人天堂| 成人三级黄色视频| 老司机午夜十八禁免费视频| 男人舔女人的私密视频| 好男人在线观看高清免费视频| 午夜两性在线视频| 中亚洲国语对白在线视频| 亚洲午夜精品一区,二区,三区| 亚洲性夜色夜夜综合| 亚洲中文日韩欧美视频| 亚洲精品美女久久久久99蜜臀| 欧美大码av| 日韩欧美一区二区三区在线观看| 欧美中文综合在线视频| 欧美在线黄色| 欧美中文日本在线观看视频| 人人妻人人澡欧美一区二区| 女警被强在线播放| 动漫黄色视频在线观看| 十八禁人妻一区二区| 757午夜福利合集在线观看| 久久中文字幕人妻熟女| 欧美高清成人免费视频www| 19禁男女啪啪无遮挡网站| 天堂网av新在线| 亚洲熟妇熟女久久| 欧美最黄视频在线播放免费| 亚洲精品色激情综合| 淫妇啪啪啪对白视频| 国产精品,欧美在线| 中文字幕最新亚洲高清| 久久婷婷人人爽人人干人人爱| 国产成人啪精品午夜网站| 国产高清激情床上av| 欧美中文综合在线视频| 久久精品国产亚洲av香蕉五月| 亚洲欧美精品综合久久99| 啦啦啦免费观看视频1| 免费看日本二区| 亚洲成人精品中文字幕电影| 欧美黄色淫秽网站| 国产男靠女视频免费网站| 国产视频内射| 亚洲精品在线观看二区| 国产日本99.免费观看| 99国产极品粉嫩在线观看| 很黄的视频免费| 亚洲美女黄片视频| 最新在线观看一区二区三区| 午夜影院日韩av| www国产在线视频色| 精华霜和精华液先用哪个| 久久草成人影院| 搡老岳熟女国产| 色av中文字幕| 男人舔女人下体高潮全视频| 99热这里只有精品一区 | 日本a在线网址| 欧美精品啪啪一区二区三区| 99久久无色码亚洲精品果冻| 曰老女人黄片| 精品久久久久久久末码| 全区人妻精品视频| av女优亚洲男人天堂 | 久久久国产成人免费| 国产高清视频在线播放一区| 国产成人aa在线观看| 欧美又色又爽又黄视频| av片东京热男人的天堂| 亚洲自拍偷在线| 欧美另类亚洲清纯唯美| 黄色女人牲交| 国产成人av激情在线播放| 国产av不卡久久| 国产熟女xx| 亚洲av熟女| 国产精品亚洲一级av第二区| 香蕉国产在线看| 日韩欧美 国产精品| 中文字幕精品亚洲无线码一区| 村上凉子中文字幕在线| 欧美另类亚洲清纯唯美| 亚洲美女视频黄频| 国产激情久久老熟女| 久久精品国产清高在天天线| 天堂网av新在线| 国产精品日韩av在线免费观看| 亚洲成av人片在线播放无| 性色av乱码一区二区三区2| 曰老女人黄片| 久久久久九九精品影院| 国产乱人伦免费视频| 十八禁人妻一区二区| 12—13女人毛片做爰片一| 非洲黑人性xxxx精品又粗又长| 亚洲欧美日韩无卡精品| 亚洲精品456在线播放app | 51午夜福利影视在线观看| 老熟妇乱子伦视频在线观看| 十八禁人妻一区二区| 午夜福利在线观看免费完整高清在 | 欧美日韩乱码在线| 亚洲色图av天堂| 亚洲五月婷婷丁香| 国产精品综合久久久久久久免费| e午夜精品久久久久久久| 午夜福利18| 性色avwww在线观看| 日本黄色视频三级网站网址| 三级毛片av免费| 国产一区在线观看成人免费| 亚洲欧洲精品一区二区精品久久久| www.999成人在线观看| 99久久精品一区二区三区| 我要搜黄色片| 一二三四在线观看免费中文在| 久久久久国内视频| 久久久久久人人人人人| 国产69精品久久久久777片 | 成人亚洲精品av一区二区| 日韩欧美三级三区|