• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    智能文本搜索新技術

    2012-08-18 10:13:40王占一徐蔚然郭軍
    智能系統(tǒng)學報 2012年1期
    關鍵詞:評測博客文檔

    王占一,徐蔚然,郭軍

    (1.北京郵電大學模式識別與智能系統(tǒng)實驗室,北京 100876;2.北京郵電大學信息與通信工程學院,北京 100876)

    智能文本搜索新技術

    王占一1,2,徐蔚然1,2,郭軍1,2

    (1.北京郵電大學模式識別與智能系統(tǒng)實驗室,北京 100876;2.北京郵電大學信息與通信工程學院,北京 100876)

    面對當今互聯(lián)網上海量的信息,以及搜索信息準確、高效、個性化等需求,提出了一套包括信息檢索、信息抽取和信息過濾在內的智能文本搜索新技術.首先舉薦了與信息檢索新技術相關的企業(yè)檢索、實體檢索、博客檢索、相關反饋子任務.然后介紹了與信息抽取技術相關的實體關聯(lián)和實體填充子任務,以及與信息過濾技術相關的垃圾郵件過濾子任務.這些關鍵技術融合在一起,在多個著名的國際評測中得到應用,如美國主辦的文本檢索會議評測和文本分析會議評測,并且在互聯(lián)網輿情、短信輿情和校園網對象搜索引擎等實際系統(tǒng)中得到了檢驗.

    智能文本搜索;文本檢索;文本分析

    隨著互聯(lián)網技術的飛速發(fā)展,網絡上的信息呈爆炸式增長.用戶需要在這些海量信息數(shù)據中找到自己需要的內容,不是簡單定位到某一個網站或網頁,而是越精準、全面越好.同時他們希望使用盡量少的描述就可以找到自己感興趣的內容,不帶有任何垃圾信息.如何滿足用戶對這些信息的高精度、高效率、個性化、完備性等需求,是當前信息檢索和數(shù)據挖掘面臨的新問題.

    傳統(tǒng)的文本搜索基于數(shù)據庫查詢、關鍵詞搜索等技術,有很強的局限性.而智能文本搜索解決的是數(shù)據海量、數(shù)據稀疏、大量并發(fā)請求、數(shù)據特征演進、主客觀交叉等困難問題,從技術角度來說,智能文本搜索融合了信息的檢索、抽取、過濾等方面.檢索是由用戶提出查詢請求,系統(tǒng)根據這個需求對Web信息進行查詢并給出結果.抽取是把文本里包含的信息進行結構化處理,變成表格一樣的組織形式.過濾是系統(tǒng)根據預先設定的條件,對Web中與該條件相符的信息進行獲取、隔離或封堵[1].

    為了探索前沿技術,解決上述問題,各國學術界、產業(yè)界和政府部門都給予了高度關注,一系列評測活動應運而生.文本檢索會議(text retrieval conference,TREC)作為文本檢索領域最權威的評測會議,關注著檢索技術的最新發(fā)展,比較客觀地反映了十幾年來的研究趨勢.TREC是由美國國家技術標準局(NIST)和美國國防部(DOD)聯(lián)合主辦,創(chuàng)立于1992年,主要目的是通過提供評價大型文本檢索方法所必需的基礎設施來支持對信息檢索的研究[2].關注TREC,有利于加強各個科研機構和企業(yè)之間的交流,有利于評價檢索方法在實際問題中的效果,也有利于加快實驗室的技術商品化的速度.

    TREC的參賽隊伍從開始的22個發(fā)展到2010年的75個.北京郵電大學模式識別實驗室多年來致力于模式識別和網絡搜索技術,從2005年開始參加TREC的多項評測并取得了較好的成績,如垃圾郵件過濾、企業(yè)檢索、博客檢索、實體檢索、相關反饋等.同時,該團隊還參加了國家“863”計劃項目中文本分類、SigHan分詞、TAC和中文傾向性分析等評測.評測中涉及的任務除了用于新技術的研究,也是為了解決實際問題.基于評測中的智能文本搜索新技術,一些實際系統(tǒng)也相應地被開發(fā)出來,并在實際應用中得到了檢驗.

    本文以權威評測為主線,詳細介紹智能文本搜索新技術.第1部分以企業(yè)檢索、實體檢索、博客檢索和相關反饋為例介紹信息檢索新技術;第2部分以文本分析會議評測為例介紹信息抽取新技術;第3部分以垃圾郵件過濾為例介紹信息過濾新技術;第4部分介紹以上述技術為核心的實際應用系統(tǒng),如互聯(lián)網輿情系統(tǒng)、短信輿情系統(tǒng)、校園對象搜索引擎系統(tǒng)等;最后是總結和展望部分.

    1 信息檢索

    1.1 企業(yè)檢索

    文本檢索會議從2005—2008年制訂了企業(yè)檢索(enterprise track)評測任務[3],企業(yè)檢索的目的是研究在企業(yè)內部數(shù)據中的用戶檢索行為,主要包含郵件檢索(2005—2006 年)[4-5]、文檔檢索(2007—2008年)[6]和專家檢索(2005—2008 年)任務.其中,專家檢索是重點和難點,它的目的是尋找企業(yè)中關于某一主題的專家.具體地,專家檢索需要分成兩部分來解決:一是確定所給語料集中的專家,二是計算查詢與專家的相關度.專家的標識主要是姓名和郵箱,定位專家的方法主要有命名實體識別、查詢人名列表、匹配郵箱、稱謂、職務等.在實際中,這些方法經常綜合運用.

    1.1.1 二階排序模型

    二階排序模型的主要思路是通過文檔為橋梁,計算查詢和專家的相關度.如式(1),檢索的第1階段是普通的文檔檢索,找出一定數(shù)量的相關文檔,計算出查詢Q和文檔Di的相關度Score(Di,Q);第2階段計算事先確定好的專家Ej和這些文檔的相關度Score(Ej,Di);最后綜合文檔和查詢的相關度得到查詢和專家的相關度Score(Ej,Q),就可以對和查詢相關的專家排序了.

    式中:Nr表示第1階段得到的文檔中,用于第2階段的文檔數(shù)量.

    文檔檢索使用的算法包括語言模型、KL距離、BM25等.計算專家Ej和這些文檔的相關度Score(Ej,Di)可以使用式(2):

    式中:n(fij)表示文檔Di中某一專家的名字和郵箱出現(xiàn)的次數(shù),N是語料集中文檔的數(shù)目,d(fj)是出現(xiàn)該專家名字和郵箱的文檔數(shù)目.

    二階排序模型思路清晰,有理論依據且易于實現(xiàn),但它以整篇文檔為橋梁,單純以專家名或郵箱代表全部的專家信息,方法較為粗糙,沒有在文檔中做更細致的挖掘.

    1.1.2 專家經驗模型

    專家經驗模型的主要思路是提取專家在文檔中的上下文組成該專家的“經驗”,再計算專家經驗的概率.提取上下文的過程相當于為該專家開了一個“窗口”,因此也叫作專家窗口模型.筆者認為專家名或郵箱的上下文是與該專家密切聯(lián)系的信息,那么在確定一個專家的同時將其前后一定數(shù)量的詞也提取出來組成新的文檔,這個文檔就是包含該專家相關信息的文檔.因此只要檢索到這個文檔就認為該專家和查詢是相關的.這個過程表示為

    式中:Ed表示由專家經驗組成的文檔.另外,經過反復的實驗發(fā)現(xiàn),窗口的長度取專家前后各150個詞效果最好.表1給出了二階排序和專家經驗2種模型的性能比較.

    表1 2種專家檢索模型的對比Table 1 Comparison of two kinds of expert track model

    1.2 實體檢索

    實體檢索,或稱實體追蹤(entity track)是2009年TREC評測新增加的一項任務[7].它可以看作是從2005—2008年的專家檢索任務發(fā)展而來.與專家檢索相比,它具有更新更豐富的內容.許多使用搜索引擎的用戶本意并不是找出各種各樣的文檔,而是想知道答案是哪些具體的實體,因此,文本搜索的核心任務是相關實體查找(related entity finding,REF).REF需要解決的問題是:給出一個輸入實體,連同它的名字、主頁、目標實體的類型,還有描述它們之間關系的文本,找出與目標類型相符的實體,這些實體能夠表示前面要求的與輸入實體的關系.對于每個查詢,要求輸出實體的排序,且每個實體必須有惟一的主頁.筆者的工作主要關注3個方面:針對每個查詢,找出相關的實體;依據檢索模型,對實體進行排序;為每個實體賦予一個主頁.

    1.2.1 實體抽取

    與專家檢索首先要定位專家相似,實體檢索的前提是必須找出與查詢相關的實體,而且盡量提高查準率和查全率,這就要用到實體抽取的技術.通常,實體抽取主要分為基于統(tǒng)計和基于規(guī)則2種.基于統(tǒng)計的方法例如最大熵(maximum entropy)[8]或條件隨機場(conditional random field)[9]將人名、地名等命名實體標識出來.基于規(guī)則的方法例如構建命名實體詞典,用詞典過濾出符合要求的實體.

    為了更準確、更全面地抽取實體,可以將幾種方法混合使用,即規(guī)則-統(tǒng)計-規(guī)則.首先通過觀察語料集、構造查詢在搜索引擎或維基百科中查找特殊網頁,這種網頁多數(shù)以表格的方式呈現(xiàn),或者有其他明顯的特征.然后通過適當?shù)囊?guī)則將這些可信度較高的實體抽取出來.這種方法可以保證準確率,但是實體的數(shù)量不夠.接下來使用文檔檢索得到相關度最高的前N(N=5)篇文檔,使用基于統(tǒng)計的命名實體識別工具抽取出與目標實體類型相同的實體.調整N可以保證實體的數(shù)量,但是準確率不高,這就又要用到基于規(guī)則的方法.利用維基百科中每個詞條的語義標簽建立各種實體類型的映射規(guī)則,如對于組織名(organization),以“組織”、“公司”等開頭的標簽,采集這些標簽對應的實體,建立實體詞典,前面用工具抽取出的“實體”再經過詞典過濾,添加到實體列表中.

    1.2.2 檢索模型

    有了實體列表就可以依據檢索模型對實體排序了.在實體檢索任務中,根據查詢、文檔、實體三者的關系,形象地構建了2種模型:文檔中心模型和實體中心模型.

    文檔中心模型將文檔d看作查詢q和實體e的橋梁,查詢和實體的相關度由合并q、d的相關度和e、q的相關度得到.文檔中心模型借鑒了專家檢索中的二階思路,不同之處在于專家換成了實體.第1階段計算查詢和文檔的相關度使用的是語言模型和推理網絡.第2階段計算實體和文檔的相關度也是一個檢索的過程,可以采用概率模型等,將實體轉換成查詢后就和第1階段相同了.

    實體中心模型是實體處在結構的中層,文檔或文檔的片斷在底層支撐實體,實體與頂層的查詢直接相連.與文檔中心模型不同,實體中心模型只需要1次檢索過程.

    單純用文檔支持實體過于粗糙,參考專家經驗模型,取實體的上下文作為與實體相關的信息.這里的上下文稱為片斷,同樣也取實體前后的150個詞,將某個實體的各個片斷匯集在一起,形成一個新的文檔.實體與實體文檔一一對應,利用查詢與這些文檔的相關度就可以直接對實體進行排序.排序的具體算法有前面提到的語言模型、BM25等.

    1.2.3 確定主頁

    與專家不同,實體需要一個主頁與之對應,也是在網絡上的惟一標識.為實體分配主頁的方法主要有3種:1)計算實體和各相關文檔的相關度,取相關度最高的作為主頁,這種方法依賴于文檔的內容;2)制定規(guī)則,將實體與文檔的URL作比較,找出相似度最高的作為主頁;3)利用已有的外部資源,如搜索引擎排序靠前的網頁、維基百科的參考鏈接等.實際應用中混合使用這3種方法,相互補充,達到盡量準確分配主頁的目的.

    1.3 博客檢索

    文本檢索會議TREC從2006年起制定了博客檢索任務(Blog track),最初只對博客的觀點度及其與查詢的相似性進行研究.博客檢索從2008年起開始關注對博客傾向性的分析,并于2009年提出博客精選任務,該任務將博客的傾向性分為3類:“個人的(personal)”或“官方的(official)”;“深入分析的(in-depth)”或“淺層描述的(shallow)”;“表達觀點的(opinionated)”或“描述事實的(factual)”,其目的是在博客關于查詢的相似性檢索的基礎上進一步對博客的傾向性進行檢索和排序.筆者參加了2007—2010年的博客檢索任務,并于2009年在多項評測指標中都取得了第1名的優(yōu)異成績.

    1.3.1 博客精選(Blog distillation)

    隨著各大博客網站的推出和興起,網絡上涌現(xiàn)出海量的博客用戶,這些博客內容豐富多彩,種類多樣,同時也充斥著各種感情色彩,可謂魚龍混雜.在信息如此泛濫的情況下來判斷相對比較具體的一些話題的傾向性是有困難的,因此有必要事先挑選出一些與話題相關性大的博客,再判斷其傾向性.這也是把話題檢索作為傾向性檢索基礎的原因.

    在2009和2010年的話題檢索任務中,筆者使用的方法基本相同,都是將其看作Learning to Rank問題,即通過學習博文的排序,利用一定的算法來獲得博客的排序.針對這一問題,采用Voting模型[10],即一個博客里的博文被看作是這個博客的支持者,該博客里的博文對于話題的相關性就越大,同時相關的博文數(shù)量越多,該博客的相關性就越大,排序越靠前.

    具體的方法如下:將所有的數(shù)據以博文為單位輸入Indri建立索引,用話題Q在Indri里進行查詢,得到博文的相關性分數(shù)和排序.通過此排序來獲得博客排序,如式(3):

    式中:B表示一個博客,博客B中的一篇博文用p表示,Score(B,Q)表示一個博客的相關性得分,Score(p,Q)表示從Indri中獲得的博文的相關性分數(shù),|B|表示一個博客下博文的數(shù)量.將獲得的相關博客的分數(shù)排序,排在前100的被認為是與話題最相關的博客.

    1.3.2 個人與官方(personal vs.official)

    博客的興起使個人和組織的言論表達變得更加便利,然而因特網用戶可能不大喜歡宣傳性、商業(yè)性的博客,更加喜歡以個人的名義發(fā)表的文章,這樣就使得個人、組織搜索的研究變得具有現(xiàn)實意義.

    博客的個人、組織檢索,是TREC評測2009年新增加的一項子任務,被安排在話題檢索之后.在話題檢索中,得到與話題相關的博客,再對其進行個人、組織檢索.最近2年分別采用了2種不同的方法來進行個人、組織檢索.

    2009年主要采用了組織機構名的區(qū)分方法,因為官方/組織的博客的書寫慣例,一般會將組織名稱放在文章的開頭位置,有種“開門見山”的感覺;所以根據相同的組織機構名稱在文章中出現(xiàn)的頻率和位置來給相關的博客進行打分,最后根據分數(shù)的高低來進行排序和檢索,即可分別得到個人和組織的博客.

    2010年主要采用了基于機器學習的分類方法,將個人和組織的檢索看作是一種分類的問題,在訓練模型中,利用機器學習的方法來分別構建含有個人和組織信息的詞典.在構建詞典前會做一個文本特征降維的處理,然后利用VSM模型用這2個詞典對相關博客進行打分和排序[11],最后分別得到個人和組織的博客.

    1.3.3 表達觀點與描述事實(opinionated vs.factual)

    博客的觀點度與客觀度排序評測旨在開發(fā)一種有效的檢索系統(tǒng),使其能根據博客中關于某話題所表達一種觀點或陳述一個事實的強烈程度,來對這些博客進行排序.

    筆者在2008和2009年都使用了同一種情感分析模型[12],對于博客的觀點度打分如式(4):

    式中:Npos和Nneg分別代表主觀和客觀的博文數(shù).

    與前2年不同,2010年的博客檢索中使用了基于詞典的方法,主要分為3個步驟:

    1)利用信息增益與互信息自動生成“主觀詞詞典”和“客觀詞詞典”.通過信息增益在訓練集中挑選對觀點型博客和客觀型博客區(qū)分度高的詞,作為詞典的候選詞.由信息增益生成的候選詞并沒有被分類為“觀點型”或“客觀型”,為了生成最終的2種詞典,利用互信息進一步將這些候選詞分為“觀點型”和“客觀型”[13].

    2)計算觀點度得分和客觀度得分.對于每個查詢q和詞典中的詞t,在相關文檔集中計算TF-IDF權重wtfidf(t),同時用一種詞權重模型[14]計算查詢權重wbol(q),然后將2個權重相加得到博客的觀點度得分Sop和客觀度得分Sfa.

    3)排序.首先在相關文檔集中找到每篇博客的相關性得分Score(B,Q),然后將Score(B,Q)×Sop和Score(B,Q)×Sfa分別作為觀點度排序和客觀度排序的最終得分.

    1.3.4 深入分析與淺層描述(in-depth vs.shallow)

    2009年首次提出博客的深淺度分析任務.筆者提出了L-Qtf系數(shù)進行博文的深淺度分析[15].然后根據每一個博客下深度博文與淺度博文的數(shù)量,得到每一個博客的深度分析程度或淺度分析程度的排序.最后將每一個博客深淺度的排序值與相應的博客精選的相關性值合并得到最終結果.

    1)根據L-Qtf系數(shù)進行每一篇博文的深淺度分析:

    式中:ft和fqt分別為查詢中的單詞在博文中的詞頻和在查詢中的詞頻,在計算ft和fqt之前,進行詞干化處理(stemming),其作用是將詞的各個詞形變化還原為同一詞干,例如“selling”和“sells”是“sell”的不同詞形,這樣的處理可以提高查詢詞在博文中的覆蓋率;ld為博文的長度;lavg為同一查詢下全部相關博文的平均長度;在實驗中參數(shù)s設置為0.2.

    2)根據博文的L-Qtf系數(shù)進行博客的深淺度分析.在同一查詢下,根據L-Qtf系數(shù)的值對博文進行排序,取該排序的前45%判定為深度表述的博文,后45%判定為淺度表述的博文.計算每一個博客下深度表述博文與淺度表述博文數(shù)量的差值,并對該博客下博文的數(shù)量進行歸一化,得到該博客的深淺度分析結果Si.

    式中:Score(bx,Q)為深淺度分析結果,為了區(qū)分下面的合并方法,用Si表示.

    3)與博客的相關性結果合并得到最終排序.一個博客深淺度分析的最終結果不能僅依賴于深淺度分析,還要考慮該博客對于查詢詞的相關性,所以提出了以下的合并模型:

    式中:Snorm(B,Q)為每個博客的相關性.

    1.4 相關反饋

    相關反饋是TREC在2008年發(fā)布的一項新任務,基本的任務是:對于一個給定的查詢,對文檔集索引中抽取相關文檔,得到初始查詢結果;然后再給定一些標注過的與查詢相關或無關的文檔,通過標記文檔選擇擴展詞,對查詢進行重構;最后重新查詢得到反饋結果.2008年采用了傳統(tǒng)的Rocchio算法,即正負反饋的方法.2009年相關反饋主要采用了文本分類、語言模型提取擴展詞的方法[16],其效果較好.2010年的相關反饋在2009年方法的基礎之上加入了實體擴展、擴展詞分類兩部分.

    1.4.1 結構流程

    2010年相關反饋方法的流程如圖1所示.

    圖1 相關反饋的流程Fig.1 The flow chart of relevance feedback

    1.4.2 擴展詞抽取

    擴展詞主要有2種:通過語言模型計算的權重排序得到的詞[17]和通過相似性KL距離計算得到的命名實體.擴展詞的來源是初始查詢結果通過標記文本分類得到的相關文檔類.

    語言模型進行擴展詞抽取主要思想是將相關文檔類看作一個模型[18],通過估計模型生成詞的概率來對詞進行排序.詞在相關文檔類模型中的概率分布如式(5):

    式中:Pml(t,d)是詞t在文檔d中的歸一化頻率,Pavg(t)是詞t的平均詞頻,(t,d)是一個風險函數(shù),fct是t在文檔類中的總詞頻,cs是相關文檔集長度.

    一些查詢往往與特定的領域或主題相關,這些領域內部的人物、機構、地點等通常能有助于區(qū)分相關文檔和不相關文檔[19].因此,可以將這些命名實體(包括人名、地名、組織機構)作為擴展查詢的一部分.抽取的主要方法步驟是:1)對相關文檔集進行命名實體標注,標注出人、組織和地名3類命名實體;2)基于命名實體的詞頻對實體進行排序,得到詞頻較高的前20個命名實體;3)去掉這20個命名實體中的噪聲實體,噪聲實體是指在相關文檔集和不相關文檔集中都經常出現(xiàn)的實體;4)計算去噪后每個實體和相關文檔的KL距離[20],找到與相關文檔距離最近的5個實體加入到擴展詞集合中.

    1.4.3 擴展詞分類

    通過語言模型提取出的擴展詞,并不是都能改善原始查詢的結果;因此采用對擴展詞進行分類的方法,選擇對原始查詢改善效果比較好的擴展詞,使得查詢能夠得到更好的優(yōu)化.在擴展詞分類實驗中,分類器采用LIBSVM,特征選取方面,主要考慮的是擴展詞的分布特點、擴展詞與查詢詞之間的共現(xiàn)頻度和距離等特征,訓練樣本來源于2009年TERC相關反饋評測的數(shù)據.

    根據擴展詞對原始查詢的不同影響,將擴展詞分為好擴展和壞擴展2種,并進行擴展詞標注.好擴展是指當在擴展查詢中該擴展詞的權重為w時,返回的結果比原始查詢好,即正反饋;當權重為-w時,返回結果比原始查詢差,即負反饋.壞擴展與之相反.實驗中取w=0.01.

    使用LIBSVM[21]進行SVM的訓練和預測.按照前面提到的標注方法,對2009年相關反饋提取的擴展詞進行了標注,為避免正負樣本比例不協(xié)調的問題而影響分類效果,最后選定191個樣本作為訓練樣本,其中131個負樣本,60個正樣本.在訓練過程中,采取了交叉驗證的方法,將數(shù)據平均分成5組,并保證每一組數(shù)據有12個正樣本,最后達到的平均準確率為69.268 34%.

    1.4.4 查詢擴展

    根據給定的原始查詢和從相關文檔集合中抽取的擴展詞進行查詢擴展.擴展過程中查詢的格式如下[22]:

    其中:“query”為原始查詢,“terms”為語言模型抽取、SVM分類過的擴展詞,“named entity”為通過KL距離抽取的命名實體.原始查詢的權重設為1.0,擴展詞權重設為0.2.

    2 信息抽取

    一般情況下,被用戶認為有用的信息隱藏在大量文字中,或散亂分布在各種各樣的網頁中.如何將這些符合特定需求的信息抽取出來,是當前文本搜索領域的熱點問題.著名的文本分析會議(text analysis conference,TAC)就將焦點放在信息的抽取和關聯(lián)分析上.TAC是由IAD(information access division)組織的一個評測,該評測自2008年舉辦以來,已經進行了3屆,最初是從 TREC評測的 Question Answering Track發(fā)展起來的[23].筆者自2009年已經連續(xù)2年參加了該評測的實體關聯(lián)和實體填充[24]2項任務,并在評測中取得了較為優(yōu)異的成績.

    2.1 實體關聯(lián)任務及關鍵技術

    實體關聯(lián)(entity linking)的任務是根據每一個query的標題和支持文檔找到KB中的惟一節(jié)點和它對應,或者返回空(表示該節(jié)點不和任何KB中的節(jié)點對應).其中:KB(knowledge base)這個數(shù)據集中存放所有的KB節(jié)點;query是評測開始時官方提供的數(shù)據,一個query包含1個title(標題)和1篇支持文檔.

    1)系統(tǒng)總體框架.系統(tǒng)主要包括以下幾個模塊:實體檢索、命名實體識別、相似性判斷、自動摘要,如圖2.基本思想是,首先對每一個實體query進行實體檢索,得到一批實體候選列表,然后針對每一個候選實體進行排序和相似度的打分,從而得到最終的結果.

    2)實體檢索.在評測中,往往面對的是海量文本,如果對于每一個查詢都去遍歷KB,那么其響應速度是不能接受的;因此,通常需要對KB建立索引,在TAC評測中,選用Indri作為建立索引的工具.

    圖2 實體關聯(lián)的流程Fig.2 The flow chart of entity linking

    3)命名實體識別.TAC評測中的query都是一個實體,并且該實體可能是以下3種類別之一:人名、地名、組織機構名.首先需要判斷該query是哪一種類別的實體,從而方便后續(xù)的處理,在TAC評測中,使用了斯坦福大學提供的命名實體識別開源工具包.

    4)判定方法.在評測中,需要對1個query和1個文檔進行相似度的計算,采用了以下2種方法:

    a)基于VSM模型的相似度判斷:

    b)基于KL距離的相似度判斷:

    5)實體關聯(lián)的改進.在2010年的TAC評測中,筆者加入了許多規(guī)則,這些規(guī)則的引入主要來自于對原始數(shù)據的觀察,通過加入相關的這些規(guī)則,效果有了提高.

    2.2 實體填充任務及關鍵技術

    實體填充(slot filling)任務即在測試集中尋找與目標實體(查詢)相關的信息,填充目標實體預先規(guī)定的一系列屬性值.目標實體分為2類:人名和組織機構,人名共有26種屬性需要填充,組織機構共有16種屬性需要填充.屬性有single和list的不同,其中single為只能有一個答案的屬性,如人的生日;list為可以有多個答案的屬性,如人的子女.

    1)系統(tǒng)總體框架.實體填充系統(tǒng)的總體框架由4個部分組成:實體檢索模塊、命名實體識別模塊、關系抽取模塊、結果決策模塊,如圖3.實體檢索模塊通過Indri檢索平臺,獲取和查詢實體最相關的前25篇相關文檔及其相關度權值.命名實體識別模塊使用斯坦福NER工具包識別人名、地名、組織機構名,使用時間規(guī)則模板匹配識別時間.關系抽取模塊是實體填充系統(tǒng)的核心模塊,把實體填充當作一個關系抽取任務,在這一模塊中同時采用基于規(guī)則模板的方法與基于統(tǒng)計的方法.結果決策模塊對關系抽取模塊的結果進行優(yōu)選得出最終結果.

    圖3 實體填充的流程Fig.3 The flow chart of slot filling

    2010年實體填充的整體實現(xiàn)框架與2009年大體相同,但細節(jié)上有所改進,例如增加了URL的識別.采用基于規(guī)則方法識別為主、基于統(tǒng)計CRF識別方法做補充的實現(xiàn)方案.即當2種方法同時出現(xiàn)“single”的值,優(yōu)選選擇規(guī)則類方法;對于非“single”的值,綜合考慮文檔對于query的相關性值SEL和填充結果的可信度值SSF,選擇最優(yōu)的若干個結果進行優(yōu)選得出最終結果.

    2)基于規(guī)則模板的方法.a)識別 URL(網址)和LIST(title職稱、charge罪名、cause of death 死因、religion宗教等).其中URL識別采用正則表達式方法,LIST主要從訓練語料中統(tǒng)計而來.b)根據規(guī)則模板輸出實體填充結果.

    3)基于統(tǒng)計的方法.基于統(tǒng)計的方法是一種半監(jiān)督的機器學習方法,它將實體關系抽取看作一種多分類問題,從文本中抽取訓練所需要的特征,然后利用條件隨機場形成分類器.

    利用9種特征來訓練CRFs:詞對、詞特征、詞性特征、順序特征、動詞位置特征、實體位置特征、二值特征、動詞特征和類型特征.由于實體關系識別是一種多分類問題,而類別數(shù)越多,模型的準確率也會下降.為了盡可能降低類別數(shù),根據目標實體的類型(人名或組織名)將初始的訓練語料初步分為2份,然后再根據詞對中的第2個詞是否為命名實體,進一步將訓練語料二次劃分,最后用CRFs形成了4種分類器,這樣做也提高了系統(tǒng)的整體效率.

    4)結果合并.綜合考慮文檔對于query的相關性值SEL和填充結果的可信度值SSF,選擇最優(yōu)的1個或若干個.選擇策略如式(6)所示.

    式中:Value(Q,slot,doc)即為綜合考慮文檔對于query的相關性值和填充結果的可信度值的權值.對于基于機器學習的方法,CRF++工具包[25]可以為識別結果提供可信度值,記為crfvalue,即該判別結果正確的概率,SSF=crfvalue;對于基于規(guī)則的方法,優(yōu)先選取基于規(guī)則方法的結果,設置填充結果可信度值為1,SSF=1.實體關聯(lián)提供相關文檔的同時提供該文檔的相關度值,記為SEL.其中參數(shù)μ設置為0.5.

    3 信息過濾

    近年來,隨著互聯(lián)網技術的迅速發(fā)展,垃圾信息的數(shù)量在網絡上呈現(xiàn)上升趨勢,信息過濾成為一個業(yè)內的難題和挑戰(zhàn).以垃圾郵件為例,TREC從2005—2007年組織了垃圾郵件過濾評測(spam track)[26-27],目的是盡可能找到一種好的垃圾郵件過濾模型,保證過濾的有效性和可重復性滿足需求.主要任務包括即時反饋、延時反饋、主動學習和部分反饋等[28].筆者參加了其中的3屆評測,2005年在參賽的國內隊伍中成績是最好的.

    當前的垃圾郵件過濾技術可以大致劃分為黑名單技術、人力驅動的啟發(fā)式過濾以及基于機器學習的過濾[29].這些技術中,樸素貝葉斯方法受到廣泛關注.

    3.1 樸素貝葉斯分類器

    樸素貝葉斯分類器簡單有效,經常用于文本分類的應用和實驗中.垃圾郵件過濾屬于文本分類問題,因此該分類器被廣泛使用于垃圾郵件過濾.樸素貝葉斯分類器是一種基于概率的方法,基本思想是通過觀察一些詞是否在郵件中出現(xiàn)來判斷是垃圾還是非垃圾,如式(7):

    式中:wk是組成郵件的詞,L是類別的集合.常用的樸素貝葉斯模型有 multi-variate Bernoulli模型、Poisson Na?ve Bayes模型以及 multinomial模型.它們的不同之處主要在于如何計算P(wk|Ci).對于垃圾郵件過濾問題,只有2個類別:垃圾郵件C+和非垃圾郵件C-,那么一封郵件M的對數(shù)得分可寫為

    如果Score(M)>0,待分類郵件被標注為C+類(垃圾郵件),反之被標注為C-類(非垃圾郵件).過濾模型如圖4所示.在有監(jiān)督情況下,用戶判斷垃圾郵件過濾器的結果并反饋給過濾器,而過濾器依據反饋進行自動學習.系統(tǒng)開始運行時并不預設標準,即是一個無初始記憶的分類器,而后不斷更新達到最佳效果.系統(tǒng)關于垃圾郵件的知識均是從理想用戶的反饋中得到的.

    圖4 垃圾郵件過濾的流程Fig.4 The flow chart of spam filtering

    3.2 加權樸素貝葉斯分類器

    假設郵件的不同部分對過濾的貢獻是不同的,某些部分對過濾的幫助更大.若郵件分為S個部分,每個部分由Nd個詞組成,d=1,2,…,S.那么樸素貝葉斯分類器的一個簡單推廣就是為郵件的不同部分賦予不同的權值α.式(7)可以更新成為

    式中:αd為權值,d=1,2,…,S.式(8)用Nd和郵件長度正規(guī)化后可以寫成

    那么給定訓練集后,參數(shù)集α就可以用最大似然準則求解了.在實際中,劃分的方法有很多.可以按結構劃分各部分,如標題、郵件頭、正文、附件等,也可以按詞的不同概率將郵件劃分成不同的部分.

    3.3 分類器集成

    Bagging是一種將一些弱分類器集成的技術.弱分類器指的是準確率比50%高一點的分類器.在分類過濾任務中,將弱分類器集成在一起,經過演進和變換達到最佳效果.基于Bagging技術的樸素貝葉斯垃圾郵件過濾器,通過選擇好的集成方法有助于提升過濾系統(tǒng)的性能.常用的方法主要有嵌入決策樹和分類錯誤加權等.

    4 實際系統(tǒng)

    4.1 互聯(lián)網輿情系統(tǒng)

    北京郵電大學模式識別與智能系統(tǒng)實驗室的互聯(lián)網輿情監(jiān)控分析系統(tǒng)依托自主研發(fā)的文本搜索和文本挖掘技術,通過新聞、論壇、博客、微博、視頻網站等內容源的自動采集與跟蹤,進行敏感話題過濾分析、智能話題聚類分類、主題監(jiān)測、專題聚焦和各類數(shù)據的統(tǒng)計分析,實現(xiàn)應用單位對相關網絡輿情監(jiān)督管理的需要,為決策層全面掌握輿情動態(tài),做出正確輿論引導提供分析依據.

    4.2 短信輿情系統(tǒng)

    短信是人們日常生活中進行通信的重要手段,通過對短信文本的分析,可以掌握大眾平時的輿論導向,并且可以幫助政府職能部門盡早地發(fā)現(xiàn)一些不良的、危及安全的不法短信.但是短信有其自身的特點:短小、口語化等,這也給分析帶來了很大的難度.因此,基于短信進行輿情分析既有一定的學術價值,也有一定的現(xiàn)實意義.

    短信輿情系統(tǒng)主要有以下一些模塊:短信分類模塊根據短信的內容將短信分到不同的類別,并且可以通過訓練自動調整各類別下關鍵詞的權重;敏感過濾模塊可以過濾出涉及國家和人民生命財產安全的非法短信;發(fā)送方式分析模塊可以判斷出一條短信的發(fā)送方式,例如群發(fā)、轉發(fā)、直發(fā)等,從而可以獲知什么樣的短信被大規(guī)模群發(fā),并進行有針對性的跟蹤;短信溯源和用戶交際圈模塊可以根據某一用戶或某一短信進行全方位地分析,從而掌握某用戶的動態(tài).

    通過短信輿情系統(tǒng),可以更好地加強對短信數(shù)據的監(jiān)控,掌握普通用戶的輿情情況,為政府職能部門制定相關決策,追蹤某些特殊的現(xiàn)象提供手段.

    4.3 校園對象搜索引擎系統(tǒng)

    校園對象搜索引擎(campus object search engine,COSE),是一款在校園網內工作,致力于幫助用戶尋找人物、組織機構以及課程信息的垂直搜索引擎.從COSE的名字就可以看出該系統(tǒng)所針對的服務對象是校園中的學生群體.COSE的主要特點在于它融入了信息抽取中的命名實體識別和實體關系抽取這2項技術,可以自動識別網頁中的人名、課程名以及機構組織名,建立實體(也稱對象)數(shù)據庫,并且根據對象名在網頁中抽取其關系(也稱相關屬性),建立相關屬性數(shù)據庫,供用戶查詢檢索時使用.

    COSE系統(tǒng)包含的模塊有:網絡爬蟲與索引、中文分詞、命名實體識別、實體關系抽取和查詢重構.COSE采用廣度優(yōu)先搜索策略,只抓取各個大學網站域名下的網頁信息,建立網頁文檔庫及索引.這可以在很大一定程度上屏蔽掉大量無用的廣告網頁和新聞網頁.對網頁文檔建索引能加快查找和排序的速度,COSE系統(tǒng)綜合使用全文索引技術和動態(tài)文檔索引技術.中文分詞是命名實體識別和實體關系抽取的前提和基礎,COSE中的中文分詞技術綜合應用基于字符串匹配和基于統(tǒng)計的中文分詞技術.命名實體識別是COSE系統(tǒng)的關鍵技術之一,采用基于統(tǒng)計與基于規(guī)則相結合的識別方法.實體關系抽取是COSE系統(tǒng)中的另一項關鍵技術,鑒于正則表達式的靈活性和強大的字符串匹配能力,COSE系統(tǒng)借助成熟的Python字符處理規(guī)則,提出一種正則表達式方案抽取對象屬性信息.COSE中查詢重構模塊旨在解決以下2種形式的查詢:1)復雜查詢:查詢的不是單純實體;2)問題式查詢:比如某某老師屬于哪個學院.在用戶使用COSE進行檢索時,系統(tǒng)會返回2類信息:一類是與通用搜索引擎相似的和查詢相關的網頁信息,另一類則是相關網頁中包含的命名實體及其相關屬性.

    5 總結與展望

    傳統(tǒng)的文本搜索技術已經難以滿足用戶的需求,融合了信息檢索、信息抽取和信息過濾等技術的智能文本搜索新技術是當前的研究熱點.

    信息檢索技術不再是單純的按相關度呈現(xiàn)各個網頁,更多的是對網頁內容的深度挖掘、組織并反饋,提高檢索的準確性、完備性、個性化程度.企業(yè)檢索主要研究在企業(yè)內部數(shù)據中的用戶檢索行為,主要包含郵件檢索、文檔檢索和專家檢索任務,使用了二階排序模型和專家經驗模型.實體檢索主要關注查找相關實體,除了使用文檔中心模型和實體中心模型外,還加入了實體抽取的關鍵技術和用來惟一標識實體的主頁.博客檢索對博客中出現(xiàn)的觀點及其與查詢的相似性進行研究,在此基礎上對傾向性作分析,主要分為3類:個人與官方、表達觀點與描述事實、深入分析與淺層描述.相關反饋利用給定的與查詢相關或無關的標注文檔,選擇擴展詞,對查詢進行重構,通過重排序改善原有檢索系統(tǒng)的性能.

    信息抽取技術在文本分析會議評測中得到很好的體現(xiàn).該評測分為實體關聯(lián)和實體填充2個任務,深度剖析文本信息,致力于識別、分析、整合文本中出現(xiàn)的實體.信息抽取技術非常重要,為其他工作的順利進行起到了基礎性作用.

    信息過濾的關鍵技術被應用在垃圾郵件過濾評測中.該評測的目的是盡可能找到一種好的垃圾郵件過濾模型,保證過濾的有效性和可重復性,主要任務包括即時反饋、延時反饋、主動學習和部分反饋等.其中加權樸素貝葉斯和分類器集成的方法表現(xiàn)出了良好的效果.

    信息檢索、抽取和過濾三大技術是相互聯(lián)系的,經常融合在一起,發(fā)揮最大的作用.例如:在檢索之前要抽取有價值的信息,過濾掉垃圾信息;抽取和過濾中也可以使用檢索的方法進行初步處理;抽取和過濾都有基于規(guī)則和基于統(tǒng)計的方法等.這些都很好地在互聯(lián)網輿情、短信輿情和校園對象搜索引擎等系統(tǒng)中得到了體現(xiàn).新的智能文本搜索技術將是未來熱門的研究方向,并且具有巨大的發(fā)展前景.

    [1]郭軍.Web搜索[M].北京:高等教育出版社,2009:1-3.

    [2]方慧.TREC發(fā)展歷程及現(xiàn)狀分析[J].新世紀圖書館,2010(1):57.FANG Hui.On developing course and status analysis of TREC[J].New Century Library,2010(1):57.

    [3]BALOG K,SOBOROFF I,THOMAS P,et al.Overview of the TREC 2008 enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec17/papers/ENTERPRISE.OVERVIEW.pdf.

    [4]RU Zhao,CHEN Yuehua,XU Weiran,et al.TREC2005 enterprise track experiments at BUPT[EB/OL].[2010-12-15].http://trec.nist.gov/pubs/trec14/papers/beijinguof-pt.ent.pdf.

    [5]RU Zhao,LI Qian,XU Weiran,et al.BUPT at TREC 2006:enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec15/papers/beijing-upt.ent.final.pdf.

    [6]BAILEY P,CRASWELL N.Overview of the TREC 2007 enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec16/papers/ENT.OVERVIEW16.pdf.

    [7]WANG Zhanyi,LIU Dongxin,XU Weiran,et al.BUPT at TREC 2009:entity track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec18/papers/bupt.ENT.pdf.

    [8]ZHANG Suxiang,WEN Juan,WANG Xiaojie,et al.Automatic entity relation extraction based on maximum entropy[C]//Proceedings of the Sixth International Conference on Intelligent Systems Design and Applications.Ji’nan,China,2006:540-544.

    [9]LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the International Conference on Machine Learning.San Francisco,USA:Morgan Kaufmann Publishers Inc,2001:282-289.

    [10]MACDONALD C,OUNIS I.Voting for candidates:adapting data fusion techniques for an expert search task[C]//Proceedings of the 15th ACM International Conference on InformationandKnowledgeManagement.New York,USA:ACM,2006:387-396.

    [11]MANNING C D,RAGHAVAN P,SCHUTZE H,An introduction to information retrieval[M].Cambridge,UK:Cambridge University Press,2008:120-126.

    [12]WILSON T,WIEBE J,HOFFMANN P,Recognizing contextual polarity in phrase-level sentiment analysis[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing.Stroudsburg,USA:Association for Computational Linguistics,2005:347-354.

    [13]MANNING C D,SCHTZE H.Foundations of statistical natural language processing[M].Cambridge,USA:The MIT Press,1999.

    [14]AMATI G.Probabilistic models for information retrieval based on divergence from randomness[D].Glasgow,UK:University of Glasgow,2003.

    [15]SINGHAL A,BUCKLEY C,MITRA M.Pivoted document length normalization[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,1996:21-29.

    [16]LI Si,LI Xinsheng.PRIS at 2009 relevance feedback track:experiments in language model for relevance feedback[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec18/papers/pris.RF.pdf.

    [17]LALMAS M,MACFARLANE A,RUGER S.Advances in information retrieval[M].New York,USA:Springer-Verlag,2002:74-172.

    [18]PONTE J M,CROFT W B.A language modeling approach to information retrieval[C]//Proceedings of the 21th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,1998:275-281.

    [19]WANG Bingqing,HUANG Xuanjing.Relevance feedback based on constrained clustering:FDU at TREC’09[EB/OL].[2010-12-15].http://trec.nist.gov/pubs/trec18/papers/fudanu.RF.pdf.

    [20]LAVRENKO V,CROFT W B.Relevance-based language models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,2001:120-127.

    [21]CHANG Chihchung,LIN Chihjen.LIBSVM:a library for support vector machines[EB/OL]. [2011-04-09].http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html.

    [22]The Lemur Project.INDRI:language modeling meets inference networks[EB/OL]. [2011-03-23].http://www.lemurproject.org/indri/.

    [23]TAC 2009.Knowledge base population track[EB/OL].(2009-09-29) [2010-12-16].http://apl.jhu.edu/~paulmac/kbp.html.

    [24]TAC 2010.Knowledge base population(KBP2010)track[EB/OL].(2010-09-12)[2010-12-16].http://nlp.cs.qc.cuny.edu/kbp/2010/.

    [25]CRF++:yet another CRF toolkit[EB/OL]. [2010-12-16].http://crfpp.sourceforge.net/.

    [26]YANG Zhen,XU Weiran,CHEN Bo,et al.PRIS Kidult anti-SPAM solution at the TREC 2005 spam track:improving the performance of naive Bayes for spam detection[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec14/papers/beijingu-of-pt.spam.pdf.

    [27]YANG Zhen,XU Wei,CHEN Bo,et al.BUPT at TREC 2006:spam track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec15/papers/beijing-upt.spam.final.pdf.

    [28]CORMACK G V.TREC 2007 spam track overview[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec16/papers/SPAM.OVERVIEW16.pdf.

    [29]楊震.文本分類和聚類中若干問題的研究[D].北京:北京郵電大學,2007:10-86.

    YANG Zhen.Research on key problems in text classification and clustering[D].Beijing:Beijing University of Posts and Telecommunications,2007:10-86.

    王占一,男,1984年生,博士研究生,主要研究方向為信息過濾和信息檢索等.在國內外重要期刊和會議上發(fā)表學術論文10篇,獲發(fā)明專利2項.

    徐蔚然,男,1975年生,副教授,主要研究方向為信息檢索、模式識別和機器學習.主持參加了 TREC、TAC、ACE等國際著名檢索評測,并且獲得優(yōu)異成績,參與多項國家級科研項目,發(fā)表學術論文20余篇.

    郭軍,男,1959年生,教授,博士生導師,主要研究方向為模式識別、網絡管理、信息檢索、基于內容的信息安全等.主持多項“863”計劃項目和國家自然科學基金項目,獲省部級獎勵多項,發(fā)表學術論文上百篇,獲授權專利5項.

    New technologies of intelligent text search

    WANG Zhanyi1,2,XU Weiran1,2,GUO Jun1,2
    (1.Pattern Recognition and Intelligent System(PRIS)Laboratory,Beijing University of Posts and Telecommunications,Beijing 100876,China;2.School of Information and Communication Engineering,Beijing University of Posts and Telecommunications,Beijing 100876,China)

    To adapt to the massive amount of information on the internet and the need for accuracy,efficiency,and individualization,a set of technologies of intelligent text search including information retrieval,extraction,and filtering were proposed.First,new technologies of information retrieval were illustrated including the subtasks of enterprise retrieval,entity retrieval,blog retrieval,and relevance feedback.Second,the subtask of entity linking and slot filling related to information extraction was introduced.Finally,the subtask of spam e-mail filtering related to information filtering was described.These technologies were converged for application in many well-known international evaluations.These include the text retrieval conference(TREC)and text analysis conference(TAC)sponsored in the USA,and these technologies of intelligent text search were proven in practical applications such as public opinions on the Internet,short message opinions,and the campus object search engine(COSE).

    intelligent text search;text retrieval;text analysis

    TP393

    A

    1673-4785(2012)01-0040-10

    10.3969/j.issn.1673-4785.201101001

    http://www.cnki.net/kcms/detail/23.1538.TP.20120218.1616.001.html

    2011-01-02. 網絡出版時間:2012-02-18.

    國家自然科學基金資助項目(60905017);高等學校學科創(chuàng)新引智計劃項目(B08004).

    王占一.E-mail:wangzhanyi@gmail.com.

    猜你喜歡
    評測博客文檔
    有人一聲不吭向你扔了個文檔
    次時代主機微軟XSX全方位評測(下)
    次時代主機微軟XSX全方位評測(上)
    攻坡新利器,TOKEN VENTOUS評測
    Canyon Ultimate CF SLX 8.0 DI2評測
    中國自行車(2017年1期)2017-04-16 02:54:06
    基于RI碼計算的Word復制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    博客天下
    博客天下(2015年2期)2015-09-15 14:12:57
    不讓他人隨意下載Google文檔
    電腦迷(2012年4期)2012-04-29 06:12:13
    博客相冊
    博客天下(2009年12期)2009-08-21 07:35:10
    在线十欧美十亚洲十日本专区| 国产精品免费一区二区三区在线 | 精品少妇黑人巨大在线播放| 精品免费久久久久久久清纯 | 日日摸夜夜添夜夜添小说| 国产精品一区二区精品视频观看| 丁香欧美五月| 国产有黄有色有爽视频| 色婷婷av一区二区三区视频| 丰满少妇做爰视频| 丁香欧美五月| 老鸭窝网址在线观看| 成人国产av品久久久| 99国产精品免费福利视频| 亚洲精华国产精华精| 大码成人一级视频| 成年人午夜在线观看视频| 日韩欧美国产一区二区入口| 天天添夜夜摸| 国产精品秋霞免费鲁丝片| 国产aⅴ精品一区二区三区波| 手机成人av网站| 涩涩av久久男人的天堂| 久久国产精品大桥未久av| 在线观看免费午夜福利视频| 久久 成人 亚洲| 久久久精品区二区三区| 亚洲久久久国产精品| a在线观看视频网站| 法律面前人人平等表现在哪些方面| 久久精品亚洲精品国产色婷小说| 日韩欧美国产一区二区入口| 狠狠婷婷综合久久久久久88av| 午夜老司机福利片| 天天躁日日躁夜夜躁夜夜| 午夜精品国产一区二区电影| 国产精品九九99| 99热国产这里只有精品6| 搡老乐熟女国产| 欧美精品一区二区免费开放| 日本精品一区二区三区蜜桃| 18在线观看网站| 国产精品欧美亚洲77777| 久久国产亚洲av麻豆专区| 啦啦啦在线免费观看视频4| 不卡一级毛片| 少妇精品久久久久久久| 国产在线免费精品| 汤姆久久久久久久影院中文字幕| 国产成人av激情在线播放| 夜夜骑夜夜射夜夜干| 国产亚洲av高清不卡| 欧美精品啪啪一区二区三区| 国产又爽黄色视频| 一个人免费在线观看的高清视频| 日本av免费视频播放| 69精品国产乱码久久久| 欧美大码av| 国产成+人综合+亚洲专区| 国产1区2区3区精品| 久久久久久久大尺度免费视频| 啦啦啦免费观看视频1| 亚洲久久久国产精品| 香蕉丝袜av| 国产男女超爽视频在线观看| 国产av又大| 国产成人av激情在线播放| 不卡一级毛片| 亚洲伊人色综图| 午夜福利在线免费观看网站| 国产成人精品久久二区二区91| 亚洲国产欧美在线一区| 国产1区2区3区精品| 国产精品免费视频内射| 波多野结衣av一区二区av| 极品教师在线免费播放| 在线观看免费日韩欧美大片| 国产精品欧美亚洲77777| 久热爱精品视频在线9| 十八禁高潮呻吟视频| 国产一卡二卡三卡精品| 最新的欧美精品一区二区| 少妇的丰满在线观看| 成人影院久久| 夜夜骑夜夜射夜夜干| 日本欧美视频一区| 国产精品二区激情视频| 色精品久久人妻99蜜桃| 最近最新中文字幕大全电影3 | 丝瓜视频免费看黄片| 一区二区三区精品91| 久久精品人人爽人人爽视色| 国产成人系列免费观看| 好男人电影高清在线观看| 人人妻人人添人人爽欧美一区卜| 成人影院久久| 正在播放国产对白刺激| 正在播放国产对白刺激| 18禁裸乳无遮挡动漫免费视频| 精品熟女少妇八av免费久了| 又大又爽又粗| 国产精品久久电影中文字幕 | 国产麻豆69| 天天躁日日躁夜夜躁夜夜| 老司机靠b影院| 少妇被粗大的猛进出69影院| 视频区欧美日本亚洲| 99精品久久久久人妻精品| 午夜成年电影在线免费观看| 欧美日韩国产mv在线观看视频| 免费看a级黄色片| 日韩三级视频一区二区三区| 亚洲五月婷婷丁香| 成人三级做爰电影| 9热在线视频观看99| 久久久久久免费高清国产稀缺| 日韩欧美一区视频在线观看| 99国产精品一区二区蜜桃av | 国产人伦9x9x在线观看| 亚洲专区国产一区二区| 国产在线免费精品| 99热网站在线观看| 亚洲av成人一区二区三| 国产成人系列免费观看| 精品免费久久久久久久清纯 | 亚洲一卡2卡3卡4卡5卡精品中文| 黑人操中国人逼视频| 香蕉久久夜色| 国产亚洲av高清不卡| 我要看黄色一级片免费的| 国产免费av片在线观看野外av| 成人国语在线视频| 午夜日韩欧美国产| 亚洲黑人精品在线| 亚洲国产毛片av蜜桃av| 精品少妇久久久久久888优播| 美女主播在线视频| 久久天堂一区二区三区四区| 黑人操中国人逼视频| 久久久国产一区二区| 中亚洲国语对白在线视频| 日韩欧美一区视频在线观看| 又黄又粗又硬又大视频| 免费在线观看黄色视频的| 午夜福利欧美成人| 亚洲精品一卡2卡三卡4卡5卡| 大片电影免费在线观看免费| 母亲3免费完整高清在线观看| 热99久久久久精品小说推荐| 亚洲精品成人av观看孕妇| 欧美乱妇无乱码| 天天影视国产精品| 真人做人爱边吃奶动态| 最新在线观看一区二区三区| 国产成人精品在线电影| 12—13女人毛片做爰片一| 一本大道久久a久久精品| 国产男女内射视频| 中文欧美无线码| 黄色视频,在线免费观看| 午夜福利乱码中文字幕| 超碰成人久久| 国产高清国产精品国产三级| 成年人黄色毛片网站| 亚洲中文av在线| 无遮挡黄片免费观看| 亚洲第一欧美日韩一区二区三区 | 久热这里只有精品99| 久热爱精品视频在线9| 高潮久久久久久久久久久不卡| 夜夜夜夜夜久久久久| 超色免费av| 捣出白浆h1v1| 亚洲欧美色中文字幕在线| 欧美日韩黄片免| 99九九在线精品视频| 亚洲国产中文字幕在线视频| 亚洲人成伊人成综合网2020| 国产亚洲精品久久久久5区| 欧美午夜高清在线| 韩国精品一区二区三区| 一区二区三区乱码不卡18| 丰满人妻熟妇乱又伦精品不卡| 日韩有码中文字幕| 精品国产乱码久久久久久男人| a级片在线免费高清观看视频| 黑人巨大精品欧美一区二区mp4| 免费一级毛片在线播放高清视频 | 国产在视频线精品| 成人国产av品久久久| 在线永久观看黄色视频| 777久久人妻少妇嫩草av网站| 黄片播放在线免费| 日本一区二区免费在线视频| 亚洲九九香蕉| 久久av网站| 国产一区有黄有色的免费视频| 国产日韩欧美视频二区| 99久久99久久久精品蜜桃| 看免费av毛片| 大片电影免费在线观看免费| 老司机午夜十八禁免费视频| 一边摸一边抽搐一进一小说 | 亚洲天堂av无毛| 桃红色精品国产亚洲av| www.999成人在线观看| 亚洲国产成人一精品久久久| 高潮久久久久久久久久久不卡| 国产激情久久老熟女| 三级毛片av免费| 高清毛片免费观看视频网站 | 午夜福利视频精品| 可以免费在线观看a视频的电影网站| 欧美乱妇无乱码| 又大又爽又粗| 亚洲七黄色美女视频| 久久久久精品人妻al黑| 国产精品免费一区二区三区在线 | 黄色视频,在线免费观看| 成年人免费黄色播放视频| 日韩欧美三级三区| 精品亚洲乱码少妇综合久久| 国产成人免费无遮挡视频| av片东京热男人的天堂| 免费观看a级毛片全部| 汤姆久久久久久久影院中文字幕| 狠狠婷婷综合久久久久久88av| 亚洲专区中文字幕在线| 亚洲欧美日韩另类电影网站| 欧美 亚洲 国产 日韩一| 国产成人精品久久二区二区免费| 黑人欧美特级aaaaaa片| 熟女少妇亚洲综合色aaa.| 成人国产av品久久久| 精品亚洲乱码少妇综合久久| 精品一区二区三区视频在线观看免费 | 成年人午夜在线观看视频| av不卡在线播放| www日本在线高清视频| 午夜两性在线视频| 日韩大片免费观看网站| 热99久久久久精品小说推荐| 午夜福利在线观看吧| 熟女少妇亚洲综合色aaa.| 免费不卡黄色视频| 亚洲性夜色夜夜综合| 久久精品国产综合久久久| 热re99久久国产66热| aaaaa片日本免费| 99riav亚洲国产免费| 两性夫妻黄色片| 中文字幕人妻熟女乱码| 日本vs欧美在线观看视频| 午夜激情久久久久久久| av一本久久久久| 91老司机精品| xxxhd国产人妻xxx| 天堂8中文在线网| 一区二区av电影网| 狠狠婷婷综合久久久久久88av| 国产在线观看jvid| 丁香六月天网| 欧美日韩国产mv在线观看视频| 久久 成人 亚洲| 真人做人爱边吃奶动态| 可以免费在线观看a视频的电影网站| 国产免费现黄频在线看| 五月开心婷婷网| 国产欧美日韩一区二区三区在线| 69精品国产乱码久久久| 欧美黄色片欧美黄色片| 国产亚洲精品一区二区www | 国产av国产精品国产| 欧美日韩福利视频一区二区| 亚洲一区二区三区欧美精品| 精品久久久久久久毛片微露脸| 99在线人妻在线中文字幕 | 黄频高清免费视频| 国产精品一区二区在线观看99| 一进一出抽搐动态| 亚洲午夜理论影院| 丰满饥渴人妻一区二区三| 久热爱精品视频在线9| 久久人人97超碰香蕉20202| videosex国产| 国产精品免费大片| 久久精品国产综合久久久| 欧美激情 高清一区二区三区| 99riav亚洲国产免费| 熟女少妇亚洲综合色aaa.| 亚洲中文日韩欧美视频| 午夜激情av网站| 亚洲国产毛片av蜜桃av| 狠狠婷婷综合久久久久久88av| 50天的宝宝边吃奶边哭怎么回事| 手机成人av网站| 人妻 亚洲 视频| 国产黄频视频在线观看| 黄色丝袜av网址大全| 看免费av毛片| 一二三四社区在线视频社区8| 菩萨蛮人人尽说江南好唐韦庄| av免费在线观看网站| 国产精品.久久久| 黑人欧美特级aaaaaa片| 午夜福利乱码中文字幕| 国产亚洲欧美精品永久| 另类精品久久| 亚洲黑人精品在线| 国产精品国产高清国产av | 中亚洲国语对白在线视频| 成人永久免费在线观看视频 | 夜夜骑夜夜射夜夜干| 亚洲精品美女久久av网站| 在线播放国产精品三级| 久久精品国产亚洲av香蕉五月 | 在线 av 中文字幕| 51午夜福利影视在线观看| 丁香六月欧美| 亚洲精品国产精品久久久不卡| 高清在线国产一区| 80岁老熟妇乱子伦牲交| 夫妻午夜视频| 精品人妻在线不人妻| 十分钟在线观看高清视频www| 丝袜在线中文字幕| 国产欧美日韩一区二区精品| 国产精品一区二区精品视频观看| 国产在线免费精品| av网站在线播放免费| 在线观看人妻少妇| 久久精品亚洲av国产电影网| 国产1区2区3区精品| 一进一出好大好爽视频| 久久性视频一级片| 午夜成年电影在线免费观看| 亚洲第一av免费看| 成人国语在线视频| 欧美av亚洲av综合av国产av| 成人手机av| 色老头精品视频在线观看| 人人妻人人爽人人添夜夜欢视频| 国产精品亚洲av一区麻豆| 国产高清国产精品国产三级| 久久久国产欧美日韩av| 1024视频免费在线观看| 在线观看免费日韩欧美大片| 国产精品亚洲一级av第二区| 18禁美女被吸乳视频| 久久人妻av系列| 老司机靠b影院| 在线观看免费视频网站a站| av网站免费在线观看视频| 青青草视频在线视频观看| av视频免费观看在线观看| aaaaa片日本免费| 天天躁日日躁夜夜躁夜夜| 97在线人人人人妻| 又大又爽又粗| 国产精品电影一区二区三区 | 免费在线观看黄色视频的| 国产日韩欧美视频二区| 极品教师在线免费播放| 国产精品久久电影中文字幕 | 成人精品一区二区免费| 久久精品国产综合久久久| 国产主播在线观看一区二区| aaaaa片日本免费| 成年人午夜在线观看视频| 日韩欧美一区视频在线观看| 国产精品欧美亚洲77777| 丰满饥渴人妻一区二区三| 亚洲视频免费观看视频| 欧美黄色淫秽网站| 91九色精品人成在线观看| 成年动漫av网址| 欧美成狂野欧美在线观看| 大片免费播放器 马上看| 啦啦啦免费观看视频1| 久久久久久亚洲精品国产蜜桃av| 麻豆乱淫一区二区| 高清视频免费观看一区二区| 久久人人爽av亚洲精品天堂| 日本五十路高清| 国产成人影院久久av| 国产精品 欧美亚洲| 久久久久久人人人人人| 国产有黄有色有爽视频| 精品少妇久久久久久888优播| 亚洲第一av免费看| 两性夫妻黄色片| 免费在线观看影片大全网站| 交换朋友夫妻互换小说| 搡老熟女国产l中国老女人| 91成人精品电影| 99久久国产精品久久久| 在线观看www视频免费| 人妻一区二区av| 国产精品成人在线| 高清毛片免费观看视频网站 | 在线永久观看黄色视频| 久久精品国产亚洲av高清一级| 国产精品久久久久久人妻精品电影 | tocl精华| 高潮久久久久久久久久久不卡| 精品少妇一区二区三区视频日本电影| 国产高清激情床上av| 夜夜爽天天搞| 一本—道久久a久久精品蜜桃钙片| 香蕉久久夜色| 国产一区有黄有色的免费视频| 18禁美女被吸乳视频| 免费av中文字幕在线| 黑人巨大精品欧美一区二区mp4| 90打野战视频偷拍视频| 国产男女内射视频| 欧美精品高潮呻吟av久久| 亚洲一卡2卡3卡4卡5卡精品中文| 一本综合久久免费| 日韩精品免费视频一区二区三区| 国产单亲对白刺激| 黑人巨大精品欧美一区二区蜜桃| 免费在线观看黄色视频的| 一二三四在线观看免费中文在| 欧美亚洲日本最大视频资源| 一级毛片女人18水好多| 91九色精品人成在线观看| 天天躁夜夜躁狠狠躁躁| 在线天堂中文资源库| 在线观看免费午夜福利视频| 18在线观看网站| 黑人操中国人逼视频| 久久毛片免费看一区二区三区| 成年人黄色毛片网站| 中文字幕高清在线视频| 黑人猛操日本美女一级片| 亚洲国产欧美网| 老汉色∧v一级毛片| 国产午夜精品久久久久久| 一区在线观看完整版| 国产精品亚洲av一区麻豆| 国产成+人综合+亚洲专区| 丝袜喷水一区| 中亚洲国语对白在线视频| xxxhd国产人妻xxx| av天堂在线播放| 国产精品国产av在线观看| 俄罗斯特黄特色一大片| 一本色道久久久久久精品综合| 老司机在亚洲福利影院| 丝袜喷水一区| 久久精品成人免费网站| 欧美久久黑人一区二区| 如日韩欧美国产精品一区二区三区| 高清在线国产一区| 黄色 视频免费看| 亚洲av日韩精品久久久久久密| 国产国语露脸激情在线看| 99九九在线精品视频| 国产日韩欧美在线精品| 99riav亚洲国产免费| 可以免费在线观看a视频的电影网站| 看免费av毛片| 在线观看一区二区三区激情| 亚洲av国产av综合av卡| 黑人操中国人逼视频| 欧美av亚洲av综合av国产av| 十八禁人妻一区二区| 精品一区二区三区av网在线观看 | 国产精品 国内视频| 制服人妻中文乱码| 成人国产一区最新在线观看| 国产有黄有色有爽视频| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲一区中文字幕在线| 男女床上黄色一级片免费看| 精品免费久久久久久久清纯 | 亚洲精品国产区一区二| 丝袜喷水一区| 国产在线视频一区二区| e午夜精品久久久久久久| 一级a爱视频在线免费观看| 性高湖久久久久久久久免费观看| 高潮久久久久久久久久久不卡| 午夜福利欧美成人| 大码成人一级视频| 久久精品aⅴ一区二区三区四区| 精品午夜福利视频在线观看一区 | 亚洲第一青青草原| 黑人猛操日本美女一级片| av在线播放免费不卡| 国产一区二区在线观看av| 亚洲成人免费电影在线观看| 日本wwww免费看| 国产高清视频在线播放一区| 久久午夜亚洲精品久久| 热re99久久精品国产66热6| 久久精品国产亚洲av高清一级| 欧美成人午夜精品| 汤姆久久久久久久影院中文字幕| 国产日韩欧美视频二区| 最新的欧美精品一区二区| 麻豆乱淫一区二区| 欧美日韩成人在线一区二区| 日韩中文字幕欧美一区二区| 亚洲av日韩在线播放| 咕卡用的链子| 国产成人影院久久av| 麻豆成人av在线观看| 一级,二级,三级黄色视频| 亚洲午夜理论影院| 啪啪无遮挡十八禁网站| 成年人午夜在线观看视频| 免费女性裸体啪啪无遮挡网站| 亚洲午夜理论影院| 成年动漫av网址| 亚洲国产精品一区二区三区在线| 一级,二级,三级黄色视频| 亚洲熟女精品中文字幕| 真人做人爱边吃奶动态| 中文亚洲av片在线观看爽 | 亚洲av成人不卡在线观看播放网| av网站在线播放免费| 欧美黑人欧美精品刺激| 黄色a级毛片大全视频| 欧美激情极品国产一区二区三区| 激情在线观看视频在线高清 | 亚洲精品国产一区二区精华液| 日韩欧美一区二区三区在线观看 | 欧美日韩黄片免| 制服诱惑二区| 亚洲精品在线美女| 国产有黄有色有爽视频| 热99国产精品久久久久久7| 亚洲精品中文字幕一二三四区 | 日本精品一区二区三区蜜桃| 国产精品电影一区二区三区 | 视频在线观看一区二区三区| av免费在线观看网站| 亚洲av日韩在线播放| 欧美性长视频在线观看| 交换朋友夫妻互换小说| 又紧又爽又黄一区二区| a在线观看视频网站| 亚洲精品在线美女| 欧美日韩福利视频一区二区| 乱人伦中国视频| av片东京热男人的天堂| 巨乳人妻的诱惑在线观看| 高清av免费在线| 欧美午夜高清在线| 怎么达到女性高潮| 美女高潮到喷水免费观看| 欧美日韩国产mv在线观看视频| 国产av精品麻豆| 欧美激情久久久久久爽电影 | 亚洲 欧美一区二区三区| 美女高潮到喷水免费观看| 香蕉久久夜色| 天天操日日干夜夜撸| 日韩一区二区三区影片| 免费看十八禁软件| 一边摸一边做爽爽视频免费| 两性夫妻黄色片| 成人国产一区最新在线观看| 一本—道久久a久久精品蜜桃钙片| 亚洲国产看品久久| 搡老乐熟女国产| 十八禁网站网址无遮挡| 精品卡一卡二卡四卡免费| 亚洲国产精品一区二区三区在线| 亚洲精品成人av观看孕妇| 亚洲精华国产精华精| 国产精品久久久久久精品古装| 69精品国产乱码久久久| 日韩欧美国产一区二区入口| 777米奇影视久久| 久久亚洲精品不卡| 久久午夜综合久久蜜桃| 亚洲av美国av| xxxhd国产人妻xxx| 久久精品人人爽人人爽视色| 一区二区三区乱码不卡18| 中文字幕人妻丝袜制服| 激情在线观看视频在线高清 | 亚洲一码二码三码区别大吗| 侵犯人妻中文字幕一二三四区| 1024视频免费在线观看| 天堂俺去俺来也www色官网| 99香蕉大伊视频| 女人高潮潮喷娇喘18禁视频| 亚洲伊人久久精品综合| 精品人妻1区二区| 国产麻豆69| 久久久国产欧美日韩av| 欧美中文综合在线视频| 欧美变态另类bdsm刘玥| 亚洲 欧美一区二区三区| 99精国产麻豆久久婷婷| 色播在线永久视频| 国产成人精品无人区| 午夜两性在线视频| 亚洲第一欧美日韩一区二区三区 | 精品一区二区三区av网在线观看 | 超碰成人久久| 热99re8久久精品国产| 午夜福利欧美成人| 黄色怎么调成土黄色| 国产精品一区二区在线观看99| a级毛片黄视频| 黄色 视频免费看| 国产精品香港三级国产av潘金莲| 伦理电影免费视频| 国产精品久久久人人做人人爽| 国产在线精品亚洲第一网站|