• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于信息量衰減幅度的網(wǎng)頁正文提取

      2012-07-25 11:06:00陳興蜀
      關(guān)鍵詞:子樹正文網(wǎng)頁

      陳 陽,陳興蜀,吳 麒

      (1.四川大學(xué)計(jì)算機(jī)學(xué)院 網(wǎng)絡(luò)與可信計(jì)算研究所,四川 成都610065;2.中國電子科技集團(tuán)公司第二十九研究所 信息綜合控制國家重點(diǎn)實(shí)驗(yàn)室,四川 成都610065)

      0 引 言

      隨著互聯(lián)網(wǎng)的快速發(fā)展,萬維網(wǎng) (world wide web,WWW)已成為人們獲取信息或分享信息的重要平臺(tái)。根據(jù)美國加州伯克利大學(xué)的統(tǒng)計(jì),僅2002年世界上就產(chǎn)生了5EB的數(shù)據(jù),年增長30%。這相當(dāng)于37000個(gè)美國國會(huì)圖書館存儲(chǔ)的信息,也相當(dāng)于歷史上存在過的每一個(gè)人說過的每一句話的數(shù)據(jù)量。這些數(shù)據(jù)中,92%的數(shù)據(jù)存儲(chǔ)在磁性介質(zhì)中上并能夠通過互聯(lián)網(wǎng)進(jìn)行訪問。面對(duì)如此豐富的網(wǎng)絡(luò)信息資源,一些應(yīng)用應(yīng)運(yùn)而生,例如,搜索引擎,Web數(shù)據(jù)內(nèi)容挖掘。但是,它們?cè)谔幚砭W(wǎng)頁時(shí)都會(huì)面臨一個(gè)問題,Web網(wǎng)頁的主題信息一般都會(huì)被廣告鏈接、導(dǎo)航條、版權(quán)信息等 “網(wǎng)頁噪音”所包圍,而這些噪音往往會(huì)對(duì)這些應(yīng)用造成負(fù)面影響。因此,如何準(zhǔn)確高效地從Web網(wǎng)頁中提取出主題信息對(duì)基于互聯(lián)網(wǎng)的信息檢索、數(shù)據(jù)挖掘等應(yīng)用具有很高的價(jià)值。

      1 相關(guān)研究

      在Web信息抽取領(lǐng)域,國內(nèi)外研究者針對(duì)網(wǎng)頁正文信息的抽取已經(jīng)做了大量的研究工作。

      文獻(xiàn) [1-3]通過構(gòu)建網(wǎng)頁模板規(guī)則,將符合規(guī)則的信息從網(wǎng)頁中提取出來,雖然信息抽取結(jié)果準(zhǔn)確性較高,但這些方法都存在一個(gè)缺點(diǎn),即只能針對(duì)使用同一個(gè)模板生成的網(wǎng)頁,而構(gòu)建抽取模式也是一個(gè)費(fèi)時(shí)的工作,在網(wǎng)頁形式多樣化的今天,這種方法不具有通用性。文獻(xiàn) [4-8]采用基于視覺特征的方法,這種方法是在微軟亞洲研究院提出的VIPS(vision-based page segmentation)網(wǎng)頁分塊算法的基礎(chǔ)上抽取信息。VIPS算法利用HTML中的一些視覺信息,比如背景顏色、字體顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等等來識(shí)別出頁面中的語義塊,再結(jié)合DOM樹結(jié)構(gòu)分析進(jìn)行頁面分塊。雖然,在此基礎(chǔ)上進(jìn)行正文抽取可以達(dá)到很好的效果,但是VIPS算法也有其局限性,因?yàn)閂IPS算法在提取網(wǎng)頁視覺信息依賴于瀏覽器內(nèi)核代碼,故提取需要耗費(fèi)較長時(shí)間 (通常每個(gè)頁面超過1s),而且其算法本身相對(duì)復(fù)雜,迭代輪數(shù)較多。因此,基于視覺特征的方法并沒有得到廣泛地應(yīng)用。文獻(xiàn) [9]采用基于標(biāo)記窗的方法,雖然可提取當(dāng)正文文字短到與網(wǎng)頁其余部分文字 (如廣告、導(dǎo)航條、版權(quán))長度相當(dāng)?shù)那闆r,但計(jì)算標(biāo)記窗中字符串與標(biāo)題詞之間的相似度方法容易導(dǎo)致很多噪聲無法濾除,并對(duì)分詞技術(shù)有較高要求。文獻(xiàn)[10-12]把網(wǎng)頁表示成的一棵標(biāo)簽樹,然后根據(jù)字符數(shù)、鏈接比例等特征統(tǒng)計(jì)信息抽取網(wǎng)頁正文。此方法不依賴于限定數(shù)據(jù)源,算法也比較簡單,對(duì)正文信息的抽取可以達(dá)到較好的效果。但是,當(dāng)前網(wǎng)頁越來越趨于復(fù)雜化,有些網(wǎng)頁包含大量的噪音塊,干擾了對(duì)正文特征信息的統(tǒng)計(jì),使提取結(jié)果包含一些噪音或是漏掉部分正文信息。文獻(xiàn)[13-14]根據(jù)文本內(nèi)容的特征,對(duì)文本內(nèi)容是否是網(wǎng)頁正文進(jìn)行判斷,但由于此類方法并沒有采用分塊的思想,因此極易遺漏部分正文信息。文獻(xiàn) [15]通過確定正文特征屬性,然后采用粒子群優(yōu)化算法對(duì)特征權(quán)值及閾值進(jìn)行優(yōu)化和確定,從而確定正文信息所在的塊,但該方法依賴許多正文特征屬性,而且計(jì)算繁雜,其適用范圍有一定的局限。

      針對(duì)目前網(wǎng)頁正文抽取研究工作中存在的問題,提出基于信息量衰減幅度的正文提取方法。該方法首先根據(jù)正文信息量的衰減幅度找到主題區(qū)域子樹,把提取正文的范圍限制在該子樹中,從而可以有效地消除大部分噪音干擾。然后再從這棵子樹中提取正文信息。由于主題區(qū)域子樹是一棵包含全部正文信息的子樹,即使網(wǎng)頁標(biāo)簽樹中有多個(gè)正文信息塊,采用這樣的方法也能將它們?nèi)刻崛〕鰜怼?/p>

      2 基于信息量衰減幅度的正文提取方法

      通常情況,網(wǎng)頁分為3種類型:主題型網(wǎng)頁、導(dǎo)航型網(wǎng)頁、圖片型網(wǎng)頁。主題型網(wǎng)頁一般通過成段而連續(xù)的文字描述一個(gè)或多個(gè)主題,這些文字在網(wǎng)頁居中部分形成一個(gè)相對(duì)獨(dú)立的矩形區(qū)域,使用戶從視覺上就能輕易地識(shí)別出來,在本文中將此矩形區(qū)域稱為正文區(qū)域。在正文區(qū)域的周圍往往會(huì)分布著許多相關(guān)鏈接、導(dǎo)航條、廣告、版權(quán)說明等無關(guān)信息,在本文中將這部分內(nèi)容劃分為噪音。導(dǎo)航型網(wǎng)頁本身由許多超鏈接塊組成,其主要目的是方便用戶找到所感興趣的網(wǎng)頁,提高瀏覽效率。而圖片型網(wǎng)頁的主體部分都是圖片,僅含有少量文字信息對(duì)圖片進(jìn)行說明。因此,后兩種類型的網(wǎng)頁都沒有一個(gè)明確的文本主題。本文提出的基于文本信息量的衰減幅度的正文提取方法針對(duì)主題型網(wǎng)頁,并且是基于以下三點(diǎn)推論:

      (1)主題型網(wǎng)頁中的正文往往會(huì)分為多個(gè)段落,從視覺上看它們是聚集在一起的連續(xù)段落,相互之間不會(huì)間隔太遠(yuǎn)。把網(wǎng)頁表示成HTML標(biāo)簽樹后,其中正文區(qū)域會(huì)對(duì)應(yīng)一棵子樹。圖1為一棵HTML標(biāo)簽樹,網(wǎng)頁的正文信息被組織在以DIV*為父節(jié)點(diǎn)的各個(gè)P節(jié)點(diǎn)下,稱這些節(jié)點(diǎn)為正文信息節(jié)點(diǎn)。一般,一個(gè)正文信息節(jié)點(diǎn)對(duì)應(yīng)正文中的一個(gè)段落。這些節(jié)點(diǎn)不會(huì)跨越正文區(qū)域所對(duì)應(yīng)的子樹,即所有的正文信息節(jié)點(diǎn)都是該子樹的子孫節(jié)點(diǎn),不會(huì)出現(xiàn)從P*節(jié)點(diǎn)開始到P#結(jié)束的情況。

      圖1 HTML標(biāo)簽樹

      (2)正文文本是正文信息節(jié)點(diǎn)的子孫節(jié)點(diǎn),如圖1所示,P*中的直接子節(jié)點(diǎn)就是正文文本,P+的子節(jié)點(diǎn)是SPAN,正文文本是SPAN節(jié)點(diǎn)的子節(jié)點(diǎn)。無論正文信息節(jié)點(diǎn)P下面如何組織正文文本,正文信息節(jié)點(diǎn)P都有共同的父節(jié)點(diǎn),即它們都處于樹的同一層次,互相之間是兄弟節(jié)點(diǎn)關(guān)系。

      (3)網(wǎng)頁中出現(xiàn)的文本可以分為兩類,一類為鏈接型文本 (也稱錨文本),另一類是非鏈接文本。在主題型網(wǎng)頁中,正文中間通常不會(huì)加入大量的超鏈接,而非正文信息通常是伴隨著超鏈接出現(xiàn)的。因此,在一個(gè)主題型網(wǎng)頁中,非鏈接文本主要是由正文文本構(gòu)成,鏈接文本主要是由非正文信息構(gòu)成。

      以上三點(diǎn)結(jié)論是通過大量觀察與一些實(shí)際經(jīng)驗(yàn)總結(jié)出來的。并且,到目前為止還沒有發(fā)現(xiàn)違反以上三點(diǎn)結(jié)論的例子。

      本文所提出的方法中,獲取主題區(qū)域子樹這一步直接關(guān)系到能否正確提取正文信息?;谝陨先c(diǎn)結(jié)論,從標(biāo)簽樹的根節(jié)點(diǎn)開始查找,選擇其非鏈接文本長度最大的子樹作為當(dāng)前子樹,下次從當(dāng)前子樹的根節(jié)點(diǎn)繼續(xù)查找,這樣就盡可能的保證當(dāng)前子樹下包含了所有的正文信息。與此同時(shí),在查找的過程中每獲取一棵子樹就考察其父節(jié)點(diǎn)下的子樹到該子樹中非鏈接文本的衰減幅度。如果被考察的子樹包含全部正文信息,那么兩者的非鏈接文本長度就不會(huì)有大幅度的變化,而當(dāng)遍歷到正文信息節(jié)點(diǎn)時(shí)有以下兩種情況:

      (1)正文信息節(jié)點(diǎn)數(shù)量多于一個(gè)。此時(shí)它們當(dāng)中非鏈接文本長度最大的節(jié)點(diǎn)作為當(dāng)前子樹的根節(jié)點(diǎn),其余節(jié)點(diǎn)信息全部丟失,則造成非鏈接文本信息量突變。

      (2)正文信息節(jié)點(diǎn)是文本節(jié)點(diǎn)且唯一。由HTML規(guī)范可知文本節(jié)點(diǎn)沒有子節(jié)點(diǎn),所以在考察其子節(jié)點(diǎn)時(shí)會(huì)丟失全部非鏈接文本信息,同樣造成信息量突變,而且更加明顯。

      對(duì)于一個(gè)網(wǎng)頁,用本文提出的正文提取方法需要經(jīng)過4個(gè)步驟:

      (1)構(gòu)建一個(gè)網(wǎng)頁HTML標(biāo)簽樹。如圖1所示。

      (2)獲取主題區(qū)域子樹。在圖1中為以DIV*為根節(jié)點(diǎn)的子樹。

      (3)剪裁主題區(qū)域子樹,去除噪音。

      (4)提取主題區(qū)域中的正文信息。

      相應(yīng)的正文提取方法流程如圖2所示。

      圖2 正文提取流程

      2.1 HTML標(biāo)簽樹的構(gòu)造

      從輸入網(wǎng)頁構(gòu)建標(biāo)簽樹是許多數(shù)據(jù)抽取算法中的一個(gè)必要步驟。本文中采用HTML標(biāo)簽來生成對(duì)應(yīng)的標(biāo)簽樹。通常,HTML標(biāo)簽是成對(duì)使用的。每一對(duì)由一個(gè)開始標(biāo)簽和一個(gè)結(jié)束標(biāo)簽組成 (分別用<>和</>來表示)。在每個(gè)對(duì)應(yīng)的標(biāo)簽對(duì)間,可以有其他標(biāo)簽對(duì),從而構(gòu)成嵌套結(jié)構(gòu),所以用一張網(wǎng)頁的HTML編碼來構(gòu)建一棵標(biāo)簽樹是很自然的。在這棵樹中,每一對(duì)標(biāo)簽都是一個(gè)節(jié)點(diǎn),在其間嵌套的標(biāo)簽對(duì)則是這個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)。本文在構(gòu)造標(biāo)簽樹的過程中需要3個(gè)步驟:

      (1)HTML編碼清理:由于HTML編碼在有語法錯(cuò)誤的時(shí)候,瀏覽器也能將其正常地顯示出來,所以,有些網(wǎng)頁就會(huì)存在不規(guī)范的HTML編碼格式,但是在構(gòu)建標(biāo)簽樹的時(shí)候必須將其修正為格式良好的XHTML(XML的子集)。

      (2)標(biāo)簽樹的構(gòu)建:依據(jù)網(wǎng)頁中HTML標(biāo)簽的嵌套塊來構(gòu)建標(biāo)簽樹。

      (3)標(biāo)簽樹的裁剪:由于我們?cè)谔崛≌男畔r(shí),關(guān)心的是那些包含有用文本內(nèi)容的節(jié)點(diǎn),把無關(guān)節(jié)點(diǎn)刪除將有助于后續(xù)處理的效率。本文按以下規(guī)則處理:

      1)刪除子孫節(jié)點(diǎn)中不含有文本節(jié)點(diǎn)的節(jié)點(diǎn)以及注釋節(jié)點(diǎn)。

      2)刪除根節(jié)點(diǎn)為script標(biāo)簽、style標(biāo)簽、select標(biāo)簽、option標(biāo)簽、iframe標(biāo)簽、textarea標(biāo)簽、object標(biāo)簽、input標(biāo)簽的子樹。

      3)對(duì)樹中含有的實(shí)體符號(hào)做等價(jià)替換,例如,將“"”替換為 “””,將 “<”替換為 “<”。

      2.2 獲取主題區(qū)域子樹

      在本文中定義主題區(qū)域子樹滿足如下要求:

      (1)該樹是初始網(wǎng)頁HTML標(biāo)簽樹的一棵子樹。

      (2)該樹包含所有的正文信息。

      (3)該樹中的任何子樹都不能包含完整的正文信息。

      獲取該子樹的目的是在于不遺漏正文信息的前提下,最大程度地降低網(wǎng)頁噪音的干擾,進(jìn)而簡化正文提取過程中的繁雜工作。在網(wǎng)頁HTML標(biāo)簽樹中獲取主題區(qū)域子樹的算法中,預(yù)先設(shè)置常量T為信息量衰減幅度閾值。Lc(MT)表示以節(jié)點(diǎn)MT為根節(jié)點(diǎn)的子樹中非鏈接文本的長度,MaxClearText(curNode.Children)表示獲取curNode子節(jié)點(diǎn)中非鏈接文本長度最大的節(jié)點(diǎn)。Range(Clen,Mlen)計(jì)算curNode的非鏈接文本長度Clen到MT的非鏈接文本長度Mlen的衰減幅度。

      算法1(獲取主題區(qū)域子樹算法)

      FindMT (Node,T)

      curNode=Node;

      if size (curNode.Children)=1then

      FindMT (curNode.Children,T);

      endif

      Clen= Lc (curNode);

      MT= MaxClearText(curNode.Children);

      Mlen= Lc(MT);

      if Range(Clen,Mlen)>Tthen

      returnMT;

      else FindMT (MT,T);

      endif

      Procedure Range(Clen,Mlen)

      r= (Clen-Mlen)/Clen;

      returnr;

      相應(yīng)的獲取主題區(qū)域子樹的算法流程如圖3所示。

      圖3 獲取主題區(qū)域子樹流程

      2.3 正文信息提取

      定義1(鏈接節(jié)點(diǎn))鏈接節(jié)點(diǎn)是一個(gè)標(biāo)簽節(jié)點(diǎn),該節(jié)點(diǎn)的子孫節(jié)點(diǎn)不包括正文信息,但含有多個(gè)標(biāo)簽節(jié)點(diǎn)<a>且含有大量鏈接文字。

      在本文中,正文信息是指包含在正文區(qū)域中的內(nèi)容,但不包括其作者、標(biāo)題、發(fā)布日期等元信息,也不包括與正文信息無關(guān)的信息以及鏈接節(jié)點(diǎn)對(duì)應(yīng)的鏈接塊。

      盡管主題區(qū)域子樹中幾乎都是正文信息,但還是可能存在一些鏈接節(jié)點(diǎn)。所以,在提取正文的時(shí)候應(yīng)該對(duì)主題區(qū)域子樹進(jìn)行裁剪,刪除鏈接節(jié)點(diǎn)。本文采用簡單而有效的鏈接密度統(tǒng)計(jì)信息來判斷節(jié)點(diǎn)是否為鏈接節(jié)點(diǎn)。在裁剪主題區(qū)域子樹算法中,設(shè)常量DLmax為鏈接密度的最大閾值。對(duì)于一個(gè)節(jié)點(diǎn)curNode來說,計(jì)算其鏈接密度的公式為:DL(curNode)=LinksLength(curNode)/TextLength(curNode),其中DL(curNode)為節(jié)點(diǎn)curNode的鏈接密度,LinksLength(curNode)為節(jié)點(diǎn)curNode中所有鏈接文本的長度,TextLength(curNode)為所有文本的長度。如果鏈接密度超過DLmax,則認(rèn)為該節(jié)點(diǎn)為鏈接節(jié)點(diǎn)。

      算法2(裁剪主題區(qū)域子樹算法)

      CleanTree(Node,DLmax)

      curNode=Node;

      if DL (curNode)>DLmaxthen

      remove (curNode);

      endif

      for eachChild∈Node.Childrendo

      CleanTree(Child,DLmax);

      endfor

      Procedure DL (Node)

      d= LinksLength (Node)/TextLength (Node);

      returnd;

      最后,經(jīng)過裁剪后得到一棵只包含全部正文信息的子樹,只需要將所有文本節(jié)點(diǎn)中的文字提取出來就可以得到這張網(wǎng)頁的正文文本。

      3 實(shí)驗(yàn)結(jié)果及分析

      為了驗(yàn)證本文提出的算法,我們從7個(gè)不同網(wǎng)站上獲取了數(shù)量不同的網(wǎng)頁,共計(jì)3718張,作為主題網(wǎng)頁測(cè)試集。

      在主題區(qū)域子樹的提取過程中,T值的大小決定了主題區(qū)域子樹的準(zhǔn)確率,T值太大,正文信息可能會(huì)丟失,反過來,T值太小會(huì)把無關(guān)信息包含進(jìn)去。由此,從主題網(wǎng)頁測(cè)試集不同站點(diǎn)中各隨機(jī)抽取 (不放回)100張,共計(jì)700張網(wǎng)頁進(jìn)行實(shí)驗(yàn),T的取值從0.2到0.5,測(cè)試間隔為0.02。分別考察了獲取主題區(qū)域子樹的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如圖4所示。

      圖4 T值取值范圍實(shí)驗(yàn)結(jié)果

      從實(shí)驗(yàn)結(jié)果可以看出,T值取0.34時(shí)準(zhǔn)確率最高,因此,將T值設(shè)置為0.34。

      本文規(guī)定在正文提取過程中,提取結(jié)果符合下列要求之一即視為正確提取網(wǎng)頁正文信息:

      (1)提取結(jié)果與人工觀察實(shí)際網(wǎng)頁所得正文信息一致。

      (2)提取結(jié)果包括了全部正文信息,也包含了少量非正文信息 (該信息在文章前或文章后,不超過一句話,且長度不能超過正文信息的10%),但不會(huì)影響閱讀。

      定義主題網(wǎng)頁測(cè)試集中的網(wǎng)頁數(shù)量為Pages_Total,提取過程中正確獲取主題區(qū)域子樹的網(wǎng)頁數(shù)量為Valid_Total,從獲取的主題區(qū)域子樹中正確提取正文信息的網(wǎng)頁數(shù)量為Precision_Total,則:

      準(zhǔn)確率 (Precision)=Precision_Total/Pages_Total

      裁剪準(zhǔn)確率 (Clip_Precision)=Precision_Total/Valid_Total

      準(zhǔn)確率衡量的是在整個(gè)測(cè)試集中正文提取正確的網(wǎng)頁數(shù)量的比例,裁剪準(zhǔn)確率衡量的是在網(wǎng)頁返回的主題區(qū)域子樹集合中正確提取了正文信息的網(wǎng)頁數(shù)量比例。

      我們對(duì)主題網(wǎng)頁測(cè)試集中剩下的部分,共計(jì)3018張網(wǎng)頁作為正文提取系統(tǒng)的測(cè)試集。其中,根據(jù)參考文獻(xiàn) [7]設(shè)置鏈接密度的閾值DLmax為0.65。實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果見表1。

      表1 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)結(jié)果顯示,本文所提出的方法對(duì)主題型網(wǎng)頁的正文提取準(zhǔn)確率較高,對(duì)整個(gè)測(cè)試集的準(zhǔn)確率達(dá)到了95.12%,而且準(zhǔn)確率在93%~97%之間,表現(xiàn)出良好的穩(wěn)定性,具有較好的工程應(yīng)用價(jià)值。通過進(jìn)一步觀察,其中裁剪準(zhǔn)確率達(dá)到了一個(gè)較高的水平,各個(gè)測(cè)試站點(diǎn)集的準(zhǔn)確率都在96%以上。由此可知,從主題區(qū)域子樹中提取正文信息具有較高的準(zhǔn)確率。

      在實(shí)驗(yàn)中,通過對(duì)錯(cuò)誤結(jié)果的觀察,多數(shù)情況是因?yàn)閬G失了正文文章中的一些段落,進(jìn)一步分析其原因可知,這些段落長度在整個(gè)正文中占有較小的比例 (不超過20%),而其余正文信息都集中在一個(gè)段落里面。在這種情況下,正文信息量衰減幅度往往不能超過設(shè)定的閾值,在獲取主題區(qū)域子樹的過程便丟失了這部分正文信息,導(dǎo)致最終結(jié)果沒有包含完整的正文信息。

      4 結(jié)束語

      針對(duì)主題型網(wǎng)頁,本文提出的基于信息量衰減幅度的正文提取方法能有效的提取出網(wǎng)頁正文信息。該方法首先根據(jù)HTML標(biāo)簽子樹的信息量衰減幅度來判斷獲取主題區(qū)域子樹,然后對(duì)獲取的主題區(qū)域子樹進(jìn)行裁剪,最后提取出正文信息。

      實(shí)驗(yàn)表明,該方法能針對(duì)各類主題型網(wǎng)頁,有效的從鏈接塊、圖片等噪音中提取出正文信息,具有較高的應(yīng)用價(jià)值。在下一步研究中,將著重提高獲取主題子樹的準(zhǔn)確率,以獲得更高的正文提取準(zhǔn)確率。

      [1]YANG SH,LIN HL,HAN YB.Automatic data extraction from template-generated Web pages [J].Journal of Software,2008,19 (2):209-223 (in Chinese). [楊少華,林海略,韓燕波.針對(duì)模板生成網(wǎng)頁的一種數(shù)據(jù)自動(dòng)抽取方法 [J].軟件學(xué)報(bào),2008,19 (2):209-223.]

      [2]OU Jianwen,DONG Shoubin,CAI Bin.Topic information extraction from template web pages [J].J Tsinhua Univ(Sci&Tech),2005,45 (1):1743-1747 (in Chinese).[歐健文,董守斌,蔡斌.模板化網(wǎng)頁主題信息的提取方法 [J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2005,45 (1):1743-1747.]

      [3]Chakrabarti D,Kumar R,Punera K.Page-level template detection via isotonic smoothing [C].Proc 16th Intl Conf on World Wide Web,2007:61-70.

      [4]Liu W,G H,Liu X,et al.Detection of pubishing web pages based on visual similarity [C].Proc 14th Int’l World Wide Web Conf,2005.

      [5]Simon K,Lausen G.ViPER:Augmenting automatic information extraction with visual perceptions [C].Proc of the ACM CIKM Int’l Conf on Information and Knowledge Management.Bremen:ACM Press,2005:381-388.

      [6]AN Zengwen,XU Jiefeng.The research on vision-based web page information extraction algorithm [J].Microcom-puter &Its Application,2010,9 (3):38-41 (in Chinese).[安增文,徐杰鋒.基于視覺特征的網(wǎng)頁正文提取方法研究 [J].微型機(jī)與應(yīng)用,2010,9 (3):38-41.]

      [7]Chibane I,Doan B-L.A web page topic segmentation algorithm based on visual criteria and content layout[C].SIGIR.ACM,2007.

      [8]HUANG Wen-pei,YANG Jing,GU Jun-zhong.The research on segmention-based Web pages information extraction algorithm [J].Computers Application,2007,27 (6):24-26 (in Chinese).[黃文蓓,楊靜,顧君忠.基于分塊的網(wǎng)頁正文信息提取算法研究 [J].計(jì)算機(jī)應(yīng)用,2007,27 (6):24-26.]

      [9]ZHAO Xin-xin,SUO Hong-guang,LIU Yu-shu.Web content information extraction method based on tag window [J].Application Research of Computers,2007,24 (3):144-145 (in Chinese).[趙欣欣,索紅光,劉玉樹.基于標(biāo)記窗的網(wǎng)頁正文信息抽取方法 [J].計(jì)算機(jī)應(yīng)用研究,2007,24 (3):144-145.]

      [10] WANG Shao-kang,DONG Ke-jun,YAN Bao-ping. Web content information extraction using density of feature text.[J].Computer Engineering and Applications,2010,46(20):1-3 (in Chinese). [王少康,董科軍,閻保平.使用特征文本密度的網(wǎng)頁正文提取 [J].計(jì)算機(jī)工程與應(yīng)用,2010,46 (20):1-3.]

      [11]LIU Jun,ZHANG Jing.Dom based extraction of topical information from Web page [J].Computer Applications and Software,2010,27 (5):188-190 (in Chinese). [劉軍,張凈.基于DOM的網(wǎng)頁主題信息抽取 [J].計(jì)算機(jī)應(yīng)用與軟件,2010,27 (5):188-190.]

      [12]Mantratzis GC,Orgun M A,Cassidy S.Separating xhtml content from navigation clutter using dom-structure block analysis[C].S Reich,Tzagarakis M.Hypertext,Pages.ACM,2005:145-147.

      [13]Javier A M,Koen D,Marie F M.Language independent content extraction from web pages [C].Proc of the 9th Dutch-Belgian Information Retrieval Workshop.Enschede:University of Twente,2009:50-55.

      [14]LI Dong-bing,WANG Ye-xin,ZHANG Yan,et al.Primary content extraction with mountain model[C].Proc of the 8th IEEE International Conference on Computer and Information Technology.Sydney:IEEE Press,2008:479-484.

      [15]WU Qi,CHEN Xing-shu,TAN Jun.Content Extraction algorithm of HTML pages based on optimized weight [J].Journal of South China University of Technology:Natural Science Edition,2011,39 (4):32-37 (in Chinese). [吳麒,陳興蜀,譚駿.基于權(quán)值優(yōu)化的網(wǎng)頁正文內(nèi)容提取算法[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011,39 (4):32-37.]

      猜你喜歡
      子樹正文網(wǎng)頁
      黑莓子樹與烏鶇鳥
      一種新的快速挖掘頻繁子樹算法
      更正聲明
      傳媒論壇(2022年9期)2022-02-17 19:47:54
      更正啟事
      書本圖的BC-子樹計(jì)數(shù)及漸進(jìn)密度特性分析?
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      基于覆蓋模式的頻繁子樹挖掘方法
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
      温州市| 乌审旗| 凌云县| 高台县| 十堰市| 汝城县| 育儿| 房产| 海伦市| 丰县| 瑞昌市| 鄂托克旗| 根河市| 胶州市| 石家庄市| 西乌珠穆沁旗| 胶州市| 彭州市| 雷波县| 德化县| 佳木斯市| 志丹县| 高唐县| 平和县| 南华县| 成武县| 蒙城县| 定边县| 泸西县| 永德县| 禹州市| 沂水县| 望奎县| 临漳县| 东海县| 巴塘县| 沁源县| 肥西县| 隆尧县| 永定县| 界首市|