• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于視覺特征去噪和DOM樹的網(wǎng)頁信息提取方法

      2022-01-04 01:54:00陳壯葛斌
      關(guān)鍵詞:網(wǎng)頁準(zhǔn)確率噪聲

      陳壯, 葛斌

      安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院, 安徽 淮南 232001

      0 引言

      信息塊是由網(wǎng)頁的主要內(nèi)容塊組成.非信息塊諸如導(dǎo)航菜單、底部的聯(lián)系人信息以及廣告等,都是噪聲信息.要想提高信息提取的性能,必須要去除這些噪聲信息,并快速準(zhǔn)確地對(duì)網(wǎng)頁進(jìn)行分割,從而獲得組成塊并對(duì)其進(jìn)行準(zhǔn)確的提取.

      在網(wǎng)頁信息提取方面,文獻(xiàn)[1,2]使用基于統(tǒng)計(jì)的網(wǎng)頁信息提取方法,主要根據(jù)網(wǎng)頁中信息的分布情況來決定提取的內(nèi)容.缺點(diǎn)是當(dāng)網(wǎng)頁中字符較少時(shí),會(huì)導(dǎo)致提取錯(cuò)誤的信息.文獻(xiàn)[3,4]使用基于網(wǎng)頁分割的信息提取方法,利用網(wǎng)頁中的一些特征對(duì)網(wǎng)頁進(jìn)行分割,再從分割塊中選取包含網(wǎng)頁信息的塊并提取網(wǎng)頁信息.缺點(diǎn)是信息塊內(nèi)容字符數(shù)較少,而噪聲信息較多時(shí),提取的塊可能出錯(cuò).文獻(xiàn)[5]提出了一種使用自然語言處理技術(shù)提取信息的方法.缺點(diǎn)是未充分利用以文本格式編寫的注釋.文獻(xiàn)[6]通過使用字符串方法和其他信息快速提取內(nèi)容,而無需創(chuàng)建DOM樹.文獻(xiàn)[7]實(shí)現(xiàn)了對(duì)復(fù)雜網(wǎng)頁中數(shù)據(jù)記錄的提取.缺點(diǎn)是對(duì)于一些復(fù)雜的網(wǎng)頁,該方法去除噪聲信息的效果不是太理想.文獻(xiàn)[8]可以從多種類型的網(wǎng)頁中抽取正文信息.缺點(diǎn)是對(duì)于細(xì)粒度結(jié)構(gòu)化Web信息抽取的精度效果仍達(dá)不到最理想的程度.文獻(xiàn)[9]通過三個(gè)啟發(fā)式規(guī)則的加權(quán)平均獲得組成塊分?jǐn)?shù),得分最高的就是信息塊.缺點(diǎn)是只使用緊密度中心性顯得太片面,不足以表示塊的中心性.

      1 所提出的方法

      1.1 網(wǎng)頁預(yù)處理

      1.1.1 視覺特征去噪

      通過查看網(wǎng)頁發(fā)現(xiàn),大量的網(wǎng)頁都是由Head、Foot、Left、Right、Center五部分[10]或者其中某幾部分組成,其中大多數(shù)的網(wǎng)頁均含有Head、Foot區(qū)域.

      所提出的方法,先將網(wǎng)頁轉(zhuǎn)化成DOM結(jié)構(gòu),并得到頁面的大小;根據(jù)頁面大小獲得上下左右四部分閾值,記為W1,W2,W3,W4;再通過對(duì)網(wǎng)頁內(nèi)元素的絕對(duì)坐標(biāo)以及實(shí)際大小與獲得的閾值進(jìn)行比較,通過此方法劃分區(qū)域.若任意元素E,所占區(qū)域上的左上角原點(diǎn)絕對(duì)坐標(biāo)為(a,b),元素所占區(qū)域大小為(width,height).如果E.b + E.height <=W1,則E屬于Head區(qū)域;如果E.b>=W2,則E屬于Foot區(qū)域;如果E.a + E.width <=W3,則E屬于Left區(qū)域;如果E.a >= W4,則E屬于Right區(qū)域,所有不屬于Head,Foot,Left,Right的區(qū)域作為結(jié)果返回.設(shè)計(jì)的算法如下所示:

      算法1 Visual Denoising

      輸入:頁面大小閾值W1,W2,W3,W4,元素E,元素絕對(duì)坐標(biāo)(a,b);

      輸出:網(wǎng)頁中心區(qū)域t.

      Begin

      1 if b+height<=W1then //(width,height)為元素所占區(qū)域大小

      2E∈Head; //Head、Foot、Left、Right為網(wǎng)頁區(qū)域

      3 else ifb>=W2then

      4E∈Foot;

      5 else ifa+E.width<=W3then

      6E∈Left;

      7 else ifa>=W4then

      8E∈Right;

      9 else

      10E∈t;//元素E屬于Center部分

      11 return t; End

      1.1.2 正則表達(dá)式去噪

      在經(jīng)過視覺特征去噪后,仍可能包含未去除干凈的噪聲信息,需要通過正則表達(dá)式過濾噪聲標(biāo)簽的方式再次去除.噪聲信息如表1所示.

      表1 噪聲信息

      1.2 網(wǎng)頁分割和信息塊提取

      本文以一個(gè)簡單的方式分割網(wǎng)頁,首先將網(wǎng)頁沿垂直方向拆分成列,對(duì)拆分后的每部分進(jìn)行判斷,是否可以進(jìn)行沿垂直方向拆分為列或者沿水平方向拆分為行;然后再對(duì)于拆分后的每行或者每列,再繼續(xù)進(jìn)行沿垂直方向拆分或者沿水平方向拆分.在此基礎(chǔ)上,重復(fù)進(jìn)行上述操作,如圖1所示.

      圖1 網(wǎng)頁拆分圖

      本文將網(wǎng)頁轉(zhuǎn)換成DOM樹結(jié)構(gòu),在此基礎(chǔ)上,自下向上遍歷中生成一個(gè)新的網(wǎng)頁視覺樹.在遍歷的過程中,為了提高網(wǎng)頁信息處理的效率,進(jìn)行兩次去除噪聲操作:利用視覺特征和正則表達(dá)式去除那些噪聲節(jié)點(diǎn),對(duì)通常不含正文文本內(nèi)容的標(biāo)簽做剪枝處理,得到一個(gè)簡潔的DOM樹.并為新的視覺樹中每個(gè)提取的節(jié)點(diǎn)分配一個(gè)判斷符:即為每個(gè)節(jié)點(diǎn)標(biāo)記兩個(gè)變量,代表其子樹中是否存在沿垂直方向拆分.

      構(gòu)建網(wǎng)頁視覺樹之后,需要識(shí)別組成塊.本文從視覺樹對(duì)應(yīng)的根節(jié)點(diǎn)展開新的可視化樹.首先需要判斷是否進(jìn)行了沿垂直方向拆分,如果當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)有子節(jié)點(diǎn),即進(jìn)行了沿垂直方向拆分,則增加一個(gè)粒度,繼續(xù)擴(kuò)展當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn);如果當(dāng)前子樹只有沿水平方向拆分,則不進(jìn)行擴(kuò)展.如此重復(fù)進(jìn)行上述操作,當(dāng)整個(gè)樹不再進(jìn)行擴(kuò)展時(shí),所有的葉節(jié)點(diǎn)都是預(yù)期的組成塊.通過上述過程,就可以獲得網(wǎng)頁的所有組成塊.接下來就是從這些組成塊當(dāng)中提取出信息塊.信息塊通常是最靠近網(wǎng)頁中心的塊,通過上述過程后標(biāo)記數(shù)最多的塊是所有塊中面積最大的塊.本文在視覺去噪時(shí)已經(jīng)輸出的就是Center部分,只需要使用兩個(gè)啟發(fā)式規(guī)則:信息塊是通過上述網(wǎng)頁分割過程后標(biāo)記數(shù)最多的塊,是所有組成塊中面積最大的塊.通過加權(quán)平均來獲得信息塊的分?jǐn)?shù),就能進(jìn)行信息的提取,分?jǐn)?shù)最大的組成塊即信息塊.

      如圖2所示,圖中①代表視覺去噪結(jié)果,②代表組成塊,③代表信息塊.計(jì)算公式如下:

      圖2 信息塊提取圖

      Score(bi)=α×Areai+(1-α)|bi|

      (1)

      式中:|bi|為塊bi中標(biāo)記數(shù)目,Area為塊bi的面積,得分最高的塊是信息塊.

      2 實(shí)驗(yàn)評(píng)估

      在本節(jié)中,對(duì)本文方法進(jìn)行了評(píng)估,將其與文獻(xiàn)[1]中PPL、PPR、CEPR算法和文獻(xiàn)[9]算法進(jìn)行了比較.

      2.1 數(shù)據(jù)集和評(píng)估指標(biāo)

      2.1.1 數(shù)據(jù)集

      利用三個(gè)數(shù)據(jù)集來驗(yàn)證本文提出方法的性能.在表2中顯示數(shù)據(jù)集的詳細(xì)信息.

      表2 三個(gè)數(shù)據(jù)集統(tǒng)計(jì)

      2.1.2 評(píng)估指標(biāo)

      使用準(zhǔn)確率,召回率和F1量度[11]來評(píng)估本文信息提取方法的性能,計(jì)算公式如下所示:

      (2)

      (3)

      (4)

      其中S1表示抽取結(jié)果的集合,而S2表示手工標(biāo)記結(jié)果的集合.

      2.2 實(shí)驗(yàn)評(píng)估

      2.2.1 實(shí)驗(yàn)結(jié)果

      本文實(shí)驗(yàn)結(jié)果如下表3所示

      表3 本文實(shí)驗(yàn)結(jié)果(%)

      觀察表4到表6發(fā)現(xiàn),在人民網(wǎng)數(shù)據(jù)集、搜狐網(wǎng)數(shù)據(jù)集、新浪網(wǎng)數(shù)據(jù)集上,本文的方法都能取得較高的準(zhǔn)確率,但召回率相對(duì)較低,這是因?yàn)槿嗣窬W(wǎng)、搜狐網(wǎng)包含大量的導(dǎo)航或者評(píng)論內(nèi)容,導(dǎo)致錯(cuò)誤地將其當(dāng)成正文信息并提取.相對(duì)于文獻(xiàn)[1]中PPL、PPR、CEPR算法和文獻(xiàn)[9]算法,本文方法在準(zhǔn)確率上高于另外幾種算法,在召回率上,本文方法高于文獻(xiàn)[1]中的PPL、PPR、CEPR方法,但是在部分?jǐn)?shù)據(jù)集上低于文獻(xiàn)[9]中算法.對(duì)于F1值,本文的方法也優(yōu)于其他幾種網(wǎng)頁信息提取方法.

      表4 準(zhǔn)確率(P)對(duì)比結(jié)果(%)

      表5 召回率(R)對(duì)比結(jié)果(%)

      表6 F1值對(duì)比結(jié)果(%)

      2.2.2 參數(shù)分析

      參數(shù)α是用于平衡兩個(gè)啟發(fā)式規(guī)則之間的重要權(quán)值,若α值太高,則組成塊面積會(huì)占據(jù)更多的權(quán)值,同時(shí)可能會(huì)導(dǎo)致獲得錯(cuò)誤的結(jié)果.通過一些先前的觀察,決定將α權(quán)值設(shè)置在0.4以內(nèi),實(shí)驗(yàn)結(jié)果如圖3到圖5所示.

      通過觀察圖3到圖5可以發(fā)現(xiàn),當(dāng)參數(shù)α大于或者小于0.2時(shí),準(zhǔn)確率、召回率、F1值都沒有達(dá)到最好的效果,因此本文方法實(shí)驗(yàn)參數(shù)設(shè)置為0.2.

      3 結(jié)語

      本研究提出了一種基于視覺特征去噪和DOM樹的網(wǎng)頁信息提取方法.與其他幾種方法相比,準(zhǔn)確率有所提高.同時(shí),本方法也適合許多網(wǎng)站,但是在個(gè)別網(wǎng)頁當(dāng)中也會(huì)存在不準(zhǔn)確的信息塊提取.比如正文文本較短,可能會(huì)導(dǎo)致提取錯(cuò)誤;同時(shí)由于本算法主要依賴元素的位置信息,錯(cuò)誤的位置將導(dǎo)致錯(cuò)誤的劃分,它將進(jìn)一步影響信息塊提取的準(zhǔn)確性,這將是今后方法改進(jìn)的方向.

      猜你喜歡
      網(wǎng)頁準(zhǔn)確率噪聲
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      控制噪聲有妙法
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      一種基于白噪聲響應(yīng)的隨機(jī)載荷譜識(shí)別方法
      肇州县| 九龙坡区| 肥东县| 庆城县| 古蔺县| 城口县| 崇义县| 景德镇市| 绥芬河市| 公主岭市| 漾濞| 综艺| 平昌县| 浏阳市| 金乡县| 奈曼旗| 台北市| 焦作市| 海原县| 酒泉市| 新竹县| 罗定市| 天峨县| 堆龙德庆县| 梅州市| 青冈县| 蒙自县| 莱阳市| 阳谷县| 迭部县| 鞍山市| 麻城市| 始兴县| 淮南市| 莒南县| 资溪县| 贡山| 法库县| 蕲春县| 潢川县| 佛山市|