陳 壯, 葛 斌
(安徽理工大學(xué)計算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001)
網(wǎng)頁信息由內(nèi)容信息和噪聲信息組成。噪聲信息如由廣告,導(dǎo)航鏈接等,不僅影響網(wǎng)頁信息檢索的效率,而且會導(dǎo)致檢索精度的降低。因此,如何準(zhǔn)確、快速地識別和提取網(wǎng)頁正文信息已成為網(wǎng)頁信息提取的關(guān)鍵問題。
常見的網(wǎng)頁信息提取的方法可以分為三類:第一類是基于模板的網(wǎng)頁信息提取方法。通過特征對網(wǎng)頁進(jìn)行分塊,對獲得的組成塊進(jìn)行信息提取。缺點時當(dāng)網(wǎng)頁當(dāng)中噪聲信息較多時,會導(dǎo)致提取出錯誤的信息。文獻(xiàn)[1]使用啟發(fā)式規(guī)則構(gòu)建可視樹,通過對可視塊篩選實現(xiàn)對網(wǎng)頁信息的提取。文獻(xiàn)[2]介紹了一種文本挖掘方法從互聯(lián)網(wǎng)上爬取和提取專家信息,將專家屬性矩陣轉(zhuǎn)化為加權(quán)有向圖,從而將專家推薦問題轉(zhuǎn)化為加權(quán)有向圖上的最長路徑問題;第二類是基于機(jī)器學(xué)習(xí)的網(wǎng)頁信息提取方法。利用標(biāo)記好的網(wǎng)頁數(shù)據(jù)集,來構(gòu)建規(guī)則分類器,再利用該分類器區(qū)識別網(wǎng)頁信息。文獻(xiàn)[3]根據(jù)網(wǎng)頁的結(jié)構(gòu)屬性對其進(jìn)行聚類,來提高網(wǎng)頁信息提取的性能。文獻(xiàn)[4]以文本塊信息以及相應(yīng)文檔對象模型結(jié)構(gòu)信息作為選擇特征,實現(xiàn)一個基于LSTM的深度學(xué)習(xí)信息提取方法;第三類是基于統(tǒng)計的網(wǎng)頁信息提取方法。通過網(wǎng)頁中的HTML標(biāo)簽將頁面表示成DOM樹,利用樹中每個節(jié)點中的中文字符數(shù)選擇包含網(wǎng)頁信息的節(jié)點。文獻(xiàn)[5]綜合了網(wǎng)頁詞語的詞頻、詞性、詞長和位置特征,按照權(quán)值提取出關(guān)鍵詞。文獻(xiàn)[6-10]通過計算密度特征,對網(wǎng)頁中的文本塊和噪聲塊進(jìn)行區(qū)分,最終提取出網(wǎng)頁信息。
使用一種改進(jìn)混合文本密度的網(wǎng)頁信息提取方法,分別計算網(wǎng)頁中各節(jié)點的文本密度、鏈接密度、鏈接文本密度、標(biāo)點符號密度來對網(wǎng)頁進(jìn)行內(nèi)容提取。
研究目的旨在從網(wǎng)頁當(dāng)中提取出有用的內(nèi)容信息。如圖1所示,是一張新聞網(wǎng)頁,左邊是網(wǎng)頁的源代碼,右邊是網(wǎng)頁的界面,圖中紅色虛線部分是網(wǎng)頁當(dāng)中的內(nèi)容信息。
圖1 網(wǎng)頁分塊圖
為了使網(wǎng)頁內(nèi)容信息提取的方法具有有效性,先對網(wǎng)頁進(jìn)行預(yù)處理操作,得到的結(jié)果進(jìn)行網(wǎng)頁分割獲得組成塊,通過冪次關(guān)系對獲得的混合密度進(jìn)行計算,抽取信息內(nèi)容。
利用視覺特征去噪的方式對網(wǎng)頁進(jìn)行預(yù)處理,得到一個新的網(wǎng)頁視覺樹。視覺特征去噪算法如算法1:
算法1.Visual Feature Denoising
輸入:頁面大小閾值H1, H2, H3, H4,
元素E,元素絕對坐標(biāo)(a,b);
輸出:網(wǎng)頁中心區(qū)域t.
Begin
1 if b+height<=H1 then
//(width,height)為元素所占區(qū)域大小
2 E∈Head;
//head,foot,left,right為網(wǎng)頁區(qū)域
3else if b>=H2 then
4 E∈Foot;
5 else if a+E.width<=H3 then
6 E∈Left;
7 else if a>=H4 then
8 else
9 E∈t;
//元素E屬于center部分
10 return t;
End
從網(wǎng)頁設(shè)計者的角度出發(fā),對網(wǎng)頁進(jìn)行簡單的分割。對構(gòu)建好的網(wǎng)頁視覺樹,從根節(jié)點開始判斷是否進(jìn)行了行列拆分:
(1)若當(dāng)前節(jié)點有子節(jié)點或者當(dāng)前節(jié)點的子節(jié)點有子節(jié)點,則判斷結(jié)果為進(jìn)行了列拆分,則增加一個粒度,繼續(xù)擴(kuò)展當(dāng)前節(jié)點的子節(jié)點;
(2)若當(dāng)前節(jié)點的子節(jié)點只進(jìn)行了行拆分,則不進(jìn)行擴(kuò)展;
重復(fù)進(jìn)行上述操作,當(dāng)網(wǎng)頁視覺樹不再進(jìn)行擴(kuò)展時,所獲得的組成塊即為網(wǎng)頁分割后的組成塊。
如圖2所示,網(wǎng)頁信息結(jié)果中除了正文信息以外還有其他的噪聲信息。影響內(nèi)容信息提取的主要因素是標(biāo)題因素,超鏈接因素等。
圖2 文本節(jié)點字符長度圖
通過混合密度和所設(shè)置的閾值進(jìn)行比較,小于或者等于閾值的即為所需要的內(nèi)容信息。下面給出文本密度、鏈接密度、鏈接文本密度、標(biāo)點符號密度的定義以及混合密度的計算方式。
定義1.設(shè)i為DOM樹中的一個節(jié)點,則文本密度(TD)、鏈接密度(HD)、鏈接文本密度(LTD)、標(biāo)點符號密度(SD)分別為式(1)-式(4):
(1)
(2)
(3)
(4)
式中:texti為節(jié)點i代表的子樹中,去除所有HTML標(biāo)簽后的字符數(shù);hsyperlinki為節(jié)點i代表的子樹中,所包含的鏈接數(shù);ltexti為節(jié)點i代表的子樹中,所有鏈接所包含的字符數(shù);symboli為節(jié)點i代表的子樹中,所包含標(biāo)點符號長度;n代表節(jié)點個數(shù)。文本密度越大、鏈接密度越小、鏈接文本密度越小、標(biāo)點符號密度越大,則代表越可能是主要文本信息。
混合密度利用冪次關(guān)系融合算法融合上述文本密度、鏈接密度、鏈接文本密度、標(biāo)點符號密度,將網(wǎng)頁當(dāng)中的節(jié)點特征轉(zhuǎn)化為可以計算的數(shù)值。利用冪次關(guān)系的特征,增大了正文信息內(nèi)容和噪聲信息內(nèi)容的區(qū)分度?;旌厦芏鹊挠嬎愎饺缡?5):
CTDi=-log[TD+(1-HD)+(1-LTD)+SD+1]
[TD×(1-HD)×(1-LTD)×SD]
(5)
通過設(shè)置閾值,可以更加準(zhǔn)確、快速的識別正文內(nèi)容信息和非正文內(nèi)容信息。判斷方式為:混合密度如果小于或者等于閾值的即為正文內(nèi)容信息,大于閾值的即為噪聲信息。
閾值通常使用的方法有中位數(shù)或標(biāo)準(zhǔn)方差。標(biāo)準(zhǔn)方差可以反映數(shù)據(jù)集的離散程度,故本文將標(biāo)準(zhǔn)方差設(shè)置為閾值。標(biāo)準(zhǔn)方差的計算公式如式(6):
(6)
網(wǎng)頁信息提取系統(tǒng)分為網(wǎng)頁獲取、網(wǎng)頁分割、密度計算和信息提取模塊。所提出的網(wǎng)頁信息提取系統(tǒng)框架如圖3所示。
(1)網(wǎng)頁獲取模塊通過輸入URL解析網(wǎng)頁。
(2)網(wǎng)頁分割模塊通過網(wǎng)頁預(yù)處理去除部分噪聲信息,將得到的結(jié)果解析成DOM樹結(jié)構(gòu),通過行列分割的方式對網(wǎng)頁進(jìn)行分塊。
(3)密度計算模塊通過遍歷DOM樹分別計算出文本密度、鏈接密度、鏈接文本密度、標(biāo)點符號密度、混合密度以及閾值。
(4)信息提取模塊通過比較混合密度和閾值的大小,區(qū)分出內(nèi)容信息和噪聲信息。
圖3 系統(tǒng)框架圖
對使用算法進(jìn)行了評估,通過與文獻(xiàn)[9]中PPL,PPR,CETR,CEPR算法以及文獻(xiàn)[11]算法進(jìn)行比較,以便測試網(wǎng)頁信息提取的性能。
3.1.1 數(shù)據(jù)集
分別使用三個數(shù)據(jù)集對提出的算法進(jìn)行驗證。三個數(shù)據(jù)集的詳細(xì)信息如表1所示。
表1 數(shù)據(jù)集統(tǒng)計
3.1.2 評估指標(biāo)
分別使用準(zhǔn)確率,召回率和F1度量對所提出的方法的進(jìn)行評估,如式(7)-式(9):
(7)
(8)
(9)
式中:H1表示抽取結(jié)果的集合,而H2表示手工標(biāo)記結(jié)果的集合。通過調(diào)節(jié)β的值來表示召回率和準(zhǔn)確率的重要性,通常情況下認(rèn)為準(zhǔn)確率以及召回率同樣重要,因此將β值設(shè)為1。
3.2.1 實驗結(jié)果
由表2到表4發(fā)現(xiàn),平均準(zhǔn)確率為96.33%,相比于基于統(tǒng)計的CETR提取方法,平均準(zhǔn)確率提高了3.68%。提出的方法能夠準(zhǔn)確的提取出多種類型的網(wǎng)頁信息,具有很好的通用性。但是也有一些問題會影響信息提取的準(zhǔn)確性,一些網(wǎng)頁的圖片會包含注釋,這說明網(wǎng)頁正文信息前有提示等文本,會帶有很多標(biāo)點符號,所以會導(dǎo)致提取錯誤。
表2 準(zhǔn)確率(P)對比結(jié)果(%)
表3 召回率(R)對比結(jié)果(%)
表4 F1值對比結(jié)果(%)
3.2.2 閾值設(shè)置
通過閾值σ可以更加準(zhǔn)確、快速的識別正文內(nèi)容信息和非正文內(nèi)容信息。混合密度如果小于或者等于閾值的即為正文內(nèi)容信息,大于閾值的即為噪聲信息。閾值通常使用中位數(shù)或標(biāo)準(zhǔn)方差。以圖2對應(yīng)的網(wǎng)頁為例,圖4和圖5分別代表使用標(biāo)準(zhǔn)方差和中位數(shù)作為閾值得出的結(jié)果圖。圖中,紅色線條代表閾值。
圖4 標(biāo)準(zhǔn)方差圖
圖5 中位數(shù)圖
標(biāo)準(zhǔn)方差既可以反映數(shù)據(jù)集的離散程度,同時通過圖4和圖5可知,當(dāng)使用中位數(shù)作為閾值時,輸出的結(jié)果可能會包含一些不屬于內(nèi)容信息的部分,故將本文閾值設(shè)置為標(biāo)準(zhǔn)方差。
提出了一種改進(jìn)混合文本密度的網(wǎng)頁信息提取方法,與PPL,PPR,CETR,CEPR等算法相比,能夠快速高效地從網(wǎng)頁中提取內(nèi)容信息,同時準(zhǔn)確率也有所提高。但從實驗當(dāng)中可以看出,該方法還不能自動清除網(wǎng)頁當(dāng)中摻雜的重要提示等信息,及時的去解決這些問題,將是今后需要改進(jìn)的方向。