鄧莎莎,李嘉
(1.上海電力學(xué)院計(jì)算機(jī)與信息工程學(xué)院,上海200090; 2.華東理工大學(xué)商學(xué)院,上海 200237)
隨著Internet及其相關(guān)技術(shù)的飛速發(fā)展,Web正在逐漸成為全球的自主分布式計(jì)算環(huán)境.然而,由于Web上的數(shù)據(jù)絕大多數(shù)是通過(guò)HTML語(yǔ)言來(lái)顯示的,而HTML語(yǔ)言的特點(diǎn)是任何組織或個(gè)人可以很隨意地在Web上發(fā)布內(nèi)容多樣、形式各異的信息,導(dǎo)致Web上的數(shù)據(jù)處于雜亂無(wú)序的狀態(tài),數(shù)據(jù)集成性非常差[1].面對(duì)內(nèi)容龐雜,動(dòng)態(tài)變化的Web信息資源,人們很可能身陷信息的海洋而無(wú)所適從.
因此,網(wǎng)頁(yè)數(shù)據(jù)抽取越來(lái)越受到重視.但網(wǎng)絡(luò)數(shù)據(jù)的內(nèi)容和表現(xiàn)形式動(dòng)態(tài)多變的特性往往增加了網(wǎng)頁(yè)數(shù)據(jù)抽取的難度.目前,網(wǎng)頁(yè)抽取多采用W rapper/Mediator方法.該方法會(huì)對(duì)某個(gè)網(wǎng)頁(yè)數(shù)據(jù)源產(chǎn)生單獨(dú)的W rapper,若網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行微小改變后,往往需要重新構(gòu)建一個(gè)新的W rapper,這樣會(huì)加大W rapper的產(chǎn)生成本.本文著重討論基于規(guī)則樹(shù)的網(wǎng)頁(yè)數(shù)據(jù)抽取W rapper的方法,當(dāng)網(wǎng)頁(yè)結(jié)構(gòu)發(fā)生小范圍變化后,W rapper自動(dòng)識(shí)別這些變化并自動(dòng)修改規(guī)則,使其仍可以繼續(xù)工作,從而提高W rapper的自適應(yīng)性.
關(guān)于Web數(shù)據(jù)的抽取問(wèn)題,比較流行的方法是W rapper/Mediator的方法.該方法并不是將各種數(shù)據(jù)源的數(shù)據(jù)集中存放,而是通過(guò)W rapper/ Mediator這一體系結(jié)構(gòu)來(lái)滿足上層對(duì)數(shù)據(jù)的需求.其核心是通過(guò)中介模式將各個(gè)數(shù)據(jù)源的數(shù)據(jù)集成起來(lái),而數(shù)據(jù)仍然存儲(chǔ)在局部的數(shù)據(jù)源中.它是通過(guò)W rapper對(duì)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行轉(zhuǎn)換使之符合中介模式,這樣就能很好地解決數(shù)據(jù)倉(cāng)庫(kù)方法中存在的數(shù)據(jù)更新問(wèn)題.但由于各個(gè)數(shù)據(jù)源的W rapper需要分別建立,因此Web數(shù)據(jù)源的W rapper維護(hù)成為又一難點(diǎn).
KUSHMERICK[2]提出W rapper維護(hù)中的一個(gè)子問(wèn)題——W r a p p e r驗(yàn)證,根據(jù)已知的正確結(jié)果來(lái)分析抽取結(jié)果并判斷其正確性,從而達(dá)到驗(yàn)證的目的.文獻(xiàn)[3]通過(guò)回歸測(cè)試及一個(gè)給定的閾值來(lái)檢測(cè)頁(yè)面的變化,一旦發(fā)現(xiàn)頁(yè)面變化則通知設(shè)計(jì)人員,再由設(shè)計(jì)人員從新的格式中重新學(xué)習(xí)獲得新的W rapper.
KNOBLOCK等人[4]對(duì)頁(yè)面的微小HTML標(biāo)識(shí)變化給出一種W rapper修復(fù)的方法.首先提出了W rapper的生命周期概念,以及如何確保正確可靠地抽取數(shù)據(jù)的方法.通過(guò)機(jī)器學(xué)習(xí)得到所要抽取字段的數(shù)據(jù)模式的統(tǒng)計(jì)分布.W rapper就可以通過(guò)比較返回?cái)?shù)據(jù)模式和統(tǒng)計(jì)分布的模式來(lái)驗(yàn)證.當(dāng)發(fā)現(xiàn)有顯著不同時(shí),系統(tǒng)就會(huì)發(fā)出通知或者自動(dòng)調(diào)用修復(fù)程序.
CHIDLOVSKII[5]提出了基于上下文的自動(dòng)修復(fù)W rapper方法.在修復(fù)過(guò)程中,采用了一個(gè)分類機(jī)制,將語(yǔ)法特征和內(nèi)容特征作為分類的標(biāo)準(zhǔn),對(duì)多頁(yè)面實(shí)行多種分類和多遍掃描,最終得出結(jié)論.該方法是建立在微小變化的假設(shè)前提下,因此比前面幾種方法有優(yōu)勢(shì).
由于網(wǎng)頁(yè)數(shù)據(jù)是復(fù)雜多變的,因此本研究基于以下3點(diǎn)假設(shè):
(1)當(dāng)用戶從Web上收集數(shù)據(jù)時(shí),應(yīng)很清楚自身的需求,因此無(wú)需對(duì)HTML文檔中全部數(shù)據(jù)進(jìn)行抽取,只抽取對(duì)用戶有用的數(shù)據(jù);
(2)W rapper生成的最終目的是將源數(shù)據(jù)轉(zhuǎn)換成某些易于處理的結(jié)構(gòu),并不是理解源數(shù)據(jù)的語(yǔ)義;
(3)當(dāng)Web頁(yè)面發(fā)生變化后,認(rèn)為仍保留了一些原有數(shù)據(jù)項(xiàng)特征,例如元數(shù)據(jù)、數(shù)據(jù)類型、抽取模式.
本文討論的W rapper維護(hù)是基于已構(gòu)建的基于規(guī)則樹(shù)的Web數(shù)據(jù)抽取方法,因此有必要簡(jiǎn)單介紹該方法是如何構(gòu)建W rapper的.首先,用戶使用DTD或者XML Schema定義一個(gè)HTML文檔的抽取模式;接著,用戶在交互界面中將HTML頁(yè)面上的數(shù)據(jù)例子和模式中的元素關(guān)聯(lián)起來(lái),建立映射規(guī)則;最后,依據(jù)用戶給出的映射規(guī)則生成規(guī)則樹(shù)并生成W rapper.
W rapper建立后存在一個(gè)問(wèn)題,就是當(dāng)Web數(shù)據(jù)的頁(yè)面發(fā)生改變時(shí),W rapper就會(huì)失效.由于W rapper與頁(yè)面格式相關(guān),所以當(dāng)Web站點(diǎn)頁(yè)面格式發(fā)生變化時(shí),生成的W rapper就會(huì)失效,也就是說(shuō)無(wú)法從數(shù)據(jù)源中獲取數(shù)據(jù)或者得到錯(cuò)誤數(shù)據(jù).實(shí)際上,Web頁(yè)面變化是經(jīng)常出現(xiàn)的,這也就提出了一個(gè)新問(wèn)題——W r a p p e r的維護(hù),即W rapper失效時(shí),如何修復(fù)失效的W rapper使之繼續(xù)正確抽取網(wǎng)頁(yè)數(shù)據(jù).
根據(jù)研究假設(shè),圖1表示的是Web頁(yè)面出現(xiàn)結(jié)構(gòu)變化的一個(gè)實(shí)例.比較圖1a和圖1b可以發(fā)現(xiàn),它們的抽取模式并沒(méi)有改變,即頁(yè)面的數(shù)據(jù)項(xiàng)特征沒(méi)有發(fā)生變化.如果頁(yè)面的數(shù)據(jù)項(xiàng)發(fā)生改變,則認(rèn)為需要重新生成W rapper.
圖1 Web頁(yè)面出現(xiàn)的結(jié)構(gòu)變化
W rapper維護(hù)主要涉及兩個(gè)方面的問(wèn)題:變化的數(shù)據(jù)項(xiàng)如何識(shí)別和抽取實(shí)例如何獲取.本研究提出一種基于元數(shù)據(jù)的W rapper維護(hù)方法來(lái)解決上述問(wèn)題.研究發(fā)現(xiàn),在許多情況下,變化后的頁(yè)面仍然保留了原來(lái)的數(shù)據(jù)特征,這些數(shù)據(jù)特征可以從用戶定義的模式和抽取規(guī)則中獲取,它們可以輔助自動(dòng)進(jìn)行W rapper的維護(hù).
圖2為W rapper維護(hù)模型結(jié)構(gòu),主要分為3個(gè)步驟:
(1)識(shí)別數(shù)據(jù)特征數(shù)據(jù)特征從給定的模式樹(shù)和抽取規(guī)則中計(jì)算得出;
(2)定義語(yǔ)義塊根據(jù)用戶給定的模式樹(shù),在HTML樹(shù)形結(jié)構(gòu)上劃分若干個(gè)子樹(shù),每一個(gè)子樹(shù)或者一些兄弟子樹(shù)的集合為一個(gè)語(yǔ)法塊;
(3)修復(fù)規(guī)則樹(shù)在同一個(gè)或者附近相關(guān)的語(yǔ)義塊中搜索改變的數(shù)據(jù)項(xiàng)在規(guī)則樹(shù)結(jié)構(gòu)中的適當(dāng)位置.
圖2 W rapper維護(hù)模型結(jié)構(gòu)
表1是圖1所示頁(yè)面的數(shù)據(jù)特征.表1中每一行都有一個(gè)唯一對(duì)應(yīng)的ID,它確定一個(gè)數(shù)據(jù)的數(shù)據(jù)特征.Schema Element存儲(chǔ)的是模式樹(shù)中對(duì)應(yīng)的元素.Path記錄的是對(duì)應(yīng)的葉子結(jié)點(diǎn)所在新的HTML樹(shù)中的路徑值.值得注意的是,每個(gè)模式元素對(duì)應(yīng)3個(gè)重要的數(shù)據(jù)特征,即:超級(jí)鏈接(Hyperlink);數(shù)據(jù)注釋(Annotation);數(shù)據(jù)屬性(ItemAttribute).這3個(gè)數(shù)據(jù)特征表示為一個(gè)三元組(H,A,I):
表1 圖1所示頁(yè)面的數(shù)據(jù)特征
(1)H是一個(gè)布爾型數(shù)據(jù),取值為F或者T,表示該數(shù)據(jù)項(xiàng)是否包含超級(jí)鏈接;
(2)A表示在網(wǎng)頁(yè)上對(duì)該數(shù)據(jù)注釋的內(nèi)容,用它可以識(shí)別網(wǎng)頁(yè)中該數(shù)據(jù)項(xiàng)是否發(fā)生變化;
(3)I定義數(shù)據(jù)項(xiàng)的屬性,通過(guò)它可以知道該數(shù)據(jù)項(xiàng)的數(shù)據(jù)為何種類型,它也是判斷網(wǎng)頁(yè)是否發(fā)生更改的重要依據(jù).
研究發(fā)現(xiàn),盡管W eb設(shè)計(jì)者經(jīng)常調(diào)整頁(yè)面格式,但相同主題的數(shù)據(jù)一般會(huì)放在一起.從將HTML文檔看作樹(shù)形結(jié)構(gòu)的角度來(lái)說(shuō),改變的數(shù)據(jù)是放在原來(lái)結(jié)構(gòu)中的子樹(shù)或者其相鄰子樹(shù)中.這種結(jié)構(gòu)也對(duì)應(yīng)于用戶定義的模式樹(shù)結(jié)構(gòu).基于以上研究,可以在新的HTML樹(shù)中定義語(yǔ)義塊.
定義1如果一棵樹(shù)同時(shí)滿足以下條件,則這棵樹(shù)為原子語(yǔ)義塊.
(1)它是某棵樹(shù)中的一棵子樹(shù)或者是一些兄弟子樹(shù)的集合.
(2)它包含的數(shù)據(jù)與對(duì)應(yīng)模式樹(shù)的定義完全匹配.
定義2語(yǔ)義塊是一個(gè)或者多個(gè)原子語(yǔ)義塊的集合.
這里的完全匹配指的是語(yǔ)義塊A中HTML樹(shù)中葉子結(jié)點(diǎn)所包含的、數(shù)據(jù)滿足模式樹(shù)中對(duì)每一個(gè)數(shù)據(jù)項(xiàng)的限制,如不能為空等.從定義可以直觀得出,一個(gè)原子語(yǔ)義塊就是一個(gè)最小的可能進(jìn)行Web數(shù)據(jù)抽取的單元.
在定義新的HTML樹(shù)語(yǔ)義塊時(shí),利用非遞歸的方法后序遍歷HTML樹(shù).當(dāng)訪問(wèn)到HTML樹(shù)葉子結(jié)點(diǎn)時(shí),會(huì)核對(duì)該葉子結(jié)點(diǎn)中的數(shù)據(jù)是否與模式樹(shù)中的某個(gè)元素匹配.若該結(jié)點(diǎn)重復(fù)滿足了模式樹(shù)中具有只能出現(xiàn)一次的元素,則說(shuō)明該結(jié)點(diǎn)是另一個(gè)原子語(yǔ)義塊的結(jié)點(diǎn),并做上標(biāo)記.當(dāng)遍歷完成后,定義新的HTML樹(shù)語(yǔ)義塊的工作也就完成了.
完成定義語(yǔ)義塊后,得到的是新HTML樹(shù)的語(yǔ)義塊的集合.每一個(gè)語(yǔ)義塊記錄的是數(shù)據(jù)特征表中ID的集合.
修復(fù)規(guī)則,主要是依據(jù)語(yǔ)義塊對(duì)規(guī)則樹(shù)型結(jié)構(gòu)進(jìn)行修改.
(1)定義規(guī)則樹(shù)的語(yǔ)義塊,獲得規(guī)則樹(shù)的語(yǔ)義塊集合.
(2)將新HTML樹(shù)的語(yǔ)義塊和規(guī)則樹(shù)語(yǔ)義塊進(jìn)行匹配.若完全匹配則說(shuō)明這個(gè)語(yǔ)義塊中的HTML樹(shù)并沒(méi)有改動(dòng),如果是部分匹配或者是完全不匹配,則說(shuō)明HTML樹(shù)有改動(dòng).
(3)對(duì)于那些部分匹配的情況,則表示語(yǔ)義塊中對(duì)應(yīng)的HTML樹(shù)結(jié)構(gòu)已發(fā)生變化,根據(jù)HTML樹(shù)語(yǔ)義塊記錄的數(shù)據(jù)特征和規(guī)則樹(shù)語(yǔ)義塊的數(shù)據(jù)特征修改規(guī)則樹(shù)中的結(jié)點(diǎn).而對(duì)于完全不匹配的情況則返回給用戶,重新生成新的W rapper.
為了驗(yàn)證基于規(guī)則樹(shù)的網(wǎng)頁(yè)數(shù)據(jù)抽取方法的性能和效果,選擇某企業(yè)局域網(wǎng)頁(yè)上的數(shù)據(jù)和圖1所示頁(yè)面作為試驗(yàn)數(shù)據(jù),并邀請(qǐng)?jiān)撔畔⒁?guī)劃科工作人員參與測(cè)試過(guò)程.
測(cè)試環(huán)境為:服務(wù)端包括HP PC Server LH6000(80 G硬盤,512 M內(nèi)存,800 MHz PIII Xero CPU);W indowsXP中文版SP3,Oracle9i中文版.客戶端包括普通PC機(jī);W indows操作系統(tǒng),IE瀏覽器.
首先,需要指定某一個(gè)網(wǎng)頁(yè),對(duì)指定頁(yè)面生成基于規(guī)則樹(shù)W rapper.在測(cè)試易用性指標(biāo)中,所取頁(yè)面為企業(yè)內(nèi)部局域網(wǎng)中某一個(gè)網(wǎng)頁(yè)的生成數(shù)據(jù).在測(cè)試自適應(yīng)性指標(biāo)時(shí),改變的頁(yè)面網(wǎng)址和改變前一致.網(wǎng)址的改變認(rèn)為是不屬于網(wǎng)頁(yè)維護(hù)范疇內(nèi).同樣,在測(cè)試效率指標(biāo)時(shí),先通過(guò)和用戶交互的方式對(duì)頁(yè)面生成樹(shù)結(jié)構(gòu).抽取的時(shí)間指的是生成樹(shù)結(jié)構(gòu)后到數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)的時(shí)間,實(shí)質(zhì)上為遍歷樹(shù)結(jié)構(gòu)的時(shí)間.此外,為了獲得更平均的統(tǒng)計(jì)結(jié)果,規(guī)定在相同的網(wǎng)絡(luò)環(huán)境中,每個(gè)指標(biāo)入?yún)⒌臉颖炯笮?0.因此,每個(gè)統(tǒng)計(jì)指標(biāo)的最后結(jié)果是50個(gè)相同類型不同頁(yè)面數(shù)據(jù)的平均值.它們符合置信系數(shù)為95%、置信區(qū)間不超過(guò)5%的要求.
實(shí)驗(yàn)中,將基于規(guī)則樹(shù)的網(wǎng)頁(yè)數(shù)據(jù)抽取的方法(RuleTree)同其他相關(guān)方法(W 4F[6],Chidlovskii[5],SG-WRAM[1])進(jìn)行比較.
測(cè)試指標(biāo)主要有以下3個(gè).
(1)易用性EU(α)主要是指用戶在使用該工具時(shí)感到容易和方便的程度.在測(cè)試中使用EU (α)指數(shù)表示該性能.入?yún)ⅵ?,α2,α3分別對(duì)應(yīng)僅熟悉需求的用戶、不熟悉需求但接受培訓(xùn)的用戶、熟悉需求并且接受培訓(xùn)的用戶.EU(α)值為用戶在使用該工具將同一頁(yè)面轉(zhuǎn)換為最終數(shù)據(jù)的正確率.
(2)自適應(yīng)性DY(η)指作為數(shù)據(jù)源Web頁(yè)面發(fā)生局部改變后,工具仍能正確抽取數(shù)據(jù)的能力.DY(η)入?yún)ⅵ?表示在生成的HTML樹(shù)中,發(fā)生改變的數(shù)據(jù)項(xiàng)相對(duì)與原來(lái)的位置處于同一棵子樹(shù)中;η2則表示發(fā)生變化的數(shù)據(jù)項(xiàng)相對(duì)于原來(lái)位置不在同一棵子樹(shù)中,甚至在生成的新子樹(shù)中.
(3)效率Val(δ)主要表示數(shù)據(jù)的抽取效率.入?yún)ⅵ拇硭槿?shù)據(jù)的大小.
4.3.1 EU(α)數(shù)據(jù)結(jié)果及分析
表2記錄了α取不同值(α1,α2,α3)時(shí)EU (α)的結(jié)果.
表2 EU(α)試驗(yàn)結(jié)果
本試驗(yàn)中,用戶水平相當(dāng),我們只對(duì)α2和α3同時(shí)進(jìn)行了簡(jiǎn)單培訓(xùn).從表2可以看出,EU(α3)為完全正確的比率機(jī)會(huì)達(dá)到100%,這表明對(duì)于需求熟悉并進(jìn)行簡(jiǎn)短培訓(xùn)后的用戶完全可以方便靈活地使用該工具進(jìn)行數(shù)據(jù)抽取.一個(gè)令人驚喜的結(jié)果是EU(α1)的正確率遠(yuǎn)遠(yuǎn)大于EU(α2)的正確率.這說(shuō)明工具的使用方法通俗易懂,即使沒(méi)有經(jīng)過(guò)培訓(xùn)的用戶,如果十分了解需求仍然有可能正確地抽取數(shù)據(jù).當(dāng)然,這其中也包含兩個(gè)權(quán)變因素,即用戶的素質(zhì)及需求的復(fù)雜程度.
W 4F和SG-WRAM對(duì)用戶都有特殊的要求.W 4F需要用戶會(huì)使用HEL語(yǔ)言,Chidlovskii采用一種機(jī)器學(xué)習(xí)的方式,SG-WRAM要求用戶能理解并使用所定義的正則表達(dá)方式.
4.3.2 DY(η)數(shù)據(jù)結(jié)果及分析
表3記錄了η分別取η1和η2時(shí)DY(η)的結(jié)果.在自適應(yīng)性的測(cè)試中,η1代表的是相對(duì)于以前頁(yè)面,變化的頁(yè)面中數(shù)據(jù)項(xiàng)只是在臨近位置移動(dòng),即HTML樹(shù)中同一棵子樹(shù)中葉子結(jié)點(diǎn)的左右順序發(fā)生變化.η2表示變化后的頁(yè)面中數(shù)據(jù)項(xiàng)發(fā)生較大的位置改變,即在HTML樹(shù)中顯示為某一棵子樹(shù)的葉子結(jié)點(diǎn)變?yōu)橄噜徎虿幌噜徸訕?shù)的葉子結(jié)點(diǎn).
表3 DY(η)試驗(yàn)結(jié)果
從表3可以看出,4種方法中DY(η1)為正確的比率較高,相對(duì)而言,DY(η2)為正確的比率較低.RuleTree方法通過(guò)定義語(yǔ)義塊可以快捷準(zhǔn)確地辨別變化的數(shù)據(jù)項(xiàng)位置,并正確抽取源數(shù)據(jù),但其語(yǔ)義塊對(duì)于跨子樹(shù)特別是跨幾棵子樹(shù)的識(shí)別能力較弱;W 4F沒(méi)有考慮網(wǎng)頁(yè)變化后的自動(dòng)維護(hù)問(wèn)題;由于Chidlovskii將網(wǎng)頁(yè)首先進(jìn)行分類,根據(jù)其語(yǔ)法和內(nèi)容特征進(jìn)行判斷,準(zhǔn)確率相對(duì)較高,但是耗時(shí)太多,結(jié)果也不穩(wěn)定;SG-WRAM與RuleTree兩種方法的實(shí)驗(yàn)結(jié)果則比較相近.
4.3.3 Val(δ)數(shù)據(jù)結(jié)果及分析
表4記錄了δ在不同大小區(qū)間數(shù)值時(shí)Val (δ)的結(jié)果.
表4 Val(δ)試驗(yàn)結(jié)果
本試驗(yàn)中δ的取值是由源數(shù)據(jù)轉(zhuǎn)換到中心數(shù)據(jù)庫(kù)中數(shù)據(jù)的大小決定的.以RuleTree方法為例將表4的數(shù)據(jù)作如下處理.
由此可知,在RuleTree方法中,當(dāng)需要處理的數(shù)據(jù)大小以10倍速度增長(zhǎng)時(shí),其抽取時(shí)間的增長(zhǎng)率卻低于10,表明需要抽取的數(shù)據(jù)越多,抽取的效率會(huì)有所提高.其原因在于只要通過(guò)遍歷生成的規(guī)則樹(shù)就可以將數(shù)據(jù)和數(shù)據(jù)模式對(duì)應(yīng)起來(lái),直接抽取數(shù)據(jù)即可.同時(shí),樹(shù)型結(jié)構(gòu)采用類似B+樹(shù)的雙鏈表存儲(chǔ)結(jié)構(gòu),這樣只需訪問(wèn)鏈接數(shù)據(jù)的鏈表就可以完成抽取工作.
W 4F是利用類似SQL的查詢語(yǔ)言抽取數(shù)據(jù)的,因此當(dāng)需要抽取的數(shù)據(jù)越多時(shí),其速度就會(huì)越慢.Chidlovskii是利用機(jī)器學(xué)習(xí)的方法,其抽取速度和學(xué)習(xí)能力相關(guān),因此速度極不穩(wěn)定.SGWRAM方式是通過(guò)臨時(shí)解析定義的正則抽取規(guī)則,與W 4F方法一樣,在需要抽取的數(shù)據(jù)激增的情況下效率就會(huì)變低.
從試驗(yàn)結(jié)果來(lái)看,基于規(guī)則樹(shù)的W rapper維護(hù)在易用性、自適應(yīng)性和高效率上表現(xiàn)良好.它對(duì)于需求明確的普通用戶,只需要在簡(jiǎn)單培訓(xùn)后基本上能獨(dú)立進(jìn)行網(wǎng)頁(yè)頁(yè)面的抽取.特別是當(dāng)頁(yè)面數(shù)據(jù)發(fā)生較小改變時(shí),不需要用戶參與就能自動(dòng)修改樹(shù)型結(jié)構(gòu),正確地抽取數(shù)據(jù).而最后和用戶交互生成的規(guī)則樹(shù)可以正確表示用戶需求.當(dāng)用戶定義好一個(gè)樹(shù)型結(jié)構(gòu)后,抽取速度很快,特別是在一定的范圍內(nèi),隨著抽取數(shù)據(jù)的增加,抽取效率還會(huì)有所提高.
[1]MENG Xiao-feng,LU Hong-jun,WANG Hai-yan,et al.Data extraction from the web based on pre-defined schema[J].Journal of Computer Science and Technology,2002,17(4): 377-388.
[2]KUSHMERICK N.W rapper verification[J].World W ide Web Journal,2000,3(2):79-94.
[3]KUSHMERICK N.Regression testing for wrappermaintenance[C]//Proceeding of the AAAI,Heidelberg,Germany,1999: 74-79.
[4]KNOBLOCK C,LEMAN K,MINTOA S,et al.Accurately and reliably extracting data from the web:a machine learning approach[J].Data Engineering,2000,23(4):33-41.
[5]CHIDLOVSKIIB.Automatic repairing of web W rapper[C]// Proceeding of the Third International Workshop on Web Information and Data Management,Atlanta,USA,2001:24-30.
[6]SAHUGUET A,AZAVANT F.Building light-weightW rapper for legacy web data-source using W 4F[C]//Proceeding of the Very Large Data Bases(VLDB),Edinburgh,Scotland,1999: 738-741.
(編輯胡小萍)