• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Deep Web數(shù)據(jù)源的發(fā)現(xiàn)和分類

    2016-12-14 06:31:15常甜甜陳軍華

    常甜甜, 陳軍華

    (上海師范大學(xué) 信息與機(jī)電工程學(xué)院,上海 200234)

    ?

    Deep Web數(shù)據(jù)源的發(fā)現(xiàn)和分類

    常甜甜, 陳軍華

    (上海師范大學(xué) 信息與機(jī)電工程學(xué)院,上海 200234)

    為了最大限度地獲取Deep Web數(shù)據(jù)源信息,并對獲取到的數(shù)據(jù)源信息進(jìn)行分類,方便后續(xù)的數(shù)據(jù)源集成工作以及用戶的檢索使用,提出了一種基于數(shù)據(jù)庫的實(shí)時的Deep Web數(shù)據(jù)源搜索框架,該模型在本地服務(wù)器上設(shè)計安裝“數(shù)據(jù)源發(fā)現(xiàn)應(yīng)用程序”模塊,通過各搜索網(wǎng)站下載安裝的“客戶端數(shù)據(jù)源應(yīng)用程序”模塊實(shí)現(xiàn)數(shù)據(jù)信息的對接和實(shí)時傳送.為了保證檢索效率,利用知網(wǎng)結(jié)合同義詞詞林對各大被檢索網(wǎng)站進(jìn)行分類.

    Deep Web; 數(shù)據(jù)源; 實(shí)時; 分類

    0 引 言

    隨著資源檢索技術(shù)的不斷發(fā)展,如何快速地從海量的萬維網(wǎng)信息中獲取最有效的資源成為領(lǐng)域研究的核心問題.傳統(tǒng)的搜索引擎一般只能夠訪問到Surface Web中利用超鏈接可以直接鏈接到的靜態(tài)網(wǎng)頁、文件等資源,對于潛藏在內(nèi)部的具有更高價值的Deep Web數(shù)據(jù)庫信息卻沒有被有效地開發(fā)和利用.因此如何有效地對Deep Web數(shù)據(jù)源進(jìn)行發(fā)掘,從而提供更高質(zhì)量的數(shù)據(jù)服務(wù)勢必成為研究的熱門方向.

    目前Deep Web數(shù)據(jù)源的發(fā)現(xiàn)主要包括兩個步驟[1]:

    1) 利用爬蟲等技術(shù)盡可能多地抓取各個領(lǐng)域的Web網(wǎng)站;

    2) 從獲取到的網(wǎng)站中分類找出含有查詢接口的Web頁面,進(jìn)而提交關(guān)鍵詞進(jìn)行查詢,獲取Deep Web數(shù)據(jù).

    雖然這方面的研究在一定程度上取得了一些進(jìn)展,但仍然存在諸多難題.首先,由于Web數(shù)據(jù)庫是相互獨(dú)立,且處在動態(tài)變化中的,通過抓取Web頁面來獲取數(shù)據(jù)源耗時耗力,雖然一些研究機(jī)構(gòu)利用爬蟲等技術(shù)對Web數(shù)據(jù)庫進(jìn)行了分類和收集,但只覆蓋了其中很小一部分;其次,網(wǎng)頁類型千差萬別,無法設(shè)定一個通用的標(biāo)準(zhǔn)去判斷頁面是否含有查詢接口;第三,該方法的研究只能基于某一特定領(lǐng)域,通用性和可擴(kuò)展性差.

    為了有效地克服上述問題,本文作者從應(yīng)用的角度考慮,設(shè)計了一種基于數(shù)據(jù)庫的實(shí)時Deep Web數(shù)據(jù)源發(fā)現(xiàn)搜索框架,該框架主要包含“數(shù)據(jù)源發(fā)現(xiàn)應(yīng)用程序”模塊和“客戶端數(shù)據(jù)源應(yīng)用程序”模塊,在本地服務(wù)器端和各應(yīng)用網(wǎng)站端通過這兩個模塊實(shí)現(xiàn)數(shù)據(jù)信息的對接和實(shí)時傳送.用戶則在檢索過程中利用“Deep Web數(shù)據(jù)源搜索應(yīng)用程序”模塊實(shí)現(xiàn)數(shù)據(jù)的實(shí)時查詢.

    1 Deep Web數(shù)據(jù)源發(fā)現(xiàn)和分類的基本框架

    1.1 定義框架的主要模塊

    定義1 數(shù)據(jù)源發(fā)現(xiàn)引擎應(yīng)用程序模塊(S_DS Application)是Deep Web數(shù)據(jù)源發(fā)現(xiàn)框架的核心模塊之一,設(shè)計安裝在搜索引擎的本地服務(wù)器上,通過被檢索網(wǎng)站安裝的應(yīng)用程序,與被檢索客戶端網(wǎng)站建立連接,獲取數(shù)據(jù)信息.

    定義2 客戶端數(shù)據(jù)源應(yīng)用程序模塊(C_DS Application)是Deep Web數(shù)據(jù)源發(fā)現(xiàn)框架的核心模塊之一,由被檢索網(wǎng)站即客戶端自行下載安裝,安裝成功后能夠與“數(shù)據(jù)源發(fā)現(xiàn)引擎應(yīng)用程序模塊”建立連接,根據(jù)搜索服務(wù)器需要或在自己資源空閑時定時傳送數(shù)據(jù)信息.

    定義3 數(shù)據(jù)源搜索應(yīng)用程序模塊(S_SE Application)主要用于處理用戶請求,將用戶提交的關(guān)鍵詞進(jìn)行分類,根據(jù)本地存儲的各應(yīng)用網(wǎng)站的分類信息匹配到相應(yīng)的數(shù)據(jù)源客戶端,從而實(shí)現(xiàn)數(shù)據(jù)的檢索,并對查詢結(jié)果進(jìn)行合成.

    1.2 基本框架概述

    在上一節(jié)中提到的三個框架中,S_DS Application模塊將通過C_DS Application模塊接收數(shù)據(jù)源訪問信息,根據(jù)各網(wǎng)站首頁的關(guān)鍵字信息利用同義詞詞林和知網(wǎng)對各應(yīng)用網(wǎng)站進(jìn)行分類,并將各網(wǎng)站的訪問信息和分類信息存放至本地數(shù)據(jù)庫.

    S_SE Application模塊則用于對用戶提交的查詢關(guān)鍵詞進(jìn)行分類,根據(jù)分類信息匹配到相應(yīng)數(shù)據(jù)源,通過S_DS Application模塊和C_DS Application模塊鏈接到各應(yīng)用網(wǎng)站,并對返回的結(jié)果進(jìn)行集成處理,從而實(shí)現(xiàn)數(shù)據(jù)的檢索.

    本文作者提出的實(shí)時數(shù)據(jù)源發(fā)現(xiàn)搜索框架能夠保證對Deep Web信息資源進(jìn)行即時訪問,同時也可以減少維護(hù)大量的數(shù)據(jù)記錄所需要的龐大開銷.通過對各個被檢索網(wǎng)站的分類,保證了信息訪問的高效性.數(shù)據(jù)源發(fā)現(xiàn)和分類的整體框架如圖1所示.

    圖1 實(shí)時的數(shù)據(jù)源發(fā)現(xiàn)和分類框架

    2 Deep Web數(shù)據(jù)源發(fā)現(xiàn)和分類中的關(guān)鍵技術(shù)

    在本文作者提到框架中,S_DS Application模塊與C_DS Application模塊相互建立通信連接,實(shí)現(xiàn)的主要功能有:

    1) 獲取數(shù)據(jù)源訪問信息;

    2) 獲取網(wǎng)站分類;

    3) 實(shí)現(xiàn)數(shù)據(jù)檢索.

    2.1 獲取數(shù)據(jù)源訪問信息

    數(shù)據(jù)源的訪問信息主要包括被訪問網(wǎng)站的IP地址,各應(yīng)用網(wǎng)站可以通過S_SE Application手動輸入網(wǎng)站的訪問信息,或是由S_DS Application自動掃描已安裝S_SE Application的各應(yīng)用網(wǎng)站的訪問信息,建立表結(jié)構(gòu)數(shù)據(jù)(稱之為訪問信息表,即Access_Info表)保存至本地數(shù)據(jù)庫.該Access_Info表包含的表結(jié)構(gòu)如下:

    Access_Info (ID,IPAddress,KeyWords,ClassifyID).

    其中,字段IPAddress為被訪問網(wǎng)站的IP地址,主要用于在實(shí)時搜索過程中鏈接到各應(yīng)用網(wǎng)站;字段KeyWords為通過C_DS Application模塊得到的各網(wǎng)站首頁的關(guān)鍵字.字段ClassifyID為網(wǎng)站分類信息標(biāo)識符,該分類信息的獲取根據(jù)各網(wǎng)站首頁的關(guān)鍵字信息利用知網(wǎng)體系進(jìn)行分類.

    2.2 獲取Web網(wǎng)站分類

    通過對圖書、視頻、航空訂票等領(lǐng)域中的300多個數(shù)據(jù)源網(wǎng)站統(tǒng)計和分析發(fā)現(xiàn):

    1) 在網(wǎng)站首頁的源代碼中,絕大數(shù)關(guān)鍵詞(keywords)(圖2)標(biāo)記含有內(nèi)容,且這部分內(nèi)容往往只出現(xiàn)在某個領(lǐng)域內(nèi),并能夠在一定程度上反映該網(wǎng)站的主題;

    2) 同一領(lǐng)域中標(biāo)記內(nèi)容的keywords有部分相近或相似,不同領(lǐng)域中keywords標(biāo)記的相似屬性內(nèi)容個數(shù)較少.

    受此啟發(fā),提出一種基于主題和網(wǎng)站首頁關(guān)鍵字的數(shù)據(jù)源分類方法,首先建立網(wǎng)站分類詞典,通過計算網(wǎng)站首頁關(guān)鍵詞和網(wǎng)站分類詞典概念之間的相似度將數(shù)據(jù)源網(wǎng)站分門別類.

    主要工作如下:

    1) 建立網(wǎng)站分類詞典;

    2) 對各應(yīng)用網(wǎng)站核心keywords進(jìn)行預(yù)處理;

    3) 借用知網(wǎng)計算相關(guān)概念詞的集合詞語和網(wǎng)站分類詞典的概念相似度.

    2.3 建立網(wǎng)站分類詞典

    在Deep Web數(shù)據(jù)庫中,引入網(wǎng)站分類詞典的概念.利用某些搜索引擎商提供的分類目錄來確定網(wǎng)站分類.由于分類目錄里的主題詞是對現(xiàn)實(shí)世界中各個領(lǐng)域的簡單概括,因此可以利用這些主題詞來描述Deep Web的各個領(lǐng)域信息.使用的分類目錄是由163分類網(wǎng)站(http://www.dmoz163.com/)提供的分類目錄.

    在數(shù)據(jù)庫中創(chuàng)建網(wǎng)站分類詞典(WebClassify_Dict表).該表保存現(xiàn)有的網(wǎng)站分類信息,主要用于計算上文中提到的各應(yīng)用網(wǎng)站keywords與網(wǎng)站分類相關(guān)詞集合的相似度.設(shè)立分類信息(Classifiy)屬性,并建立分類相關(guān)詞集合(Classify_Related),具體表結(jié)構(gòu)信息如下:

    WebClassify_Dict (ClassifyID,Classifiy,Classify_Related).

    其中,字段ClassifyID是用于網(wǎng)站分類的標(biāo)識,字段Classify_Related是根據(jù)網(wǎng)站的分類信息確定的相關(guān)分類詞語集合,對同一類型網(wǎng)站研究發(fā)現(xiàn),同一主題網(wǎng)站的關(guān)鍵詞中都包含有涵蓋該主題內(nèi)容的某一或某幾個屬性詞,選取這些屬性詞作為該類網(wǎng)站的Classify_Related.

    2.4 預(yù)處理網(wǎng)站關(guān)鍵詞

    引入哈工大《同義詞詞林(擴(kuò)展版)》計算關(guān)鍵詞的相關(guān)詞集合,利用語義相似度計算方法[3],獲取各網(wǎng)站的關(guān)鍵詞相關(guān)詞集合,即關(guān)鍵詞集(Keywords_Related),獲取過程如圖3所示.相關(guān)詞集合可以用以下元組構(gòu)成:

    其中,ID為標(biāo)識符,由系統(tǒng)自動生成并唯一表示;Keywords為當(dāng)前網(wǎng)站首頁的關(guān)鍵詞;Relate_Word表示通過同義詞詞林獲得的關(guān)鍵詞相關(guān)詞.

    圖3 基于同義詞林的關(guān)鍵詞集獲取方法

    2.5 相似度計算

    在知網(wǎng)體系中,所有的詞匯都基于“概念”和“義原”來劃分,其中“概念”(也稱“義項”)是知識詞典描述的最基本單元,是對詞匯語義的一種描述;“義原”是描述一個最小概念的不易于再分割的基本元素.每一個概念都是由義原采用四原組的形式加以表示.借鑒參考文獻(xiàn)[3]中的詞語相似度計算方法,利用知網(wǎng)體系來計算網(wǎng)站首頁關(guān)鍵詞的相關(guān)詞集合與網(wǎng)站分類詞典中的分類詞集合的相似度,從而確定各應(yīng)用網(wǎng)站的分類.假設(shè)現(xiàn)有2個詞語W1和W2,W1有m個概念組成,W2有n個概念組成.其中,W1={C11,C12,C13,…,C1m},W2={C21,C22,C23,…,C2m}.計算詞語W1和W2的相似度過程如下:

    1) 首先,獲取義原相似度Sim(S1,S2):義原相似度利用義原間的上下位關(guān)系構(gòu)造的一種樹狀結(jié)構(gòu),通過樹中各個義原節(jié)點(diǎn)之間的相互關(guān)系來計算.中科院劉群等人的公式得到了廣泛應(yīng)用:

    (1)

    2) 其次,利用義原相似度,獲取義項相似度Sim(C1,C2),假設(shè):

    (2)

    其中,在知網(wǎng)的介紹中,把義項分為4個類,在這里i=1到i=4分別為第一基本義原描述、其他基本義原描述、關(guān)系義原描述和關(guān)系符號描述.Simi(S1,S2)為這四類義原描述的相似度,且β1+β2+β3+β4=1.

    3) 最后,根據(jù)兩個詞語概念的任意組合之間的相似度的最大值,得到詞語的相似度:

    (3)

    設(shè)一固定閾值E,如果Sim(W1,W2)≥E,則認(rèn)為關(guān)鍵詞相關(guān)詞和數(shù)據(jù)庫中網(wǎng)站分類詞典中的Classify_Related屬性相匹配,Math(W1,W2)=1;否則Math(W1,W2)值為0,兩者不相干.

    2.6 實(shí)例說明

    為了能夠?qū)W(wǎng)站分類有一個比較清晰的概念,可以先將問題簡單化.根據(jù)上文提到的“飯菜網(wǎng)”(http://www.fancai.com/)對網(wǎng)站分類做一個實(shí)例說明.圖2為網(wǎng)站首頁源代碼中meta標(biāo)簽截取的一部分.具體實(shí)現(xiàn)步驟如下:

    1) 根據(jù)權(quán)重比例獲取網(wǎng)站的核心關(guān)鍵詞.

    通過參考文獻(xiàn)[5]中的同義詞詞林主題詞提取方法計算該網(wǎng)站主題詞中權(quán)重值最高的一個核心關(guān)鍵詞,即“飯菜”.

    2) 獲取核心關(guān)鍵詞的關(guān)鍵詞集(具體獲取過程參照圖3).

    輸入關(guān)鍵詞“飯菜”在同義詞詞林[7]中進(jìn)行查詢,獲取“飯菜”的代碼為“Br03A02=”,根據(jù)參考文獻(xiàn)[8]中相似度的計算公式,得到與當(dāng)前處于同一層的關(guān)鍵詞分別是“Br03A01=飯食”,“Br03A03#主食品”,“Br03A04@抓飯”.“#”代表不等或相近,“@”代表在同義詞林中沒有同義詞也沒有相關(guān)詞,所以,省去“Br03A03#主食品”和“Br03A04@抓飯”.

    3) 通過知網(wǎng)獲取關(guān)鍵詞集合的概念定義集合(DEF),如表1所示.

    表1 DEF集合示例

    根據(jù)集合原理[9],取共同擁有的部分,則關(guān)鍵詞集的DEF={食物,飯}

    4) 根據(jù)上文提到的相似度計算方法,計算核心關(guān)鍵詞的DEF集和網(wǎng)站分類詞典中相關(guān)詞集合(Classify_Related)的DEF集之間的相似度.根據(jù)設(shè)定的閾值,確定該網(wǎng)站的分類.

    2.7 實(shí)現(xiàn)數(shù)據(jù)檢索

    用戶在提交關(guān)鍵詞查詢后,S_SE Application模塊利用上文中提到的知網(wǎng)分類方法對檢索詞語進(jìn)行分類,根據(jù)數(shù)據(jù)庫中的網(wǎng)站分類詞典(即WebClassify_Dict表),自動匹配到相應(yīng)的數(shù)據(jù)源,S_DS Application模塊根據(jù)訪問信息表(Access_Info表)與C_DS Application模塊建立鏈接獲取搜索信息,并通過S_SE Application模塊將查詢結(jié)果進(jìn)行合成處理并將結(jié)果返回給用戶,從而完成整個檢索.具體流程如圖4所示.

    3 數(shù)據(jù)源發(fā)現(xiàn)方法對比

    傳統(tǒng)的Deep Web數(shù)據(jù)源需要通過查詢接口在線訪問站點(diǎn)后端的 Web 數(shù)據(jù)庫得到.Deep Web數(shù)據(jù)庫數(shù)據(jù)提供方式是被動的,該方法的研究需要建立一個有效的Deep Web爬蟲,通過爬蟲跟蹤超鏈接,填寫表單,最后才能獲取和識別結(jié)果頁面.各種各樣的方法被引入用來獲取Deep Web網(wǎng)頁的數(shù)據(jù),簡要回顧先前基于不同程度的自動化數(shù)據(jù)提取工作.

    圖4 數(shù)據(jù)檢索流程

    3.1 人工方法

    在一些人工方法中,編程者通過設(shè)計程序構(gòu)建封裝器,以此來識別并提取所有期望的數(shù)據(jù)元素和數(shù)據(jù)域[10].如常用的比價網(wǎng),主要匯聚特定領(lǐng)域特定產(chǎn)品的相關(guān)信息,以價格比較為鮮明特征呈現(xiàn)給用戶.該數(shù)據(jù)源的獲取方法只是獲取幾個主要的商品網(wǎng)站信息,此方法只能基于有限領(lǐng)域.

    3.2 自動方法

    諸多的研究都集中于爬蟲爬行策略的改進(jìn)上,如實(shí)現(xiàn)網(wǎng)頁表單自動填寫,優(yōu)化數(shù)據(jù)源選擇方式等.這些研究是建立在已經(jīng)獲取到表單接口的前提下進(jìn)行的,文獻(xiàn)[11]針對文本數(shù)據(jù)庫,提出了自動生成查詢的理論框架及生成查詢的策略,通過不斷的提交候選關(guān)鍵詞來獲取Web數(shù)據(jù)庫中的數(shù)據(jù).雖然從一定程度上可以實(shí)現(xiàn)數(shù)據(jù)的自動抽取,但仍然需要用戶提供大量的樣本頁面,還需要定義一定的抽取規(guī)則,目前沒有一個通用的標(biāo)準(zhǔn)去對查詢接口進(jìn)行有效判斷,且該方法都是基于某一領(lǐng)域的,這對主題相關(guān)性以及鏈接的重要性要求都很高.

    作者提出的基于實(shí)時的數(shù)據(jù)源發(fā)現(xiàn)和分類方法能夠克服基于特定領(lǐng)域的局限性,有效地保證信息檢索的時效性.

    4 結(jié)束語

    作者提出了一種新的Deep Web數(shù)據(jù)源發(fā)現(xiàn)方法,系統(tǒng)地介紹了該方法的框架以及相應(yīng)的功能模塊,通過S_DS Application和C_DS Application的相互通信,實(shí)現(xiàn)Deep Web數(shù)據(jù)源的有效發(fā)掘.該方法能夠有效地克服傳統(tǒng)方法基于領(lǐng)域研究的局限性,可以更好地利用Deep Web數(shù)據(jù)庫的結(jié)構(gòu)性特征,方便后續(xù)的集成工作,并能夠大大節(jié)省用戶在檢索時的時間開銷.由于篇幅限制,只是介紹了各個關(guān)鍵模塊實(shí)現(xiàn)的主要功能,模擬簡單數(shù)據(jù)驗證各個功能模塊的實(shí)現(xiàn),但是面對Deep Web后臺龐大的數(shù)據(jù)量,需要一個比較成熟的實(shí)驗平臺去進(jìn)一步驗證模型的完備性和健壯性,這也將是下一步的研究工作.

    [1] Ma D,Wang H H,Zhang X P.Web data source discovery and classification model [J].Computer Technology and Development,2010,20(7):64-67.

    [2] Zhu G W,Wang N B,Wang H B.Deep Web data source classification based on the theme and form properties [J].Journal of Electronics,2013,41(2):260-266.

    [3] Wang X L,Wang Y.Improved word similarity algorithm based on HowNet [J].Computer Applications,2011,31(11):3075-3077.

    [4] Zheng Y Q,Bian Y F,Du X,et al.A Deep web database sampling method based on high correlation keywords [C]//IEEE.Web Information Systems and Applications Conference (WISA),Haikou:IEEE,2012.

    [5] Wang L F.Research on text mining keyword extraction algorithm [D].Hangzhou:Zhejiang University of Technology,2013.

    [6] Cheng Tao,Shi S C,Wang Xia,et al.Key words extraction based Chinese text synonyms CiLin [J].Guangxi Normal University,2007,25(2):145-148.

    [7] Mei J J.TongYiCi CiLin [M].Shanghai:Shanghai Dictionary Publishing House,1996.

    [8] Tian J L,Zhao W.Tongyici CiLin word similarity calculation method [J].Journal of Computer Applications,2010,28(6):602-605.

    [9] Xia H F,Chen J H.Semantic similarity computation based on the Deep Web database queries [J].ITS applications,2014,33(8):64-67.

    [10] Pusdekar S J,Chhaware S P.Using visual clues concept for extracting main data from deep web pages [C]//IEEE.Electronic System Signal Processing and Computing Technologies (ICESC) 2014 International Conference on,Nagpur:IEEE,2014.

    [11] Li X H.Acquisition method based on visual information and DOM tree deep web data research [D].Suzhou:Soochow University,2014.

    Key words: Deep Web; data source; real time; classification

    (責(zé)任編輯:包震宇,郁 慧)

    _Related ={ID,Keywords,Relate_Word}.

    Discovery and classification of deep web data sources

    CHANG Tiantian, CHEN Junhua

    (College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai 200234,China)

    In order to acquire the Deep Web data source information maximally,and classify the data source information effectively,this paper proposes a method of Deep Web data search framework based on the real-time database to facilitate the subsequent data source integration work and the user′s retrieval.The framework designs and installs the S_DS Application module on the local server,the retrieved website installs the C_DS Application module by searching and downloading to achieve the data information connection and real-time transmission.In this framework of the real-time query,in order to ensure retrieval efficiency,this paper uses the classification method combined with Hownet and Tongyici cilin to classify each big retrieved web site.

    2015-04-22

    陳軍華,中國上海市徐匯區(qū)桂林路100號,上海師范大學(xué)信息與機(jī)電工程學(xué)院,郵編:200234,E-mail:chenjh@shnu.edu.cn

    TP 393

    A

    1000-5137(2016)05-0536-07

    10.3969/J.ISSN.1000-5137.2016.05.004

    绵竹市| 富民县| 泉州市| 吴桥县| 长垣县| 千阳县| 四子王旗| 东宁县| 交口县| 铅山县| 潜江市| 兰溪市| 宿松县| 鄱阳县| 寿宁县| 砀山县| 太和县| 二手房| 富宁县| 睢宁县| 江油市| 韶山市| 湖北省| 霸州市| 苍梧县| 丁青县| 石首市| 平顶山市| 兰坪| 乌苏市| 凤台县| 孟州市| 手游| 潍坊市| 买车| 新乐市| 黄大仙区| 郯城县| 进贤县| 抚顺市| 北碚区|