• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    web信息采集系統(tǒng)的需求分析

    2014-04-29 00:00:00杜素芳

    摘 要:本文對web信息采集系統(tǒng)進(jìn)行需求分析,描述了系統(tǒng)具有的功能,并分析了系統(tǒng)的功能需求和非功能需求。

    關(guān)鍵詞:需求;信息;采集

    中圖分類號:TP274.2

    采用人工方式使用瀏覽器復(fù)制粘貼實現(xiàn)web信息的采集,效率低、錯誤率高。如果采集的信息量大,人工方式根本無法完成。采用web信息采集系統(tǒng)實現(xiàn)web信息的采集與處理是較好的解決問題的辦法。

    1 需求概述

    開發(fā)web信息采集系統(tǒng)的目的是滿足用戶從多個指定網(wǎng)站自動定時地采集文章的信息,包括文章標(biāo)題、正文、作者、時間、來源等,并且能夠分類存儲信息,以滿足信息再利用的目標(biāo)。信息采集程序不能預(yù)測和獲取用戶的準(zhǔn)確需求,所以系統(tǒng)應(yīng)提供給用戶提交需求的平臺,通過此平臺用戶可以及時提交采集任務(wù),告訴采集系統(tǒng)采集什么樣的數(shù)據(jù)。

    Web信息采集系統(tǒng)分為采集配置和采集兩個子系統(tǒng)。如圖一所示。

    圖1 web信息采集系統(tǒng)組成

    采集配置子系統(tǒng)是為了滿足普通用戶提交采集需求的。用戶通過子系統(tǒng)配置目標(biāo)信息的采集任務(wù),包括文章的發(fā)布狀態(tài)、站點名稱地址、所屬欄目、采集時間、采集規(guī)則等多項要求,采集配置子系統(tǒng)還能夠及時開啟和停止采集任務(wù)的執(zhí)行。

    采集子系統(tǒng)完成具體的信息采集工作。它根據(jù)采集配置子系統(tǒng)對采集任務(wù)的設(shè)置,自動對網(wǎng)站信息進(jìn)行采集、抽取、去重,從網(wǎng)頁中抽取大量非結(jié)構(gòu)化的信息保存到結(jié)構(gòu)化的數(shù)據(jù)庫中。

    2 功能需求

    Web信息采集系統(tǒng)功能如圖二所示。

    圖2 web信息采集系統(tǒng)功能結(jié)構(gòu)圖

    采集配置子系統(tǒng)主要完成以下功能:

    (1)采集任務(wù)管理

    實現(xiàn)用戶對采集任務(wù)的增刪改查操作,每一條采集任務(wù)對應(yīng)一個現(xiàn)有欄目,以實現(xiàn)采集內(nèi)容的分類、處理、存儲。

    (2)自動生成抽取規(guī)則

    用戶選擇采集數(shù)據(jù)項,系統(tǒng)即可自動智能生成相應(yīng)的數(shù)據(jù)抽取規(guī)則。當(dāng)配置網(wǎng)頁發(fā)生變化時,抽取規(guī)則需重新生成。

    (3)定制去噪去重規(guī)則

    從網(wǎng)頁獲取到的大量信息中,可能存在用戶不需要的信息,也有重復(fù)性的內(nèi)容,這些信息和內(nèi)容會干擾抽取內(nèi)容的排版及使用,需要對這類信息進(jìn)行去噪去重處理。

    (4)采集任務(wù)開啟停止

    采集任務(wù)可以及時開啟和停止運行,采集任務(wù)配置完成后可以及時加入采集子系統(tǒng)進(jìn)行信息采集工作。

    采集子系統(tǒng)主要完成以下功能:

    (1)動態(tài)采集信息

    用戶對網(wǎng)頁信息的采集要求有很高的時效性,比如對新聞資訊的采集,如果不能及時反饋給用戶,即使是價值很高的信息,也失去了它的意義和價值。所以對信息能夠?qū)崿F(xiàn)動態(tài)采集就很重要,系統(tǒng)應(yīng)具備動態(tài)采集機(jī)制可以實現(xiàn)定時對網(wǎng)站內(nèi)容進(jìn)行自動檢測,及時獲取網(wǎng)站最新信息。

    (2)運行監(jiān)控

    因為信息采集過程是動態(tài)運行,所以系統(tǒng)應(yīng)及時監(jiān)控采集任務(wù)的運行情況。信息采集出現(xiàn)問題,系統(tǒng)應(yīng)及時發(fā)現(xiàn)并反饋給用戶,由用戶根據(jù)問題出現(xiàn)的類別做相應(yīng)處理。

    3 非功能需求

    除了實現(xiàn)web信息采集的功能需求,系統(tǒng)還應(yīng)該滿足用戶以下非功能需求:

    (1)準(zhǔn)確性

    如何從繁復(fù)復(fù)雜的浩瀚信息海洋里準(zhǔn)確獲取到用戶需要的信息,是系統(tǒng)設(shè)計時需要重點考慮的問題。只有能夠準(zhǔn)確獲取信息才能實現(xiàn)用戶對有效信息的再利用。

    (2)高效性

    信息采集系統(tǒng)能夠從眾多站點獲取信息,但用戶需要最短時間準(zhǔn)確獲取自己所需要的信息,所以及時高效的把有效信息呈送到用戶面前,是系統(tǒng)功能是否滿足用戶需求的一個必要的方面。

    (3)易用性

    系統(tǒng)使用的最終客戶是普通的用戶,因此系統(tǒng)使用界面應(yīng)簡單易用,采集任務(wù)的規(guī)則配置也應(yīng)該經(jīng)過簡單培訓(xùn)后就能靈活掌握。

    (4)穩(wěn)定性

    在進(jìn)行采集配置時,不合理的配置規(guī)則系統(tǒng)能夠及時給出提示信息。信息采集過程中,對于不符合規(guī)范的采集配置要求,系統(tǒng)應(yīng)能夠及時糾正。長期使用系統(tǒng)應(yīng)不斷修正以滿足長期穩(wěn)定地工作。

    Web信息采集系統(tǒng)能夠在用戶的簡單配置下實現(xiàn)信息源內(nèi)容的自動采集,為信息的再利用提供了技術(shù)保障。

    參考文獻(xiàn):

    [1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第31次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].http://www.cnnic.cn/gywm/shzr/shzrdt/20130l/t20130115—38518.htm,2013.

    [2]蔡智澄,王志華.搜索引擎的主要特點及其檢索策略[J].現(xiàn)代情報,2005.

    [3]李春旺.信息主題采集技術(shù)研究[J].圖書情報工作,2005.

    [4]陳少飛,郝亞南,李天柱.信息抽取技術(shù)研究進(jìn)展[J].河北大學(xué)學(xué)報(自然科學(xué)版),2003.

    [5]宮進(jìn),胡長軍,曾廣平.互聯(lián)網(wǎng)信息定向采集系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機(jī)應(yīng)用,2007.

    作者簡介:杜素芳(1975-),女,河南濮陽人,講師,碩士,研究方向:軟件工程。

    作者單位:濮陽職業(yè)技術(shù)學(xué)院,河南濮陽 457000

    凤冈县| 武陟县| 安泽县| 乌鲁木齐市| 荣成市| 九寨沟县| 甘洛县| 财经| 大足县| 任丘市| 苏尼特右旗| 保山市| 修文县| 阿克| 平陆县| 济宁市| 开阳县| 安泽县| 苍溪县| 正安县| 龙岩市| 清徐县| 景泰县| 景德镇市| 江阴市| 文山县| 苏尼特左旗| 建瓯市| 托克托县| 上饶县| 尖扎县| 定远县| 乳山市| 襄城县| 荔浦县| 北京市| 永修县| 华安县| 枞阳县| 石狮市| 广汉市|