謝建德莊承淮李水平王夢潔
(1.福建省云創(chuàng)集成科技服務(wù)有限公司;2.三明市生產(chǎn)力促進(jìn)中心,福建 三明 365000)
集成化動(dòng)態(tài)信息跟蹤的系統(tǒng)建設(shè)研究
謝建德1莊承淮2李水平1王夢潔1
(1.福建省云創(chuàng)集成科技服務(wù)有限公司;2.三明市生產(chǎn)力促進(jìn)中心,福建 三明 365000)
文章通過對信息收集、信息處理、信息管理與分析的功能實(shí)現(xiàn),介紹了動(dòng)態(tài)信息跟蹤的流程,通過功能的實(shí)現(xiàn)建立了可視化、集成化的動(dòng)態(tài)信息跟蹤系統(tǒng),將來源于不同渠道的信息集成在一個(gè)管理系統(tǒng)中,從而對科技重大專項(xiàng)專題項(xiàng)目中的關(guān)鍵技術(shù)難點(diǎn)提供了解決方案。
集成化;動(dòng)態(tài)信息跟蹤系統(tǒng);知識檢索;信息收集;信息處理;信息管理
通常所建立的信息服務(wù)系統(tǒng)是自己建立信息資源或購買資源用賬號登錄的形式去閱讀,然而信息資源不再是幾個(gè)服務(wù)提供商就能滿足需求的。尤其是現(xiàn)代信息處于爆炸式的發(fā)展,更新速度非???,信息資源分布很廣,因此探索建立一套適合收集互聯(lián)網(wǎng)上的動(dòng)態(tài)信息跟蹤系統(tǒng)是非常必要的。本文以工業(yè)機(jī)器人的信息采集為例進(jìn)行探索,建立一套信息搜索、采集、發(fā)布系統(tǒng)。不僅搜索現(xiàn)有的信息,還將跟蹤這類信息的動(dòng)態(tài),隨時(shí)更新信息。采集的數(shù)據(jù)回到本地服務(wù)器,再對數(shù)據(jù)進(jìn)行去重、篩選、發(fā)布等處理。動(dòng)態(tài)信息跟蹤的最終結(jié)果,是要建立集成化的信息系統(tǒng),為用戶和其他系統(tǒng)提供有價(jià)信息。
“海西裝備云制造關(guān)鍵技術(shù)研發(fā)與應(yīng)用”是科技重大專項(xiàng)專題項(xiàng)目,其中關(guān)鍵技術(shù)難點(diǎn)有一項(xiàng)需求是“整合、集成來自不同主體、不同渠道的多種資源,保證資源屬性的集成性、完整性、一致性、通用性和訪問安全性”。這項(xiàng)需求中不同渠道多種資源的特性,系統(tǒng)中采用建立規(guī)則、多方采集的方式來實(shí)現(xiàn)。對應(yīng)集成性、完整性、一致性、通用性和訪問安全性的需求,系統(tǒng)以自建信息數(shù)據(jù)庫、規(guī)則制定、人工干預(yù)等的形式以及信息管理分析和處理的方法,以達(dá)到關(guān)鍵技術(shù)的解決目標(biāo)。
科技重大專項(xiàng)專題中的動(dòng)態(tài)信息,其信息來源主要來自于互聯(lián)網(wǎng),通過設(shè)定規(guī)則、任務(wù)和采集,將這些信息收集并有效地組織起來,再對這些信息進(jìn)行加工處理,處理后將按照用戶要求的結(jié)構(gòu)形成用戶最需要的信息內(nèi)容。在整個(gè)過程中最核心的是信息收集、信息處理、信息管理與分析部分。信息收集部分要保證信息能夠被收集到。信息處理部分需要將各種格式的信息結(jié)構(gòu)化,并保證信息的有效性、準(zhǔn)確性、無重復(fù)以及信息的變化情況。信息管理與分析部分要對結(jié)構(gòu)化的結(jié)果信息進(jìn)行分析,以便用戶能夠發(fā)現(xiàn)海量數(shù)據(jù)中的價(jià)值,為決策提供更可靠的依據(jù)。
3.1 系統(tǒng)信息收集的方法與流程
3.1.1 網(wǎng)站整理。針對互聯(lián)網(wǎng)中相關(guān)網(wǎng)站,整理出需要收集的信息所在欄目,并匯編成《源網(wǎng)站匯總表》,方便信息的收集和日后信息的管理。
3.1.2 添加網(wǎng)站。在信息查詢管理模塊添加網(wǎng)站的名稱、網(wǎng)址、pr值、狀態(tài)、標(biāo)簽、主辦單位、介紹、結(jié)果類型、分類目錄等。
圖1 動(dòng)態(tài)信息跟蹤流程
3.1.3 制作規(guī)則。通過規(guī)則生成器針對不同的網(wǎng)站或同一網(wǎng)站不同類別信息顯示方式的不同,從源文件中選擇一些通用的標(biāo)記來定位信息的位置,建立統(tǒng)一的格式,以便更系統(tǒng)地管理網(wǎng)站上的數(shù)據(jù)。根據(jù)網(wǎng)頁的源代碼對列表頁進(jìn)行內(nèi)容的截取和標(biāo)記的抽取,選取所抽字段的開始和結(jié)束標(biāo)記,確定采集的范圍和確定的內(nèi)容,抽取標(biāo)題、地址和時(shí)間,并測試是否抽取正確。根據(jù)網(wǎng)頁的源代碼對詳細(xì)內(nèi)容頁進(jìn)行內(nèi)容的截取和標(biāo)記的抽取,選取所抽字段的開始和結(jié)束標(biāo)記,確定采集的范圍和確定的內(nèi)容,抽取信息正文內(nèi)容,并關(guān)聯(lián)列表頁。
3.1.4 制作任務(wù)。利用在規(guī)則生成器里制作的規(guī)則,在數(shù)據(jù)庫中存儲(chǔ)的一條可以采集網(wǎng)站列表中信息的記錄,采集程序調(diào)用這條記錄進(jìn)行數(shù)據(jù)采集,一條記錄叫做一條任務(wù)。任務(wù)的添加和地址編碼、網(wǎng)頁編碼可以調(diào)整。對采集的信息可設(shè)置運(yùn)行時(shí)間,包括手動(dòng)操作或定時(shí)自動(dòng)操作以及設(shè)置下次運(yùn)行時(shí)間。如果網(wǎng)站包含外部鏈接而導(dǎo)致信息無法采集,通過對某些字段的過濾來增強(qiáng)抓取信息的準(zhǔn)確性。還需處理設(shè)置關(guān)鍵詞的提取和去重設(shè)置,對收取的信息根據(jù)目錄進(jìn)行分類。
3.1.5 信息管理。在信息查詢管理工具中,可以查詢添加網(wǎng)站、規(guī)則、任務(wù)所有數(shù)據(jù),也可通過狀態(tài)、ID、名稱、結(jié)果類型(或根據(jù)提供的字段手動(dòng)輸入條件)進(jìn)行查詢。任務(wù)狀態(tài)包括規(guī)則制作完成、規(guī)則制作失敗、等待采集、采集中等,也可修改其狀態(tài)。
3.1.6 信息采集。采集程序從數(shù)據(jù)庫中調(diào)用任務(wù),分別將每條任務(wù)對應(yīng)下的信息以數(shù)據(jù)的形式存儲(chǔ)到數(shù)據(jù)庫,這樣采集程序在這個(gè)過程中就完成了單條任務(wù)到多條信息的轉(zhuǎn)換。當(dāng)信息需要在頁面顯示時(shí),從數(shù)據(jù)庫中調(diào)出該條數(shù)據(jù)即可。采集程序的主要功能主要包括五部分,分別為當(dāng)前狀態(tài)、任務(wù)列表、歷史記錄、運(yùn)行設(shè)置和高級設(shè)置。從當(dāng)前狀態(tài)界面通過完成數(shù)和剩余數(shù)可以查看采集程序運(yùn)行是否正常。任務(wù)列表包括任務(wù)ID、任務(wù)名稱和任務(wù)開始執(zhí)行的時(shí)間。任務(wù)列表顯示的任務(wù)是按照開始時(shí)間升序排列。歷史記錄查看采集程序已經(jīng)執(zhí)行過的任務(wù),包括任務(wù)ID、任務(wù)名稱、任務(wù)的開始時(shí)間和結(jié)束時(shí)間,可設(shè)置和查看程序的執(zhí)行時(shí)間,配置數(shù)據(jù)庫等。
3.2 系統(tǒng)信息處理的方法與流程
去重包括基于來源地址的去重、基于標(biāo)題的去重、基于結(jié)構(gòu)化信息的去重、基于摘要的去重、基于全文內(nèi)容的去重,并可以綜合以上方式進(jìn)行綜合去重。通過篩選信息來源網(wǎng)站、基于鏈接地址過濾、基于標(biāo)題過濾、基于內(nèi)容過濾、基于發(fā)布日期過濾等方式對結(jié)果信息進(jìn)行過濾。利用Html網(wǎng)頁分析技術(shù)和自然語言處理技術(shù)從網(wǎng)頁中提取出網(wǎng)頁主題詞。利用Html網(wǎng)頁分析技術(shù)和自然語言處理技術(shù)對網(wǎng)頁全文內(nèi)容進(jìn)行分析,并形成全文摘要。全文摘要的長度、比例等各項(xiàng)參數(shù)可以靈活定制。
3.3 系統(tǒng)信息管理與分析
統(tǒng)一的管理后臺(tái)可以對用戶、分類目錄和內(nèi)容進(jìn)行有效地管理??稍诤笈_(tái)添加或刪除分類目錄,還可以查看采集的信息是否有誤,并對錯(cuò)誤的信息進(jìn)行修改。系統(tǒng)可以通過信息的來源進(jìn)行分類,還可以根據(jù)自動(dòng)提取的文章主題詞以及權(quán)重,結(jié)合預(yù)定義類別進(jìn)行分類。系統(tǒng)能夠?qū)χ付ǚ秶鷥?nèi)信息的特征關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,得到這些信息的熱門標(biāo)簽,以便快速發(fā)現(xiàn)熱點(diǎn)內(nèi)容。
系統(tǒng)建立后,以工業(yè)機(jī)器人為例進(jìn)行動(dòng)態(tài)信息跟蹤。系統(tǒng)能自動(dòng)將指定網(wǎng)站欄目信息采集到后臺(tái),管理人員再根據(jù)發(fā)布規(guī)則對信息進(jìn)行自動(dòng)發(fā)布或人工發(fā)布。已經(jīng)能滿足科技重大專項(xiàng)專題中的相關(guān)需求,給用戶最全、最新的信息,大大減少人力成本。由于信息來源于不同網(wǎng)站,因此有些信息是由不同部門發(fā)布的,就產(chǎn)生信息重復(fù)的現(xiàn)象。重復(fù)率約10%,目前還沒有有效的自動(dòng)解決方法,而人工去重的成本較大,但不影響系統(tǒng)的運(yùn)營使用。
[1]黃永文,張智雄,吳禎新,謝靖.集成化可視化的知識檢索服務(wù)平臺(tái)建設(shè)[J].科研信息化與應(yīng)用,2013,4(2).
(責(zé)任編輯:黃銀芳)
TP391
1009-2374(2017)07-0031-02
10.13535/j.cnki.11-4406/n.2017.07.014
福建省科技重大專項(xiàng)專題“海西裝備云制造關(guān)鍵技術(shù)研發(fā)與應(yīng)用”(2015HZ0002,2015HZ0002-1)。
謝建德(1964-),男,福建省云創(chuàng)集成科技服務(wù)有限公司工程師,EMBA,研究方向:信息系統(tǒng)、智能信息處理、數(shù)字資源集成等電子信息;莊承淮(1967-),男,三明市生產(chǎn)力促進(jìn)中心副研究員,研究方向:科技咨詢及科技創(chuàng)新服務(wù)平臺(tái)的建設(shè)、管理與服務(wù);李水平(1982-),男,福建省云創(chuàng)集成科技服務(wù)有限公司工程師,研究方向:信息系統(tǒng)、網(wǎng)站程序開發(fā)、計(jì)算機(jī)應(yīng)用;王夢潔(1990-),女,供職于福建省云創(chuàng)集成科技服務(wù)有限公司,研究方向:信息數(shù)據(jù)處理、網(wǎng)站需求分析定位和功能測試等。
A