方志民,戴洋洋,董淑珍,李 渤,溫芳馨,宋新航
(黑龍江工程學(xué)院 計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150050)
新聞類垂直搜索引擎系統(tǒng)研究與設(shè)計
方志民,戴洋洋,董淑珍,李 渤,溫芳馨,宋新航
(黑龍江工程學(xué)院 計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150050)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,新聞類信息資源呈現(xiàn)出信息量大且分散、種類多、具有不一致性和不完整性等特點,傳統(tǒng)的通用搜索引擎服務(wù)已不能解決網(wǎng)民對新聞信息獲取要求精、準(zhǔn)、全、快的問題。采用垂直搜索引擎,利用JAVA語言和MYSQL數(shù)據(jù)庫,設(shè)計并實現(xiàn)一個包括網(wǎng)絡(luò)信息爬取、信息存儲、索引創(chuàng)建、索引查詢、頁面查詢與展示等功能的新聞類垂直搜索引擎系統(tǒng)。該系統(tǒng)可以實現(xiàn)人們對新聞類資源信息的無誤定位,具有快速、準(zhǔn)確、實時、實用等特點。
搜索引擎;垂直搜索;新聞搜索;互聯(lián)網(wǎng)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,Internet上的信息量呈爆炸性增長,現(xiàn)實生活中人們經(jīng)常通過搜索關(guān)鍵詞進(jìn)行信息檢索。然而,這種查找方式通常會得到成千上萬條信息,其中包含大量不相關(guān)信息、重復(fù)信息和死鏈接等,用戶在很短的時間內(nèi)很難準(zhǔn)確地篩選出最重要的信息,特別是對于特定行業(yè)的科研和從業(yè)人員,希望通過搜索得到更專業(yè)、更深入和更有價值的信息。
根據(jù)搜索的內(nèi)容范圍,搜索引擎可分為綜合型和專題型檢索工具,即水平搜索引擎與垂直搜索引擎[1]。綜合搜索引擎的資源非常豐富,用戶可以利用它來檢索任何類型的信息資源,但它搜索出的信息內(nèi)容無序,查詢不準(zhǔn)確,有較多的死鏈接,并且深度也不夠。垂直搜索引擎是一種新的搜索引擎服務(wù)模式,主要針對某一特定領(lǐng)域、人群及需求提供有一定價值的信息和相關(guān)服務(wù),其特點就是專、精、深且具有行業(yè)色彩[2-3]。
現(xiàn)今很多大型的網(wǎng)站如Google、Baidu、Yahoo、Bing在綜合搜索引擎方面做出了非常好的范例,從各種角度滿足著個人對信息量的需求。針對行業(yè)的特點,運(yùn)用垂直引擎專門針對旅游愛好者,開發(fā)的去哪兒、攜程、途牛等網(wǎng)站,還有大家比較熟悉的大眾點評網(wǎng)站、高德地圖等等。運(yùn)用垂直引擎開發(fā)的系統(tǒng)和網(wǎng)站追求專業(yè)性與服務(wù)深度,具有重復(fù)率低、相關(guān)性強(qiáng)、查準(zhǔn)率高的特點。新聞信息是一種特殊形態(tài)的信息,新聞標(biāo)題都是以簡短的文句概括新聞內(nèi)容,集中體現(xiàn)新聞的傳播價值。隨著信息化網(wǎng)絡(luò)的日益成熟,紛繁復(fù)雜的網(wǎng)絡(luò)新聞在網(wǎng)絡(luò)媒體中進(jìn)行傳播[4]。對新聞愛好者卻沒有提供功能相對完善的系統(tǒng)和網(wǎng)站,用戶迫切需要一個數(shù)據(jù)分類細(xì)致、精確、全面、更新及時的、面向特征的搜索技術(shù)和方法來獲得新聞資源信息。
1.1 組成結(jié)構(gòu)
垂直搜索引擎主要由網(wǎng)絡(luò)蜘蛛、索引與搜索、Web服務(wù)三大模塊組成,如圖1所示。網(wǎng)絡(luò)蜘蛛也被稱為“網(wǎng)絡(luò)機(jī)器人”(Spider),網(wǎng)絡(luò)蜘蛛模塊主要負(fù)責(zé)網(wǎng)絡(luò)信息提取與存儲[5]。該模塊能夠爬行指定網(wǎng)站,從互聯(lián)網(wǎng)的網(wǎng)頁上抓取所需要的數(shù)據(jù),并將抓取回來的頁面(主要是目標(biāo)網(wǎng)站的基本信息頁面)保存于服務(wù)器中。索引模塊包括索引器和索引數(shù)據(jù)庫、中文分詞子模塊和網(wǎng)頁過濾子模塊。索引器將原始數(shù)據(jù)庫的內(nèi)容重新組織,建立索引數(shù)據(jù)庫,以提高檢索效率。搜索模塊根據(jù)用戶輸入搜索內(nèi)容,搜索程序?qū)⑼ㄟ^索引數(shù)據(jù)庫進(jìn)行檢索,然后把符合查詢要求的數(shù)據(jù)按照特定的策略進(jìn)行分級排列并且返回給用戶。Web服務(wù)模塊負(fù)責(zé)查詢頁面、信息檢索、搜索結(jié)果頁面的展示功能,包括負(fù)責(zé)監(jiān)聽服務(wù)器端口、調(diào)用搜索模塊的接口進(jìn)行查詢等功能。
圖1 垂直搜索引擎的組成結(jié)構(gòu)
1.2 工作原理
新聞類垂直搜索引擎主要有3個基本模塊:網(wǎng)絡(luò)蜘蛛模塊、索引與搜索模塊、Web服務(wù)模塊,在工作原理上同通用搜索引擎基本相同。
網(wǎng)絡(luò)蜘蛛模塊保證在輸入一定搜索關(guān)鍵字之后,對信息進(jìn)行采集,根據(jù)信息的匹配程度,把能夠滿足用戶需求的信息提取出來[6]。模塊又分為Spider模塊和網(wǎng)頁評分模塊。Spider模塊是搜索器,主要依靠主題網(wǎng)絡(luò)爬蟲程序自動爬取符合爬取策略的相關(guān)網(wǎng)頁信息,包括提取網(wǎng)頁中的鏈接信息,為下一次爬取提供網(wǎng)頁地址;提取正文內(nèi)容,存入數(shù)據(jù)庫,以便供索引模塊對其進(jìn)行索引工作。網(wǎng)頁評分模塊根據(jù)文檔的內(nèi)容,判斷文檔的內(nèi)容和主題是否相關(guān),如果相關(guān),在文檔中的標(biāo)題、正文、超鏈接中會有和主題相關(guān)的關(guān)鍵詞,給每個關(guān)鍵詞一個權(quán)重,就能夠訪問和主題相關(guān)的URL[7]。為了實現(xiàn)網(wǎng)絡(luò)信息的定向提取、存儲,本系統(tǒng)采用了Google提出的網(wǎng)頁評分機(jī)制PageRank 算法[8-9],實現(xiàn)了網(wǎng)絡(luò)信息的定向提取、存儲。實踐證明PageRank能夠大幅度地提高檢索之后返回結(jié)果的質(zhì)量。
索引與搜索模塊主要部件是索引器與檢索器。索引器是根據(jù)上述搜索器搜索得到的信息,經(jīng)過一系列的處理得到的關(guān)鍵詞,建立從關(guān)鍵字到網(wǎng)頁URL(統(tǒng)一資源定位器)的關(guān)系索引倒排文檔,即建立索引數(shù)據(jù)庫。同時索引需要及時更新,更新的內(nèi)容存入到索引數(shù)據(jù)庫中。中文分詞模塊采用的是Lucene中文分詞技術(shù),用于構(gòu)建中文搜索引擎。網(wǎng)頁過濾模塊用于對網(wǎng)頁信息進(jìn)行結(jié)構(gòu)化抽取,然后把提取的數(shù)據(jù)進(jìn)行深度加工處理,過濾網(wǎng)頁噪聲。檢索器的功能是根據(jù)用戶輸入的查詢詞,在索引數(shù)據(jù)庫中進(jìn)行查詢詞與索引數(shù)據(jù)庫的匹配算法,然后將查詢結(jié)果按相關(guān)程度排序并輸出到瀏覽器上。
Web服務(wù)模塊搜索引擎大部分都是通過Web服務(wù)向用戶提供搜索功能,這就需要系統(tǒng)提供Web服務(wù)并且與索引數(shù)據(jù)庫進(jìn)行連接??蛻糨斎胨阉鲀?nèi)容在瀏覽器中,Web服務(wù)接收到客戶的搜索內(nèi)容后在索引數(shù)據(jù)庫中進(jìn)行查詢、整理并將其返回給客戶端,實現(xiàn)為用戶提供搜索服務(wù)的功能。
2.1 系統(tǒng)實現(xiàn)
為了驗證提出的新聞類垂直搜索引擎系統(tǒng)的有效性,對所設(shè)計的垂直搜索引擎系統(tǒng)進(jìn)行了模擬實現(xiàn)。網(wǎng)絡(luò)蜘蛛功能首先加載配置文件,讀取配置信息,包括網(wǎng)站種子鏈接、鏈接過濾方式等信息。然后,進(jìn)行初始化操作,包括種子鏈接初始化、數(shù)據(jù)庫鏈接初始化、爬取策略初始化、蜘蛛程序初始化。最后,創(chuàng)建執(zhí)行程序?qū)嵗M(jìn)行信息提取。索引模塊和查詢模塊使用Lucene框架對數(shù)據(jù)庫中各字段數(shù)據(jù)進(jìn)行分詞索引,并使用Lucene提供的查詢功能實現(xiàn)Web查詢[10]。Web服務(wù)功能使用Tomcat作為Web容器,采用JSP進(jìn)行前臺頁面展示,Java進(jìn)行后臺業(yè)務(wù)邏輯運(yùn)算。新聞類搜索引擎的查詢與展示頁面如圖2所示。
圖2 新聞類搜索引擎的查詢與展示頁面
2.2 模型驗證
為了滿足用戶對信息查詢的需求,提高用戶的搜索體驗,覆蓋率和準(zhǔn)確率是兩個非常重要的性能指標(biāo)。但是,由于覆蓋率要涉及整個Web中信息資源的分布情況,在現(xiàn)實測試中一般很難得到,所以不進(jìn)行覆蓋率測試。準(zhǔn)確率是表示網(wǎng)絡(luò)中所采集的相關(guān)網(wǎng)頁數(shù)和所有采集的頁面數(shù)的比率[11]。本文對系統(tǒng)的準(zhǔn)確率、響應(yīng)時間、穩(wěn)定性等進(jìn)行了測試,系統(tǒng)運(yùn)行環(huán)境為:內(nèi)存4 GB、CPU 3.3 GHz、硬盤500 G、網(wǎng)絡(luò)100 M、操作系統(tǒng)Windows 7 、Web服務(wù)器為Tomcat服務(wù)器,系統(tǒng)運(yùn)行1 h后的實驗結(jié)果如表1所示。從表1可以看出,該系統(tǒng)響應(yīng)時間快、系統(tǒng)穩(wěn)定性好、準(zhǔn)確率高。
表1 Spdier準(zhǔn)確率測試數(shù)據(jù)
本文開發(fā)的面向新聞類信息檢索的垂直搜索引擎系統(tǒng)彌補(bǔ)了傳統(tǒng)搜索引擎技術(shù)在新聞檢索領(lǐng)域存在的缺陷,不僅能使新聞用戶從眾多的新聞來源中快速獲取自己想要的信息,還能保證在新聞的完整性以及各種評論等數(shù)據(jù)準(zhǔn)確性的情況下,自動進(jìn)行數(shù)據(jù)的抓取分析,保證用戶能夠?qū)崟r查看新聞的最新相關(guān)消息以及發(fā)展情形。最后,該系統(tǒng)還能對異常情況做出快速處理,具有一定的靈活性。
[1] 陳新顏.垂直搜索引擎辨析[J]. 現(xiàn)代情報,2004, 24(9):133-134.
[2] 季春, 姜琴, 吳錚悅. 垂直搜索引擎關(guān)鍵技術(shù)研究綜述[J]. 情報探索, 2012(10):91-93.
[3] 趙海智. 淺談計算機(jī)技術(shù)在現(xiàn)代社會發(fā)展中的重要性[J]. 中國科教創(chuàng)新導(dǎo)刊, 2012(23):175-175.
[4] 賀立凱. 淺析網(wǎng)絡(luò)新聞標(biāo)題的特色[J]. 北方文學(xué)旬刊, 2015(3):177-178.
[5] 張彧. 基于Nutch的農(nóng)業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D]. 北京:北京郵電大學(xué), 2013.
[6] 徐玲玉, 何利力. 淺析垂直搜索引擎的應(yīng)用[J]. 計算機(jī)光盤軟件與應(yīng)用, 2014(10):101-102.
[7] 張啟宇, 于輝輝, 陳英義,等. 基于農(nóng)業(yè)垂直搜索引擎中文分詞詞典的構(gòu)建研究[J]. 廣東農(nóng)業(yè)科學(xué), 2015, 42(3):165-169.
[8] BRIN S, PAGE L, MOTWAMI R, et al. The PageRank citation ranking: bringing order to the web. Technical Report 199-0120, Computer Science Department, Stanford University, Stanford, CA, 1999.
[9] KAMVAR S D, HAVELIWALA T H, GOLUB G H. Adaptive methods for the computation of PageRank. Linear Algebra Appl, 2004, 386: 51-56.
[10] 宋獻(xiàn)民, 逄煥利, 魏姁妲. 基于lucene的垂直搜索引擎的研究與設(shè)計[J]. 信息技術(shù)與信息化, 2015(1):147-148.
[11] 周屹, 辛壯, 方志民,等. 基于自然交互的教學(xué)輔助系統(tǒng)研究與設(shè)計[J]. 黑龍江工程學(xué)院學(xué)報, 2015(6):38-40.
[責(zé)任編輯:郝麗英]
Research and design of news vertical search engine system
FANG Zhimin,DAI Yangyang,DONG Shuzhen,WEN Fangxin,LI Bo,SONG Xinhang
(College of Computer Science and Technology, Heilongjiang Institute of Technology, Harbin 150050, China)
With the rapid development of Internet technology, news information shows the characteristics of amouts, disperstiveness, variety, inconsistency and incompleteness. Traditional search engine can not cater to the Internet users` need of grabbing information precisely, comprehensively and quickly. This paper uses a vertical search engine, supported by JAVA and MYSQL database, to design and achieve a news search engine system covering network information crawling, information storage, index creation, index query, interface query and display. This system can realize the accurate positioning of information resources, and has the characteristics of being fast, accurate, real-time, practical and so on.
search engine; vertical search; news search; Internet
10.19352/j.cnki.issn1671-4679.2016.06.008
2016-09-20
黑龍江省大學(xué)生創(chuàng)新訓(xùn)練項目(201611802087);黑龍江省大學(xué)生創(chuàng)新訓(xùn)練項目(201511802013)
方志民(1994-),男,本科生,研究方向:網(wǎng)絡(luò)應(yīng)用.
TP391.3
A
1671-4679(2016)06-0035-03