錢(qián)林玉+趙建川+于國(guó)龍+劉小娜+趙江+李林初
摘 要:文中通過(guò)對(duì)垂直搜索引擎原理和關(guān)鍵技術(shù)的研究,開(kāi)發(fā)面向金融借貸的企業(yè)信用度查詢的垂直搜索引擎,實(shí)現(xiàn)放貸公司對(duì)借貸企業(yè)或者公司信用度的查詢。根據(jù)此公司的信用度高低進(jìn)行小額借貸的金額分配,使金融借貸更加成功。實(shí)現(xiàn)借貸之后,跟蹤企業(yè)的信用度,避免借貸用戶對(duì)借款故意拖欠、超額、跑路等現(xiàn)象,體現(xiàn)了垂直搜索引擎的商業(yè)應(yīng)用價(jià)值。文中對(duì)于垂直搜索引擎要面對(duì)和解決的企業(yè)信用度查詢進(jìn)行了分析,并給出了具有實(shí)用性的解決方案。
關(guān)鍵詞:垂直搜索引擎;信用度查詢;金融借貸;金額分配
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2017)03-0-02
0 引 言
隨著金融經(jīng)濟(jì)社會(huì)的發(fā)展,在要求保證企業(yè)信譽(yù)和商品質(zhì)量的前提下,在金融借貸時(shí),通過(guò)將垂直搜索引擎搜索出的信息直接反饋給放貸公司,讓放貸公司對(duì)借貸用戶的信用度進(jìn)行詳細(xì)了解后,就能順利開(kāi)展金融借貸合作[1]。此垂直搜索引擎開(kāi)發(fā),主要能夠讓借貸公司直接查出用戶的公司信用度,根據(jù)此公司的信用度高低進(jìn)行小額借貸的金額分配,使金融借貸成功進(jìn)行[2]。
在當(dāng)代互聯(lián)網(wǎng)迅速發(fā)展的時(shí)代,每天進(jìn)行搜索引擎檢索的網(wǎng)頁(yè)有很多,使搜索引擎系統(tǒng)對(duì)網(wǎng)絡(luò)信息的搜索無(wú)法進(jìn)行準(zhǔn)確、有針對(duì)性的查詢[3]?,F(xiàn)在社會(huì)需要更為準(zhǔn)確的搜索查詢,因此需要借助能夠快速、有針對(duì)性的搜索引擎系統(tǒng)——垂直搜索引擎系統(tǒng)來(lái)搜索。通過(guò)對(duì)企業(yè)信用度的深入了解,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)用于放貸公司方便查詢的垂直搜索引擎系統(tǒng)[4]。在查詢金融信息時(shí)給出解決方案,能夠通過(guò)手機(jī)端垂直搜索引擎證明方案的實(shí)用性和方便性[5]。
1 垂直搜索引擎開(kāi)發(fā)的價(jià)值
1.1 應(yīng)用價(jià)值
此金融借貸垂直搜索引擎的開(kāi)發(fā)主要能夠讓放貸公司直接查出用戶商的公司信用度,根據(jù)此公司的信用度高低進(jìn)行小額借貸時(shí)的金額分配,使本次金融借貸更加成功。實(shí)現(xiàn)借貸后,跟蹤企業(yè)信用度,避免出現(xiàn)借貸用戶對(duì)借款故意拖欠、超額、跑路等現(xiàn)象,體現(xiàn)了垂直搜索引擎平臺(tái)的商業(yè)應(yīng)用價(jià)值[6]。
1.2 技術(shù)價(jià)值
目前在互聯(lián)網(wǎng)領(lǐng)域上的主要搜索引擎服務(wù)商如谷歌、百度等,都為用戶提供橫向的海量信息搜索,這無(wú)法滿足放貸公司對(duì)金融借貸用戶進(jìn)行具體了解的需求,不能實(shí)現(xiàn)系統(tǒng)的具體價(jià)值。垂直搜索引擎作為搜索引擎技術(shù)發(fā)展的一個(gè)分支,通過(guò)對(duì)關(guān)鍵字的搜索,針對(duì)特定信息進(jìn)行全面收集,并組織整理,將提供更加專業(yè)化、個(gè)性化的金融行業(yè)信息服務(wù),滿足放貸公司對(duì)專業(yè)領(lǐng)域信息的搜索需求。
2 垂直搜索引擎的原理和關(guān)鍵技術(shù)
2.1 垂直搜索引擎的原理
垂直搜索引擎系統(tǒng)是相對(duì)通用搜索引擎系統(tǒng)查詢不準(zhǔn)確、信息量大等問(wèn)題提出來(lái)的新型搜索引擎模式,通過(guò)針對(duì)某一領(lǐng)域、某一人群或某一需求提供的具有一定價(jià)值的信息服務(wù)。垂直搜索引擎的特點(diǎn)是“專、精、深”,且具有行業(yè)色彩,如進(jìn)行金融查詢和企業(yè)信用度查詢等,相比較一般搜索引擎的無(wú)序化而言,垂直搜索引擎系統(tǒng)則顯得更加專注、具體和深入。網(wǎng)頁(yè)抓取過(guò)程如圖1所示。
2.2 垂直搜索引擎的關(guān)鍵技術(shù)
2.2.1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)能進(jìn)行頁(yè)面下載和提取的程序,頁(yè)面上往往有我們需要的信息如鏈接、圖片、點(diǎn)評(píng)等,可以在互聯(lián)網(wǎng)上下載網(wǎng)頁(yè)。并且進(jìn)行鏈接提取,初始化為鏈接,然后不斷抓取新的鏈接,在網(wǎng)上獲取初始URL,在抓取網(wǎng)頁(yè)的過(guò)程中,會(huì)不斷從當(dāng)前頁(yè)面上抽取新的URL放入新的隊(duì)列中進(jìn)行URL管理,防止重復(fù)和陷入死循環(huán)[7]。實(shí)現(xiàn)內(nèi)容分析和管理,抽取頁(yè)面上的信息,并存到數(shù)據(jù)庫(kù)或文件系統(tǒng)中。以此為用戶提供最高效的服務(wù),并用HTTP協(xié)議提供服務(wù)[8]。
2.2.2 網(wǎng)絡(luò)爬蟲(chóng)Heritrix
Heritrix網(wǎng)絡(luò)爬蟲(chóng)用Java語(yǔ)言作為基礎(chǔ)進(jìn)行開(kāi)發(fā)設(shè)計(jì),這是一種開(kāi)源性的網(wǎng)絡(luò)爬蟲(chóng),企業(yè)和公司用戶可以使用網(wǎng)絡(luò)爬蟲(chóng)在互聯(lián)網(wǎng)上抓取對(duì)公司有價(jià)值的資源,并且Heritrix有良好的可擴(kuò)展性,方便企業(yè)用戶實(shí)現(xiàn)自己的目的[9]。Heritrix的系統(tǒng)框架如圖2所示。
3 垂直搜索引擎系統(tǒng)的分析與設(shè)計(jì)
本文設(shè)計(jì)實(shí)現(xiàn)的目標(biāo)不僅是放貸公司能夠準(zhǔn)確查詢到金融用戶的信用度,更是一個(gè)準(zhǔn)確的手機(jī)信息檢索的垂直搜索引擎,是一個(gè)實(shí)現(xiàn)準(zhǔn)確、方便、快速查找的信息檢索系統(tǒng)工具。放貸公司用戶只需簡(jiǎn)單輸入借貸公司名稱和信用度等關(guān)鍵詞就能找到相關(guān)信息,為使用者提供最新、最準(zhǔn)確、最全面的信息。搜索引擎的系統(tǒng)結(jié)構(gòu)如圖3所示。
4 系統(tǒng)實(shí)現(xiàn)
整個(gè)搜索系統(tǒng)采用Java語(yǔ)言開(kāi)發(fā),具有良好的跨平臺(tái)和可移植等特性,很容易在PC端、移動(dòng)端等操作系統(tǒng)平臺(tái)之上使用。手機(jī)信息檢索系統(tǒng)的運(yùn)行界面如圖4所示。系統(tǒng)的后臺(tái)主頁(yè)界面如圖5所示。
因?yàn)榉衷~系統(tǒng)器有自帶的詞庫(kù),所以使用“金融”和“信用度”作為關(guān)鍵詞可以很好地進(jìn)行查詢搜索。
5 結(jié) 語(yǔ)
本文論述了面向金融借貸企業(yè)信用度查詢的垂直搜索引擎系統(tǒng)的開(kāi)發(fā)與實(shí)現(xiàn)過(guò)程,以及放貸公司實(shí)現(xiàn)金融借貸的實(shí)施過(guò)程,其目的是企業(yè)用戶在檢索系統(tǒng)時(shí)能夠直觀看到且不受影響,同時(shí)還能專業(yè)的進(jìn)行查詢結(jié)果分析。在金融公司檢索信息的過(guò)程中,可以很快查詢到信用度信息,并基于這些測(cè)試結(jié)果更好地進(jìn)行訪問(wèn)選擇。
參考文獻(xiàn)
[1] Awekar A.C,Jaewoo K.Selective Approach ToHanding Topic Oriented Tasks On The World Wide Web[C].Proceeding of the 2007 IEEE Symposium onComputational intelligence and Data Ming,Honolulu,HI,USA,2007:343-348.
[2] Taker H.Haveliwala. Topic-Sensitive PageRank[J].in Proceedings of the Eleventh Internaional World Wide Web Conference,2002,59 (1):517-526.
[3] A Classification Method for Web Information Extraction[J].Conference on Web Information System and Applications,2004,9(5):823-827.
[4] Kamvar S,Haveliwala T,Golub G.Adaptive methods for the computation of PageRank[J].Linear Algebra and its Application,2003,386(2):51-65.
[5]李亞.垂直搜索引擎的研究與設(shè)計(jì)[D]. 武漢:武漢理工大學(xué),2010.
[6]吳燕瑋.基于行業(yè)知識(shí)垂直搜索引擎的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2012.
[7]張書(shū)江.基于Java的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D].淮南:安徽理工大學(xué),2009.
[8]張亞鳳.垂直搜索引擎中關(guān)鍵技術(shù)的研究[D].長(zhǎng)春:長(zhǎng)春工業(yè)大學(xué),2016.
[9]李亮.基于Lucene和Heritrix的職位垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:中國(guó)地質(zhì)大學(xué)(北京), 2010.