• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于關(guān)鍵詞和支持向量機(jī)的財(cái)務(wù)大數(shù)據(jù)爬蟲

      2016-08-12 15:58:40王燕嘉
      會(huì)計(jì)之友 2016年16期
      關(guān)鍵詞:爬蟲網(wǎng)頁(yè)向量

      王燕嘉

      【摘 要】 從互聯(lián)網(wǎng)上獲取信息進(jìn)行分析,已經(jīng)成為人們進(jìn)行決策的重要手段。有效地從海量數(shù)據(jù)中獲取正確的目標(biāo)信息是當(dāng)前的重點(diǎn)和難點(diǎn)問題。通用搜索引擎檢索的結(jié)果由于主題相關(guān)性不強(qiáng),無(wú)法滿足特定用戶的需求。文章在改進(jìn)SVM參數(shù)尋優(yōu)算法的基礎(chǔ)上,提出了結(jié)合關(guān)鍵詞過(guò)濾算法和適用于大數(shù)據(jù)分類的支持向量機(jī)算法,并利用設(shè)計(jì)的財(cái)務(wù)管理相關(guān)主題信息分類算法,構(gòu)建了財(cái)務(wù)管理相關(guān)主題爬蟲系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,基于關(guān)鍵詞與改進(jìn)支持向量機(jī)的財(cái)務(wù)管理主題相關(guān)爬蟲能有效地采集目標(biāo)信息,能夠較好地適用于財(cái)務(wù)管理輿情管理和財(cái)務(wù)管理危機(jī)管理等相關(guān)領(lǐng)域。

      【關(guān)鍵詞】 大數(shù)據(jù); 主題爬蟲; 關(guān)鍵詞; 支持向量機(jī); 尋優(yōu)算法

      【中圖分類號(hào)】 C939 【文獻(xiàn)標(biāo)識(shí)碼】 A 【文章編號(hào)】 1004-5937(2016)16-0126-07

      一、研究綜述

      由于網(wǎng)絡(luò)技術(shù)的發(fā)展以及互聯(lián)網(wǎng)服務(wù)的提升,大數(shù)據(jù)的容量得以爆發(fā)增長(zhǎng)。據(jù)國(guó)際數(shù)據(jù)公司(IDC)公司統(tǒng)計(jì),2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(1021)。遠(yuǎn)遠(yuǎn)超過(guò)人類有史以來(lái)所有印刷材料的數(shù)據(jù)總量(200PB)[1]。比較通用的搜索引擎如谷歌、百度等,強(qiáng)調(diào)搜索覆蓋面積大,但結(jié)果并不精確。隨著人們對(duì)各項(xiàng)信息服務(wù)的領(lǐng)域細(xì)化要求逐步提高,通用搜索引擎無(wú)法解決精確定位的問題,只能部分實(shí)現(xiàn)資源發(fā)現(xiàn)問題[2]。相對(duì)而言,主題爬蟲能夠以較好的方式,專注于抓取Web中與主題相關(guān)的網(wǎng)頁(yè),能夠根據(jù)特定的網(wǎng)頁(yè)分析算法過(guò)濾掉不相關(guān)的鏈接[3]。與通用搜索引擎相比,減少了對(duì)資源的消耗,并且支持?jǐn)U張性的檢索處理。主體爬蟲核心是能夠過(guò)濾網(wǎng)頁(yè)中的前向鏈接,使爬蟲聚焦在一個(gè)特定主題的Web子集中。通過(guò)某種策略獲取網(wǎng)絡(luò)信息的主題爬蟲,是近年網(wǎng)絡(luò)爬蟲領(lǐng)域的研究重點(diǎn)[4]。能夠高效聚焦的主題爬蟲具有重要的實(shí)際意義。從財(cái)務(wù)管理角度看,財(cái)務(wù)管理為實(shí)現(xiàn)高效決策,從互聯(lián)網(wǎng)上獲取大量相關(guān)輿情信息來(lái)進(jìn)行預(yù)警,已經(jīng)成為財(cái)務(wù)管理風(fēng)險(xiǎn)管理的重要手段。目前財(cái)務(wù)管理采集信息主要還是人工采集為主,不足之處是需要投入一定的人力。提高采集相關(guān)信息效率,即在有限的資源條件下,盡可能有效獲取財(cái)務(wù)管理主題相關(guān)信息,適應(yīng)財(cái)務(wù)管理管理的各維度需求,是財(cái)務(wù)管理信息采集領(lǐng)域重要的研究?jī)?nèi)容。

      傳統(tǒng)的網(wǎng)絡(luò)爬蟲,一般是采取廣度優(yōu)先、深度優(yōu)先或者兩者結(jié)合的策略進(jìn)行網(wǎng)頁(yè)采集。按照傳統(tǒng)的爬蟲策略,優(yōu)點(diǎn)是可以搜集到比較全面的信息,缺點(diǎn)是爬行速度比較慢,而且會(huì)采集大量與目標(biāo)無(wú)關(guān)的網(wǎng)頁(yè)。Chakrabarti[5]最先提出基于樸素貝葉斯分類模型的主題爬蟲。引入分類器的爬蟲可以通過(guò)分類算法實(shí)現(xiàn)預(yù)測(cè)主題的相關(guān)度,而不止停留在關(guān)鍵詞匹配的簡(jiǎn)單計(jì)算上。在獲取大量網(wǎng)絡(luò)數(shù)據(jù)的過(guò)程中,網(wǎng)頁(yè)分類是一項(xiàng)重要而有效的技術(shù)。網(wǎng)頁(yè)分類技術(shù)由計(jì)算機(jī)根據(jù)特定算法自動(dòng)分析網(wǎng)頁(yè)文本內(nèi)容,根據(jù)分析結(jié)果,網(wǎng)頁(yè)將被劃分到事先定義好的類別中。目前有很多文本分類算法,主要是依據(jù)統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法,而支持向量機(jī)(Support Vector Machine,SVM)被普遍認(rèn)為是一個(gè)較理想的分類算法。Gautam Pant[6]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),基于SVM分類模型的主題爬蟲效果較好。目前國(guó)內(nèi)應(yīng)用SVM算法的主題爬蟲中,已經(jīng)有林業(yè)主題爬蟲、機(jī)械主題爬蟲和化學(xué)主題爬蟲等。多數(shù)采用SVM算法的主題爬蟲,為了減少支持向量機(jī)工作量,提高效率,只對(duì)某一主題判斷是非問題,即僅實(shí)現(xiàn)二分類。這種情況存在的原因是SVM不適用于大樣本數(shù)據(jù)集,因?yàn)镾VM參數(shù)尋優(yōu)的時(shí)間過(guò)長(zhǎng)。這就使現(xiàn)有相關(guān)主題爬蟲的應(yīng)用范圍受到極大限制,無(wú)法滿足財(cái)務(wù)管理對(duì)目標(biāo)信息的多維度細(xì)化需求。財(cái)務(wù)管理主題相關(guān)爬蟲把關(guān)鍵詞匹配算法和SVM多分類算法相結(jié)合,在利用關(guān)鍵詞規(guī)律初步減少支持向量機(jī)工作量的同時(shí),對(duì)grid-search算法加以改進(jìn),使SVM能夠處理大數(shù)據(jù)。充分利用SVM算法提高主題爬蟲的準(zhǔn)確率,從而使公司主題相關(guān)爬蟲具有信息維度細(xì)化的性質(zhì),使爬蟲具有更高的適用度。

      二、適用于大數(shù)據(jù)的SVM參數(shù)尋優(yōu)策略

      傳統(tǒng)SVM尋優(yōu)搜索算法有網(wǎng)格搜索法、梯度法、模擬退火和遺傳算法等。網(wǎng)格搜索是參數(shù)優(yōu)化中應(yīng)用最廣的算法。它對(duì)多個(gè)參數(shù)的不同取值的所有組合,采用特定范圍內(nèi)遍歷搜索,可以得到最優(yōu)解,但需要耗費(fèi)大量時(shí)間,以至于無(wú)法應(yīng)用于大規(guī)模數(shù)據(jù)集處理。梯度法收斂速度較快,但又可能陷入局部最優(yōu),而且有目標(biāo)函數(shù)對(duì)參數(shù)可微的限制條件。模擬退火等智能算法條件相對(duì)寬松,但在時(shí)間上相對(duì)太大,得到的解一般是近優(yōu)結(jié)果。如何使SVM能夠?qū)Υ髷?shù)據(jù)集進(jìn)行訓(xùn)練和預(yù)測(cè),解決這個(gè)問題無(wú)外乎兩種途徑,一種是加快尋優(yōu)速度,另一種是縮小參數(shù)尋優(yōu)范圍。目前研究中,劉靖旭等的研究采用啟發(fā)式搜索算法,可以小幅度降低尋優(yōu)時(shí)間。但在大數(shù)據(jù)情況下,這種尋優(yōu)時(shí)間的優(yōu)勢(shì)被淡化,而且有陷入局部最優(yōu)的缺點(diǎn)。李明山等設(shè)計(jì)構(gòu)造均勻試驗(yàn),并采用偏最小二乘法回歸來(lái)分析構(gòu)造評(píng)價(jià)指標(biāo)和各影響因素之間的關(guān)系,而線性和擬線性算法局限于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小。

      就結(jié)果而言,grid-search即網(wǎng)格搜索算法是理想的選擇,通過(guò)將待搜索指數(shù)在一定的空間范圍內(nèi)劃分成網(wǎng)格,對(duì)網(wǎng)格中的所有參數(shù)組合進(jìn)行遍歷。理論上在尋優(yōu)區(qū)間足夠大、步距足夠小的情況下,可以找出全局最優(yōu)解。經(jīng)驗(yàn)表明,在搜索過(guò)程中,大多數(shù)網(wǎng)格中的參數(shù)組合對(duì)應(yīng)的準(zhǔn)確率非常低。準(zhǔn)確率高的參數(shù)組合集中在較小的區(qū)間內(nèi),遍歷的時(shí)間絕大多數(shù)浪費(fèi)在無(wú)效區(qū)間。目前,對(duì)SVM參數(shù)的選擇優(yōu)化算法的研究主要集中在兩個(gè)方向,一個(gè)方向是避免網(wǎng)格搜索耗費(fèi)的時(shí)間,可以利用具體問題的特點(diǎn)或者啟發(fā)信息縮小參數(shù)搜索的范圍,依此縮短參數(shù)尋找耗費(fèi)的時(shí)間。另一個(gè)方向是采用各種智能算法,進(jìn)行參數(shù)組合的深入挖掘,仍然需要對(duì)每一個(gè)參數(shù)組合進(jìn)行訓(xùn)練并且檢驗(yàn)其學(xué)習(xí)精度。在實(shí)際應(yīng)用中發(fā)現(xiàn),這種算法會(huì)比網(wǎng)格搜索更加費(fèi)時(shí)。

      如果在網(wǎng)格搜索算法的基礎(chǔ)上,考慮進(jìn)行多步搜索,可以先在大范圍內(nèi),快速確定最優(yōu)參數(shù)組合的位置,之后大致獲得最優(yōu)參數(shù)組所在的位置,便可以在較小的區(qū)域內(nèi)進(jìn)行遍歷,是提高網(wǎng)格搜索效率的有效途徑。根據(jù)這種思路,目前研究中有先以大步長(zhǎng)在大范圍內(nèi)進(jìn)行搜索,之后在小范圍內(nèi)詳細(xì)搜索;也有采用雙線性模式進(jìn)行粗搜,之后在小范圍內(nèi)詳細(xì)搜的算法。這兩種方法都能夠一定程度上提高網(wǎng)格搜索的效率,但在很大程度上,容易陷入局部最優(yōu)的困境。

      本文設(shè)計(jì)的big-data SVM Grid-search算法,采用基于蒙特卡羅隨機(jī)多重網(wǎng)格搜索算法,它的主要思想是:首先,對(duì)懲罰系數(shù)c和核函數(shù)參數(shù)g確定一個(gè)較大的區(qū)間,之后設(shè)定較小的步長(zhǎng),在這個(gè)區(qū)間內(nèi),采用蒙特卡羅隨機(jī)分布試驗(yàn),設(shè)定n次重復(fù)試驗(yàn);然后,利用K-CV方法對(duì)訓(xùn)練集進(jìn)行測(cè)試,根據(jù)等高線圖看出準(zhǔn)確率最高的參數(shù)組合所在的位置;最后,在確定出來(lái)的小范圍內(nèi),設(shè)定較小的步長(zhǎng),進(jìn)行遍歷搜索,最終確定準(zhǔn)確率最高的參數(shù)組合。在參數(shù)選擇過(guò)程中,最高的分類精度可能對(duì)應(yīng)多組C和g的組合,在這種情況下,一般選擇達(dá)到最高驗(yàn)證分類準(zhǔn)確率中C最小的組合作為最佳參數(shù)組。

      算法1:big-data SVM Grid-search算法

      輸入:區(qū)間范圍和步長(zhǎng)

      輸出:最優(yōu)分類精度C、g組合

      (1)確定網(wǎng)格搜索區(qū)間和搜索步長(zhǎng),在C和g的坐標(biāo)系上構(gòu)造二維空間。

      (2)在二維空間中生成指定數(shù)量蒙特卡羅隨機(jī)點(diǎn)。

      (3)計(jì)算各隨機(jī)點(diǎn)分類精度。

      (4)If出現(xiàn)理想精度。

      {確定較小網(wǎng)格搜索區(qū)間和搜索步長(zhǎng)}

      else return 2)

      (5)構(gòu)造較小網(wǎng)格搜索二維空間。

      (6)逐個(gè)網(wǎng)格計(jì)算參數(shù)分類精度。

      (7)確定最優(yōu)分類參數(shù)組合。

      算法1的目的在于提高SVM在處理大數(shù)據(jù)多分類時(shí)的參數(shù)尋優(yōu)效率,是能夠把SVM多分類引入爬蟲系統(tǒng),并且處理大數(shù)據(jù)的基礎(chǔ)。

      三、財(cái)務(wù)管理主題相關(guān)爬蟲實(shí)現(xiàn)策略

      財(cái)務(wù)管理主題相關(guān)爬蟲采用關(guān)鍵詞分析算法和支持向量機(jī)算法結(jié)合的策略。關(guān)鍵詞分析是基于網(wǎng)頁(yè)內(nèi)容評(píng)價(jià)策略中比較常見的一種算法。關(guān)鍵詞分析算法由專家或者根據(jù)經(jīng)驗(yàn)給出具有代表性的關(guān)鍵詞。根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的出現(xiàn)情況計(jì)算相關(guān)度。對(duì)網(wǎng)頁(yè)的URLs賦予不同的相關(guān)度值,并使爬蟲優(yōu)先爬行相關(guān)度值高的網(wǎng)頁(yè)。關(guān)鍵詞法具有計(jì)算量小的特點(diǎn),在判斷具有單一關(guān)鍵詞的寬泛主題網(wǎng)頁(yè)時(shí)具有較大優(yōu)勢(shì)。缺點(diǎn)是在關(guān)鍵詞不唯一的情況下,多個(gè)關(guān)鍵詞所蘊(yùn)含的真實(shí)主題很難被判斷。

      SVM算法引入爬蟲的分類模型中,將使網(wǎng)頁(yè)的相關(guān)度分析不局限于關(guān)鍵詞匹配的層面,可以深層次地描述財(cái)務(wù)管理關(guān)注的主題信息,能夠獲得更加精確的網(wǎng)頁(yè)主題相關(guān)度。支持向量機(jī)具有增量學(xué)習(xí)和自我學(xué)習(xí)能力,能夠有效解決網(wǎng)頁(yè)內(nèi)容變化迅速而收集困難的難題。當(dāng)前的SVM爬蟲算法中,由于參數(shù)尋優(yōu)在處理大數(shù)據(jù)時(shí)的效率問題,大多采用二類分類算法,即僅關(guān)注一個(gè)主題,只能判斷是或者不是這個(gè)主題。無(wú)法對(duì)主題所涵蓋的更為細(xì)化的維度進(jìn)行分析,難以滿足財(cái)務(wù)管理對(duì)信息獲取的需要,所以這里將采用SVM多分類算法,實(shí)現(xiàn)主題內(nèi)容的詳細(xì)過(guò)濾分析。

      基于關(guān)鍵詞和支持向量機(jī)的財(cái)務(wù)管理主題相關(guān)爬蟲主要由兩部分組成,分別是主題相關(guān)分析和網(wǎng)頁(yè)抓取部分。主題相關(guān)分析部分決定頁(yè)面的取舍和爬取的順序,根據(jù)關(guān)鍵詞來(lái)進(jìn)行優(yōu)先級(jí)排序,初步避免主題漂移[7],并且減少后續(xù)SVM的工作量。之后利用SVM多分類算法分析爬取內(nèi)容,判斷是否屬于相關(guān)信息類別,最終聚焦關(guān)注內(nèi)容。網(wǎng)頁(yè)抓取部分從優(yōu)先級(jí)最高的URLs爬取,相對(duì)于廣度優(yōu)先和深度優(yōu)先結(jié)合的爬蟲,爬取策略變?yōu)閯?dòng)態(tài)主題相關(guān)優(yōu)先策略。具體實(shí)現(xiàn)框架如圖1。

      為了保證爬蟲獲取的網(wǎng)頁(yè)能夠盡量向主題靠攏,提高分類效率,必須對(duì)網(wǎng)頁(yè)進(jìn)行過(guò)濾,將主題相關(guān)度較低的網(wǎng)頁(yè)(小于設(shè)定的閾值)剔除,這樣就不會(huì)在下一步爬行中處理該頁(yè)面中的鏈接。因?yàn)橐粋€(gè)頁(yè)面的主題相關(guān)度如果很低,說(shuō)明該網(wǎng)頁(yè)很可能只是偶爾出現(xiàn)某些關(guān)鍵詞,而頁(yè)面的主題可能和指定主題幾乎沒有什么關(guān)系,處理其中的鏈接意義很小,這是主題爬蟲和普通爬蟲的根本區(qū)別。普通爬蟲是根據(jù)設(shè)定的搜索深度,對(duì)所有鏈接進(jìn)行處理,結(jié)果返回了大量無(wú)用的網(wǎng)頁(yè),而且進(jìn)一步增加了工作量。主題相關(guān)度的計(jì)算是采用余弦度量法。具體的做法統(tǒng)計(jì)網(wǎng)頁(yè)中關(guān)鍵詞出現(xiàn)的頻率,然后與初始的關(guān)鍵詞按照公式cos(α,β)=■

      求余弦值,即可以得到該網(wǎng)頁(yè)的相關(guān)度。其中把關(guān)鍵詞的個(gè)數(shù)n作為空間向量的維數(shù),每個(gè)關(guān)鍵詞的權(quán)值作為每一維分量的大小,主題用向量表示為α=(α1,α2,…,αn),ai=wi對(duì)頁(yè)面進(jìn)行分析,統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的頻率,并求出頻率之比,以出現(xiàn)頻率最高的關(guān)鍵詞為基準(zhǔn),其頻率用i表示,通過(guò)頻率比求出其他關(guān)鍵詞的頻率,則該頁(yè)面對(duì)應(yīng)的向量表示為β=(β1,β2,…,βn)。關(guān)鍵詞約束僅粗略反映了關(guān)注主體的相關(guān)特征目標(biāo),因?yàn)殛P(guān)鍵詞的選擇是一個(gè)主觀的過(guò)程,而且關(guān)鍵詞有時(shí)候會(huì)包含在關(guān)注的各個(gè)主題中,不具有很強(qiáng)的區(qū)別性特征,不能保證所選擇的關(guān)鍵詞精準(zhǔn)反映主體的特征,但是這個(gè)過(guò)濾過(guò)程起到了最大程度上減輕支持向量機(jī)工作量的作用。為了確保是要關(guān)注的相關(guān)信息,加入支持向量機(jī),根據(jù)財(cái)務(wù)管理信息相關(guān)詞典來(lái)進(jìn)行判斷。對(duì)屬于財(cái)務(wù)管理信息分類的網(wǎng)頁(yè),指定一個(gè)閾值r,當(dāng)cos(α,β)>r時(shí)就可以認(rèn)為該頁(yè)面和主題是比較相關(guān)的,r的取值需要根據(jù)經(jīng)驗(yàn)和實(shí)際要求確定,如果想獲得較多的頁(yè)面,可以把r設(shè)小一點(diǎn),要獲得較少的頁(yè)面可以把r設(shè)大一點(diǎn)。

      網(wǎng)頁(yè)數(shù)據(jù)的結(jié)構(gòu)是半結(jié)構(gòu)化的,較之內(nèi)容更加注重格式。如果要表示一個(gè)網(wǎng)頁(yè),需要爬取搜集網(wǎng)頁(yè),然后將網(wǎng)頁(yè)文件轉(zhuǎn)化為文本來(lái)處理。向量空間模型就是其中被普遍承認(rèn)成效較好的一種方法[8]。向量空間模型將文本空間等效為一組由正交相關(guān)的詞條向量所組成的向量空間模型。設(shè)n是文本特征的總和,則可構(gòu)成一個(gè)向量空間,其維數(shù)為n,每個(gè)文本可用一個(gè)n維特征向量來(lái)表示:

      v(d)=(t1,w1(d);t2,w2(d);…tn,wn(d))

      其中詞條項(xiàng)的向量用ti來(lái)表示,ti在文本d中的權(quán)值用wi(d)表示。

      在文本分類中,文本集需要通過(guò)分詞后變成詞集,去掉停用詞得到特征集。此時(shí)的特征集是一個(gè)高維的特征空間,一般情況下需要采取文檔頻率方法、信息增益等進(jìn)行降維。

      四、算法實(shí)現(xiàn)

      為了實(shí)現(xiàn)不同的主題信息獲取,要預(yù)先建立相應(yīng)的財(cái)務(wù)管理相關(guān)主題的語(yǔ)料庫(kù)。一般來(lái)說(shuō)語(yǔ)料庫(kù)的質(zhì)量將對(duì)信息的分類和過(guò)濾產(chǎn)生決定性的影響。財(cái)務(wù)管理主題相關(guān)爬蟲算法主要有以下三個(gè)部分:

      算法2:關(guān)鍵詞匹配算法

      輸入:關(guān)鍵詞和閾值

      輸出:大于閾值的鏈接

      (1)中文分詞。

      (2)統(tǒng)計(jì)關(guān)鍵詞詞頻。

      (3)計(jì)算關(guān)鍵詞網(wǎng)頁(yè)相關(guān)余弦值。

      (4)比較閾值與余弦值。

      (5)if大于閾值,網(wǎng)頁(yè)鏈接插入爬蟲隊(duì)列。

      else 過(guò)濾掉網(wǎng)頁(yè)鏈接

      算法2可以初步鎖定關(guān)注的主題,同時(shí),可以大幅度地減少SVM分類所要處理的數(shù)據(jù)量。

      算法3:SVM模型分類算法

      輸入:語(yǔ)料庫(kù)

      輸出:預(yù)測(cè)結(jié)果

      (1)初始化輸入語(yǔ)料庫(kù)。

      (2)for all語(yǔ)料庫(kù)文件生成向量空間模型do。

      (3)big-data SVM gridsearch尋優(yōu)。

      (4)選擇懲罰因子C和類型權(quán)重r,對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。

      (5)選擇待預(yù)測(cè)集。

      (6)return預(yù)測(cè)結(jié)果D。

      算法3對(duì)爬蟲獲取的結(jié)果進(jìn)行多層次的分類,保證最終獲得目標(biāo)主題的準(zhǔn)確性。

      算法4:基于SVM的主題爬蟲算法

      輸入:初始URLs

      輸出:主題相關(guān)URLs

      (1)關(guān)鍵詞和初始URLs設(shè)置。

      (2)根據(jù)關(guān)鍵詞進(jìn)行URLs排序。

      (3)判斷是否大于閾值。

      (4)if大于閾值。

      {if 經(jīng)過(guò)SVM分類符合目標(biāo) jump to 5)

      else 過(guò)濾掉鏈接}

      else 過(guò)濾掉鏈接

      (5)獲取URLs,return to 2)。

      爬蟲中不同的語(yǔ)料庫(kù)將決定爬取的網(wǎng)頁(yè)類別,設(shè)置的語(yǔ)料庫(kù)可以根據(jù)財(cái)務(wù)管理所需要爬取的目標(biāo)進(jìn)行更換。

      五、實(shí)驗(yàn)分析

      實(shí)驗(yàn)設(shè)計(jì):SVM分類相關(guān)的研究的實(shí)驗(yàn)數(shù)據(jù)是從搜狐網(wǎng)站上提取的網(wǎng)頁(yè)內(nèi)容(一共取得3 000篇文章),經(jīng)過(guò)文本向量空間處理,分成13類,經(jīng)過(guò)訓(xùn)練構(gòu)成分類字典。采用java語(yǔ)言實(shí)現(xiàn)爬蟲,計(jì)算機(jī)環(huán)境為Windows XP系統(tǒng)。

      (一)大數(shù)據(jù)分類器參數(shù)尋優(yōu)實(shí)驗(yàn)分析

      為測(cè)試SVM分類器分類效果,提取390篇文章進(jìn)行訓(xùn)練和測(cè)試,通過(guò)向量空間生成并剔除停用詞向量。最終文本向量分布如圖2。

      390篇文章中35個(gè)向量屬性值分布如圖3。

      實(shí)踐證明,核函數(shù)的參數(shù)g以及懲罰系數(shù)c對(duì)SVM的性能有很大影響,因此這里以均方誤差最小為評(píng)判標(biāo)準(zhǔn),為能夠使big-data SVM grid-search算法和傳統(tǒng)算法進(jìn)行比較,首先采用傳統(tǒng)的網(wǎng)格搜索方法遍歷SVC模型參數(shù)c、g組合(步長(zhǎng)均為1),為方便訓(xùn)練模型,采用libsvm工具箱,模型訓(xùn)練采用svmtrain函數(shù)建模,以svmpredict預(yù)測(cè),搜尋到一組最優(yōu)參數(shù)組合。見圖4。

      從圖5和圖6中可以發(fā)現(xiàn),不同的參數(shù)選擇,對(duì)SVM的分類效果有較大影響。在一定區(qū)間內(nèi),對(duì)應(yīng)的分類準(zhǔn)確率可以達(dá)到很高的水平,而在其他一定區(qū)間內(nèi),有些分類準(zhǔn)確率很低,現(xiàn)實(shí)中是無(wú)法接受的。

      對(duì)比圖5和圖6可以發(fā)現(xiàn),傳統(tǒng)的grid-search算法大量時(shí)間耗費(fèi)在分類準(zhǔn)確率不高的參數(shù)組合區(qū)域。而從圖7和圖8能夠看出,采用big-data SVM grid-search算法的運(yùn)算次數(shù)少,因此耗費(fèi)時(shí)間非常短,而且根據(jù)算法,只要采取多次蒙特卡羅隨機(jī)分布點(diǎn)試驗(yàn),可以取得與傳統(tǒng)算法同等的高精度區(qū)域。

      從粗分等高線圖上可以看出,高精度區(qū)域集中的區(qū)域。在這個(gè)區(qū)域中,為了防止對(duì)最優(yōu)參數(shù)組合的遺漏,可以縮小步長(zhǎng),這里設(shè)步長(zhǎng)為0.5,進(jìn)行在好區(qū)內(nèi)的網(wǎng)格搜索。

      圖4—圖7反映了參數(shù)尋優(yōu)的中間確定好區(qū)的狀態(tài),尋優(yōu)最終結(jié)果通過(guò)圖8和圖9可以發(fā)現(xiàn),Best Cross Validation Accuracy=96.9543% Best c=8 Best g=0.707107,即核函數(shù)參數(shù)取0.7,懲罰因子取8時(shí),能夠獲得最佳的分類準(zhǔn)確度。當(dāng)然,核函數(shù)參數(shù)和懲罰因子在適當(dāng)?shù)姆秶鷥?nèi)取數(shù)所得到的準(zhǔn)確率,大體是都可以接受的。在這個(gè)過(guò)程中,由于大數(shù)據(jù)造成的大范圍搜索已經(jīng)在之前進(jìn)行了處理,在好區(qū)內(nèi)的網(wǎng)格搜索由于區(qū)間范圍已經(jīng)很小,即使進(jìn)行步長(zhǎng)較小的詳細(xì)搜索,也能夠控制大量的計(jì)算過(guò)程和時(shí)間上的耗費(fèi)。

      參數(shù)尋優(yōu)后,根據(jù)最優(yōu)的參數(shù)組合,對(duì)訓(xùn)練文檔之外的文檔集進(jìn)行預(yù)測(cè)。檢驗(yàn)SVM分類的現(xiàn)實(shí)準(zhǔn)確程度。

      實(shí)驗(yàn)中先除去訓(xùn)練用的文檔,對(duì)剩余的進(jìn)行預(yù)測(cè),學(xué)習(xí)誤差如圖10,可以看出,有一部分星點(diǎn)落在了圓圈之外,即有一些預(yù)測(cè)沒有和實(shí)際分類符合,但從整體上來(lái)看,SVC的預(yù)測(cè)準(zhǔn)確率很高,可以認(rèn)為在實(shí)驗(yàn)樣本中,SVM方法可以準(zhǔn)確地區(qū)分文章的所屬類別。

      通過(guò)實(shí)驗(yàn),可以看出在本文設(shè)計(jì)的big-data SVM grid-search算法支持下,避免了SVM在處理大數(shù)據(jù)集分類時(shí)效率太低而導(dǎo)致無(wú)法適應(yīng)實(shí)際應(yīng)用的情況。從此把SVM多分類算法引入爬蟲系統(tǒng),提高主題爬蟲的效率,成為一種可能。

      (二)爬蟲實(shí)驗(yàn)分析

      在根據(jù)關(guān)鍵詞和支持向量機(jī)算法開發(fā)的上市主題相關(guān)爬蟲程序中,假設(shè)某財(cái)務(wù)管理比較關(guān)注云計(jì)算的新聞?dòng)嘘P(guān)的具體網(wǎng)頁(yè),同時(shí)假設(shè)該公司在爬蟲程序中初始網(wǎng)頁(yè)地址設(shè)置為http://cloud.csdn.net/,一級(jí)網(wǎng)址總數(shù)設(shè)置為100個(gè)。關(guān)鍵詞主題相關(guān)度閾值設(shè)置為0.9。關(guān)鍵詞采用(架構(gòu)隱私cloud安全數(shù)據(jù)中心Hadoop虛擬化黑客MapReduce分布式平臺(tái)存儲(chǔ)云計(jì)算數(shù)據(jù)庫(kù)),通過(guò)這些關(guān)鍵詞過(guò)濾后再進(jìn)行SVM分類,然后對(duì)符合條件的URLs進(jìn)行爬取。在程序中設(shè)置跟蹤變量,可以獲取爬取過(guò)程中過(guò)濾情況。當(dāng)采用普通爬蟲算法時(shí),在限定時(shí)間內(nèi)共可以獲得網(wǎng)頁(yè)4 253個(gè)。如果加入關(guān)鍵詞相關(guān)度算法,可以被過(guò)濾掉1 887個(gè)網(wǎng)頁(yè)。因此關(guān)鍵詞算法的加入可以提高44%的效率。在關(guān)鍵詞過(guò)濾的基礎(chǔ)上,通過(guò)SVM進(jìn)行維度的細(xì)分,最終發(fā)現(xiàn)通過(guò)關(guān)鍵詞檢驗(yàn)的網(wǎng)頁(yè)中,汽車類信息1個(gè)網(wǎng)頁(yè),商務(wù)類信息62個(gè),文化類信息1個(gè),健康類信息1個(gè)網(wǎng)頁(yè),房產(chǎn)類213個(gè),IT技術(shù)類370個(gè),教育類1個(gè),軍事類1個(gè),新聞?lì)? 337個(gè)網(wǎng)頁(yè),運(yùn)動(dòng)類370個(gè),旅行類1個(gè),女人話題類1個(gè),娛樂類7個(gè)網(wǎng)頁(yè),從而經(jīng)過(guò)SVM過(guò)濾的爬蟲效率再次提高24%。

      如果財(cái)務(wù)管理要關(guān)注的主題是13個(gè)分類中的其他某一類,將會(huì)過(guò)濾掉更多的無(wú)關(guān)網(wǎng)頁(yè),比如只關(guān)注運(yùn)動(dòng)類,最終將只有370個(gè)有效網(wǎng)頁(yè),其余的無(wú)關(guān)網(wǎng)頁(yè)都將被排除。這說(shuō)明加入了關(guān)鍵詞和SVM算法的財(cái)務(wù)管理主題爬蟲準(zhǔn)確率要遠(yuǎn)高于單純的關(guān)鍵詞算法爬蟲。同時(shí),通過(guò)SVM多分類算法,可以靈活地聚焦于上市所關(guān)注主題的13個(gè)細(xì)化維度,甚至可以根據(jù)所建立的字典,擴(kuò)展至任意多個(gè)維度,如表1。

      六、結(jié)論

      作為網(wǎng)絡(luò)信息獲取工具,爬蟲技術(shù)近年來(lái)被越來(lái)越多的研究者所重視。通過(guò)把關(guān)鍵詞過(guò)濾算法和big-data SVM grid-search算法加入爬蟲程序中,從減少數(shù)據(jù)集總量和快速實(shí)現(xiàn)網(wǎng)格尋優(yōu)的角度,解決了SVM多分類方法處理大數(shù)據(jù)效率低下的問題。構(gòu)造財(cái)務(wù)管理相關(guān)主題爬蟲,通過(guò)實(shí)驗(yàn)表明,基于關(guān)鍵詞和big-data SVM grid-search的主題爬蟲在爬準(zhǔn)率上要明顯高于普通爬蟲,而且能夠通過(guò)主題字典的設(shè)置,滿足財(cái)務(wù)管理對(duì)多層次主題信息的細(xì)化維度采集。

      【參考文獻(xiàn)】

      [1] LI Guo-jie. the scientific value of the big data study [J].China computer society communication,2012.(9):103-105.

      [2] Du An,et al. A decision tree-based web mining system for Chinese pages. Advances of Search Engine and Web Mining in China[M]. Beijing:Higher Education Press.2003.

      [3] HECTOR G M.Crawling the Hidden Web[C]. Proceedings of the 27th International Conference on Very Large Data Bases,September 2001.

      [4] MENCZER F, PANT G. Evaluating Topic- Driven Web Crawlers [C] Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York,2001:9-12.

      [5] CHAKRABARTI B,et al. Indyk.Enhanced hypertext categorization using hyperlinks[C]. Proceedings of the ACM SIGMOD International Conference on Management of Data,1998.

      [6] PANT G,et al. Panorama: Extending digital libraries with topical crawlers[C]. Proceedings of the 2004 Joint ACM/IEEE Conference,2004.

      [7] MENCZER F, et al. Evaluating topic- driven web crawlers[C] //Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York,2001:241-249.

      [8] SALTON G, WONG A, YANG C. A vector space model for automatic indexing[J]. Communications of ACM,1995,18(11): 613-620.

      猜你喜歡
      爬蟲網(wǎng)頁(yè)向量
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
      向量的分解
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      聚焦“向量與三角”創(chuàng)新題
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      向量垂直在解析幾何中的應(yīng)用
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      佳木斯市| 乡城县| 南通市| 佛学| 云龙县| 绥滨县| 东辽县| 邢台市| 绥阳县| 昌江| 奈曼旗| 阿图什市| 墨竹工卡县| 玛沁县| 四会市| 武定县| 平潭县| 额敏县| 上蔡县| 杭州市| 隆昌县| 东源县| 汶川县| 柳河县| 闽侯县| 太仓市| 冀州市| 顺义区| 怀宁县| 科尔| 乌拉特前旗| 四会市| 同仁县| 东光县| 柏乡县| 锡林浩特市| 攀枝花市| 望都县| 仁布县| 灵丘县| 广宁县|