摘 ?要:在電力企業(yè)運(yùn)營(yíng)大數(shù)據(jù)環(huán)境中,企業(yè)財(cái)務(wù)數(shù)據(jù)在公司審計(jì)工作中發(fā)揮著重要作用。財(cái)務(wù)數(shù)據(jù)是企業(yè)進(jìn)行有效財(cái)務(wù)審計(jì)的基礎(chǔ),因此,確保企業(yè)財(cái)務(wù)數(shù)據(jù)的完整性、有效性和準(zhǔn)確性,是財(cái)務(wù)管理工作的關(guān)鍵。文章基于企業(yè)財(cái)務(wù)審計(jì)工作的特點(diǎn),利用網(wǎng)絡(luò)爬蟲技術(shù),提出了企業(yè)大數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)方案。該系統(tǒng)的設(shè)計(jì)從數(shù)據(jù)獲取角度出發(fā),從互聯(lián)網(wǎng)中獲取有效數(shù)據(jù),完成數(shù)據(jù)整合清洗,幫助企業(yè)在審計(jì)工作中及時(shí)發(fā)現(xiàn)漏洞,防止出現(xiàn)財(cái)務(wù)風(fēng)險(xiǎn)等問(wèn)題。
關(guān)鍵詞:財(cái)務(wù)審計(jì);大數(shù)據(jù);爬蟲技術(shù);數(shù)據(jù)采集
中圖分類號(hào):TP311 ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)12-0083-04
Abstract: In the big data environment of power enterprise operation, enterprise financial data plays an important role in company audit. Financial data is the basis for enterprises realizing effective financial audit. Therefore, ensuring the integrity, effectiveness and accuracy of enterprise financial data is the key to financial management. Based on the characteristics of enterprise financial audit, this paper puts forward the design scheme of enterprise big data acquisition system by using web crawler technology. From the perspective of data acquisition, the system is designed to obtain effective data from the internet, completes data integration and cleaning, helps enterprises find loopholes in time in audit work, and prevents financial risks and other problems.
Keywords: financial audit; big data; crawler technology; data acquisition
0 ?引 ?言
現(xiàn)代科學(xué)技術(shù)的不斷進(jìn)步,使人工智能、大數(shù)據(jù)、區(qū)塊鏈等一些創(chuàng)新技術(shù)應(yīng)運(yùn)而生。信息化的快速發(fā)展與企業(yè)財(cái)務(wù)數(shù)據(jù)有效采集之間的矛盾日益凸顯,如果無(wú)法采集到真實(shí)、完整、有效的財(cái)務(wù)數(shù)據(jù),勢(shì)必會(huì)對(duì)企業(yè)審計(jì)工作造成一定障礙[1]。通常情況下,企業(yè)審計(jì)工作的數(shù)據(jù)獲取主要來(lái)源于兩個(gè)方面:一是企業(yè)主動(dòng)向?qū)徲?jì)部門提供的數(shù)據(jù),數(shù)據(jù)的完整性和真實(shí)性難以保證;二是從企業(yè)上級(jí)主管部門、企業(yè)公開(kāi)信息、企業(yè)合作方獲取的數(shù)據(jù)等。但企業(yè)審計(jì)工作中經(jīng)常會(huì)忽略這些網(wǎng)絡(luò)數(shù)據(jù),這些互聯(lián)網(wǎng)數(shù)據(jù)中隱藏的信息在企業(yè)審計(jì)工作中發(fā)揮著不可替代的作用,甚至?xí)淖兤髽I(yè)的審計(jì)結(jié)果。尤其是在經(jīng)濟(jì)市場(chǎng)領(lǐng)域信息化建設(shè)的不斷深入過(guò)程中,企業(yè)審計(jì)工作中對(duì)財(cái)務(wù)數(shù)據(jù)的需求量越來(lái)越大,僅憑企業(yè)主動(dòng)提供的財(cái)務(wù)數(shù)據(jù)很難發(fā)現(xiàn)潛在的漏洞和問(wèn)題,因此,需要不斷創(chuàng)新工作方式,主動(dòng)對(duì)互聯(lián)網(wǎng)數(shù)據(jù)、企業(yè)內(nèi)外部數(shù)據(jù)進(jìn)行采集,分析這些數(shù)據(jù)之間內(nèi)在的關(guān)聯(lián)性,這樣才能盡早發(fā)現(xiàn)問(wèn)題,尋找問(wèn)題線索。綜上所述,只有通過(guò)大數(shù)據(jù)采集系統(tǒng),才能獲取完整有效的企業(yè)財(cái)務(wù)數(shù)據(jù),提高企業(yè)審計(jì)工作的效率。在信息時(shí)代、人工智能時(shí)代,為有效應(yīng)對(duì)海量數(shù)據(jù)帶來(lái)的調(diào)整,本文提出的基于網(wǎng)絡(luò)爬蟲技術(shù)的大數(shù)據(jù)采集系統(tǒng)能夠有效地應(yīng)用于企業(yè)財(cái)務(wù)審計(jì)工作中,防止企業(yè)出現(xiàn)財(cái)務(wù)風(fēng)險(xiǎn),及時(shí)糾正和指導(dǎo)企業(yè)違法違規(guī)行為,提高企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)防控的有效性[2,3]。
1 ?網(wǎng)絡(luò)爬蟲技術(shù)及原理
1.1 ?網(wǎng)絡(luò)爬蟲技術(shù)
網(wǎng)絡(luò)爬蟲技術(shù)(Web Crawler)又稱為網(wǎng)絡(luò)機(jī)器人,屬于一種按照設(shè)計(jì)的規(guī)則自動(dòng)獲取互聯(lián)網(wǎng)數(shù)據(jù)的腳本或程序。網(wǎng)絡(luò)爬蟲技術(shù)可以對(duì)整個(gè)萬(wàn)維網(wǎng)的連接進(jìn)行遍歷,實(shí)現(xiàn)自動(dòng)檢索和定位。網(wǎng)絡(luò)爬蟲技術(shù)可以從某一個(gè)網(wǎng)頁(yè)頁(yè)面開(kāi)始,對(duì)該網(wǎng)頁(yè)中的內(nèi)容進(jìn)行讀取,獲取網(wǎng)頁(yè)中包含的網(wǎng)絡(luò)鏈接,再?gòu)倪@些鏈接中讀取并得到其他鏈接,如此循環(huán)往復(fù),直到抓取完全部網(wǎng)頁(yè)信息[4]。一般情況下,網(wǎng)絡(luò)爬蟲技術(shù)的爬行會(huì)沿著某一個(gè)方向進(jìn)行遍歷[5],網(wǎng)絡(luò)爬蟲流程如圖1所示。
1.2 ?Scrapy網(wǎng)絡(luò)爬蟲框架
Scrapy框架能夠從海量網(wǎng)絡(luò)資源中獲取有效數(shù)據(jù)(包括網(wǎng)頁(yè)資源、歷史資源等),是一種強(qiáng)大的數(shù)據(jù)挖掘應(yīng)用程序。數(shù)據(jù)采集系統(tǒng)中應(yīng)用Scrapy框架的案例比較多,主要是由于Scrapy框架可以從網(wǎng)頁(yè)中獲取大量非結(jié)構(gòu)化數(shù)據(jù),再將這些數(shù)據(jù)結(jié)構(gòu)化;Scrapy框架的代碼結(jié)構(gòu)比較簡(jiǎn)單,易于維護(hù)。因此,Scrapy框架已經(jīng)廣泛應(yīng)用于招聘網(wǎng)站、購(gòu)物網(wǎng)站運(yùn)營(yíng),以及數(shù)據(jù)挖掘領(lǐng)域[6]。
Scrapy框架是基于Twisted編程模型的數(shù)據(jù)處理框架,是通過(guò)Python編程語(yǔ)言實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲框架。Scrapy框架結(jié)構(gòu)分明,擴(kuò)展性強(qiáng),各層次之間的耦合性比較低。Scrapy框架可以快速?gòu)木W(wǎng)頁(yè)中獲取數(shù)據(jù),爬蟲效率高,可配置性強(qiáng)。Scrapy框架在提取結(jié)構(gòu)性數(shù)據(jù)的同時(shí)具有反爬取功能,是目前應(yīng)用最多的網(wǎng)絡(luò)爬蟲框架[7,8]。
2 ?系統(tǒng)設(shè)計(jì)
互聯(lián)網(wǎng)中有價(jià)值的數(shù)據(jù)非常多,對(duì)于公司財(cái)務(wù)審計(jì)工作來(lái)說(shuō),只需獲取與審計(jì)項(xiàng)目相關(guān)的數(shù)據(jù)即可。但是,采用網(wǎng)絡(luò)爬蟲技術(shù)的目的是盡可能擴(kuò)大網(wǎng)頁(yè)爬取范圍,以全面獲取結(jié)構(gòu)化數(shù)據(jù)。然而,如果該過(guò)程沒(méi)有明確的目標(biāo)主題,會(huì)造成網(wǎng)絡(luò)資源和網(wǎng)絡(luò)帶寬的巨大浪費(fèi),所獲取的數(shù)據(jù)也無(wú)法為具體工作帶來(lái)實(shí)際用處。因此,文章選用聚焦網(wǎng)絡(luò)爬蟲技術(shù)對(duì)數(shù)據(jù)采集系統(tǒng)進(jìn)行設(shè)計(jì),聚焦網(wǎng)絡(luò)爬蟲技術(shù)可以預(yù)先設(shè)定主題,按照主題對(duì)網(wǎng)頁(yè)中的鏈接進(jìn)行分析,準(zhǔn)確獲取所需內(nèi)容,進(jìn)而避免獲取與主題無(wú)關(guān)的網(wǎng)頁(yè)數(shù)據(jù)。
2.1 ?聚焦網(wǎng)絡(luò)爬蟲步驟
本文基于聚焦網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行研究,從企業(yè)財(cái)務(wù)審計(jì)角度出發(fā),以審計(jì)項(xiàng)目相關(guān)信息為主題,所設(shè)計(jì)的聚焦網(wǎng)絡(luò)爬蟲的具體流程為:(1)通過(guò)網(wǎng)絡(luò)爬蟲模塊獲取互聯(lián)網(wǎng)中的網(wǎng)頁(yè);(2)分析財(cái)務(wù)審計(jì)項(xiàng)目主題,以及網(wǎng)絡(luò)爬蟲模塊與財(cái)務(wù)審計(jì)項(xiàng)目主題之間的關(guān)聯(lián)性;(3)網(wǎng)絡(luò)爬蟲模塊根據(jù)統(tǒng)計(jì)分析結(jié)果進(jìn)行數(shù)據(jù)處理;(4)按照網(wǎng)頁(yè)權(quán)重設(shè)計(jì)網(wǎng)絡(luò)爬蟲隊(duì)列;(5)網(wǎng)絡(luò)爬蟲模塊主動(dòng)獲取每一個(gè)等待執(zhí)行的URL,如此循環(huán)往復(fù);(6)循環(huán)爬行,直到網(wǎng)絡(luò)爬行隊(duì)列為空。
由此可見(jiàn),聚焦網(wǎng)絡(luò)爬蟲技術(shù)是根據(jù)事先設(shè)定好的具體主題完成數(shù)據(jù)獲取,再對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行匯總。聚焦網(wǎng)絡(luò)爬蟲技術(shù)所獲取的網(wǎng)頁(yè)信息具有較強(qiáng)的相關(guān)性。通過(guò)對(duì)爬取主題的設(shè)定,可以大大節(jié)約網(wǎng)絡(luò)資源和網(wǎng)絡(luò)帶寬,獲取到的數(shù)據(jù)關(guān)聯(lián)性也更強(qiáng),有利于下一步具體工作對(duì)數(shù)據(jù)的高效利用。
2.2 ?網(wǎng)頁(yè)搜索策略
聚焦網(wǎng)絡(luò)爬蟲技術(shù)的搜索策略是最佳優(yōu)先搜索策略,該策略采用性能優(yōu)良的算法,選擇與設(shè)定主題相關(guān)的網(wǎng)頁(yè)鏈接進(jìn)行遍歷,同時(shí)還可以提前設(shè)定優(yōu)先級(jí)別,以先對(duì)優(yōu)先級(jí)別高的網(wǎng)頁(yè)鏈接進(jìn)行爬取。因此,聚焦網(wǎng)絡(luò)最佳優(yōu)先搜索可以視為一種優(yōu)先廣度搜索,在進(jìn)行網(wǎng)絡(luò)爬取的過(guò)程中,其自動(dòng)優(yōu)先選擇對(duì)主題“有用”的網(wǎng)頁(yè),最大限度減少與主題無(wú)關(guān)的網(wǎng)頁(yè)。然而,聚焦網(wǎng)絡(luò)最佳優(yōu)先搜索策略也存在一定的弊端,致使無(wú)法爬取部分有效的網(wǎng)頁(yè)數(shù)據(jù)。
2.3 ?判斷主題相似度
為了有效地節(jié)約時(shí)間成本,避免過(guò)度浪費(fèi)網(wǎng)絡(luò)資源和網(wǎng)絡(luò)帶寬,在使用聚焦網(wǎng)絡(luò)爬蟲技術(shù)的過(guò)程中要提前設(shè)定主題,以達(dá)到從網(wǎng)頁(yè)中獲取有效數(shù)據(jù)的目的。本文選擇了聚焦網(wǎng)絡(luò)最佳優(yōu)先搜索策略,預(yù)先設(shè)定主題,在網(wǎng)絡(luò)爬取的過(guò)程中優(yōu)先獲取最具價(jià)值的URL,將聚焦網(wǎng)絡(luò)爬行主題關(guān)鍵字的權(quán)重表示為TF·IDF。TF指的是網(wǎng)絡(luò)爬取過(guò)程中詞匯出現(xiàn)的頻率,將TF進(jìn)行定義得到式(1):
在進(jìn)行聚焦網(wǎng)絡(luò)爬取的過(guò)程中,根據(jù)情況設(shè)定閾值r。當(dāng)cos〈α,β〉≥r時(shí),判斷為該網(wǎng)頁(yè)頁(yè)面與主題相關(guān)。
2.4 ?關(guān)鍵字多模匹配
Aho算法(Aho-Corasick automaton)于1975年在諾貝爾實(shí)驗(yàn)室提出,屬于一種自動(dòng)機(jī)搜索算法。Aho算法可以為待匹配的所有關(guān)鍵字創(chuàng)建一個(gè)狀態(tài)機(jī),只需對(duì)文本進(jìn)行一次掃描,即可完成關(guān)鍵字匹配工作。一般情況下,在每次計(jì)算時(shí)字符串算法需要重新退回到原始起點(diǎn)位置,因此字符串算法的執(zhí)行效率非常低。但Aho算法可以避免因退回而產(chǎn)生的資源浪費(fèi)。本文大數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)采用的是Aho算法,用于對(duì)關(guān)鍵字進(jìn)行匹配。算法執(zhí)行代碼為:
q:= INIT_ STATE;// root
for i:=1 to m do
while g(q, T[i])=Φdo
q:= f(q);// follow a fail
q= g(q, T[i]);// follow a goto
nodes= q;
while node ≠ root do
if flag(node)≠Φthen print i,out(node);
node:=f(node);// backtracking
end for;
以上代碼在執(zhí)行過(guò)程中主要實(shí)現(xiàn)三個(gè)函數(shù),分別是Goto函數(shù)、Output函數(shù)和Fail函數(shù)。T為目標(biāo)字符串,目標(biāo)字符串的長(zhǎng)度設(shè)為m,q為節(jié)點(diǎn)指針,g為返回節(jié)點(diǎn)到路徑目標(biāo)的下一個(gè)節(jié)點(diǎn)指針,f為回溯節(jié)點(diǎn)指針,flag為標(biāo)志節(jié)點(diǎn)。
2.5 ?主題爬取步驟
本文基于聚焦網(wǎng)絡(luò)爬蟲技術(shù)的大數(shù)據(jù)采集系統(tǒng)對(duì)主題的爬取流程為:
(1)系統(tǒng)初始化,對(duì)主題集合、URL集合、閾值、網(wǎng)絡(luò)爬取深度、爬取數(shù)量進(jìn)行定義。
(2)當(dāng)爬取隊(duì)列中不為空時(shí),將URL置于Scrapy框架中進(jìn)行解析,獲取超文本標(biāo)記語(yǔ)言。
(3)從URL集合中獲取全部超鏈接目標(biāo),對(duì)URL進(jìn)行歸一化處理,放置于爬取隊(duì)列中。
(4)對(duì)URL集合中的網(wǎng)頁(yè)頁(yè)面進(jìn)行一系列處理,包括解碼、降噪、清洗等,得到提取文本。
(5)對(duì)爬取到的文本與主題進(jìn)行關(guān)聯(lián)性判斷,對(duì)有關(guān)聯(lián)的網(wǎng)頁(yè)頁(yè)面數(shù)據(jù)進(jìn)行存儲(chǔ)。
(6)對(duì)新爬取網(wǎng)頁(yè)中的URL進(jìn)行處理后置于爬取隊(duì)列中,按照優(yōu)先級(jí)對(duì)爬取隊(duì)列進(jìn)行排序。
(7)重復(fù)以上步驟,直到獲得的爬取隊(duì)列為空,或者爬取到的數(shù)量已經(jīng)達(dá)到所需數(shù)量。
3 ?基于聚焦網(wǎng)絡(luò)爬蟲的大數(shù)據(jù)采集系統(tǒng)框架設(shè)計(jì)
文章基于聚焦網(wǎng)絡(luò)爬蟲技術(shù),構(gòu)建了大數(shù)據(jù)采集系統(tǒng)框架,如圖2所示。
具體的爬蟲流程為:
(1)針對(duì)企業(yè)財(cái)務(wù)審計(jì)實(shí)際工作需求,確定大數(shù)據(jù)采集來(lái)源,對(duì)企業(yè)官網(wǎng)、合作伙伴官網(wǎng)、政府公開(kāi)信息和各大門戶網(wǎng)站進(jìn)行大數(shù)據(jù)采集。
(2)構(gòu)建初始URL,將其置于爬取隊(duì)列中。
(3)利用Scrapy框架,通過(guò)網(wǎng)絡(luò)搜索引擎調(diào)度器下載網(wǎng)頁(yè)超鏈接文本,再根據(jù)超鏈接文本中包含的主題內(nèi)容,在Scrapy框架中獲取鏈接并加重網(wǎng)頁(yè)頁(yè)面。對(duì)于真實(shí)的網(wǎng)絡(luò)鏈接,采用聚焦網(wǎng)絡(luò)爬蟲技術(shù)Scrapy框架進(jìn)行爬取;對(duì)于渲染網(wǎng)頁(yè)頁(yè)面,則采用模擬瀏覽器的方式獲取數(shù)據(jù)。
(4)對(duì)超鏈接語(yǔ)言文本進(jìn)行鏈接抽取,進(jìn)行與主題關(guān)聯(lián)度的計(jì)算,如果是符合主題要求的鏈接,則將其置于URL種子隊(duì)列中進(jìn)行網(wǎng)絡(luò)爬取。
(5)對(duì)于抽取得到的文本數(shù)據(jù),在對(duì)其進(jìn)行降噪、清洗和核對(duì)后存儲(chǔ)到系統(tǒng)數(shù)據(jù)庫(kù)中。
(6)對(duì)系統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析,以提高企業(yè)財(cái)務(wù)審計(jì)工作效率。
4 ?基于聚焦網(wǎng)絡(luò)爬蟲的大數(shù)據(jù)采集系統(tǒng)的應(yīng)用
天眼查是收錄2億條社會(huì)實(shí)體企業(yè)信息的商業(yè)數(shù)據(jù)庫(kù)應(yīng)用,本文將基于聚焦網(wǎng)絡(luò)爬蟲技術(shù)的大數(shù)據(jù)采集系統(tǒng)應(yīng)用于電力企業(yè)節(jié)能環(huán)保專項(xiàng)資金審計(jì)項(xiàng)目,主要是利用爬蟲技術(shù)對(duì)天眼查中上千家企業(yè)市場(chǎng)監(jiān)管數(shù)據(jù)進(jìn)行采集和分析,如圖3所示。
本文通過(guò)基于聚焦網(wǎng)絡(luò)爬蟲技術(shù)的大數(shù)據(jù)采集系統(tǒng),從天眼查應(yīng)用中獲取上千家企業(yè)工商數(shù)據(jù)信息,通過(guò)數(shù)據(jù)統(tǒng)計(jì)分析,對(duì)電力企業(yè)節(jié)能環(huán)保專項(xiàng)資金中是否存在騙補(bǔ)、偽經(jīng)營(yíng)進(jìn)行有效查處,輔助審計(jì)工作人員進(jìn)行審計(jì)判斷,具有良好的實(shí)踐應(yīng)用效果。
5 ?結(jié) ?論
綜上所述,本文以電力企業(yè)財(cái)務(wù)審計(jì)工作為背景,對(duì)網(wǎng)絡(luò)爬蟲技術(shù)和相關(guān)理論知識(shí)進(jìn)行了研究,提出了基于聚焦網(wǎng)絡(luò)爬蟲技術(shù)的大數(shù)據(jù)采集系統(tǒng)構(gòu)建方案,對(duì)網(wǎng)絡(luò)爬蟲技術(shù)應(yīng)用的具體步驟、網(wǎng)頁(yè)優(yōu)先搜索策略、主題關(guān)聯(lián)性判斷、關(guān)鍵字匹配和主題爬取流程進(jìn)行了詳細(xì)分析,設(shè)計(jì)了基于聚焦網(wǎng)絡(luò)爬蟲技術(shù)的大數(shù)據(jù)采集系統(tǒng)框架,以期能夠?yàn)槠髽I(yè)的財(cái)務(wù)審計(jì)工作提供完整、高效、可靠的數(shù)據(jù)資源。網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用不應(yīng)該是簡(jiǎn)單的數(shù)據(jù)獲取,而是應(yīng)該將網(wǎng)絡(luò)爬蟲技術(shù)與算法模型、數(shù)據(jù)挖掘方法相結(jié)合,在大數(shù)據(jù)、人工智能背景下,充分利用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘、分類挖掘、網(wǎng)頁(yè)異常檢測(cè)等方法,主動(dòng)發(fā)現(xiàn)企業(yè)財(cái)務(wù)審計(jì)工作中存在的問(wèn)題和風(fēng)險(xiǎn)點(diǎn)。同時(shí),還可以利用機(jī)器人規(guī)則和AI交互技術(shù)等,對(duì)網(wǎng)絡(luò)進(jìn)行深度遍歷,分析網(wǎng)絡(luò)社交特征等,從分散的非結(jié)構(gòu)化數(shù)據(jù)中獲取有用的數(shù)據(jù)信息,并對(duì)這些數(shù)據(jù)資源進(jìn)行分類存儲(chǔ),在下一步的工作中不斷挖掘數(shù)據(jù)資源之間的聯(lián)系,預(yù)判數(shù)據(jù)資源的發(fā)展方向。
參考文獻(xiàn):
[1] 肖新鳳,張絳麗,鄧祖民.基于Python的爬蟲技術(shù)的網(wǎng)站設(shè)計(jì)與實(shí)現(xiàn) [J].現(xiàn)代信息科技,2020,4(14):73-75+78.
[2]趙北庚.基于Flask與爬蟲技術(shù)的可視化深度學(xué)習(xí)數(shù)據(jù)標(biāo)注系統(tǒng) [J].電子制作,2020(20):36-37.
[3] 鐘機(jī)靈.基于Python網(wǎng)絡(luò)爬蟲技術(shù)的數(shù)據(jù)采集系統(tǒng)研究 [J].信息通信,2020(4):96-98.
[4] 張澤吾.大數(shù)據(jù)法律保護(hù)模式的比較分析——以全國(guó)首例利用網(wǎng)絡(luò)爬蟲技術(shù)非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)案為例 [J].法制與經(jīng)濟(jì),2020(3):5-6.
[5] 宋小滿,黃鑫,王懷相.基于ASP.NET網(wǎng)絡(luò)爬蟲技術(shù)的公路貨運(yùn)價(jià)格數(shù)據(jù)采集方法研究 [J].鐵道貨運(yùn),2018,36(12):54-58.
[6] 劉貴平,劉娜,段紅義.基于聚焦網(wǎng)絡(luò)爬蟲技術(shù)的人才招聘數(shù)據(jù)采集 [J].電腦編程技巧與維護(hù),2018(5):69-70+75.
[7] 卞偉瑋,王永超,崔立真,等.基于網(wǎng)絡(luò)爬蟲技術(shù)的健康醫(yī)療大數(shù)據(jù)采集整理系統(tǒng) [J].山東大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2017,55(6):47-55.
[8] 張明杰.基于網(wǎng)絡(luò)爬蟲技術(shù)的輿情數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2015(18):72-75.
作者簡(jiǎn)介:閻澤群(1989—),女,漢族,山東淄博人,助理專業(yè)師Ⅱ級(jí),碩士研究生,研究方向:多媒體應(yīng)用系統(tǒng)類交互式界面設(shè)計(jì)與實(shí)施。