• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向信息精準(zhǔn)服務(wù)的檔案大數(shù)據(jù)采集技術(shù)研究

      2022-06-30 08:52:12重慶工貿(mào)職業(yè)技術(shù)學(xué)院譚紅英
      辦公室業(yè)務(wù) 2022年11期
      關(guān)鍵詞:爬蟲(chóng)異構(gòu)精準(zhǔn)

      文/重慶工貿(mào)職業(yè)技術(shù)學(xué)院 譚紅英

      精準(zhǔn)服務(wù)是當(dāng)前檔案機(jī)構(gòu)服務(wù)升級(jí)的重要途徑,而檔案大數(shù)據(jù)采集是檔案信息服務(wù)精準(zhǔn)化實(shí)現(xiàn)首要解決的問(wèn)題,并最終影響著檔案精準(zhǔn)服務(wù)的質(zhì)量。數(shù)字化檔案信息技術(shù)、云計(jì)算技術(shù)、大數(shù)據(jù)技術(shù)、深度學(xué)習(xí)技術(shù)等為主的檔案信息精準(zhǔn)服務(wù)目前頗受學(xué)者青睞。學(xué)者王順指出,在大數(shù)據(jù)環(huán)境下的檔案信息資源建設(shè)不足,檔案信息服務(wù)理念相對(duì)落后,服務(wù)提供相對(duì)粗放,信息服務(wù)缺少對(duì)用戶需求研究的精細(xì)性與針對(duì)性等問(wèn)題。大數(shù)據(jù)時(shí)代下檔案數(shù)字化轉(zhuǎn)型而來(lái)的數(shù)字檔案、電子檔案、多媒體檔案等呈現(xiàn)出了大數(shù)據(jù)的Variety(類型多樣)、Value(價(jià)值密度低)、Volume(容量大)、Velocity(速度快)等特征。然而從檔案信息精準(zhǔn)服務(wù)角度出發(fā),針對(duì)多源異構(gòu)檔案大數(shù)據(jù)進(jìn)行安全高效采集目前尚無(wú)相關(guān)研究。因此,本文從當(dāng)前檔案數(shù)據(jù)采集中存在的問(wèn)題出發(fā),進(jìn)一步提出了改進(jìn)檔案大數(shù)據(jù)采集的技術(shù)策略,以提升檔案信息精準(zhǔn)服務(wù)的質(zhì)量。

      一、檔案大數(shù)據(jù)采集技術(shù)的現(xiàn)狀

      (一)現(xiàn)有信息采集技術(shù)存在局限性。數(shù)據(jù)采集技術(shù)是檔案信息精準(zhǔn)服務(wù)的基礎(chǔ),通過(guò)多種方式從數(shù)據(jù)原始生產(chǎn)環(huán)境來(lái)抓取數(shù)據(jù)并進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和清洗等一系列技術(shù)。目前主流常用的大數(shù)據(jù)采集技術(shù)有日志文件采集技術(shù)、網(wǎng)絡(luò)爬蟲(chóng)技術(shù)、社交網(wǎng)絡(luò)媒體交互技術(shù)等,由于檔案數(shù)據(jù)是大數(shù)據(jù)生態(tài)圈與檔案行業(yè)滲透融合應(yīng)用的實(shí)時(shí)新數(shù)據(jù),因此呈現(xiàn)出碎片化、非結(jié)構(gòu)化及無(wú)序化狀態(tài)等,現(xiàn)有數(shù)據(jù)采集技術(shù)難以采集到精準(zhǔn)服務(wù)的個(gè)性化數(shù)據(jù)。隨著數(shù)據(jù)采集工具的快速發(fā)展,致使檔案數(shù)據(jù)采集出現(xiàn)存儲(chǔ)格式不統(tǒng)一、多樣采集工具同步采集而來(lái)的數(shù)據(jù)記錄重復(fù)而形成冗余信息,甚至由于重要數(shù)據(jù)采集設(shè)備缺失而使檔案數(shù)據(jù)采集遺漏現(xiàn)象等大量問(wèn)題出現(xiàn)。與此同時(shí),數(shù)據(jù)采集設(shè)備日新月異,傳統(tǒng)的數(shù)據(jù)采集技術(shù)不能夠支撐數(shù)據(jù)采集設(shè)備的高傳輸速度、高讀取速度及并行吞吐等的要求,因此目前數(shù)據(jù)采集技術(shù)在面向精準(zhǔn)服務(wù)的基礎(chǔ)數(shù)據(jù)采集時(shí)面臨一些局限性。

      利用大數(shù)據(jù)環(huán)境信息共享便利進(jìn)行信息采集也面臨著訪問(wèn)權(quán)限、數(shù)據(jù)保護(hù)及數(shù)據(jù)安全問(wèn)題。一方面,檔案數(shù)據(jù)采集時(shí)訪問(wèn)權(quán)限的正當(dāng)性、合規(guī)性及合法性等;另一方面,檔案大數(shù)據(jù)采集是通過(guò)互聯(lián)網(wǎng)、檔案信息系統(tǒng)及各種傳感設(shè)備等,然而隨著網(wǎng)絡(luò)安全與數(shù)據(jù)安全的警惕性提高,一些網(wǎng)絡(luò)站點(diǎn)針對(duì)網(wǎng)站信息智能爬取的信息采集技術(shù)構(gòu)筑了反爬蟲(chóng)機(jī)制與技術(shù)防御措施,給檔案數(shù)據(jù)采集造成了一定的困難。同時(shí),檔案由于具有秘密屬性,當(dāng)檔案大數(shù)據(jù)采集歸檔后,其檔案數(shù)據(jù)隱私屬性就已經(jīng)構(gòu)成,檔案信息就面臨數(shù)據(jù)脫敏處理問(wèn)題,并且數(shù)據(jù)采集后在存儲(chǔ)、分析、利用等過(guò)程中也存在著檔案數(shù)據(jù)丟失、泄露、篡改等數(shù)據(jù)安全風(fēng)險(xiǎn)問(wèn)題。

      (二)采集數(shù)據(jù)的多源異構(gòu)性影響檔案歸檔。檔案大數(shù)據(jù)采集后,檔案數(shù)據(jù)面臨著數(shù)據(jù)重復(fù)、多源性和異構(gòu)性等問(wèn)題。當(dāng)前檔案行業(yè)的數(shù)據(jù)采集缺乏統(tǒng)一標(biāo)準(zhǔn),各個(gè)檔案機(jī)構(gòu)采集數(shù)據(jù)內(nèi)容不標(biāo)準(zhǔn)、電子存儲(chǔ)格式不一致、采集數(shù)據(jù)重復(fù)嚴(yán)重、數(shù)據(jù)碎片化程度高以及檔案數(shù)據(jù)采集遺漏現(xiàn)象等,導(dǎo)致現(xiàn)有數(shù)據(jù)采集技術(shù)的信息來(lái)源由于沒(méi)有統(tǒng)一的檔案管理系統(tǒng),從而產(chǎn)生采集數(shù)據(jù)來(lái)源的廣泛性、數(shù)據(jù)結(jié)構(gòu)的多樣性及存儲(chǔ)格式不統(tǒng)一等多源異構(gòu)問(wèn)題,同時(shí)也存在對(duì)傳統(tǒng)檔案進(jìn)行數(shù)字化轉(zhuǎn)型的采集處理過(guò)程中,各個(gè)檔案機(jī)構(gòu)將有價(jià)值的紙質(zhì)檔案轉(zhuǎn)化為可進(jìn)行快捷查詢利用的電子檔案時(shí),出現(xiàn)永久電子保存格式不統(tǒng)一的情況,使得難以實(shí)現(xiàn)對(duì)上述檔案大數(shù)據(jù)集成到同一個(gè)數(shù)據(jù)處理平臺(tái)進(jìn)行精準(zhǔn)數(shù)據(jù)篩選,采集數(shù)據(jù)后的多源異構(gòu)性給檔案集成歸檔帶來(lái)了較大的困擾。

      二、面向信息精準(zhǔn)服務(wù)的檔案大數(shù)據(jù)采集技術(shù)創(chuàng)新

      (一)基于大數(shù)據(jù)平臺(tái)集群的檔案數(shù)據(jù)采集技術(shù)。大數(shù)據(jù)平臺(tái)集群架構(gòu)為檔案信息精準(zhǔn)服務(wù)提供了技術(shù)基礎(chǔ),大數(shù)據(jù)采集技術(shù)賦予了檔案數(shù)據(jù)資源的獲取精確度、集成歸檔完整性與檔案利用的高效性。由于檔案數(shù)據(jù)呈現(xiàn)多源異構(gòu)、數(shù)據(jù)重復(fù)性、數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)傳輸不暢及數(shù)據(jù)“信息孤島”等問(wèn)題,目前的數(shù)據(jù)采集技術(shù)難以應(yīng)對(duì)教育檔案信息精準(zhǔn)服務(wù)的數(shù)據(jù)的實(shí)時(shí)采集,本文探索基于大數(shù)據(jù)Hadoop平臺(tái)集群架構(gòu)上搭建Cloudera公司的Flume與Apache軟件基金會(huì)的開(kāi)源軟件Kafka組成的數(shù)據(jù)采集系統(tǒng),即HDFS+Flume+Kafka的數(shù)據(jù)采集技術(shù),其實(shí)現(xiàn)數(shù)據(jù)采集、傳輸及聚合。Flume+Kafka進(jìn)行數(shù)據(jù)采集后,存儲(chǔ)于HDFS(分布式文件存儲(chǔ)系統(tǒng)),此采集技術(shù)線上線下按照預(yù)設(shè)采集規(guī)則爬取廣泛的檔案信息平臺(tái)系統(tǒng)的檔案數(shù)據(jù),并對(duì)采集的異構(gòu)檔案數(shù)據(jù)分門(mén)別類地進(jìn)行存儲(chǔ)與數(shù)據(jù)類型解析,自動(dòng)進(jìn)行采集主題相關(guān)信息篩選,以此提取采集主題高度相關(guān)的元數(shù)據(jù)及檔案信息數(shù)據(jù),達(dá)到信息個(gè)性化需求的檔案大數(shù)據(jù)精準(zhǔn)化采集目標(biāo)。

      (二)檔案大數(shù)據(jù)采集流程。檔案大數(shù)據(jù)精準(zhǔn)采集不僅需要進(jìn)行大量數(shù)據(jù)采集,還要能夠?qū)Σ杉降臄?shù)據(jù)進(jìn)行精準(zhǔn)篩選,其流程由數(shù)據(jù)獲取、數(shù)據(jù)傳輸、數(shù)據(jù)篩選和數(shù)據(jù)加載四個(gè)環(huán)節(jié)組成,如圖1所示。在采集過(guò)程中,首先要在大數(shù)據(jù)平臺(tái)集群下通過(guò)配置數(shù)據(jù)采集網(wǎng)關(guān),實(shí)現(xiàn)對(duì)檔案大數(shù)據(jù)的實(shí)時(shí)智能化采集,然后開(kāi)放接口使采集數(shù)據(jù)傳輸交互和共享,與此同時(shí),以精準(zhǔn)服務(wù)信息需求為導(dǎo)向?qū)?shí)時(shí)采集到的數(shù)據(jù)進(jìn)行篩選,最后將篩選后的檔案數(shù)據(jù)加載到大數(shù)據(jù)集市中,達(dá)到檔案大數(shù)據(jù)采集驅(qū)動(dòng)檔案信息精準(zhǔn)服務(wù)的目的。

      圖1 教育檔案大數(shù)據(jù)采集流程

      (三)改進(jìn)檔案大數(shù)據(jù)采集技術(shù)策略。檔案大數(shù)據(jù)采集目標(biāo)是為獲得教育個(gè)性化需求的信息,提供精準(zhǔn)的檔案信息服務(wù)。我們?cè)诓杉夹g(shù)策略上不斷改進(jìn),如通過(guò)自然語(yǔ)言處理技術(shù)來(lái)調(diào)整檔案大數(shù)據(jù)采集系統(tǒng)的關(guān)鍵信息、調(diào)整檔案大數(shù)據(jù)實(shí)時(shí)性的伴隨式采集方式等。一是調(diào)整檔案大數(shù)據(jù)采集系統(tǒng)的關(guān)鍵信息,精準(zhǔn)描述用戶采集需求。我們對(duì)采集需求的關(guān)鍵信息通過(guò)自然語(yǔ)言處理技術(shù)從語(yǔ)義層面上進(jìn)行提取,找出用戶采集需求的關(guān)鍵內(nèi)容與采集系統(tǒng)之間的相互關(guān)聯(lián),使系統(tǒng)能準(zhǔn)確地把握用戶采集意圖。通常從檔案用戶需求的語(yǔ)義分析入手,挖掘關(guān)鍵語(yǔ)義后,借助人工智能技術(shù)的機(jī)器學(xué)習(xí)等,提取關(guān)鍵信息的限制與關(guān)聯(lián)關(guān)系,在采集系統(tǒng)中以正則表達(dá)式的方式輸入上述限定與關(guān)鍵信息,從而對(duì)用戶采集需求實(shí)現(xiàn)精準(zhǔn)表達(dá)。同時(shí)對(duì)信息采集規(guī)則以明確、簡(jiǎn)單的方式進(jìn)行設(shè)置,采集條件不宜過(guò)多,描述詞短小以獲取滿意的采集結(jié)果。二是調(diào)整檔案大數(shù)據(jù)采集方式,由集中式變?yōu)榫哂袑?shí)時(shí)性的伴隨式采集和控制訪問(wèn)次數(shù)的分散式采集。集中式采集能夠統(tǒng)一獲取數(shù)據(jù),然而集中式造成在一定時(shí)間里大量頻繁地并發(fā)訪問(wèn)采集目標(biāo)系統(tǒng),采集目標(biāo)網(wǎng)站服務(wù)器會(huì)出現(xiàn)網(wǎng)絡(luò)擁堵,服務(wù)器數(shù)據(jù)并發(fā)處理壓力過(guò)大致使被采集信息系統(tǒng)頻繁出現(xiàn)宕機(jī)。因此,需要注重保護(hù)采集系統(tǒng)在同一時(shí)刻被大量頻繁訪問(wèn),通過(guò)控制訪問(wèn)次數(shù)的采集方式來(lái)保護(hù)采集目標(biāo)。

      (四)采用多種采集技術(shù)手段降低反爬技術(shù)的影響。以多種采集技術(shù)手段應(yīng)對(duì)目前網(wǎng)站反爬蟲(chóng)技術(shù)對(duì)現(xiàn)有采集技術(shù)的影響。首先,擴(kuò)大信息采集的廣泛性和來(lái)源范圍。這里值得注意的是,我們?cè)谶M(jìn)行檔案大數(shù)據(jù)采集時(shí),前提是我們必須明確檔案數(shù)據(jù)采集的訪問(wèn)權(quán)限及允許范圍,在訪問(wèn)權(quán)限內(nèi)合規(guī)地采集檔案數(shù)據(jù)。目前常用的信息采集手段之一是網(wǎng)絡(luò)信息爬蟲(chóng)技術(shù),然而安全警惕性高的網(wǎng)絡(luò)站點(diǎn)針對(duì)信息采集技術(shù)對(duì)網(wǎng)站信息的智能爬取,采取了反爬蟲(chóng)技術(shù)與措施,因此需要從多種技術(shù)手段上進(jìn)行網(wǎng)站反爬蟲(chóng)措施的應(yīng)對(duì),降低反爬技術(shù)對(duì)現(xiàn)有采集信息技術(shù)的影響。如可以通過(guò)采集時(shí)間間隔的實(shí)時(shí)調(diào)整、采取機(jī)器深度學(xué)習(xí)的識(shí)別驗(yàn)證碼解析平臺(tái)、基于代理IP形式、利用爬蟲(chóng)代替用戶去運(yùn)行瀏覽器,并執(zhí)行相關(guān)的操作來(lái)獲取異步數(shù)據(jù)等技術(shù)來(lái)處理與應(yīng)對(duì)反爬網(wǎng)站數(shù)據(jù)技術(shù)。

      三、利用大數(shù)據(jù)ETL技術(shù)實(shí)現(xiàn)多源異構(gòu)采集數(shù)據(jù)集成歸檔

      檔案大數(shù)據(jù)的集成歸檔是采集數(shù)據(jù)進(jìn)入檔案化的階段,“歸檔”后的檔案信息處理、分析后應(yīng)滿足檔案用戶需求的信息精準(zhǔn)服務(wù)。采集檔案數(shù)據(jù)由于冗雜性和離散性,其集成歸檔是對(duì)檔案數(shù)據(jù)提取、轉(zhuǎn)換、加載的過(guò)程。ETL技術(shù)是檔案數(shù)據(jù)集成歸檔的一個(gè)主要手段,它將多源異構(gòu)檔案數(shù)據(jù)源中抽取出所需整合的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗技術(shù)中間層后進(jìn)行轉(zhuǎn)換,按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,最后將數(shù)據(jù)加載到數(shù)據(jù)集市中去。對(duì)于采集后檔案數(shù)據(jù)中的不規(guī)則文本數(shù)據(jù)、檔案系統(tǒng)著錄結(jié)構(gòu)化數(shù)據(jù)等,需要借助自然語(yǔ)言處理技術(shù)進(jìn)行智能化簡(jiǎn)單提煉,對(duì)于半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化檔案數(shù)據(jù)等,需要進(jìn)行轉(zhuǎn)換為后續(xù)數(shù)據(jù)分析處理的結(jié)構(gòu)化數(shù)據(jù),從而集成這些離散性、多源性、異構(gòu)性的檔案采集數(shù)據(jù),再?gòu)念A(yù)處理的數(shù)據(jù)中抽取數(shù)據(jù)利用文本挖掘、精準(zhǔn)化服務(wù)數(shù)據(jù)抓取操作。綜上,利用ETL技術(shù)(即數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗、數(shù)據(jù)裝載技術(shù)進(jìn)行重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、無(wú)用數(shù)據(jù)等進(jìn)行清除與校正)后,提取高質(zhì)量數(shù)據(jù),最后集成于數(shù)據(jù)倉(cāng)庫(kù)中,從而實(shí)現(xiàn)檔案大數(shù)據(jù)集成歸檔。

      四、結(jié)語(yǔ)

      海量異構(gòu)的檔案大數(shù)據(jù)采集是開(kāi)展信息精準(zhǔn)服務(wù)的基礎(chǔ)與前提,檔案機(jī)構(gòu)在采集數(shù)據(jù)獲取、整合、分析后可以準(zhǔn)確掌握用戶個(gè)性化的利用需求,創(chuàng)新檔案大數(shù)據(jù)采集技術(shù)是開(kāi)展信息精準(zhǔn)服務(wù)的關(guān)鍵,涉及大數(shù)據(jù)平臺(tái)集群的搭建、大數(shù)據(jù)采集技術(shù)的流程設(shè)計(jì)、應(yīng)對(duì)網(wǎng)站數(shù)據(jù)采集反爬蟲(chóng)技術(shù)的采集策略優(yōu)化等,基于大數(shù)據(jù)平臺(tái)集群的檔案數(shù)據(jù)采集技術(shù)是重點(diǎn),多源異構(gòu)性采集數(shù)據(jù)的轉(zhuǎn)換和清洗是數(shù)據(jù)集成歸檔的保障。這些海量的檔案大數(shù)據(jù)集成歸檔后,檔案數(shù)據(jù)保密屬性就已經(jīng)構(gòu)成,值得注意的是,需要進(jìn)行數(shù)據(jù)脫敏和保護(hù)檔案數(shù)據(jù)安全,使檔案信息服務(wù)向精準(zhǔn)化方向升級(jí)。

      猜你喜歡
      爬蟲(chóng)異構(gòu)精準(zhǔn)
      利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
      試論同課異構(gòu)之“同”與“異”
      基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
      精準(zhǔn)防返貧,才能穩(wěn)脫貧
      精準(zhǔn)的打鐵
      NBA特刊(2018年11期)2018-08-13 09:29:22
      利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
      精準(zhǔn)扶貧 齊奔小康
      民生周刊(2017年19期)2017-10-25 16:48:02
      精準(zhǔn)扶貧二首
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      異構(gòu)醇醚在超濃縮洗衣液中的應(yīng)用探索
      潜江市| 苏尼特右旗| 新余市| 柏乡县| 和政县| 綦江县| 页游| 彭山县| 镇江市| 周至县| 昌吉市| 密山市| 张北县| 凤山市| 西贡区| 子长县| 马龙县| 全州县| 民丰县| 探索| 六枝特区| 博客| 惠州市| 忻城县| 漳浦县| 图木舒克市| 白水县| 郯城县| 龙南县| 安平县| 剑阁县| 公主岭市| 乃东县| 获嘉县| 肇源县| 武胜县| 五原县| 孟州市| 新巴尔虎左旗| 天峨县| 南通市|