• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)預處理策略研究

      2024-05-03 05:41:58羅衛(wèi)萍通信作者
      信息記錄材料 2024年3期
      關(guān)鍵詞:分片中間件數(shù)據(jù)源

      季 婷,羅衛(wèi)萍(通信作者)

      (國防科技大學國際關(guān)系學院 江蘇 南京 210039)

      0 引言

      隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)處理尤其是非結(jié)構(gòu)化數(shù)據(jù)的處理成為情報分析工作面臨的一大挑戰(zhàn)。目前大部分數(shù)據(jù)管理理論主要針對結(jié)構(gòu)化數(shù)據(jù),對非結(jié)構(gòu)化數(shù)據(jù)而言,尚缺乏成熟的理論體系支撐,相關(guān)技術(shù)也仍在探索試用階段。本文針對非結(jié)構(gòu)化數(shù)據(jù)在情報分析預處理階段存在的問題,提出若干解決策略,為互聯(lián)網(wǎng)情報分析提供參考。

      1 互聯(lián)網(wǎng)中的非結(jié)構(gòu)化數(shù)據(jù)

      1.1 互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)的特點

      互聯(lián)網(wǎng)中的數(shù)據(jù)按類型可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩種。能夠使用統(tǒng)一的結(jié)構(gòu)加以表示的數(shù)據(jù),稱為結(jié)構(gòu)化數(shù)據(jù);無法使用統(tǒng)一結(jié)構(gòu)表示的數(shù)據(jù),稱為非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)主要包括以下類型:文檔、電子表格、演示文稿、日志等文本文件,電子郵件[1],微博、微信、QQ、Facebook、Twitter、YouTube、Instagram 等社交媒體類數(shù)據(jù)(包括音頻、視頻、圖片、位置等),電話錄音、協(xié)作軟件類等通信數(shù)據(jù),天氣、地形、人員活動等衛(wèi)星影像數(shù)據(jù),地質(zhì)勘探、空間勘探、地震圖像等科學數(shù)據(jù),照片和視頻等在內(nèi)的物聯(lián)網(wǎng)監(jiān)控數(shù)據(jù),交通、海洋等各類傳感器數(shù)據(jù)。

      總體來看,互聯(lián)網(wǎng)中的非結(jié)構(gòu)化數(shù)據(jù)具有以下特點:一是產(chǎn)生速度快,體量巨大。國際數(shù)據(jù)公司的數(shù)據(jù)顯示,2021 年全球產(chǎn)生的數(shù)據(jù)約為83ZB,數(shù)據(jù)增長速度大約為23%,預計到2025 年全球數(shù)據(jù)將增長一倍,達到179.6 ZB左右。其中約有80%的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)[2]。二是異構(gòu)多源。每天產(chǎn)生大量的數(shù)據(jù)中大部分是表現(xiàn)為圖片、視頻、音頻、信號等形態(tài)的非結(jié)構(gòu)化數(shù)據(jù)。格式的多樣性導致數(shù)據(jù)標準也是多樣的。在技術(shù)上,非結(jié)構(gòu)化數(shù)據(jù)的信息化比結(jié)構(gòu)化數(shù)據(jù)的信息化更難理解。三是分散性高。非結(jié)構(gòu)化數(shù)據(jù)遍布于各種異構(gòu)系統(tǒng)中,難以集中存儲和管理,常因“信息孤島”而造成數(shù)據(jù)割裂,從而影響數(shù)據(jù)價值的發(fā)揮。有的系統(tǒng)建設(shè)之初就相互隔離,彼此缺乏橫向數(shù)據(jù)接口,數(shù)據(jù)標準也不統(tǒng)一,即使歸檔后也難以實現(xiàn)有效管理和整合。

      1.2 互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)預處理面臨的挑戰(zhàn)

      為有效利用互聯(lián)網(wǎng)中的非結(jié)構(gòu)化數(shù)據(jù),需要對這些數(shù)據(jù)進行預處理,包括采集、清洗、轉(zhuǎn)換以及分類存儲等。上述環(huán)節(jié)是情報分析得以有效開展的前提和基礎(chǔ),其處理速度、方式和結(jié)果直接影響著情報分析的質(zhì)量和效率。然而,由于非結(jié)構(gòu)化數(shù)據(jù)自身的特點,這類數(shù)據(jù)在預處理時往往面臨諸多困難。

      首先,在采集方面,易受“噪聲”干擾,篩選難度大?;ヂ?lián)網(wǎng)信息數(shù)量龐大,質(zhì)量卻參差不齊。如果不加以鑒別,勢必會生成大量冗余信息,給人或系統(tǒng)增加不必要的處理負擔,直接影響效率。

      其次,在集成方面,數(shù)據(jù)表征不統(tǒng)一,融合難度大。同一實體或?qū)傩栽诓煌瑪?shù)據(jù)源中可能被表示為不同的概念,導致數(shù)據(jù)之間的語義不一致,使得數(shù)據(jù)集成和應用的難度大幅增加。加之互聯(lián)網(wǎng)連接了不同的計算機系統(tǒng),它們在硬件、操作系統(tǒng)、網(wǎng)絡協(xié)議、應用軟件等諸多方面存在差異,互操作性受到很大限制,導致不同系統(tǒng)之間的數(shù)據(jù)集成難度進一步增加。

      最后,在存儲方面,數(shù)據(jù)增長過快,形式多樣,都使存儲遭遇巨大挑戰(zhàn)。海量存儲一般指存儲容量超過PB 級的大規(guī)模存儲,在PB 級及以上量級,使用傳統(tǒng)解決方案存儲、保護、備份和恢復數(shù)據(jù)都是有問題的。此外,數(shù)據(jù)源的多樣化也決定了海量非結(jié)構(gòu)化數(shù)據(jù)的組織方式有其特定的需求。隨著全球數(shù)字化、網(wǎng)絡化進程加速,教育、辦公、娛樂、社交等場景實現(xiàn)從線下向線上遷徙,數(shù)據(jù)存儲技術(shù)的高效性、廉價性和安全性比以往更加重要。

      2 互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)預處理策略

      針對互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)預處理面臨的難點問題,可以從采集、集成和存儲3 個環(huán)節(jié)入手,分別采取相應策略使現(xiàn)有技術(shù)的應用得到優(yōu)化,更好地實現(xiàn)其功能。

      2.1 數(shù)據(jù)采集策略

      2.1.1 確定情報搜集的寬度和維度

      對互聯(lián)網(wǎng)信息進行有效篩選,必須合理制定采集方案、設(shè)定采集目的,預設(shè)多個采集主題,根據(jù)實際需求定向?qū)ふ仪閳笤?,使其與情報需求的內(nèi)容、功能、流程相適應,形成結(jié)構(gòu)合理、層次清晰的情報采集目錄清單,才能最大限度地提升采集效率。因此,在數(shù)據(jù)采集之前,要確定情報搜集的寬度和維度。

      確定情報搜集寬度,是指根據(jù)實際需求對數(shù)據(jù)源在網(wǎng)絡的分布情況進行梳理,初步限定目標網(wǎng)站。主要聚焦3類目標網(wǎng)站:新聞資訊(重大門戶網(wǎng)站)、對象國主要政府及各類重大官方網(wǎng)站(政府、軍隊、科研機構(gòu)、高校院所、知名企業(yè)等)、主流社交媒體(社交輿情、行業(yè)討論、個人言論等)。

      確定情報搜集維度是指確定每次搜集任務的標簽,如圖1 所示。對每個具體的情報搜集任務來說,要將之分解成若干個對應的研究對象,每個對象按標簽進行情報搜集,包括:①數(shù)據(jù)源。確定情報搜集的主要來源,如新聞資訊、官方網(wǎng)站和主流社交媒體。②搜索關(guān)鍵字。通過關(guān)鍵字搜索,數(shù)據(jù)源的過濾,得到最終的情報數(shù)據(jù)。③時間維度。查詢數(shù)據(jù)庫中的歷史相關(guān)數(shù)據(jù),確定數(shù)據(jù)采集工具的采集周期和更新周期,為關(guān)聯(lián)分析做好準備。④熱度。從新聞熱度、社交熱度和行業(yè)熱度3 個方面考量,按相關(guān)事件或人物的熱度排名按序搜索。⑤輿情評論。收集研究對象的輿情評論。

      圖1 任務搜集維度

      2.1.2 兼顧抓取頁面的覆蓋率與時新性

      對于現(xiàn)有的數(shù)據(jù)采集模塊來說,還不存在哪個搜索引擎有能力將互聯(lián)網(wǎng)上出現(xiàn)的所有網(wǎng)頁都下載并建立索引,所有搜索引擎只能索引互聯(lián)網(wǎng)的一部分。因此對于重點國家、重點人物、重點地域的情報進行重點時段的重點采集,必須維持合適的網(wǎng)頁覆蓋率,保證一定的情報搜集寬度。

      另一方面,抓取頁面的時新性也是重要的考量因素。網(wǎng)絡數(shù)據(jù)具有傳播速度快、更新快的特點。當數(shù)據(jù)采集模塊抓取到本地的網(wǎng)頁,原網(wǎng)頁很有可能已經(jīng)發(fā)生變化,或者被刪除,或者內(nèi)容被更改,因為爬蟲抓取完一輪需要較長的時間周期,所以抓取到的網(wǎng)頁當中必然會有一部分是過期的數(shù)據(jù),即不能在網(wǎng)頁變化后第一時間反映到網(wǎng)頁庫中。因此,在數(shù)據(jù)采集模塊中,必須對各數(shù)據(jù)源設(shè)定合適的更新時間閾值,且該閾值能夠根據(jù)情報搜集任務的調(diào)整而靈活調(diào)整。

      2.2 數(shù)據(jù)集成策略

      所謂數(shù)據(jù)集成,也可稱為數(shù)據(jù)融合,是為了解決數(shù)據(jù)的分布性和異構(gòu)性而把不同來源的數(shù)據(jù)整合到一起,實現(xiàn)使用戶能夠以“透明”的方式對數(shù)據(jù)進行訪問,并保證高效安全地訪問數(shù)據(jù)的目標,為數(shù)據(jù)分析與應用提供支撐[3]。數(shù)據(jù)集成包括:正確理解不同類型和特征的數(shù)據(jù),消除異構(gòu)數(shù)據(jù)在表達上的語義鴻溝;識別同一實體的不同表達;建立實體之間的多層次數(shù)據(jù)關(guān)聯(lián),為后續(xù)的數(shù)據(jù)分析操作提供堅實的數(shù)據(jù)基礎(chǔ)。

      關(guān)系型數(shù)據(jù)庫管理系統(tǒng)在處理結(jié)構(gòu)化數(shù)據(jù)方面有很高的效率,但對于非結(jié)構(gòu)化數(shù)據(jù)的管理則存在一定劣勢。常見的處理方式是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為二進制大對象(binary large object, BLOB)進行存儲來實現(xiàn)文件格式統(tǒng)一的轉(zhuǎn)換,包括超大文本、二進制文件、圖形、圖像、音頻、視頻等。如果采用傳統(tǒng)的數(shù)據(jù)集成策略,可能導致數(shù)據(jù)冗余度大、描述不統(tǒng)一、表達乏力、實現(xiàn)異構(gòu)兼容開銷大等問題,對后續(xù)的數(shù)據(jù)分析產(chǎn)生不利影響。

      基于Web Service 的中間件數(shù)據(jù)集成模型采用數(shù)據(jù)源管理模塊、中間件模塊、用戶服務模塊三層結(jié)構(gòu),通過基礎(chǔ)數(shù)據(jù)服務消除數(shù)據(jù)異構(gòu),將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一格式;使用元數(shù)據(jù)管理模塊[4]完成局部數(shù)據(jù)源和全局模式的映射,加強系統(tǒng)的自治性和易更新性;基于Web Service 的中間件層模塊將流程封裝成服務發(fā)布,增強了通用性。

      2.2.1 Web Service 技術(shù)

      Web Service 是支持跨網(wǎng)絡的計算機之間相互操作的軟件系統(tǒng), 是一種面向服務架構(gòu)( service-oriented architecture, SOA)的服務規(guī)范[5]。它是一種將面向服務與數(shù)據(jù)集成技術(shù)相結(jié)合的技術(shù),忽略不同數(shù)據(jù)源之間平臺、技術(shù)和結(jié)構(gòu)的區(qū)別,達到數(shù)據(jù)的邏輯統(tǒng)一,從而實現(xiàn)了數(shù)據(jù)單元抽象化。利用標準的消息通信協(xié)議、規(guī)范的服務描述以及開放的服務發(fā)布,完成節(jié)點的直接交互。Web Service 主要包括3 部分:

      (1)服務提供者。是Web Service 的主要提供者,負責實現(xiàn)Web Service 的基本邏輯,并將其發(fā)布在互聯(lián)網(wǎng)上。

      (2)服務描述。提供了Web Service 涉及的服務、方法、參數(shù)等詳細描述信息。

      (3)服務消費者。是Web Service 的主要消費者,負責調(diào)用公開的Web Service,同時也根據(jù)服務描述信息對Web Service 進行對應的開發(fā)工作。

      服務提供者根據(jù)Web 服務描述語言(Web service description language, WSDL)中的文檔描述服務,負責將服務部署到Web 服務器中并發(fā)布。服務消費者通過統(tǒng)一描述(universal discovery description integration, UDDI)的服務注冊表找到所需服務。消費者通過WSDL 文件了解服務提供者提供的接口和方法,執(zhí)行相應的綁定過程。然后向服務提供者發(fā)起請求,服務提供者返回響應結(jié)果。

      2.2.2 中間件數(shù)據(jù)集成模型

      中間件數(shù)據(jù)集成模型是一種利用中間件軟件實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)集成的模型。它主要包括3 層:

      (1)數(shù)據(jù)源。指需要集成的非結(jié)構(gòu)化數(shù)據(jù)源。它可以是不同類型的數(shù)據(jù)庫、文件、消息隊列,也可以是來自不同廠商、不同版本或協(xié)議的系統(tǒng)。它需要提供數(shù)據(jù)訪問接口,支持數(shù)據(jù)抽取。

      (2)目標數(shù)據(jù)庫。存放集成后的數(shù)據(jù),可以是現(xiàn)有的系統(tǒng)數(shù)據(jù)庫,也可以是新建的數(shù)據(jù)庫。

      (3)中間件層。位于數(shù)據(jù)源和目標數(shù)據(jù)庫之間,是中間件數(shù)據(jù)集成模型的核心。功能是使用中間件技術(shù)實現(xiàn)數(shù)據(jù)傳輸和轉(zhuǎn)換。中間件層能將非結(jié)構(gòu)化數(shù)據(jù)源之間數(shù)據(jù)格式轉(zhuǎn)換為適配目標數(shù)據(jù)庫的數(shù)據(jù)格式,并提供數(shù)據(jù)質(zhì)量管理、安全控制等輔助功能。

      從數(shù)據(jù)源的數(shù)據(jù)接口抽取非結(jié)構(gòu)化數(shù)據(jù)后,將其進行格式轉(zhuǎn)換后傳輸給中間件層,中間件層根據(jù)數(shù)據(jù)源和目標數(shù)據(jù)庫的元數(shù)據(jù)信息,自動進行數(shù)據(jù)映射和數(shù)據(jù)轉(zhuǎn)換操作,再加載到目標數(shù)據(jù)庫中。

      2.2.3 基于服務的中間件數(shù)據(jù)集成模型

      如圖2 所示,基于服務的中間件數(shù)據(jù)集成模型采用SOA 架構(gòu),將各個數(shù)據(jù)源和目標系統(tǒng)封裝成獨立的服務,通過中間件技術(shù)進行數(shù)據(jù)通信和傳輸。

      圖2 基于服務的中間件數(shù)據(jù)集成模型

      (1)數(shù)據(jù)源管理模塊負責連接各種數(shù)據(jù)源,并將數(shù)據(jù)按照分類要求進行歸類,同時將各數(shù)據(jù)源的元數(shù)據(jù)信息描述清楚,方便后續(xù)模塊的處理。

      (2)基于Web Service 的中間件模塊提供基礎(chǔ)數(shù)據(jù)服務、業(yè)務服務和應用數(shù)據(jù)服務。它將業(yè)務功能流程化,將之封裝成服務模塊,實現(xiàn)了服務提供者和使用者的松耦合關(guān)系,提高了系統(tǒng)的易維護性。

      基礎(chǔ)數(shù)據(jù)服務負責執(zhí)行數(shù)據(jù)的增加、刪除、修改、查詢、連接等基本封裝服務。它由元數(shù)據(jù)管理和數(shù)據(jù)抽取、轉(zhuǎn)換、加載(extract-transform-load, ETL)兩大模塊組成。元數(shù)據(jù)管理模塊主要負責對元數(shù)據(jù)中的數(shù)據(jù)進行操作,包括全局數(shù)據(jù)視圖管理、本地數(shù)據(jù)結(jié)構(gòu)管理和映射關(guān)系管理。ETL 模塊則根據(jù)對元數(shù)據(jù)的描述以及數(shù)據(jù)流轉(zhuǎn)中的各種約束,將數(shù)據(jù)源中不同的數(shù)據(jù)提取、清洗轉(zhuǎn)換后加載[6]。

      應用數(shù)據(jù)服務組合了特定業(yè)務流程和數(shù)據(jù)相關(guān)操作。業(yè)務服務負責除應用數(shù)據(jù)服務之外的、具有通用性、普遍性和原子性并在其他具體業(yè)務中可重復使用的具體業(yè)務功能處理流程。

      (3)中間件模塊是向用戶服務模塊提供一系列服務的關(guān)鍵組件。它充當用戶服務模塊和底層系統(tǒng)之間的橋梁,處理和管理各種請求和響應。通過使用作為Web 服務發(fā)布的中間件層接口,系統(tǒng)可以被多個客戶端訪問。該界面的設(shè)計與語言無關(guān)且獨立于平臺,能夠滿足不同客戶和操作系統(tǒng)的需求。

      2.3 數(shù)據(jù)存儲策略

      數(shù)據(jù)存儲模塊可通過HBase 的高度容錯性的Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)的分布式存儲技術(shù)和垂直分片策略,來實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的海量高速存儲,有效緩解讀寫壓力。

      2.3.1 HDFS 分布式存儲技術(shù)

      HBase 是一款分布式架構(gòu)的非關(guān)系型數(shù)據(jù)庫。它使用大量廉價的PC 構(gòu)建龐大的數(shù)據(jù)庫系統(tǒng),這種水平擴展數(shù)據(jù)存儲集群的方法,有效提升了數(shù)據(jù)存儲能力和數(shù)據(jù)吞吐量,實現(xiàn)了海量數(shù)據(jù)的快速存儲與隨機訪問。Hbase 提供了數(shù)據(jù)的副本和分區(qū)機制,即通過不同分布節(jié)點上的備份提高了系統(tǒng)的容錯力。它的底層存儲基于HDFS,將數(shù)據(jù)分布在不同的DataNode 上,提供高可用性和冗余備份。

      HDFS 技術(shù)[7]和Google 公布的Google 文件系統(tǒng)(Google file system, GFS)是目前主流的分布式存儲技術(shù)。其中HDFS 基本可以認為是GFS 技術(shù)的簡化版實現(xiàn),由于它是開源架構(gòu),二次開發(fā)更容易獲取且能提供高吞吐量的數(shù)據(jù)訪問,具有高度容錯性,可實現(xiàn)高效存儲,是系統(tǒng)數(shù)據(jù)存儲模塊的核心。

      2.3.2 垂直分片策略

      垂直分片策略是分布式數(shù)據(jù)庫常見的一種策略。它將一個數(shù)據(jù)庫中的數(shù)據(jù)按照數(shù)據(jù)表的粒度進行劃分,將不同的表分散到不同的節(jié)點上。利用垂直分片策略,可將數(shù)據(jù)庫中關(guān)聯(lián)度較小的數(shù)據(jù)拆分到不同的分片節(jié)點進行存儲,一方面可有效緩解多節(jié)點訪問帶來的壓力,另一方面,根據(jù)業(yè)務需求不同分片存儲,提高了系統(tǒng)的靈活性。當然,所有的數(shù)據(jù)集合之間或多或少存在著關(guān)聯(lián)性,因此在分片時,要綜合考慮數(shù)據(jù)的分離度以及分片后連接數(shù)據(jù)的系統(tǒng)開銷[8]。

      3 結(jié)語

      綜上所述,在當今這個“互聯(lián)網(wǎng)+AI”時代,情報分析工作面臨空前挑戰(zhàn),大量以非結(jié)構(gòu)化數(shù)據(jù)形式存在的情報信息難以處理和識別,利用現(xiàn)代化網(wǎng)絡信息搜集、分析、處理軟件來提升效能勢在必行。通過形成合理的數(shù)據(jù)采集清單,構(gòu)建基于Web Service 的中間件數(shù)據(jù)集成模型以及采用垂直分片的存儲策略等,可有效提升互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)的采集效率,提高數(shù)據(jù)的共享性與數(shù)據(jù)存儲的安全性,為確保后續(xù)數(shù)據(jù)挖掘和情報分析工作的順利進行打下良好基礎(chǔ)。

      猜你喜歡
      分片中間件數(shù)據(jù)源
      上下分片與詞的時空佈局
      詞學(2022年1期)2022-10-27 08:06:12
      分片光滑邊值問題的再生核方法
      CDN存量MP4視頻播放優(yōu)化方法
      基于模糊二分查找的幀分片算法設(shè)計與實現(xiàn)
      RFID中間件技術(shù)及其應用研究
      電子制作(2018年14期)2018-08-21 01:38:10
      基于VanConnect中間件的設(shè)計與開發(fā)
      電子測試(2018年10期)2018-06-26 05:54:02
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      基于不同網(wǎng)絡數(shù)據(jù)源的期刊評價研究
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
      中間件在高速公路領(lǐng)域的應用
      应用必备| 固阳县| 天镇县| 峨边| 彭阳县| 天峨县| 会宁县| 凉城县| 晋宁县| 南京市| 多伦县| 白河县| 阿拉善左旗| 临洮县| 呼伦贝尔市| 静宁县| 汪清县| 韶关市| 麦盖提县| 延寿县| 延长县| 喀什市| 松桃| 靖江市| 招远市| 新乡市| 邳州市| 通榆县| 包头市| 南城县| 象山县| 准格尔旗| 额尔古纳市| 惠东县| 巴彦淖尔市| 巢湖市| 西丰县| 台南县| 荥经县| 开封县| 娄烦县|