大數(shù)據(jù)中的數(shù)據(jù)清洗與預(yù)處理技術(shù)研究

2024-05-03 05:42:00趙恩毅

信息記錄材料 2024年3期

趙恩毅

（陜西財經(jīng)職業(yè)技術(shù)學(xué)院陜西咸陽 712000）

0 引言

隨著信息技術(shù)的迅猛發(fā)展，大數(shù)據(jù)已經(jīng)成為現(xiàn)代社會必不可少的一部分。大規(guī)模、多樣性和高速度的數(shù)據(jù)流持續(xù)涌入，為眾多領(lǐng)域帶來了前所未有的機遇，同時也帶來了巨大的挑戰(zhàn)。其中如何確保數(shù)據(jù)的高質(zhì)量和高效處理是大數(shù)據(jù)應(yīng)用的核心問題。為此本文探討了數(shù)據(jù)清洗和預(yù)處理技術(shù)在大數(shù)據(jù)時代的研究與挑戰(zhàn)，尤其關(guān)注了任務(wù)合并技術(shù)、部隊級別信息（force level information， FLI）三層體系。相關(guān)技術(shù)和策略的提出，旨在為大數(shù)據(jù)的高效、高質(zhì)量處理提供有效的方法和工具，確保數(shù)據(jù)能夠為眾多應(yīng)用領(lǐng)域帶來真正的價值。

1 大數(shù)據(jù)時代數(shù)據(jù)清洗與預(yù)處理技術(shù)的研究與挑戰(zhàn)

1.1 Hadoop 框架下的數(shù)據(jù)處理效率問題

在大數(shù)據(jù)時代，數(shù)據(jù)清洗與預(yù)處理技術(shù)的重要性日益凸顯。此技術(shù)確保了數(shù)據(jù)的準確性和可靠性，為后續(xù)的數(shù)據(jù)分析提供了堅實的基礎(chǔ)。其中Hadoop 作為一個廣泛使用的大數(shù)據(jù)處理框架，其數(shù)據(jù)處理效率問題尤為重要。Hadoop 框架主要包括Hadoop 分布式文件系統(tǒng)（Hadoop distributed file system， HDFS）和MapReduce 兩大核心組件。HDFS 為大規(guī)模數(shù)據(jù)集提供了可靠的存儲，而MapReduce 則為大規(guī)模數(shù)據(jù)處理提供了并行計算的能力。然而，在實際應(yīng)用中，Hadoop 面臨著一系列的數(shù)據(jù)處理效率問題。

MapReduce 的編程模型相對固定，導(dǎo)致其在處理復(fù)雜的數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗任務(wù)時，往往需要多個階段或多輪迭代。一個涉及多步驟的數(shù)據(jù)清洗流程可能需要多個MapReduce 作業(yè)串聯(lián)執(zhí)行，增加了整體的計算時間，因為每一輪MapReduce 作業(yè)都會產(chǎn)生磁盤I/O 和網(wǎng)絡(luò)傳輸開銷。下面是MapReduce 處理時間與運算輪數(shù)的關(guān)系：

式（1）中，Ttotal是總的處理時間，n是MapReduce 作業(yè)的輪數(shù)。

Hadoop 的Shuffle 階段是數(shù)據(jù)處理的一個關(guān)鍵環(huán)節(jié)，但也常常成為性能瓶頸。在Shuffle 階段，由Map 任務(wù)產(chǎn)生的中間數(shù)據(jù)需要被傳輸?shù)絉educe 任務(wù)進行處理。當處理大規(guī)模數(shù)據(jù)集時，Shuffle 階段的數(shù)據(jù)傳輸和排序開銷可能會非常巨大。此外Hadoop 的默認配置可能不適合所有應(yīng)用［1］。

1.2 數(shù)據(jù)清洗與預(yù)處理的效率挑戰(zhàn)與目標設(shè)定

數(shù)據(jù)清洗與預(yù)處理是數(shù)據(jù)分析的基石，確保數(shù)據(jù)的質(zhì)量和完整性。然而，在大數(shù)據(jù)環(huán)境中，數(shù)據(jù)清洗與預(yù)處理面臨著巨大的效率挑戰(zhàn)。隨著數(shù)據(jù)量的增長，傳統(tǒng)的數(shù)據(jù)清洗方法在時間和資源消耗上變得不可接受。大數(shù)據(jù)環(huán)境中的數(shù)據(jù)清洗任務(wù)通常涉及多種數(shù)據(jù)源，數(shù)據(jù)源之間可能存在格式、結(jié)構(gòu)和語義的差異。合并、標準化和解決差異需要大量的計算資源。數(shù)據(jù)的異常值和噪聲也為大數(shù)據(jù)清洗帶來了挑戰(zhàn)［2］。傳統(tǒng)的異常檢測方法如基于統(tǒng)計的方法，在大數(shù)據(jù)環(huán)境中可能會受到數(shù)據(jù)分布的影響，導(dǎo)致檢測效果不佳。因此需要設(shè)計更加復(fù)雜的模型，如基于深度學(xué)習的異常檢測模型，但也增加了計算開銷。

為了應(yīng)對計算效率相關(guān)的挑戰(zhàn)，數(shù)據(jù)清洗與預(yù)處理的目標設(shè)定在以下幾個方面：

（1）計算效率。考慮數(shù)據(jù)的規(guī)模和分布，目標是減少數(shù)據(jù)清洗任務(wù)的總體計算時間?？梢酝ㄟ^并行處理、采樣和其他優(yōu)化方法來實現(xiàn)。

式（2）中，Tcleaning表示數(shù)據(jù)清洗的總時間，T1，T2，…，Tn表示各個數(shù)據(jù)清洗子任務(wù)的時間。

（2）數(shù)據(jù)質(zhì)量。確保數(shù)據(jù)清洗后的數(shù)據(jù)集具有高質(zhì)量，通常通過準確率、召回率和F1 分數(shù)等指標來評估。

式（3）中，precision表示準確率，recall表示召回率。

1.3 數(shù)據(jù)清洗中的質(zhì)量問題

數(shù)據(jù)清洗在大數(shù)據(jù)分析和處理中占據(jù)核心地位，但質(zhì)量問題依然是一個無法回避的挑戰(zhàn)。數(shù)據(jù)質(zhì)量問題通常表現(xiàn)為數(shù)據(jù)冗余、數(shù)據(jù)不一致、錯誤數(shù)據(jù)和缺失數(shù)據(jù)。數(shù)據(jù)冗余指的是在數(shù)據(jù)集中出現(xiàn)重復(fù)數(shù)據(jù)，可能源于多個不同的數(shù)據(jù)源或者數(shù)據(jù)收集過程中的錯誤。在大數(shù)據(jù)環(huán)境中，數(shù)據(jù)冗余不僅消耗了寶貴的存儲資源，還可能影響數(shù)據(jù)分析的準確性。例如，數(shù)據(jù)冗余可能導(dǎo)致統(tǒng)計指標的失真，從而影響到基于指標的決策和預(yù)測［3］。

2 基于任務(wù)合并的優(yōu)化技術(shù)

2.1 合并冗余計算與使用同一輸入文件的任務(wù)

在大數(shù)據(jù)處理中，任務(wù)合并是一個有效的優(yōu)化手段，特別是針對那些涉及冗余計算或使用同一輸入文件的任務(wù)。任務(wù)合并旨在減少不必要的計算、I/O 操作和數(shù)據(jù)傳輸，從而提高整體的處理效率。考慮一個場景，其中多個任務(wù)從同一輸入文件讀取數(shù)據(jù)并執(zhí)行類似的計算。在沒有優(yōu)化的情況下，每個任務(wù)都會單獨讀取輸入文件，導(dǎo)致多次的I/O 操作。通過任務(wù)合并，可以將任務(wù)合并為一個大任務(wù)，輸入文件只需要讀取一次。設(shè)任務(wù)數(shù)為n，單個任務(wù)的I/O 時間為T，未經(jīng)優(yōu)化的總I/O 時間為n×T，經(jīng)過任務(wù)合并，總I/O 時間減少，大大減少了I/O 開銷：

再考慮冗余計算問題。在大數(shù)據(jù)處理中，可能存在多個任務(wù)執(zhí)行相同或相似的計算，導(dǎo)致計算資源的浪費。通過任務(wù)合并，可以識別合并這些冗余計算，從而減少總的計算量。設(shè)每個任務(wù)的計算量為C，未經(jīng)優(yōu)化的總計算量為n×C，經(jīng)過任務(wù)合并，總計算量可能減少到k×C。

任務(wù)合并不僅可以減少I/O 和計算開銷，還可以減少數(shù)據(jù)傳輸和存儲開銷。當多個任務(wù)合并為一個任務(wù)時，中間結(jié)果可以在內(nèi)部共享，無須額外存儲或傳輸?；谌蝿?wù)合并的優(yōu)化技術(shù)是大數(shù)據(jù)處理中的一個重要策略。通過合并冗余計算和使用同一輸入文件的任務(wù)，可以有效地減少I/O、計算、數(shù)據(jù)傳輸和存儲開銷，從而提高整體的處理效率。此優(yōu)化方法為大數(shù)據(jù)應(yīng)用提供了一個新的、高效的解決方案，有助于滿足日益增長的數(shù)據(jù)處理需求。

2.2 減少MapReduce 的輪數(shù)以優(yōu)化性能的方法

MapReduce 作為處理大規(guī)模數(shù)據(jù)的編程模型和執(zhí)行環(huán)境，已被廣泛應(yīng)用于各種數(shù)據(jù)處理任務(wù)。然而多輪MapReduce 作業(yè)經(jīng)常導(dǎo)致性能瓶頸，尤其是當數(shù)據(jù)流需要經(jīng)過多個Map 和Reduce 階段時［4－5］。為了優(yōu)化性能，減少MapReduce 的輪數(shù)成了關(guān)鍵策略。在傳統(tǒng)MapReduce作業(yè)中，每一輪都包括Map 階段、Shuffle 階段和Reduce 階段。每個階段都伴隨著數(shù)據(jù)讀寫、網(wǎng)絡(luò)傳輸和資源分配的開銷。給定一個包含n輪的MapReduce 作業(yè)，總開銷可表示為：

式（6）中，Omap、Oshuffle、Oreduce分別代表Map、Shuffle 和Reduce 階段的開銷。

為了減少開銷，一個有效的策略是合并多個MapReduce 輪次。通過合并，可以減少數(shù)據(jù)的中間讀寫和網(wǎng)絡(luò)傳輸從而提高整體性能，可以采用以下策略：①流水線執(zhí)行。當兩個MapReduce 作業(yè)有依賴關(guān)系時，可以將第一個作業(yè)的Reduce 階段與第二個作業(yè)的Map 階段合并，形成一個流水線。通過此方式數(shù)據(jù)可以直接從第一個作業(yè)的Reduce 階段傳遞到第二個作業(yè)的Map 階段，避免了中間數(shù)據(jù)的存儲和讀取。②共享掃描。當多個MapReduce 作業(yè)處理相同的輸入數(shù)據(jù)時，可以將作業(yè)的Map 階段合并，共享一個數(shù)據(jù)掃描。由此可以避免重復(fù)讀取相同的數(shù)據(jù)。③局部聚合。在Map 階段結(jié)束后，可以先進行局部聚合，減少傳遞到Reduce 階段的數(shù)據(jù)量。

3 FLI 三層體系的提出與描述

3.1 FLI 體系的定義與核心思想

FLI 三層體系是為了解決大數(shù)據(jù)環(huán)境中數(shù)據(jù)處理和管理的復(fù)雜性而設(shè)計的。該體系旨在提供一個統(tǒng)一、結(jié)構(gòu)化的框架，以支持數(shù)據(jù)的存儲、處理和查詢。FLI 體系的名稱來源于3 個核心層：Foundation、Logic 和Interface。3個層次為大數(shù)據(jù)應(yīng)用提供了一個從底層到上層的完整解決方案。圖1 展示了FLI 三層體系是如何利用、處理收集到的數(shù)據(jù)。

圖1 FLI 三層體系處理數(shù)據(jù)流程

（1）Foundation 層：FLI 體系的底層，主要負責數(shù)據(jù)的存儲和管理。Foundation 層提供了一個分布式、容錯的數(shù)據(jù)存儲系統(tǒng)，可以支持大規(guī)模數(shù)據(jù)的存儲、備份和恢復(fù)。此外，該層還提供了數(shù)據(jù)的分片、復(fù)制和負載均衡功能，確保數(shù)據(jù)的高可用性和持久性。

數(shù)據(jù)存儲模型可以表示為：

式（7）中，D表示整個數(shù)據(jù)集，di表示第i個數(shù)據(jù)分片。

（2）Logic 層：FLI 體系的中間層，主要負責數(shù)據(jù)的處理和分析。Logic 層提供了一個分布式計算框架，支持各種數(shù)據(jù)處理任務(wù)，如數(shù)據(jù)清洗、轉(zhuǎn)換、分析和查詢。該層采用聲明式編程模型，允許用戶使用高級語言描述數(shù)據(jù)處理邏輯，然后自動將邏輯轉(zhuǎn)化為分布式執(zhí)行計劃。數(shù)據(jù)處理模型可以表示為：

式（8）中，P（D）表示對數(shù)據(jù)集D的處理結(jié)果，pj（D）表示第j個處理任務(wù)。

（3）Interface 層：FLI 體系的上層，主要負責與用戶的交互。Interface 層提供了一系列的應(yīng)用程序接口和工具，支持數(shù)據(jù)的查詢、可視化和報告。該層還提供了數(shù)據(jù)安全和隱私保護功能，確保數(shù)據(jù)的安全存儲和訪問。用戶查詢模型可以表示為：

式（9）中，Q（D）表示對數(shù)據(jù)集D的查詢結(jié)果，qk（D）表示第k個查詢?nèi)蝿?wù)。

FLI 體系的核心思想是提供一個完整、統(tǒng)一的大數(shù)據(jù)解決方案，從數(shù)據(jù)的存儲、處理到查詢，都在同一個體系內(nèi)完成。通過三層結(jié)構(gòu)，F(xiàn)LI 體系可以支持各種規(guī)模和復(fù)雜性的大數(shù)據(jù)應(yīng)用，滿足不同用戶的需求。FLI 體系還強調(diào)了模塊化和擴展性，每個層次都可以獨立地進行升級和擴展，確保體系的長期穩(wěn)定性和可維護性。例如可以在Foundation 層增加新的存儲引擎，或者在Logic層添加新的處理算法，而不影響其他層次的功能。FLI三層體系為大數(shù)據(jù)應(yīng)用提供了一個全面、靈活的解決方案。通過三個核心層次，F(xiàn)LI 體系可以支持從數(shù)據(jù)存儲到處理、查詢的整個數(shù)據(jù)生命周期，滿足大數(shù)據(jù)時代的各種挑戰(zhàn)和需求。

3.2 與任務(wù)合并技術(shù)的協(xié)同作用與優(yōu)勢

在面對大數(shù)據(jù)挑戰(zhàn)時，F(xiàn)LI 三層體系提供了一個結(jié)構(gòu)化的框架，支持從數(shù)據(jù)存儲到處理的全過程。與此同時任務(wù)合并技術(shù)為數(shù)據(jù)處理提供了一種有效的優(yōu)化手段。兩者的結(jié)合可以發(fā)揮出強大的協(xié)同效應(yīng)，為大數(shù)據(jù)應(yīng)用帶來顯著的性能提升。在FLI 體系中，F(xiàn)oundation層負責數(shù)據(jù)的存儲和管理，確保數(shù)據(jù)的高可用性和持久性。當處理大規(guī)模數(shù)據(jù)時，I/O 操作成為性能瓶頸，任務(wù)合并技術(shù)可以通過合并多個任務(wù)來減少冗余的I/O 操作，從而提高數(shù)據(jù)處理的效率，當多個任務(wù)讀取同一數(shù)據(jù)分片時，可以將任務(wù)合并為一個任務(wù)，共享一個數(shù)據(jù)掃描，從而減少數(shù)據(jù)讀取的次數(shù)。圖2 是任務(wù)合并技術(shù)的簡單示意圖。

圖2 任務(wù)合并技術(shù)簡單示意圖

在Logic 層數(shù)據(jù)處理和分析是主要任務(wù)。傳統(tǒng)的數(shù)據(jù)處理方法往往需要多輪MapReduce 作業(yè)，每輪都涉及大量的數(shù)據(jù)讀寫和網(wǎng)絡(luò)傳輸。任務(wù)合并技術(shù)可以將多輪作業(yè)合并為一輪，減少中間結(jié)果的存儲和傳輸，從而提高處理速度。例如，當兩個MapReduce 作業(yè)有依賴關(guān)系時，可以將兩者合并，使數(shù)據(jù)直接從一個作業(yè)流向另一個作業(yè)，避免中間數(shù)據(jù)的存儲和讀取。此外任務(wù)合并技術(shù)還可以減少Logic 層的計算開銷。在大數(shù)據(jù)處理中，往往存在大量的冗余計算。通過任務(wù)合并可以將冗余計算合并為一次計算，從而減少總的計算量。

4 結(jié)語

綜上所述，大數(shù)據(jù)時代數(shù)據(jù)的質(zhì)量和處理速度成為實現(xiàn)有效數(shù)據(jù)應(yīng)用的基石。面對Hadoop 框架的數(shù)據(jù)處理效率問題，任務(wù)合并技術(shù)的引入顯著減少了MapReduce 的輪數(shù)，優(yōu)化了性能。同時，數(shù)據(jù)清洗中的質(zhì)量問題，如數(shù)據(jù)冗余、不一致性、錯誤和缺失，被深入探討并提出了相應(yīng)的解決策略。FLI 三層體系結(jié)構(gòu)化地為大數(shù)據(jù)應(yīng)用提供了從底層到上層的解決方案，與任務(wù)合并技術(shù)協(xié)同作用，進一步提高了數(shù)據(jù)處理的效率。本研究為大數(shù)據(jù)處理提供了一套完整的框架和策略，確保了數(shù)據(jù)的高質(zhì)量和高效處理，滿足了大數(shù)據(jù)應(yīng)用中的各種需求。