李小聰
隨著信息技術(shù)的快速發(fā)展,社會(huì)各個(gè)領(lǐng)域出現(xiàn)了海量的應(yīng)用級(jí)數(shù)據(jù),如何從這些數(shù)據(jù)中提煉出有用的知識(shí)和信息,并將其運(yùn)用到現(xiàn)實(shí)生活中,就成了整個(gè)數(shù)據(jù)挖掘領(lǐng)域的一個(gè)熱門(mén)話題。本文以一卡通消費(fèi)流水?dāng)?shù)據(jù)為例,將K-Means聚類(lèi)算法與數(shù)據(jù)預(yù)處理技術(shù)相結(jié)合,建立了一個(gè)基于K-Means聚類(lèi)的數(shù)據(jù)預(yù)處理方法,對(duì)數(shù)據(jù)進(jìn)行了進(jìn)一步的整合和優(yōu)化,得到可用于下游任務(wù)使用的數(shù)據(jù),并通過(guò)實(shí)驗(yàn)證明了本文所提出的一卡通數(shù)據(jù)預(yù)處理模型的實(shí)用意義和應(yīng)用價(jià)值。
在數(shù)據(jù)挖掘中,數(shù)據(jù)的預(yù)處理是一個(gè)非常重要的環(huán)節(jié),它能把直接收集到的非標(biāo)準(zhǔn)數(shù)據(jù)變成高質(zhì)量的可以直接進(jìn)行分析和處理的數(shù)據(jù)。然而數(shù)據(jù)預(yù)處理所需的步驟較多,處理流程非常復(fù)雜,需占用較大的計(jì)算機(jī)計(jì)算資源。聚類(lèi)分析是數(shù)據(jù)挖掘的一種常用技術(shù),它是根據(jù)數(shù)據(jù)本身固有的屬性,對(duì)數(shù)據(jù)進(jìn)行分組,使數(shù)據(jù)有一定的可分性和獨(dú)立性,從而提高數(shù)據(jù)挖掘分析的效率和準(zhǔn)確性。聚類(lèi)算法中最常用的是K-Means算法,該算法采用迭代方式對(duì)聚類(lèi)中心進(jìn)行搜索,得到簇中心。而初始聚類(lèi)中心選擇直接影響到聚類(lèi)結(jié)果的好壞。因此本文以一卡通消費(fèi)流水?dāng)?shù)據(jù)為例,基于K-Means算法對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,并使用機(jī)器學(xué)習(xí)相關(guān)算法對(duì)其進(jìn)行分析,實(shí)現(xiàn)對(duì)數(shù)據(jù)的進(jìn)一步整合和優(yōu)化。
隨著校園消費(fèi)場(chǎng)景和數(shù)量的日益增多,目前迫切需要建立一套統(tǒng)一的、靈活的預(yù)處理方法,以應(yīng)對(duì)海量、高維的數(shù)據(jù)特點(diǎn)。本文針對(duì)一卡通消費(fèi)流水?dāng)?shù)據(jù)特點(diǎn),提出了一個(gè)基于K-Means聚類(lèi)算法與數(shù)據(jù)預(yù)處理技術(shù)相結(jié)合的數(shù)據(jù)預(yù)處理系統(tǒng)。本文的數(shù)據(jù)預(yù)處理系統(tǒng)由數(shù)據(jù)脫敏、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約和數(shù)據(jù)集合四大模塊組成。
因?yàn)槭褂谜呦胍_(dá)成的分析目標(biāo)不同,所采取的脫敏方式也不同,常見(jiàn)的脫敏方式有以下幾種。首先是替換方式,即將需要保密的數(shù)據(jù)替換為一個(gè)隨機(jī)數(shù)據(jù)。比如,把一個(gè)或一串字母改成另一個(gè)字母或者一串?dāng)?shù)字,或者把數(shù)字改成另一個(gè)數(shù)字或者字母。在本文中使用了一種利用散列映射代替敏感數(shù)據(jù)的方法。這種方式的優(yōu)點(diǎn)是保持了原來(lái)的數(shù)據(jù)格式,這樣替代后的數(shù)據(jù)在保密的前提下非常接近原來(lái)的數(shù)據(jù)。其次是置亂方法,即用一種隨機(jī)的方式,把每一欄中的真值都給打亂,從而使原來(lái)的數(shù)據(jù)與不同的屬性間的關(guān)系變得不確定。此外還有平均數(shù)方法,對(duì)于數(shù)值類(lèi)型的數(shù)據(jù),可以首先求出數(shù)據(jù)的平均數(shù),再利用隨機(jī)分布使得去敏化后的數(shù)值接近于平均數(shù),從而實(shí)現(xiàn)數(shù)據(jù)之和的一致性。本文提出的數(shù)據(jù)脫敏技術(shù)的實(shí)現(xiàn)包括脫敏數(shù)據(jù)發(fā)現(xiàn)、脫敏策略制定、脫敏任務(wù)執(zhí)行三個(gè)步驟,圖1為本文對(duì)數(shù)據(jù)進(jìn)行脫敏處理的方法。
本文提出了一種可用于一卡通消費(fèi)流水?dāng)?shù)據(jù)的預(yù)處理方法。數(shù)據(jù)清洗模塊是其中的核心組件,也是其中工作量最大的一環(huán)。本文提出數(shù)據(jù)清洗模塊主要包含三個(gè)方面的工作:去除重復(fù)值,填補(bǔ)缺失值,發(fā)現(xiàn)異常值。
在使用一卡通的時(shí)候,因?yàn)槟承┨厥獾脑?,如網(wǎng)絡(luò)原因,有可能會(huì)產(chǎn)生重復(fù)的數(shù)據(jù),但是這一情況是小概率事件,所以,就整體而言,直接刪除重復(fù)值,并不會(huì)對(duì)整個(gè)數(shù)據(jù)分布和數(shù)據(jù)挖掘過(guò)程造成任何影響。所以在本文中把具有相同數(shù)值的兩個(gè)數(shù)據(jù)流看成是一份數(shù)據(jù),并把它們合并成一個(gè)數(shù)據(jù),這就是所謂的去重。
在數(shù)據(jù)分析過(guò)程中,數(shù)據(jù)缺失經(jīng)常發(fā)生,重要數(shù)據(jù)或是沒(méi)有價(jià)值的數(shù)據(jù),都會(huì)使數(shù)據(jù)的分析處理結(jié)果發(fā)生偏差。針對(duì)缺失數(shù)據(jù),本文提出了以下預(yù)處理方法。需要對(duì)數(shù)據(jù)的缺失值做出一個(gè)簡(jiǎn)單的判斷和分析,最好的辦法,就是用其他的數(shù)值來(lái)填補(bǔ)缺失,盡可能地恢復(fù)原始數(shù)據(jù)的實(shí)際內(nèi)容。替換數(shù)值可以通過(guò)插值來(lái)獲得,插值方法分為兩類(lèi),其中一類(lèi)為傳統(tǒng)方法,如平均值,中間值等。另一類(lèi)是基于算法,如回歸插值、抽樣插值等,運(yùn)用常見(jiàn)的技術(shù)手段,比如聚類(lèi)技術(shù),分類(lèi)技術(shù)。在本文使用的是后者。
離群值也被稱(chēng)為異常值,在對(duì)離群值進(jìn)行預(yù)處理時(shí),可以根據(jù)機(jī)器學(xué)習(xí)中的聚類(lèi)方法,選擇一個(gè)規(guī)模較小的簇作為異常數(shù)據(jù),將其剔除。由于雜亂的數(shù)據(jù)會(huì)影響總體的協(xié)調(diào)性和數(shù)據(jù)分布,所以數(shù)據(jù)中的離群值指的就是那些跟大部分?jǐn)?shù)據(jù)相距甚遠(yuǎn)的資料。其中,最常見(jiàn)的一種異?,F(xiàn)象是基于統(tǒng)計(jì)學(xué)的異?,F(xiàn)象發(fā)現(xiàn)方法,它把異?,F(xiàn)象所對(duì)應(yīng)的概率密度小于某一閾值的樣本看作異?,F(xiàn)象,并根據(jù)樣本的均值和標(biāo)準(zhǔn)差估計(jì)出其參數(shù)。此外,箱形圖是另外一種以統(tǒng)計(jì)方法為基礎(chǔ)的離群值檢測(cè)技術(shù),它能直觀的反映出數(shù)據(jù)的原始分布情況,能更好的對(duì)異常值進(jìn)行分析。基于箱形圖的異常值區(qū)分的辦法是以箱形圖中的四個(gè)點(diǎn)和四個(gè)點(diǎn)之間的間隔作為判據(jù),在不打破判據(jù)的情況下,具有較好的穩(wěn)健性。
本文選擇K-means算法作為本文所設(shè)計(jì)的框架中的機(jī)器學(xué)習(xí)算法,本文提出的基于機(jī)器學(xué)習(xí)的數(shù)據(jù)預(yù)處理框架如圖2所示。
本文提出了一種新的數(shù)據(jù)預(yù)處理方法,并將該方法應(yīng)用到校園一卡通數(shù)據(jù)的預(yù)處理中。本文以K-Means為基礎(chǔ),建立一個(gè)新的數(shù)據(jù)預(yù)處理模型,對(duì)抽取出的數(shù)據(jù)和特征進(jìn)行聚類(lèi)。對(duì)于缺失的數(shù)據(jù),本文采用KNN算法對(duì)其進(jìn)行補(bǔ)全;對(duì)于異常值,本文采用了一種基于聚類(lèi)的異常值檢測(cè)方法,該方法把較小規(guī)模的簇看作是異常的,然后將其清除,從而得到干凈的數(shù)據(jù)集。
作者單位:中國(guó)電信股份有限公司北京分公司