楊 斐
(阜陽職業(yè)技術(shù)學(xué)院 工程科技學(xué)院,安徽 阜陽 236031)
在現(xiàn)代國民經(jīng)濟(jì)發(fā)展中,數(shù)據(jù)挖掘的地位與重要性日益增強(qiáng),在民用及軍用方面均取得了不俗的成效,為人們的生活提供了諸多便利[1-3]。根據(jù)混沌系統(tǒng)對原始值較為敏感的特點(diǎn),可將輸入資源管理信號(hào)的細(xì)小變化都迅速呈現(xiàn)在輸出信號(hào)內(nèi),反映出信號(hào)的真實(shí)狀況[4]?;煦鐣r(shí)間序列根據(jù)其內(nèi)部的確定性規(guī)律,可以對目標(biāo)進(jìn)行精準(zhǔn)預(yù)判,在經(jīng)濟(jì)預(yù)測、地震勘測等諸多領(lǐng)域發(fā)揮了重要作用。
由此,本文提出一種基于混沌時(shí)間序列的資源管理大數(shù)據(jù)挖掘方法。其創(chuàng)新之處在于依據(jù)混沌時(shí)間序列模型,找到預(yù)測點(diǎn)的相鄰?fù)蜣D(zhuǎn)換形態(tài)及其后續(xù)時(shí)間序列的函數(shù)關(guān)聯(lián),完成對被測目標(biāo)位置的正確預(yù)判;其關(guān)鍵在于,在保持信號(hào)穩(wěn)定性的情況下,利用基于峰值點(diǎn)修正的資源管理大數(shù)據(jù)挖掘方法,降低挖掘偏差幾率,最大限度提升挖掘的精準(zhǔn)度,使其廣泛使用在各個(gè)領(lǐng)域。
為了提升資源管理大數(shù)據(jù)挖掘的挖掘效率,本文使用混沌時(shí)間序列模型對被測資源區(qū)域位置采取精準(zhǔn)預(yù)測,達(dá)到減少挖掘誤差的目的[5-7]。
可將混沌時(shí)間序列當(dāng)作某一時(shí)間參變量獲得的動(dòng)力系統(tǒng)解析式:
X=f(x)
(1)
其中,f(x)表示反映動(dòng)力系統(tǒng)伴隨時(shí)間推移的函數(shù)關(guān)系式。
按照混沌及分形原則,可獲取具備n個(gè)形態(tài)參變量xi隨著時(shí)間推移的非線性動(dòng)力系統(tǒng),具體的控制方程可描述為
(2)
對于離散狀態(tài)的管理時(shí)間序列而言,可使用不持續(xù)時(shí)序x(t)及其在(n-1)時(shí)滯的管理信息,共同組合為動(dòng)力軌跡:
x(t)=(x(ti),x(ti+τ),…,x(ti+(n-1)τ))
(3)
利用此種手段把數(shù)據(jù)的固有時(shí)間進(jìn)行推遲,重新建立一個(gè)等價(jià)的多維狀態(tài)空間,反復(fù)此過程得到不同時(shí)段的推遲數(shù)量,可生成一個(gè)在n維相空間的相點(diǎn)演變路線。在進(jìn)行演算時(shí),要把初始管理數(shù)據(jù){xi}根據(jù)相應(yīng)的時(shí)間間隙τ(τ=k*Δt)擴(kuò)充成n維空間的相型分布。因此,將時(shí)間序列的相空間描述成:
xi(t)=(x(ti),x(ti+τ),…,x(ti+(m-1)τ))
(4)
(4)中的相位分布包含m個(gè)相位點(diǎn),每個(gè)相位點(diǎn)都包含n個(gè)分量。相位點(diǎn)之間的線段表示系統(tǒng)在n維空間中的演化。
相空間的混沌吸引子具備一定的平穩(wěn)性及分形性,通過尋找預(yù)測點(diǎn)的相鄰?fù)蜣D(zhuǎn)換形態(tài)和其后續(xù)時(shí)間序列的函數(shù)關(guān)聯(lián),以此完成對目標(biāo)資源的區(qū)域位置判斷。與此同時(shí),因?yàn)橄噜彽拿總€(gè)狀態(tài)點(diǎn)與預(yù)測點(diǎn)的空間大數(shù)據(jù)是不相等的,所以對預(yù)測的影響也不相同[8-9]。由此,本文提出一種基于鄰近點(diǎn)權(quán)重的混沌時(shí)間序列模型。
若與X(t)大數(shù)據(jù)待挖掘點(diǎn)最近的點(diǎn)為Xr(t),r=1,2,…,n, 且相應(yīng)點(diǎn)至預(yù)測點(diǎn)X(t)的間距是dr, 將dr中的最小值設(shè)置成dmin,那么第r個(gè)相鄰點(diǎn)權(quán)重為
(5)
想要完成在X(t)領(lǐng)域中采取下一步預(yù)測,可利用式(6)的演變關(guān)聯(lián)得到下一個(gè)預(yù)測數(shù)值。
Φ[X(t)]=(Φ1(X),Φ2(X),…,Φm+1(X))T=(1,x(τ),x(t-τ),x(t-2τ),…,x(t-mτ+τ))T
(6)
X(t)每個(gè)相鄰點(diǎn)在t+τ時(shí)段會(huì)演變成Xr(t+τ), 使用加權(quán)最小二乘法將其進(jìn)行最小化,具體表示為
(7)
資源管理大數(shù)據(jù)挖掘的流程通常是將待測目標(biāo)資源輸入到資源管理模式中,進(jìn)行樣本采集,用觸動(dòng)發(fā)射機(jī)的時(shí)間挖掘系統(tǒng)開始計(jì)時(shí)[10-11],生成信號(hào)后終止計(jì)時(shí),然后按照管理流程推算出目標(biāo)大數(shù)據(jù),具體運(yùn)算方程為
D=c×t/2
(8)
其中,D表示探測器至探測目標(biāo)的間距,t表示資源管理模式迭代消耗的時(shí)間,c表示管理流程代號(hào),為常數(shù)。在資源管理過程中向平臺(tái)云服務(wù)器射出資源管理模式信號(hào)后,其反射的回波信號(hào)強(qiáng)度會(huì)伴隨大數(shù)據(jù)的減少產(chǎn)生平方衰減,信號(hào)會(huì)產(chǎn)生大的噪聲,嚴(yán)重影響挖掘結(jié)果的精確度,因此,對回波信號(hào)進(jìn)行去噪是極其重要的。
根據(jù)經(jīng)驗(yàn)?zāi)J椒纸?empirical mode decomposition,EMD),可以自適應(yīng)地將信號(hào)分解成有限個(gè)IMF,其中每個(gè)IMF分量都是一個(gè)振蕩信號(hào)x(n), 包含初始信號(hào)的頻率分量的一個(gè)子集。最小二乘法應(yīng)遵循兩個(gè)原則:①極值點(diǎn)數(shù)與過零點(diǎn)數(shù)必須相等,②由極值點(diǎn)決定的上下包絡(luò)平均值必須等于0。
經(jīng)驗(yàn)?zāi)B(tài)分解對IMFs的提取過程就是一個(gè)擇優(yōu)挑選的過程,最后就會(huì)得到IMFs與殘差相加的初始信號(hào):
(9)
其中,h(i)(n)表示第i個(gè)IMF分量,L表示獲得的IMFs數(shù)量,res(n)表示殘差。
在已知實(shí)際信號(hào)y(n)的前提下,對其引入噪聲信號(hào)e(n), 則引入噪聲后的信號(hào)可描述為
x(n)=y(n)+e(n)
(10)
針對傳統(tǒng)EMD去噪手段,其原理是把包含可用信號(hào)的有關(guān)分量采取重構(gòu),具體表示為
(11)
其中,kth的取值取決于根據(jù)初始信號(hào)x(n)和IMF分量之間的關(guān)聯(lián)性。也可將重構(gòu)后的信號(hào)描述為
(12)
(13)
其中,N表示IMF分量長短,m是ρ(m)初始階段不大于常數(shù)C時(shí)的相對值。ρ(m)的值逐步變小,直到變成一個(gè)最小值,利用C值的確定,可以判斷出kth的所處范圍,也就是第一個(gè)關(guān)聯(lián)分量范圍:
(14)
其中,last為ρ(m)內(nèi)最后一個(gè)大于等于C的值,C值的擇取范圍是[0.55,0.65],本文將C值選定位0.65,L表示IMF分量數(shù)目。
經(jīng)過上面的步驟就能夠得到kth的具體位置,把前kth-1項(xiàng)IMFs當(dāng)作互不關(guān)聯(lián)分量,則其余IMFs就是關(guān)聯(lián)分量。
當(dāng)干擾強(qiáng)度較大時(shí),用EMD分解后向散射信號(hào),將信號(hào)與噪聲分離到相同的IMF分量??煽康男盘?hào)經(jīng)常在使用emd-d去噪時(shí)被忽略。利用軟閾值對不相關(guān)分量進(jìn)行處理,得到可靠的隱藏信號(hào),處理流程如式(15)。
(15)
其中,h(i)(n)表示第i個(gè)IMF分量,Ti表示臨界值,具體描述為
(16)
其中,N表示IMF分量的長短。
針對關(guān)聯(lián)分量,本文通過粗糙懲罰對其采取平滑處理。使用粗糙懲罰的目的是解決最小二乘法計(jì)算的不穩(wěn)定性,其根本原理就是在最小二乘法的基礎(chǔ)上引入懲罰項(xiàng)當(dāng)作光滑模型
(17)
粗糙懲罰的主要功能是控制擬合函數(shù)的平滑度,使擬合結(jié)果在不損失真實(shí)數(shù)據(jù)的情況下保持穩(wěn)定。這既能增強(qiáng)回波信號(hào)的平滑性,又能防止信號(hào)失真,極大地提高了資源管理中數(shù)據(jù)挖掘數(shù)據(jù)的真實(shí)性。
平臺(tái)云服務(wù)器的資源管理大數(shù)據(jù)信號(hào)是對稱sinc函數(shù)波形,其波峰位置不會(huì)產(chǎn)生移動(dòng),因此只要找到波峰的所在位置,按照發(fā)射與接收信號(hào)的時(shí)間間隔就能得到被測目標(biāo)的大數(shù)據(jù)。為了進(jìn)一步縮小挖掘偏差,保證挖掘結(jié)果的精確度,本文利用指數(shù)函數(shù)修正sinc函數(shù)的方法來改善尋峰精度,具體可描述為
(18)
其中
r(x)=A·sinc(Bx)
(19)
(20)
(21)
(22)
(23)
按照接收回波的非對稱原則,將修正函數(shù)描述為
(24)
其中,τ′是修正常量,AL、AR依次表示將τB作為回波峰值點(diǎn)的左半峰和右半峰面積,通過sinc函數(shù)回波模型可進(jìn)行如下推理:
σ=ΔτB
Wd=2ΔτB
(25)
其中ΔτB是回波的-3 dB帶寬。將式(25)引入式(21)~式(23),可獲得如下關(guān)系式:
(26)
探尋峰值的精準(zhǔn)位置關(guān)鍵在于峰值原始定位及峰值補(bǔ)償糾正兩方面。首先使用多迭代下的累計(jì)方法,把每個(gè)幀回波按照主波的發(fā)射時(shí)間對應(yīng)累加,獲得一個(gè)全新的迭代信號(hào)P(i),同時(shí)將該信號(hào)剔除噪聲,存留實(shí)際波峰及噪聲引發(fā)的偽峰值點(diǎn),對迭代信號(hào)P(i)采用差分求解獲得信號(hào)c(i),符合差分信號(hào)為0的點(diǎn)就是全部可能的峰值點(diǎn),對斜率臨界值進(jìn)行設(shè)定能夠去除偽峰值點(diǎn)。
因?yàn)樵肼曅纬傻膫畏逡卜蟘(i)等于0的狀況,為了達(dá)到去除噪聲的目的,需將信號(hào)c(i)進(jìn)行高斯濾波處理,然后使用幅度臨界值將信號(hào)內(nèi)幅度小的偽峰值點(diǎn)進(jìn)行過濾剔除。經(jīng)過上述步驟即可大致斷定波峰的具體位置。
進(jìn)行峰值點(diǎn)補(bǔ)償糾正,因?yàn)榉逯迭c(diǎn)補(bǔ)償是解決系統(tǒng)振蕩的有效手段,也可對溫度變化引起的采峰點(diǎn)非線性漂移自動(dòng)跟蹤補(bǔ)償,所以按照探尋到的波峰位置將信號(hào)采取波形重建,推算出波峰左半部分面積AL與右半部分面積AR,同時(shí)對比兩者的大小,即可依次將兩部分波形使用指數(shù)修正函數(shù)f(x)采取相對的指數(shù)修正。具體操作:將τB作為中心,依次求出左半邊與右半邊波形的面積,選擇適當(dāng)?shù)闹笖?shù)函數(shù),采取波形擬合改正,借此獲得糾正后的峰值點(diǎn)位置τP。
如果AL=AR,就利用sinc函數(shù)擬合,獲得的τB就是τP的位置;
按照修正后獲得的峰值點(diǎn)τP所處位置,就能精確推算出云服務(wù)平臺(tái)發(fā)射信號(hào)與接收間的時(shí)間差,以此降低挖掘偏差,使資源管理大數(shù)據(jù)挖掘的精度最大化。
為了驗(yàn)證本文方法的可靠性,在KDNuggets(http://www.kdnuggets.com/datasets/index.html)中,隨機(jī)選取一個(gè)數(shù)據(jù)集,在保證該數(shù)據(jù)集可用的情況下,將其作為數(shù)據(jù)來源,并將本文方法與傳統(tǒng)單點(diǎn)資源管理模式挖掘方法進(jìn)行挖掘精度實(shí)驗(yàn)對比,實(shí)驗(yàn)平臺(tái)為MATLAB7.0仿真軟件。
想要更為直觀地比較兩種方法的挖掘精度,下面對其進(jìn)行挖掘誤差對比,具體結(jié)果如圖1所示。
圖1 挖掘誤差對比
從圖1中可以看到,本文方法的挖掘誤差較小,具備極高的穩(wěn)定性,在-50~50 mm波動(dòng),而傳統(tǒng)方法(文獻(xiàn)[4])的挖掘誤差波動(dòng)較大,在100~300 mm波動(dòng),且伴隨挖掘次數(shù)的增加,挖掘誤差也隨之增多,證明該方法的適用性較差。
為了增強(qiáng)資源管理大數(shù)據(jù)挖掘的挖掘精度,確保挖掘數(shù)據(jù)的可用性,本文提出一種基于混沌時(shí)間序列的資源管理大數(shù)據(jù)挖掘方法。首先通過相空間重構(gòu)及探尋預(yù)測點(diǎn)函數(shù)關(guān)聯(lián),構(gòu)建出混沌時(shí)間序列模型,以此預(yù)測目標(biāo)資源的具體方位,為后續(xù)的精準(zhǔn)挖掘提供先決條件;其次,對資源管理大數(shù)據(jù)的回波信號(hào)采取去噪處理,最大限度減少信號(hào)損失,保證信號(hào)傳輸真實(shí)性;最后利用基于峰值點(diǎn)修正的資源管理大數(shù)據(jù)挖掘方法,對回波波形進(jìn)行擬合糾正,能夠更加準(zhǔn)確地發(fā)現(xiàn)峰值點(diǎn)位置,挖掘誤差在-50~50 mm波動(dòng),運(yùn)用幅度臨界值把信號(hào)中幅度較小的偽峰值點(diǎn)進(jìn)行過濾剔除,以此提升挖掘精準(zhǔn)度,保證挖掘結(jié)果的可靠性。
河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版)2022年3期