諶裕勇
(廣東工業(yè)大學華立學院,廣州511325)
隨著云存儲和云計算技術的快速發(fā)展,對云存儲中心多源文本主題信息開發(fā)成為未來云存儲和數(shù)據(jù)庫建設的關鍵技術。隨著數(shù)據(jù)資源規(guī)模的不斷擴大,大量的云存儲資源分布在云集成數(shù)據(jù)庫系統(tǒng)中,通過云組合服務和大數(shù)據(jù)管理的模式,實現(xiàn)云存儲資源共享,為了提高云存儲系統(tǒng)的數(shù)據(jù)調度性能,需要對云存儲中心多源文本主題進行融合處理,結合多媒體集成學習方法進行資源信息優(yōu)化調度,提高主題信息資源的檢索能力[1]。云存儲中心多源文本主題信息表現(xiàn)為一組大數(shù)據(jù),采用關聯(lián)規(guī)則挖掘方法進行云存儲中心多源文本主題資源信息整合,促進云存儲中心多源文本主題信息檢索效率的提升。
傳統(tǒng)方法中,對云存儲中心多源文本主題融合研究采用層次數(shù)據(jù)聚類方法,結合資源的聚類處理技術[2],提取云存儲中心多源文本主題信息的規(guī)則性關聯(lián)特征量,采用向量量化編碼方法實現(xiàn)計算資源的融合調度,取得了較好的調度效果[3]。文獻[4]中,提出一種基于混合差分并行調度的云存儲中心多源文本主題資源信息的整合算法,首先構建云存儲環(huán)境下多媒體集成學習資源信息分布的數(shù)據(jù)結構和網(wǎng)格結構模型,采用資源信息流的樣本聚類分析方法進行云存儲環(huán)境下資源信息的屬性歸類處理,提高資源整合能力,但該方法計算開銷較大,對云存儲中心多源文本主題融合的實時性不好。針對上述問題,本文提出一種基于關聯(lián)規(guī)則挖掘的云存儲中心多源文本主題融合模型。首先構建云存儲中心多源文本主題分布大數(shù)據(jù)模型,采用相空間重構方法進行大數(shù)據(jù)的特征分布式重建和融合聚類處理,提取云存儲中心多源文本主題信息的關聯(lián)規(guī)則特征量,然后采用相關性檢測技術進行信息集成濾波,結合模糊聚類方法進行云存儲中心多源文本主題特征分類處理,根據(jù)分類結果實現(xiàn)信息融合。最后進行仿真實驗分析,展示了本文方法在提高云存儲中心多源文本主題融合能力方面的優(yōu)越性能。
為了實現(xiàn)云存儲中心多源文本主題融合模型的優(yōu)化設計,采用統(tǒng)計分析方法進行云存儲中心多源文本主題信息資源采集,對采集的云存儲中心多源文本主題信息資源進行信息重構,構建云存儲中心多源文本主題信息資源的特征信息流,采用線性回歸分析模型和網(wǎng)格劃分技術構建云存儲中心多源文本主題信息資源的分布式結構模型[5],用xn-i表示云存儲中心多源文本主題信息資源屬性集的模糊分布自相關量,ηn-j表示云存儲中心多源文本主題信息資源屬性特征向量的有限分布集,則云存儲中心多源文本主題信息資源信息流重組模型表示為:
其中,a0為統(tǒng)計數(shù)據(jù)的采樣幅值,bj為云存儲中心多源文本主題信息資源的最優(yōu)關聯(lián)規(guī)則分布屬性。采用分段樣本統(tǒng)計分析方法進行云存儲中心多源文本主題信息資源的聯(lián)合關聯(lián)互信息特征分析[6],云存儲中心多源文本主題信息資源的標量時間序列為x(t),t=0,1,…,n-1, 結合模糊信息特征分析方法,采用相關的數(shù)據(jù)分析和信息采集技術,分析反映主體資源信息的相關性指標,得到主題信息分布的有限集合為:
結合融合數(shù)據(jù)聚類模型,得到云存儲中心多源文本主題信息資源的關聯(lián)相關性特征提取結果為:
在大數(shù)據(jù)處理環(huán)境下,云存儲中心匯聚了大量的多源信息資源[7],在模糊聚類中心,得到云存儲中心多源文本主題特征的二元語義特征映射描述為:
設實數(shù)β∈[0,T]為相似度,將關聯(lián)指標參量加載到信息處理模塊,采用關聯(lián)規(guī)則挖掘方法[8],實現(xiàn)信息采樣和特征提取。
構建云存儲中心多源文本主題分布大數(shù)據(jù)模型,采用相空間重構方法進行大數(shù)據(jù)的特征分布式重建,當多源文本主題信息分布聚類中心的相對距離滿足得到云存儲中心多源文本主題信息資源的聚類迭代式為:
設 (sk,ak)和(sl,al) 為云存儲中心多源文本主題信息資源融合節(jié)點之間的模糊貼近度矢量,采用相空間重構方法進行特征重組[9],相空間重構模型為:
其中,xij=1表示云存儲中心多源文本主題信息資源融合的回歸系數(shù),提取云存儲中心多源文本主題信息的關聯(lián)規(guī)則特征量,得到云存儲中心多源文本主題信息資源屬性分類評估約束因子為:
計算云存儲中心多源文本主題信息資源的模糊關聯(lián)度特征,得到信息融合的檢測統(tǒng)計分析模型表達式為:
其中,TTD表示關聯(lián)規(guī)則集,在數(shù)據(jù)融合的相空間中,得到云存儲中心多源文本主題信息大數(shù)據(jù)挖掘后輸出為:
其中,sc(t)表示多源文本主題信息的并行調度集,由此提取云存儲中心多源文本主題信息的關聯(lián)規(guī)則特征量,根據(jù)特征提取結果進行信息融合聚類處理。
在上述構建了云存儲中心多源文本主題分布大數(shù)據(jù)模型和采用相空間重構方法進行大數(shù)據(jù)的特征分布式重建處理的基礎上,進行云存儲中心多源文本主題融合模型的優(yōu)化設計,本文提出一種基于關聯(lián)規(guī)則挖掘的云存儲中心多源文本主題融合模型,提取云存儲中心多源文本主題信息的關聯(lián)規(guī)則特征量,采用多特征的靜態(tài)擬合方法進行信息流重組[10],則資源分布集合的優(yōu)先級屬性可以表示為P(ni)={pk|prkj=1,k=1,2,…,m} 。 采用并行調度的關聯(lián)規(guī)則挖掘方法進行云存儲中心多源文本主題大數(shù)據(jù)挖掘,得到資源信息流的分組關系為:
采用多元信息融合方法,進行云存儲中心多源文本主題信息流的自適應分配,得到資源信息流為:
其中,q表示多個節(jié)點重組下的云存儲中心多源文本主題信息流集合,nq表示負載,云存儲中心多源文本主題信息關聯(lián)規(guī)則挖掘輸出為:
根據(jù)關聯(lián)規(guī)則挖掘結果采用分組樣本回歸分析方法進行主題信息融合。
給定云存儲中心多源文本主題信息資源融合的相關因子,分別是a1,a2,…,ak,在云存儲中心多源文本主題信息資源分布結構模型下,以β為邊界條件,得到云存儲中心多源文本主題信息資源融合的拓展外延Mβ:
由此得到資源融合的模糊函數(shù)為:
計算云存儲中心多源文本主題信息資源的模糊關聯(lián)度特征,采用C均值聚類方法進行大數(shù)據(jù)融合處理,優(yōu)化的模型可表達為:
為了測試本文方法在實現(xiàn)云存儲中心多源文本主題融合和檢索中的應用性能,進行仿真實驗,實驗中分析軟件為Excel 2007和SPSS19.0,相關參數(shù)為:Q=200,c1=30,c2=10,cr=2,μ1=μ2=0.01,ρ1=ρ2=0.01,δ=0.8,云存儲中心多源文本主題分布的相關性統(tǒng)計分析結果見表1。
表1 云存儲中心多源文本主題分布的相關性統(tǒng)計分析結果Tab.1 The correlation statistical analysis results of multi-source text topic distribution in cloud storage center
根據(jù)表1的云存儲中心多源文本主題分布相關性檢測結果進行關聯(lián)規(guī)則挖掘,得到挖掘結果如圖1所示。
分析圖1得知,本文方法能準確挖掘云存儲中心多源文本主題信息關聯(lián)規(guī)則項,從而提高信息融合能力,測試不同方法進行文本主題信息融合處理后的召回率,得到對比結果如圖2所示。分析圖2得知,采用本文方法進行云存儲中心多源文本主題信息融合的特征分類性較好,提高了云存儲中心進行數(shù)據(jù)檢索的準確率,數(shù)據(jù)召回性較好。
圖1 云存儲中心多源文本主題信息關聯(lián)規(guī)則挖掘結果Fig.1 Mining results of multi-source text topic information association rules in cloud storage center
圖2 召回率對比Fig.2 Recall rate comparison
結合多媒體集成學習方法進行資源信息優(yōu)化調度,提高主題信息資源的檢索能力,本文提出一種基于關聯(lián)規(guī)則挖掘的云存儲中心多源文本主題融合模型。構建云存儲中心多源文本主題分布大數(shù)據(jù)模型,采用相空間重構方法進行大數(shù)據(jù)的特征分布式重建和融合聚類處理,提取云存儲中心多源文本主題信息的關聯(lián)規(guī)則特征量,采用相關性檢測技術進行信息集成濾波,結合模糊聚類方法進行云存儲中心多源文本主題特征分類處理,根據(jù)分類結果實現(xiàn)信息融合。研究得知,采用本文方法進行云存儲中心多源文本主題信息融合的特征分類性較好,提高了云存儲中心進行數(shù)據(jù)檢索的準確率,數(shù)據(jù)召回率較高。