張 陽,曾福庚
(1.中國科學院中科建設(shè) 山東東潤清潔能源有限公司,山東 東營 257000;2.貴州民族大學 數(shù)據(jù)科學與信息工程學院,貴州 貴陽 550000)
生活中任何地方都可以看到各種各樣的信息,例如,信息收集、處理、存儲、共享等。過去、現(xiàn)在和未來的信息和數(shù)據(jù)量龐大,沒有任何實體或組織能夠完全存儲如此大量的數(shù)據(jù),只可以存儲數(shù)據(jù)的相關(guān)部分進行檢索和傳輸,以便必要時交換和使用網(wǎng)絡(luò)中的數(shù)據(jù)。然而,隨著數(shù)據(jù)的積累,網(wǎng)絡(luò)訪問量的增加將會占用較多時間和帶寬。為提高數(shù)據(jù)傳輸速度,縮短網(wǎng)絡(luò)訪問時間,最直接的方法就是擴大網(wǎng)絡(luò)帶寬。但是,網(wǎng)絡(luò)的頻率范圍將受到限制,收集的數(shù)據(jù)越多,無法存儲的數(shù)據(jù)就越多。有效的數(shù)據(jù)壓縮可以解決這個問題。
目前,數(shù)據(jù)壓縮主要分為兩類,一類是有損壓縮,主要用于壓縮音頻、視頻、圖形和圖像。其主要特點是數(shù)據(jù)壓縮率一般在10:1到30:1之間;另一類是無損壓縮,用于壓縮文本文檔、數(shù)據(jù)庫、程序等。最大壓縮率約為70%(通常為50%-60%)。兩種壓縮率低的原因是,當前的無損壓縮算法在文件中要找到相同的副本;可執(zhí)行程序(EXE、com 等)壓縮率只能達到幾個百分點;有損壓縮不僅減少了圖像數(shù)據(jù)量,而且影響了圖像質(zhì)量。因此,尋找一種更有效的方法來提高數(shù)據(jù)壓縮率非常重要。
文章創(chuàng)建了一個新的通用數(shù)據(jù)模型,研究目的是:在現(xiàn)實世界中創(chuàng)造某種類型的對象(例如,將圖像清晰度劃分為低級像素340×255分辨率、普通像素720×570分辨率、高清像素1920×1080分辨率、4K像素3840×2160 分辨率和8K 像素7680×4320 分辨率,用于分層研究),并在此基礎(chǔ)上描述屬性,實現(xiàn)了現(xiàn)實世界中的數(shù)據(jù)壓縮和分析功能;分類對象的壓縮數(shù)據(jù)模型基于統(tǒng)一的數(shù)據(jù)描述模型,它提供了現(xiàn)實世界中對象壓縮數(shù)據(jù)模型的高度一致性;縱向時間分割與對象單元的橫向分層相結(jié)合。因此,使用簡化的邏輯和數(shù)學公式來表示不同數(shù)據(jù)壓縮結(jié)構(gòu)的拓撲結(jié)構(gòu)是研究和分析壓縮模型的一種新方法。復雜且難以表達的模型拓撲中的層次邏輯關(guān)系[1-9]用于表示壓縮拓撲[10-11]。揭示數(shù)據(jù)壓縮有序結(jié)構(gòu)關(guān)系,優(yōu)化壓縮模型,改進壓縮布局和分層管理,對于人工智能[12]機器學習為模型提供理論和算法保障,使其更有效、方便、安全,面向云計算的數(shù)據(jù)壓縮網(wǎng)絡(luò)。
在ESTDM 模型[13]中,將時間視為跨越過去和未來的無限時間,具有普遍性、連續(xù)性、可測量性和單向性。對象現(xiàn)象發(fā)生變化稱為事件,時間序列稱為時間列表。關(guān)于ESTDM 模型的許多資料已經(jīng)過詳細描述,在此不再贅述(圖1)。
圖1 基于事件的數(shù)據(jù)模型
將事件層次結(jié)構(gòu)轉(zhuǎn)換為壓?縮拓撲[10-11](圖2)。
圖2 事件的層次嵌套結(jié)構(gòu)拓撲
圖2用以下公式表示為數(shù)學模型。
計算第一層數(shù)據(jù)壓縮模型的數(shù)學公式
式中:∑w0(i)表示w0數(shù)據(jù)壓縮網(wǎng)絡(luò)所有點的集合;w0(i)(i=1,2,…,n)表示w0數(shù)據(jù)壓縮網(wǎng)絡(luò)第i 個點;“→1”表示數(shù)據(jù)壓縮1層的等式對應(yīng)包含關(guān)系,“1”表示在第一層上,“→”表示等于,箭頭表示從屬關(guān)系,兩個加在一起讀作“一層數(shù)據(jù)壓縮等于”。w0表示時間維度下數(shù)據(jù)壓縮點名稱,n是點的序號。
第二層數(shù)據(jù)壓縮的數(shù)學公式由公式(1)導出。
第n層數(shù)據(jù)壓縮的數(shù)學公式由公式(2)導出。
注:w0(i,…,i)為n層所有點的集數(shù)
由式(1-3)推導全架構(gòu)數(shù)據(jù)壓縮模型的數(shù)學公式為:
從圖1中基于事件的數(shù)據(jù)模型中,得到圖3中數(shù)據(jù)壓縮的數(shù)學模型:
圖3 數(shù)據(jù)壓縮模型
最終得到數(shù)據(jù)壓縮模型的數(shù)學公式
設(shè):
代入公式(5),最終得到數(shù)據(jù)壓縮模型的數(shù)學公式
M0為壓縮原始數(shù)據(jù);T1為數(shù)據(jù)事件1;T2為數(shù)據(jù)事件2;Tq為數(shù)據(jù)事件q;t1為時段1;t2為時段2;tq為時段q.
存儲在地址中的壓縮數(shù)據(jù)和現(xiàn)有的尋址方法非常復雜。主要有兩種類型:一種按主要行為規(guī)則的順序存儲,另一種是基于列控制的順序存儲。這兩種類型的排序順序非常復雜,難以表達。采用數(shù)據(jù)壓縮模型表示數(shù)學地址,相對清晰簡單。
圖2在數(shù)據(jù)壓縮模型四層點w0(2,1,1,2)數(shù)學邏輯地址表示式如下:
數(shù)據(jù)壓縮數(shù)學邏輯地址公式為:
數(shù)據(jù)壓縮模型通常需要減少或增加點。圖4是第1層數(shù)據(jù)縮減拓撲圖。
圖4 一層數(shù)據(jù)壓縮模型縮減拓撲邏輯圖
數(shù)據(jù)縮減點的數(shù)據(jù)公式推導如下:
對應(yīng)的,單層數(shù)據(jù)增加一個點的數(shù)據(jù)推導的結(jié)果為:
同理,可推導多層數(shù)據(jù)的分解和合并模型:
其中:k(k≥0)為所有層可增減數(shù)據(jù)集數(shù)。
設(shè):
M0為壓縮原始數(shù)據(jù);Tq為wq事件數(shù)據(jù)。
數(shù)據(jù)壓縮數(shù)學模型的乘法公式是根據(jù)數(shù)據(jù)壓縮數(shù)學模型的加減法推導出來的。
注:數(shù)學模型矩陣的加法、減法和乘法只對應(yīng)于原始地址數(shù)據(jù)的加法、減法和乘法。
由于數(shù)據(jù)壓縮數(shù)學模型乘法公式是數(shù)據(jù)壓縮模型縮放旋轉(zhuǎn)扭曲,公式(10)具有特征向量與特征值性質(zhì),所以數(shù)據(jù)壓縮特征值即數(shù)據(jù)壓縮數(shù)學模型乘法公式變?yōu)?/p>
將數(shù)據(jù)壓縮特征值簡稱壓縮值,在某t時刻或時間段,由公式(11)簡化如下
壓縮值定理:在給定的時間或時間內(nèi),壓縮值與壓縮原始數(shù)據(jù)成反比,與事件數(shù)據(jù)成正比。
根據(jù)壓縮值定理,壓縮后的數(shù)據(jù)會隨著時間的推移進行縮減。除了在真實世界中保持原始狀態(tài)外,其他各點均存儲變化部分,以便通過將壓縮值與原始數(shù)據(jù)相乘來修改所表示的數(shù)據(jù)(圖5)。
圖5 某部分高清圖像變化數(shù)據(jù)模型
將壓縮值定理代入圖5得
數(shù)據(jù)壓縮后得
得壓縮數(shù)據(jù)解壓后數(shù)據(jù)
圖5可由下式表示
在人工智能神經(jīng)網(wǎng)絡(luò)的單層公式中,每層神經(jīng)元的數(shù)目不同,輸入輸出維數(shù)不同,公式中矩陣和向量的行數(shù)和列數(shù)不同,但形式是一致的。假設(shè)考慮的這一層是第i 層,它接受m 個輸入,因此該層的計算如下:
式中:xmi是第m 層第i 個神經(jīng)單元的輸出向量,λij是第j 個神經(jīng)元的特征值,bmj是第j 個神經(jīng)元對應(yīng)的偏置值,其中f是一個非線性函數(shù),可見整個神經(jīng)網(wǎng)絡(luò)實際上是一個向量到向量的函數(shù)。
通過替換數(shù)據(jù)壓縮模型的特征向量和特征值公式(13),得到深度學習時空的數(shù)學模型
例如,數(shù)據(jù)壓縮模型圖中,用數(shù)據(jù)壓縮人工智能公式應(yīng)用相似性測度在搜索空間中按照優(yōu)化準則進行索,尋找最大相關(guān)點,用已知參數(shù)從而求解出變換模型中匹配數(shù)據(jù)。通過人工智能將這些因素輸入到計算機找到最佳的匹配。
以圖3為例,點Wq(2,1,1)與M0原始點匹配有三條路徑:
第一條路徑:f1=w0(1)→w0(1,2)→w0(1,2,2)
第二條路徑:f2=w0(2)→w0(2,1)→w0(2,1,1)
第三條路徑:f3=w0(2)→t0(2,2)
由數(shù)據(jù)壓縮典型數(shù)據(jù)庫或模糊數(shù)學算出的權(quán)重值為:
將這三條路徑代入數(shù)據(jù)壓縮深度學習公式(16)得到如下式(由于本權(quán)重值采用精確值,故偏置向量不必微調(diào)數(shù)據(jù)壓縮偏重值,即b=0)得搜,
根據(jù)計算,路徑f1對總目標的權(quán)重為
0.2×0.3+0×0.3+0.7×0.4=0.34
依此類推,得出路徑f2、f3對總目標的權(quán)值為0.6、0.44.
由此得出f2>f3>f1,f2為最優(yōu)匹配。
文章用數(shù)學公式表達了數(shù)據(jù)壓縮模型,并根據(jù)壓縮值理論給出了數(shù)據(jù)壓縮的邏輯關(guān)系。數(shù)據(jù)壓縮值定理可以減少數(shù)據(jù)存儲量,該模型具有較高的數(shù)據(jù)檢索效率,可將對象的變化信息分解為多個片段,并能夠完全重建并恢復,具有數(shù)據(jù)編輯功能(例如,更改每個數(shù)據(jù)層的顏色灰度壓縮值可以在普通LCD 屏幕上生成立體圖像)。壓縮值還可以二次壓縮。數(shù)學公式和壓縮值可以通過使用時間和各種網(wǎng)絡(luò)數(shù)據(jù)庫進行擴展。此外,數(shù)據(jù)可以分類,能夠建立一個更完整的數(shù)據(jù)模型分析系統(tǒng)。
對數(shù)據(jù)壓縮數(shù)學的研究發(fā)現(xiàn),數(shù)據(jù)壓縮數(shù)學是人工智能、地理信息系統(tǒng)、時空數(shù)據(jù)庫等領(lǐng)域的研究熱點。數(shù)學數(shù)據(jù)壓縮的未來方向如下:
(1)開發(fā)更具適應(yīng)性的數(shù)據(jù)壓縮理論。也許應(yīng)放棄原來的數(shù)據(jù)壓縮方法,引入一種新的數(shù)據(jù)壓縮理論,是包含所有壓縮數(shù)據(jù)的統(tǒng)一模型。
(2)作為一種數(shù)據(jù)壓縮結(jié)構(gòu),它在生物信息學、地理信息系統(tǒng)和語義網(wǎng)絡(luò)等領(lǐng)域具有重要意義。其研究受到了各個領(lǐng)域?qū)W者的高度關(guān)注。未來對數(shù)據(jù)壓縮結(jié)構(gòu)的研究將對數(shù)據(jù)壓縮的數(shù)學領(lǐng)域做出重要貢獻。
(3)數(shù)據(jù)壓縮數(shù)學的應(yīng)用領(lǐng)域已經(jīng)從地理信息擴展到軍事、交通、醫(yī)學、生物等領(lǐng)域。隨著商業(yè)信息處理系統(tǒng)(如移動對象數(shù)據(jù)庫)的出現(xiàn),數(shù)據(jù)壓縮數(shù)學的應(yīng)用前景越來越明顯。現(xiàn)有理論成果的推廣將是未來數(shù)據(jù)壓縮數(shù)學研究的優(yōu)先方向之一。
(4)人工智能是未來可能對數(shù)據(jù)壓縮產(chǎn)生重大影響的另一個關(guān)鍵因素。信息的壓縮程度直接關(guān)系到信息的不確定性。假如計算機可以像人類一樣猜測后續(xù)信息?;谏倭恳阎担畔⒈粔嚎s了百分之一甚至百萬分之一。因此,高精度、快速壓縮的解決方案是必要的,它甚至可能成為目前尚未引起人們注意的巨大市場。使用人工智能進行壓縮以滿足人工智能的需求是我們的下一個目標。