郭新軍
摘要
磁光電混合存儲(chǔ)可將固態(tài)硬盤、磁盤和光盤等三類存儲(chǔ)媒體的優(yōu)點(diǎn)結(jié)合起來(lái),為爆炸性增長(zhǎng)的大數(shù)據(jù)提供長(zhǎng)壽命、大容量、低成本、安全可靠的存儲(chǔ)方式,成為目前大數(shù)據(jù)存儲(chǔ)發(fā)展的主流方向。但要保證其低I/O延遲和高存取帶寬,針對(duì)分級(jí)存儲(chǔ)方案如何合理高效地對(duì)數(shù)據(jù)進(jìn)行熱、溫、冷劃分就成為一個(gè)新的課題。采用人工智能中的“深度學(xué)習(xí)”方法給出了一種解決方案并編程實(shí)現(xiàn),小樣本識(shí)別準(zhǔn)確率達(dá)到了90%以上。
【關(guān)鍵詞】磁光電混合存儲(chǔ) 分級(jí)存儲(chǔ) 人工神經(jīng)網(wǎng)絡(luò) 深度學(xué)習(xí)
1 研究背景
數(shù)據(jù)量爆炸性增長(zhǎng)的大數(shù)據(jù)時(shí)代,根據(jù)訪問(wèn)頻率數(shù)據(jù)可分為熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù)。統(tǒng)計(jì)結(jié)果顯示,當(dāng)下冷數(shù)據(jù)的數(shù)據(jù)量占比大數(shù)據(jù)已達(dá)到80%,因此大數(shù)據(jù)的存儲(chǔ)主要是解決好冷數(shù)據(jù)存儲(chǔ)的問(wèn)題。采用光盤庫(kù)存儲(chǔ)冷數(shù)據(jù),硬盤陣列保存溫?cái)?shù)據(jù),固態(tài)盤和內(nèi)存保存熱數(shù)據(jù)的磁光電混合方式可將磁盤、固態(tài)硬盤和光盤等三類存儲(chǔ)媒體的優(yōu)點(diǎn)結(jié)合起來(lái),實(shí)現(xiàn)長(zhǎng)壽命(50年以上)、大容量(PB級(jí)以上)、低成本(初期建設(shè)成本減少50%,能耗降低80%)、安全可靠的方式保存大數(shù)據(jù),又可以保證快速訪問(wèn)響應(yīng)速度(對(duì)99.99%的I/O響應(yīng)時(shí)間不超過(guò)1秒)和高速讀寫(xiě)性能(不低于1GB/s),成為目前大數(shù)據(jù)存儲(chǔ)發(fā)展的主流方向。
然而不同行業(yè)的大數(shù)據(jù)對(duì)溫、冷、熱的劃分標(biāo)準(zhǔn)具有很大的差異,如何找到高效、通用的方法來(lái)解決這個(gè)問(wèn)題具有一定的難度。因此在大數(shù)據(jù)時(shí)代數(shù)據(jù)暴增的沖擊之下,合理高效的對(duì)數(shù)據(jù)進(jìn)行冷熱劃分并采取與之相對(duì)應(yīng)的分級(jí)存儲(chǔ)解決方案就成為一個(gè)新的課題。
人工智能是近年才逐漸進(jìn)入人們視野的一門學(xué)科和一項(xiàng)技術(shù)。2017年5月27日中國(guó)圍棋職業(yè)九段棋手柯潔與A1phaGo的圍棋人機(jī)大戰(zhàn),AlphaGo最終以3比0的總比分擊敗當(dāng)時(shí)世界排名第一的柯潔。AlphaGo是一款圍棋人工智能程序,而能使它越戰(zhàn)越勇的秘訣就是人工智能之中的“深度學(xué)習(xí)”?!吧疃葘W(xué)習(xí)”是指多層的人工神經(jīng)網(wǎng)絡(luò)(Artificial NeuralNetworks,ANNs)和訓(xùn)練它的方法。一層神經(jīng)網(wǎng)絡(luò)會(huì)把大量矩陣數(shù)字作為輸入,通過(guò)非線性激活方法取權(quán)重,再產(chǎn)生另一個(gè)數(shù)據(jù)集合作為輸出,這就像生物神經(jīng)大腦的工作機(jī)理一樣,通過(guò)合適的矩陣數(shù)量,將多層組織鏈接一起,形成神經(jīng)網(wǎng)絡(luò)“大腦”進(jìn)行精準(zhǔn)復(fù)雜的處理,就像人們識(shí)別物體標(biāo)注圖片一樣。
決定大數(shù)據(jù)中的數(shù)據(jù)屬于熱、溫、冷哪一類數(shù)據(jù)的因素有很多,而且不同行業(yè)對(duì)熱、溫、冷數(shù)據(jù)的劃分標(biāo)準(zhǔn)具有很大的差異,另外在存儲(chǔ)時(shí)要求實(shí)時(shí)做出判斷數(shù)據(jù)屬于哪一類以便于分級(jí)存儲(chǔ)。采用人工智能的方法進(jìn)行劃分是一個(gè)可以通用且行之有效的方法。為此采用“深度學(xué)習(xí)”開(kāi)發(fā)了大數(shù)據(jù)熱、溫、冷數(shù)據(jù)智能分級(jí)軟件。
2 大數(shù)據(jù)人工智能分技術(shù)及實(shí)現(xiàn)
2.1 人工智能及其在數(shù)據(jù)分級(jí)中的應(yīng)用
思睿嘉得公司采用人工智能技術(shù)成功地克服了跨行業(yè)算法標(biāo)準(zhǔn)化的難題,所研制的數(shù)據(jù)分類引擎己成功應(yīng)用在郵件內(nèi)容過(guò)濾、保密文件管理、知識(shí)挖掘、情報(bào)分析、反欺詐、電子發(fā)現(xiàn)和歸檔、數(shù)據(jù)防泄漏等領(lǐng)域。無(wú)論金融、電信、能源、政府、制造等任何行業(yè)用戶,都可直接使用其標(biāo)準(zhǔn)版本,無(wú)需定制仍可獲得滿意效果。但在數(shù)據(jù)分級(jí)存儲(chǔ)領(lǐng)域還沒(méi)有獲得應(yīng)用。
國(guó)內(nèi)曾有人利用SVM(Support VectorMachine,支持向量機(jī))進(jìn)行分類,效果一直不好。為此本文將ANNs用作分類器引入到大數(shù)據(jù)分級(jí)存儲(chǔ)領(lǐng)域并編程實(shí)現(xiàn),以期實(shí)現(xiàn)對(duì)數(shù)據(jù)的高效智能分級(jí)。
2.2 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
人工神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的?!吧疃葘W(xué)習(xí)”是指多層的人工神經(jīng)網(wǎng)絡(luò)和訓(xùn)練它的方法。
目前人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元、常用激活函數(shù)、神經(jīng)網(wǎng)絡(luò)模型及神經(jīng)網(wǎng)絡(luò)工作方式都已經(jīng)有成熟的理論及方法。常用的激活函數(shù)分為線性函數(shù)和非線性激活函數(shù)兩類。線性函數(shù)包括:線性函數(shù)(Liner Function)、斜面函數(shù)(Ramp Function)、閾值函數(shù)(ThresholdFunction)。線性函數(shù)包括:S形函數(shù)(SigmoidFunction)、雙極S形函數(shù)等。在編程實(shí)現(xiàn)的程序中神經(jīng)網(wǎng)絡(luò)第一層采用“l(fā)ogsig”,為“對(duì)數(shù)S形轉(zhuǎn)移函數(shù)”;第二層采用“purelin”,為“線性函數(shù)”。
神經(jīng)網(wǎng)絡(luò)是由大量的神經(jīng)元互聯(lián)而構(gòu)成。根據(jù)網(wǎng)絡(luò)中神經(jīng)元的互聯(lián)方式,常見(jiàn)網(wǎng)絡(luò)結(jié)構(gòu)主要分為3類:前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeural Networks)、反饋神經(jīng)網(wǎng)絡(luò)(FeedbackNeural Networks)、自組織網(wǎng)絡(luò)(SOM,Self-Organizing Neural Networks)。在程序中使用了前饋神經(jīng)網(wǎng)絡(luò)中的BP神經(jīng)網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)工作方式有學(xué)習(xí)和工作兩種狀態(tài)。在程序中是通過(guò)train函數(shù)來(lái)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)。trainFun為學(xué)習(xí)規(guī)則采用的訓(xùn)練算法,源代碼中采用“traingdx”,為“梯度下降自適應(yīng)學(xué)習(xí)率訓(xùn)練函數(shù)”。
2.3 程序?qū)崿F(xiàn)
大數(shù)據(jù)智能分級(jí)軟件采用多級(jí)神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)的方法實(shí)現(xiàn),可依據(jù)數(shù)據(jù)的首、末次訪問(wèn)時(shí)間、訪問(wèn)頻率和行業(yè)屬性代碼等將其分為熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù)三大類,為大數(shù)據(jù)的分級(jí)存儲(chǔ)做好準(zhǔn)備,可在降低大數(shù)據(jù)存儲(chǔ)成本的同時(shí)提高大數(shù)據(jù)訪問(wèn)響應(yīng)速度及吞吐率。
程序采用matlab和C的混合編程(總體流程圖見(jiàn)圖1),通過(guò)newff函數(shù)建立前饋神經(jīng)網(wǎng)絡(luò),由訓(xùn)練數(shù)據(jù)(包括每個(gè)數(shù)據(jù)的第一次、最后一次訪問(wèn)時(shí)間,訪問(wèn)頻率,以及行業(yè)屬性代碼)經(jīng)過(guò)premmnx函數(shù)的特征值歸一化、構(gòu)建輸出矩陣,然后由train對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。當(dāng)神經(jīng)網(wǎng)絡(luò)對(duì)于訓(xùn)練數(shù)據(jù)輸入所產(chǎn)生的輸出與訓(xùn)練數(shù)據(jù)的誤差滿足要求后,通過(guò)sim函數(shù)對(duì)要存儲(chǔ)的新數(shù)據(jù)進(jìn)行分級(jí)識(shí)別。
2.3.1 功能
大數(shù)據(jù)熱、溫、冷數(shù)據(jù)智能分級(jí)軟件在經(jīng)過(guò)相應(yīng)的數(shù)據(jù)樣本訓(xùn)練以后,能夠?qū)Σ煌袠I(yè)的大數(shù)據(jù)按照已有的熱、溫、冷數(shù)據(jù)劃分標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確、高效的劃分。在經(jīng)過(guò)足夠多的數(shù)據(jù)充分訓(xùn)練后,對(duì)熱、溫、冷數(shù)據(jù)的識(shí)別正確率可達(dá)到90%以上。
2.3.2 特點(diǎn)
大數(shù)據(jù)熱、溫、冷數(shù)據(jù)智能分級(jí)軟件前期經(jīng)過(guò)一定數(shù)量的數(shù)據(jù)進(jìn)行訓(xùn)練,并對(duì)一定數(shù)量的數(shù)據(jù)進(jìn)行分級(jí),結(jié)果表明該軟件具有以下兩個(gè)方面的特點(diǎn):
(1)采用人工智能神經(jīng)網(wǎng)絡(luò)的方法,智能分級(jí)軟件對(duì)大數(shù)據(jù)熱、溫、冷數(shù)據(jù)識(shí)別準(zhǔn)確率高,速度快。
(2)智能化,適用范圍廣,通用性強(qiáng)。可適用于不同的行業(yè),如金融、銀行、檔案、教育、司法等。
3 結(jié)論與展望
首次將神經(jīng)網(wǎng)絡(luò)分類器引入大數(shù)據(jù)分級(jí)存儲(chǔ)領(lǐng)域,并編程實(shí)現(xiàn)。經(jīng)過(guò)小樣本數(shù)據(jù)訓(xùn)練后可獲得90%以上的分級(jí)識(shí)別準(zhǔn)確率,且具有近實(shí)時(shí)的識(shí)別速率。經(jīng)過(guò)優(yōu)化和完善程序可以進(jìn)一步提高識(shí)別準(zhǔn)確率,并達(dá)到實(shí)時(shí)的識(shí)別速率,滿足實(shí)際產(chǎn)品的需求,為磁光電混合存儲(chǔ)設(shè)備的推廣和應(yīng)用進(jìn)一步打好堅(jiān)實(shí)的基礎(chǔ),為應(yīng)對(duì)大數(shù)據(jù)的存儲(chǔ)帶來(lái)的挑戰(zhàn)做好準(zhǔn)備。另一方面在進(jìn)一步拓展人工智能應(yīng)用領(lǐng)域和范圍的同時(shí)也為大數(shù)據(jù)分級(jí)存儲(chǔ)找到了新的技術(shù)方法。
參考文獻(xiàn)
[1][IDCC2017]華錄光存儲(chǔ)研究院鐘將:打造“藍(lán)光存儲(chǔ),中國(guó)第一品牌”[EB/OL].(2017-11-16)[2018-07-16].https://mp.weixin.qq.com/s?__biz=MjM50DMwMjE2MA==&mid=2651147513&idx=3&sn=2c060fe88310alc6e7eece0deebec2c9&chksm=bd3d34468a4abd5075b89d2378fe60fff5cla8f556595039d5705cebclc3acdac39691310aab&mpshare=1&scene=1&srcid;=1116pkOLpqY6hcPUjxWVOvk6#rd.
[2]王小瑞.千貨}如何利用人工智能實(shí)現(xiàn)數(shù)據(jù)分類?EB/OL].(2016-05-04)[http://www.aqniu.com八earn/15629.html.
[3]侯媛彬,杜京義,汪梅.神經(jīng)網(wǎng)絡(luò)[EB/OL].(2007-08-01)[2018-07-16].https://baike.baidu.com八tem/神經(jīng)網(wǎng)絡(luò)/174248?fr=aladdin.
[4]都登山.人工智能在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用分析[J].中國(guó)新通信,2016,01:87-89.