文/王琳
21世紀是科學(xué)技術(shù)迅猛發(fā)展的時代,大數(shù)據(jù)已走進我們的生活,在科學(xué)領(lǐng)域,爆發(fā)式增長的大數(shù)據(jù)為科研人員和社會發(fā)展帶來了巨大的價值,而科學(xué)大數(shù)據(jù)的處理分析是一項技術(shù)要求高、浩繁的大工程。然而現(xiàn)在常用的大數(shù)據(jù)處理軟件已不能滿足當(dāng)今時代大數(shù)據(jù)處理的要求,因此研究以云分析為代表的大數(shù)據(jù)處理分析軟件就顯得尤為必要。
大數(shù)據(jù)逐步走進人們的視線,其也越來越彰顯其具備的優(yōu)勢,已被廣泛應(yīng)用至電子商務(wù)、衛(wèi)星遙感、高能物理、現(xiàn)代新農(nóng)業(yè)等領(lǐng)域,成為大國間博弈的心領(lǐng)域。大數(shù)據(jù)對人類日常生活及對當(dāng)今世界的新理解的影響也更加明顯。而作為大數(shù)據(jù)重要分支領(lǐng)域的科學(xué)大數(shù)據(jù)因具有復(fù)雜性、綜合性、不可重復(fù)性、高維性及高度集成信息的內(nèi)部特征及在數(shù)據(jù)內(nèi)容、體量、分析等方面具有的傳統(tǒng)數(shù)據(jù)分析無法比擬的外部特征。且其研究方向從單一學(xué)科向多學(xué)科并跨學(xué)科的轉(zhuǎn)變,使得科學(xué)世界正因科學(xué)大數(shù)據(jù)的興起而發(fā)生變化。因此,盡快開發(fā)并使用與之匹配的分析服務(wù)系統(tǒng),給當(dāng)今信息技術(shù)領(lǐng)域帶來了新的挑戰(zhàn)。
Matlab 因其在算法開發(fā)、數(shù)據(jù)分析、計算等領(lǐng)域提供了高級編程語言和交互式的環(huán)境,因此被廣泛用于眾多科學(xué)領(lǐng)域。R 語言、Weka是眾多免費的單機環(huán)境智能分析軟件的典型代表。R語言因可提供強大的統(tǒng)計分析功能,且用戶可根據(jù)自身需要安裝個性化擴展包而增強R功能,在統(tǒng)計分析和繪圖語言中用途廣泛?;?Java 語言運用的Weka 數(shù)據(jù)挖掘平臺因在可視化、拖拽式分析流程設(shè)計界面方面的強大功能,并在預(yù)處理和機器學(xué)習(xí)算法方面集成了大量數(shù)據(jù)。但因此類設(shè)計初衷為單機模式運行的軟件系統(tǒng),無法針對當(dāng)前分布式存儲的科學(xué)大數(shù)據(jù)進行處理,因此在處理科學(xué)大數(shù)據(jù)方面存在先天不足。
在分布式環(huán)境下Hadoop Mahout、Spark MLlib是分析軟件的典型代表。通過使用這類代表性的軟件,分布式并行挖掘方面的問題已經(jīng)被研究人員解決,并提供了具有代表性的可供參考的的機器學(xué)習(xí)算法和模型。隨著科技的發(fā)展,像Tensor Flow、CNTK等用于構(gòu)建和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型并可用于分布式和異構(gòu)計算的軟件也被廣大技術(shù)人員使用。但對于科研團隊的科學(xué)研究工作,此類軟件雖然在算法庫和計算平臺方面有一定的豐富度和高效性,但因編程開發(fā)程序的不足及系統(tǒng)配置的不完善,在分析較為復(fù)雜的科學(xué)問題上,存在先天性的不足。
當(dāng)前,通過云平臺對大數(shù)據(jù)進行智能分析的云計算智能分析軟件的使用率逐步提升。高效實用機器服務(wù)的模式也被眾多云平臺廠商研究的熱點方向。但這些系統(tǒng)在平臺鎖定和特定開發(fā)語言方面存在不足,用戶無法自主性的對算法庫進行擴充?,F(xiàn)如今,一些科學(xué)家攻克了技術(shù)難題,開發(fā)了具有瀏覽器架構(gòu)模式的分析軟件,在數(shù)學(xué)建模,云數(shù)據(jù)計算和數(shù)字模擬方面具有革新性意義。這種軟件系統(tǒng)以云平臺部署為基礎(chǔ),為特定需求的大數(shù)據(jù)分析進行高速處理,并提供能夠支持科學(xué)大數(shù)據(jù)分析服務(wù)的處理過程。
隨著時代的發(fā)展,人工智能等高新技術(shù)被應(yīng)用到科學(xué)研究中的需求越來越強烈。當(dāng)前,智能分析軟件不僅需要在相關(guān)領(lǐng)域提供基礎(chǔ)和傳統(tǒng)算法運算,還被廣泛應(yīng)用于深度縱向?qū)W習(xí)、自然語言理解和構(gòu)建生物圖譜等新型人工智能方向的集成應(yīng)用。為現(xiàn)代社會解析生命秘密、高通量測序等龐大系統(tǒng)的數(shù)據(jù)提供基礎(chǔ)支持。
復(fù)雜數(shù)據(jù)的處理、分析以及對于靶向關(guān)鍵性數(shù)據(jù)的提取過程的軟件因開發(fā)成本高昂,技術(shù)難度大,仍處于開發(fā)完善的過程中。當(dāng)前對于龐大大數(shù)據(jù)處理的迫切需求,使得大數(shù)據(jù)分析服務(wù)軟件急需在傳統(tǒng)式編程開發(fā)技術(shù)的基礎(chǔ)上,提供可視化的分析挖掘環(huán)境并為算法庫和模型提供高質(zhì)量、可復(fù)制的計算模式并實現(xiàn)囊括集成數(shù)據(jù)源、設(shè)計流程與執(zhí)行和可視化等功能于一體的智能分析云軟件。
云服務(wù)類的大數(shù)據(jù)分析軟件不再像傳統(tǒng)軟件一樣需要在本地進行安裝,并需要定期升級維護,提高了軟件應(yīng)用的效率。同時,云服務(wù)提供的瀏覽器可為深層數(shù)據(jù)挖掘與分析、流程化的操作和管理提供統(tǒng)一的門戶界面,增加軟件的便利性。此外,通過在線API的形式對模型、算法等數(shù)據(jù)源進行復(fù)制、共享使用的“功能及服務(wù)”型功能也被視為未來云服務(wù)分析軟件的重要特征。
因為分析模式在不同的科學(xué)領(lǐng)域范圍內(nèi)的需求千差萬別,因此通用性、大眾化的大數(shù)據(jù)分析軟件顯然無法滿足對于特定領(lǐng)域進行研究并需要個性化處理的科學(xué)團隊的要求。傳統(tǒng)的大數(shù)據(jù)分析軟件因無法提供在分析流程、可視化等方面的個性化分析功能也不被采用。隨著科學(xué)研究的深入,理想的大數(shù)據(jù)云分析智能分析軟件應(yīng)該囊括分析流程、可視化等方面的分析功能,并能針對不同的研究方向、不同的數(shù)據(jù)處理需求提供個性化的分析服務(wù),這也是當(dāng)前技術(shù)人員重點研究的方向。
本文在對當(dāng)前常用大數(shù)據(jù)處理軟件分析的基礎(chǔ)上,提供了未來云分析服務(wù)性能優(yōu)化的技術(shù)方向,旨在為開發(fā)適用于現(xiàn)代社會發(fā)展的云分析服務(wù)的科學(xué)大數(shù)據(jù)開發(fā)軟件提供建議。