• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)情形數(shù)理統(tǒng)計和并行計算方法研究

      2017-08-03 09:31:43蔣亞飛
      遼寧經(jīng)濟 2017年7期
      關鍵詞:并行算法數(shù)理統(tǒng)計軟件

      ◎蔣亞飛

      大數(shù)據(jù)情形數(shù)理統(tǒng)計和并行計算方法研究

      ◎蔣亞飛

      當前時代對信息數(shù)據(jù)的分析與統(tǒng)計提出了更高的要求,數(shù)理統(tǒng)計作為其基礎被廣泛關注及研究,以便為實現(xiàn)數(shù)據(jù)的高效統(tǒng)計及應用提供必要有效的保障。并行計算相對于串行計算來講,具有其獨特的優(yōu)勢及發(fā)展前景,對實現(xiàn)數(shù)據(jù)統(tǒng)計具有重要作用。本文結合筆者的實踐經(jīng)驗,對數(shù)理統(tǒng)計的基本情況及要點進行了分析,對并行計算的發(fā)展及模型建立進行了說明,并提出了優(yōu)化措施以供參考。

      大數(shù)據(jù) 數(shù)理統(tǒng)計 并行計算

      大數(shù)據(jù)分析在這些年的研究較為廣泛,且取得了較大的進展。然而,在大數(shù)據(jù)背景下對數(shù)理統(tǒng)計方法的研究及創(chuàng)新已出現(xiàn)了新的方式及變革,使得統(tǒng)計更具科學性及有效性,有利于當前大量數(shù)據(jù)的分析與統(tǒng)計。計算機技術是目前科學技術發(fā)展的重要成果,對現(xiàn)有數(shù)據(jù)的統(tǒng)計及分析具有重要意義??v觀現(xiàn)有數(shù)理統(tǒng)計方式及應用現(xiàn)狀,各類性能高、專業(yè)性強的軟件的使用為實現(xiàn)數(shù)據(jù)高效統(tǒng)計提供了技術支持;但數(shù)據(jù)的多樣化及復雜化也對軟件功能的發(fā)揮及效率提出了嚴峻的挑戰(zhàn)。對此,本文結合現(xiàn)有計算機技術、并行算法模型的建立及應用可對其數(shù)據(jù)分析與統(tǒng)計提供必要的技術支持,對數(shù)理統(tǒng)計方法及并行計算模型的研究情況進行了分析與總結,以便后期數(shù)據(jù)統(tǒng)計方法的研究。

      一、大數(shù)據(jù)時代下的數(shù)理統(tǒng)計與并行算法的思考

      (一)大數(shù)據(jù)情形下的數(shù)理統(tǒng)計說明及思考

      大數(shù)據(jù)時代下,數(shù)據(jù)的龐大及變化性呈現(xiàn)出較多的規(guī)律。就目前數(shù)據(jù)分析概率來講,以應用概率學的基本理論結合數(shù)理統(tǒng)計的方法進行分析,將對數(shù)據(jù)規(guī)律的分析與創(chuàng)新具有極其重要的作用。同時,數(shù)據(jù)分析與其他相關類學科相比,復雜性與其他學科相互融合,在增加其分析難度的情況下,也提高了其數(shù)據(jù)統(tǒng)計分析的有效性。對此,在當前數(shù)據(jù)分析中,數(shù)理統(tǒng)計方法與其他學科的相互滲透已成必然趨勢。但就目前數(shù)據(jù)分析情況,研究方法及模式還存在一些問題,導致其難以實現(xiàn)理論向實際快速的轉變。因此,研究一套完整的可用于目前大數(shù)據(jù)時代的數(shù)據(jù)統(tǒng)計方法對當前數(shù)據(jù)的分析具有極大的應用價值。

      (二)大數(shù)據(jù)時代下并行算法的解讀與思考

      對于目前大數(shù)據(jù)分析的實際情況及計算機技術的發(fā)展與使用,其串行的處理方式已無法滿足目前時代的發(fā)展及人們的需求,并行算法已成為主要發(fā)展趨勢。關于并行算法,現(xiàn)行的主要有以下兩種模式,即細粒度并行計算與粗粒度并行計算。但基于目前并行計算方式,在數(shù)據(jù)分布處理中仍存在不少的問題:一是節(jié)點間通信對并行處理的代價,如一些操作中的搜索、計數(shù)等可在各節(jié)點獨立執(zhí)行,使得其各節(jié)點數(shù)據(jù)處理后的合并及通信不可避免。二是節(jié)點間的負載不平衡性。如何實現(xiàn)數(shù)據(jù)在各個節(jié)點的平均分布對數(shù)據(jù)平衡計算具有積極的意義。三是可靠性。如節(jié)點集群常出現(xiàn)的節(jié)點故障問題對其可靠性造成了影響,而通過節(jié)點復制數(shù)據(jù)可解決上述問題,不僅提高了數(shù)據(jù)分析效率,也可冗余應對節(jié)點故障。

      基于目前數(shù)據(jù)分析與處理情況,大數(shù)據(jù)處理與分析中應用較多的主要集中在數(shù)據(jù)倉庫技術、預測分析技術及數(shù)據(jù)統(tǒng)計方法等,其對于企業(yè)分析具有極大的應用價值。從當前情況看,實現(xiàn)數(shù)據(jù)存儲并非難事,但如何對其進行高效存儲應作為重點進行考慮,以實現(xiàn)其數(shù)據(jù)轉換時不出現(xiàn)由于轉儲、抽取、整合所帶來的數(shù)據(jù)延遲;同時,有效的數(shù)據(jù)預測分析技術將對其實現(xiàn)企業(yè)決策具有重要意義。在當前計算機技術高速發(fā)展的同時,大數(shù)據(jù)時代的到來將對并行算法模型的研究及應用提出更高的要求,特別是提高數(shù)據(jù)處理的質量及效率。因此,加強大數(shù)據(jù)處理并行計算模型的研究及優(yōu)化具有重要意義。

      二、大數(shù)據(jù)情形下數(shù)理統(tǒng)計方法的分析及使用

      (一)數(shù)理統(tǒng)計的重要性分析

      各行各業(yè)在進行科研工作時難免會涉及各類變量大小、離散情況以及數(shù)據(jù)特征的描述,如何對其實施有效分析與統(tǒng)計至關重要。然而,數(shù)理統(tǒng)計學所關注的焦點就在于將各隨機變量及其相互之間的關系進行定量定性描述;對此,數(shù)據(jù)統(tǒng)計學在大數(shù)據(jù)分析中具有極其重要的作用。如何使用數(shù)理統(tǒng)計方法及正確作出客觀、可行的結論是進行數(shù)理統(tǒng)計分析的重點,也是關鍵所在。進行數(shù)理統(tǒng)計作用重大,一方面,可靠的數(shù)理統(tǒng)計數(shù)據(jù)可對各變量的變化趨勢有較為清晰的了解與掌握,對于相關學者及決策者進行方案的制定將起到積極作用;另一方面,數(shù)理統(tǒng)計也是對方案實施效果的一種有效驗證工具及手段,有利于問題反饋,對于推動事件有效發(fā)展具有重要意義。

      (二)數(shù)理統(tǒng)計軟件的選擇

      可進行數(shù)理統(tǒng)計的分析軟件現(xiàn)在有很多種。采用EXCEL電子表格作為數(shù)據(jù)統(tǒng)計分析工具,在早些年被廣泛應用于各行各業(yè),其強大的數(shù)據(jù)統(tǒng)計功能及便捷的操作很好地滿足了當時數(shù)據(jù)的計算與分析。但隨著數(shù)據(jù)網(wǎng)絡化程度的發(fā)展及人們對統(tǒng)計效率及效果要求的逐步提高,EXCEL電子表格已不能滿足數(shù)據(jù)統(tǒng)計專業(yè)化的分析要求,如數(shù)理統(tǒng)計分析中一些特值的計算及趨勢動態(tài)分析等。尤其對于特殊行業(yè),如醫(yī)學等。因此,選擇合適的分析軟件對實現(xiàn)數(shù)據(jù)合理分析具有重要的意義。

      目前,國際上已開發(fā)出專門應用數(shù)據(jù)統(tǒng)計分析的軟件,較為著名的有SPSS統(tǒng)計分析軟件與SAS數(shù)據(jù)統(tǒng)計分析軟件。另外,BMDP和STATISTICA等軟件在實現(xiàn)數(shù)據(jù)分析統(tǒng)計中應用也較為廣泛。如SPSS軟件,具有極強的專業(yè)性,針對社會科學、自然科學領域研究設計,應用較為廣泛,統(tǒng)計所形成的數(shù)據(jù)國際認證程度高。在日常交流中,采用該軟件分析所得的數(shù)據(jù)可不必說明其具體算法,可見該軟件的國際認可度及專業(yè)性。

      SPSS是專門為社會科學領域的研究者設計的,但此軟件在自然科學領域也得到廣泛應用。BMDP是專門為生物學和醫(yī)學領域研究者編制的統(tǒng)計軟件。

      (三)均值計算與相關性分析

      在數(shù)據(jù)分析中,均值及其相關性的計算與分析是基礎,也是表明數(shù)據(jù)變化趨勢的主要指標。所謂均值,即反映隨機變量大小的基本特征,可通過對均值的計算實現(xiàn)對數(shù)據(jù)數(shù)學期望的真實反映。如學者及統(tǒng)計分析人員在對數(shù)據(jù)進行統(tǒng)計分析時,常出現(xiàn)對相同采樣或同一條件下的隨機變量多次取值,為表證其數(shù)據(jù)觀測總體大小值,相關人士常采用直接計算數(shù)據(jù)的算術平均值或標準差。采用這種方法雖然可以起到對數(shù)據(jù)大小進行表征的效果,但嚴謹性較差,部分統(tǒng)計結果可能是不正確的。

      在分析中也常出現(xiàn)計算數(shù)據(jù)相關性的問題。因此,對相關性的分析,如秩變量一般別無選擇,只能計算Spearman或Kendall秩相關系數(shù)。而對于數(shù)值變量,應盡可能使用檢驗功效最高的參數(shù)方法,以便做到有效的統(tǒng)計計算的目的。一般情況下,相關系數(shù)的選擇依據(jù)是確定變量是否符合正態(tài)分布或變換后的數(shù)據(jù)是否符合正態(tài)分布。如樣本數(shù)據(jù)不符合正態(tài)分布,可在對數(shù)據(jù)處理時應采用適當?shù)姆绞綄ζ溥M行數(shù)據(jù)變換,并針對變換后的數(shù)據(jù)計算Pearson積矩相關系數(shù);否則,應改用檢驗功效較低的Spearman或Kendall秩相關系數(shù),以保證數(shù)據(jù)的可靠性及有效性。

      三、大數(shù)據(jù)時代下并行算法模型的建立及應用

      (一)并行算法的歷史回顧

      在計算機技術發(fā)展的初期,串行計算是其主要的設計及開發(fā)模式??梢哉f,當時的計算機從體系結構及應用軟件等方面,基本采用串行計算方式;但該種方式計算能力有限,隨著數(shù)據(jù)量的逐步增大及數(shù)據(jù)統(tǒng)計的愈發(fā)頻繁,該方法的瓶頸則越發(fā)被人們認識,并體會到采用并行計算是解決串行計算瓶頸及提高計算能力的有效手段。如并行計算可分為以流水線為代表的時間并行及對處理器為代表的空間并行等,極大地利用了計算機資源,提高了程序的利用率。

      但關于并行計算的研究,在一些重要領域如科學、軍工等,應用得到了推廣并取得了較好的效果。但在其他領域,卻未得到有效的發(fā)展,具體存在幾個方面因素:一是分布式并行門檻較高,且對于實現(xiàn)分布式并行程序執(zhí)行具有其不確定性及異步性,需要復雜的通信及調度并發(fā)控制,但由于早期計算模型在容錯性、可擴展性等方面存在不足且抽象層次低,實現(xiàn)高層次并行計算程序的編寫比較復雜。二是并行計算對軟件及體系結構的依賴程度高且存在擴展性差、管理難及能耗大的問題,對于一些大型單位,如國家實驗室、航空航天等機構具有較多的資源可使用,但對于一般單位應用還存在一定的局限性。在目前大數(shù)據(jù)時代下,并行計算的發(fā)展帶來了極大的機遇與挑戰(zhàn)。如云計算為分布式計算機并行計算提供了有效的平臺,另外數(shù)據(jù)密集型的生產(chǎn)及科研已成為行業(yè)發(fā)展的主要趨勢,并行計算為實現(xiàn)大數(shù)據(jù)的有效處理可提供積極的支持推動并行計算的發(fā)展。

      (二)并行算法模型的建立及優(yōu)化

      P-DOT并行計算模型是重要模型,對實現(xiàn)大數(shù)據(jù)處理與分析具有重要作用。在我國經(jīng)濟與科技不斷進步的過程中,該模型的影響范圍越來越大,其在應用過程中不僅呈現(xiàn)出傳統(tǒng)并行計算模型所沒有的功能,同時在其基礎上形成的計算方式能夠有效形成時間成本函數(shù)。同時,在目前的大數(shù)據(jù)應用中,對實現(xiàn)實時數(shù)據(jù)流的分析與統(tǒng)計是數(shù)據(jù)統(tǒng)計主要關注的問題,低延遲是對該列數(shù)據(jù)流最重要的要求;在使用面向批處理高度優(yōu)化的MapReduce算法模型直接處理無界的數(shù)據(jù)流具有很大的應用局限性,無法滿足流式應用對實時性的需求。而學者將MapReduce模型與典型的數(shù)據(jù)流系統(tǒng)進行融合形成更高效的并行處理架構,為保證其數(shù)據(jù)的有效處理提供了新的途徑及解決方式,而這種面向流數(shù)據(jù)的專用并行計算模型作為解決上述問題的根本途徑受到業(yè)內人士的高度重視。

      四、結束語

      綜上所述,數(shù)理統(tǒng)計是當前大數(shù)據(jù)時代進行數(shù)據(jù)分析與決策的有效工具,對推動行業(yè)的發(fā)展具有重要的作用。而數(shù)據(jù)分析隨著科學技術的進步及經(jīng)濟的發(fā)展,傳統(tǒng)領域對數(shù)據(jù)統(tǒng)計的要求越來越高,數(shù)據(jù)統(tǒng)計方法的研究及應用已成為推動行業(yè)發(fā)展的主要動力。筆者對現(xiàn)有數(shù)據(jù)統(tǒng)計方法進行了分析與說明,對常用數(shù)理統(tǒng)計軟件及要點進行了分析;同時結合當前計算機技術及大數(shù)據(jù)要求,對傳統(tǒng)串行計算方式與并行計算進行了對比,指出并行計算是發(fā)展的主要趨勢;最后對并行計算模型的建立及優(yōu)化進行了確認。

      (作者單位:江西財經(jīng)大學)

      責任編輯:張永輝

      猜你喜歡
      并行算法數(shù)理統(tǒng)計軟件
      禪宗軟件
      英語文摘(2021年10期)2021-11-22 08:02:26
      地圖線要素綜合化的簡遞歸并行算法
      淺談《概率論與數(shù)理統(tǒng)計》課程的教學改革
      軟件對對碰
      基于GPU的GaBP并行算法研究
      談軟件的破解與保護
      精品(2015年9期)2015-01-23 01:36:01
      論《概率論與數(shù)理統(tǒng)計》教學改革與學生應用能力的培養(yǎng)
      財經(jīng)類院校概率論與數(shù)理統(tǒng)計教學改革的探索
      河南科技(2014年10期)2014-02-27 14:09:37
      多媒體技術在《概率論與數(shù)理統(tǒng)計》教學中的應用
      河南科技(2014年1期)2014-02-27 14:04:45
      基于GPU的分類并行算法的研究與實現(xiàn)
      卢湾区| 定安县| 中牟县| 那坡县| 久治县| 固原市| 龙游县| 沙坪坝区| 台中县| 攀枝花市| 买车| 许昌市| 黄浦区| 岳池县| 武隆县| 昌平区| 阳西县| 寻乌县| 开化县| 平武县| 屏南县| 高淳县| 丰宁| 盐津县| 错那县| 阳新县| 沧州市| 石棉县| 鄂伦春自治旗| 五常市| 桑日县| 土默特右旗| 子长县| 肥西县| 甘泉县| 龙胜| 盐城市| 宁都县| 扬中市| 雷州市| 长阳|