• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向航空制造業(yè)的海量數(shù)據(jù)處理研究

    2013-09-12 03:23:10王東勃
    機械設計與制造工程 2013年4期
    關鍵詞:字段海量數(shù)據(jù)處理

    吳 恒,王東勃

    (西北工業(yè)大學機電學院,陜西西安 710072)

    面向航空制造業(yè)的海量數(shù)據(jù)處理研究

    吳 恒,王東勃

    (西北工業(yè)大學機電學院,陜西西安 710072)

    為了向航空制造業(yè)的海量數(shù)據(jù)處理提供一種新穎的模式,以Hadoop開源軟件平臺為架構(gòu),介紹了HDFS分布式存儲系統(tǒng)和Map-Reduce編程模式,分析了航空制造業(yè)海量數(shù)據(jù)處理需求,提出了一種應用于航空制造業(yè)的海量數(shù)據(jù)處理模型,即將數(shù)據(jù)格式劃分為若干個主要字段,按照該數(shù)據(jù)格式在分片中對數(shù)據(jù)進行深度優(yōu)先挖掘,將提取出的數(shù)據(jù)以鍵值對的形式并按照一定的存儲格式存儲于HDFS中,利用Map-Reduce并行算法對存儲的數(shù)據(jù)進行排序和分區(qū)處理。最后提出了基于K-NN的并行化數(shù)據(jù)挖掘算法,且分析了海量數(shù)據(jù)處理模型的擴展性、實時性和快速處理等性能。

    航空制造業(yè);海量數(shù)據(jù);Hadoop;數(shù)據(jù)處理模型;鍵值對;算法

    航空制造業(yè)的數(shù)據(jù)發(fā)生了很大的變化。從航空制造過程看,產(chǎn)品的設計研發(fā)產(chǎn)生的二維文檔或三維模型數(shù)據(jù),生產(chǎn)制造產(chǎn)生的BOM表、工裝數(shù)據(jù)和日志數(shù)據(jù),實驗過程中采集的數(shù)據(jù),到最后的裝配數(shù)據(jù),這些數(shù)據(jù)總量至少是PB級別。從數(shù)據(jù)結(jié)構(gòu)來看,除了結(jié)構(gòu)化數(shù)據(jù),生產(chǎn)制造過程產(chǎn)生的更多是非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。然而目前使用的關系型數(shù)據(jù)庫很難勝任海量數(shù)據(jù)的存儲和分析計算,大多數(shù)面向航空制造業(yè)的優(yōu)秀產(chǎn)品數(shù)據(jù)分析處理軟件也很難滿足海量數(shù)據(jù)處理的要求。因此,需要尋求一種新的海量數(shù)據(jù)處理方式來支持航空制造業(yè)的海量數(shù)據(jù)處理。

    本文所研究的內(nèi)容是基于Hadoop[1]開源軟件平臺,它集成應用了機器集群技術、網(wǎng)格技術和分布式文件系統(tǒng),可以方便實現(xiàn)存儲空間的擴展、數(shù)據(jù)容錯以及數(shù)據(jù)的高效處理。

    1 Hadoop核心技術和Map-Reduce編程模型

    Hadoop是一種開源軟件平臺,能夠更加容易地編寫可處理海量數(shù)據(jù)的并行應用程序。它使用了一種分布式文件存儲系統(tǒng)HDFS[1],這種分布式文件系統(tǒng)提供一個分布式集群存儲環(huán)境,使得海量數(shù)據(jù)能夠遍布存儲于該大集群環(huán)境上,并且將之前分類好的數(shù)據(jù)再進行分塊序列式存儲。

    HDFS是一個主從體系結(jié)構(gòu)[1],如圖1所示。HDFS提供了訪問海量數(shù)據(jù)的支持。HDFS分為兩種節(jié)點:名稱節(jié)點(Namenode[2])和數(shù)據(jù)節(jié)點(Datanode[2])。這兩種節(jié)點是運行在計算機上的軟件。在集群中,只有一臺專門計算機負責運行唯一的名稱節(jié)點,其他機器則分別運行著數(shù)據(jù)節(jié)點。名稱節(jié)點負責維護文件的命名空間以及文件數(shù)據(jù)塊復制的大小。數(shù)據(jù)節(jié)點將HDFS數(shù)據(jù)塊存儲在本地文件系統(tǒng)中[2]。

    圖1 HDFS主從體系結(jié)構(gòu)

    Map-Reduce[3]是一種可用于處理數(shù)據(jù)的編程模型。這種模型是采用并行運行的模式,因此可以將海量數(shù)據(jù)處理任務交給任何一個擁有機器集群的系統(tǒng),Map-Reduce的優(yōu)勢就在于可以高效處理海量數(shù)據(jù)。這種編程模型的任務過程擁有兩個處理階段,依次是Map階段和Reduce階段。

    在Map階段之前,輸入的數(shù)據(jù)被切分為若干個數(shù)據(jù)片段,并且數(shù)據(jù)以(Key-Value)鍵值對[1]的形式輸入,記為(K1,K2)。每個Map函數(shù)接收一個數(shù)據(jù)片段,這些Map函數(shù)是分布在若干個計算機節(jié)點上執(zhí)行的,處理的結(jié)果是輸出(K2,V2),并且作為Reduce階段的輸入數(shù)據(jù)。Reduce階段之前,對這些(K2,V2)數(shù)據(jù)進行分類,得到數(shù)據(jù)集(K2,list(V2)),然后分布在不同節(jié)點上的Reduce函數(shù)將對數(shù)據(jù)集進行處理匯總,得到(K3,V3)并存儲在HDFS上。

    2 海量數(shù)據(jù)處理模型的建立

    2.1 航空制造業(yè)海量數(shù)據(jù)處理需求

    由于航空制造產(chǎn)業(yè)鏈數(shù)據(jù)量大、種類多等特點,所以對這些數(shù)據(jù)進行分類、計算分析、搜索等相關處理是個龐大的任務。這就要求:(1)數(shù)據(jù)處理模型在處理數(shù)據(jù)時具有很好的實時性,即能夠及時處理實時數(shù)據(jù),保持數(shù)據(jù)的及時更新。例如一個零件的數(shù)據(jù)更改后,后續(xù)零件加工和裝配的數(shù)據(jù)需及時更新,確保數(shù)據(jù)的一致性。(2)要能夠從不同應用程序中提取出相關數(shù)據(jù)并且進行分類匯總,便于數(shù)據(jù)分析。例如從CAD、CAM、PDM、BOM和其他信息管理系統(tǒng)中挖掘提取出某一產(chǎn)品的設計數(shù)據(jù)、制造數(shù)據(jù)、元數(shù)據(jù)和材料等數(shù)據(jù),需對這些數(shù)據(jù)進行分析匯總,計算出制造這種產(chǎn)品的周期、費用或者報表等。(3)要能夠從海量數(shù)據(jù)日志中挖掘提取出所需信息。例如對某一加工過程產(chǎn)生的數(shù)據(jù)日志進行數(shù)據(jù)分析,得到設備的使用情況,零件加工合格率情況和加工時間等信息。(4)要能夠確保數(shù)據(jù)存儲的可擴展性,這是考慮到由于產(chǎn)品的不斷更新,歷史數(shù)據(jù)需要保存?zhèn)浞?,且不斷開發(fā)新的產(chǎn)品,數(shù)據(jù)源源不斷產(chǎn)生,因此就要求系統(tǒng)有很好的擴展性,能夠很好地存儲新的海量數(shù)據(jù)。(5)要能夠做到容災性,一旦某個節(jié)點上的數(shù)據(jù)發(fā)生錯誤或丟失,要能夠確保數(shù)據(jù)的及時恢復,以免造成嚴重的數(shù)據(jù)損失。

    2.2 海量數(shù)據(jù)的數(shù)學問題描述

    數(shù)據(jù)集是從數(shù)據(jù)源頭也就是CAD系統(tǒng)、SAP系統(tǒng)、PDM系統(tǒng)和PLM等系統(tǒng)中獲取的信息,并且直接存儲在HDFS中。假設每條數(shù)據(jù)包基本信息(可根據(jù)實際擴展字段名)含文件名Name、文件格式 Format(doc、dwg、prt、txt、rm 等)、創(chuàng)建日期Date、創(chuàng)建者 Person、位置 Location和版本 Version等6類信息,建立數(shù)據(jù)集A={Xi;Xi∈Y,i=0~5},其中Xi是一條數(shù)據(jù)的具體信息,Y是Xi集合。求解的目標是從數(shù)據(jù)集中提取出所需的信息,并且對信息進行檢索、排序、加權(quán)等分析。對建立的數(shù)據(jù)格式描述如下:Name表示文件名;Format表示文件的格式;Date表示文件創(chuàng)建的日期;Person表示文件的創(chuàng)建者;Version表示文件的版本;Location表示文件存儲的節(jié)點位置;ID表示文件的唯一標識。

    2.2.1 數(shù)據(jù)挖掘

    按照數(shù)據(jù)在HDFS中存儲的結(jié)構(gòu)(如圖2所示),對數(shù)據(jù)進行深度優(yōu)先挖掘。算法步驟如下:(1)選擇一個未挖掘節(jié)點。如果所有的節(jié)點已經(jīng)挖掘完,算法結(jié)束。(2)在已經(jīng)選擇的節(jié)點中,選擇一個尚未挖掘的分片,如果本節(jié)點下的所有分片已經(jīng)完成數(shù)據(jù)挖掘,返回步驟(1)。(3)在已經(jīng)選擇的分片中,依次對文件元數(shù)據(jù)字段進行挖掘,直到挖掘完成所有的字段。(4)返回步驟(2),對未挖掘的分片繼續(xù)挖掘。

    圖2 數(shù)據(jù)在HDFS的存儲結(jié)構(gòu)

    2.2.2 數(shù)據(jù)的提取和存儲

    將挖掘出的數(shù)據(jù)按照鍵值對形式存儲在分布式文件系統(tǒng)HDFS中,其中默認文件類型(如txt、doc、rmvb等格式)為Key。這些數(shù)據(jù)將作為Map-Reduce程序處理的輸入源頭,如何對其中的有效信息進行提取處理將是很關鍵的環(huán)節(jié)。

    數(shù)據(jù)的提取就是從數(shù)據(jù)挖掘過程中得到的一條條信息里取出我們需要的數(shù)據(jù),并且設計一種格式,再次保存在HDFS中,然后再覆蓋原文件。根據(jù)上文的數(shù)學描述,需要從挖掘的信息中抽取出6種字段信息:文件名Name、文件格式Format、創(chuàng)建日期 Date、創(chuàng)建者 Person、位置 Location和版本Version。存儲的格式應當適合長期保存并且易于處理,具備簡單性、易于存取和易于擴展等優(yōu)點。出于上述考慮,存儲的格式定義為:(1)存儲的源文件由若干條元數(shù)據(jù)構(gòu)成。(2)元數(shù)據(jù)記錄了若干條信息,并且按照順序追加方式依次存放每條元數(shù)據(jù)。(3)元數(shù)據(jù)的字段之間用換行符'

    闸北区| 天镇县| 霍邱县| 旅游| 乡城县| 屯门区| 霍城县| 五台县| 扎赉特旗| 文昌市| 鸡东县| 昔阳县| 宿州市| 安仁县| 西乌珠穆沁旗| 澄城县| 云霄县| 竹北市| 虎林市| 高青县| 巴青县| 揭东县| 南开区| 宜昌市| 青岛市| 同德县| 渑池县| 黎城县| 甘德县| 根河市| 同江市| 淮安市| 乐安县| 陆河县| 迭部县| 涿州市| 西青区| 新龙县| 万盛区| 汝城县| 临潭县|