董錦昭 邵靖楠
摘要:大型港機的調(diào)配的數(shù)據(jù)交互系統(tǒng)較為復(fù)雜,通常需要對安全控制數(shù)據(jù)預(yù)處理。預(yù)處理將原始數(shù)據(jù)進行集成、挑選和轉(zhuǎn)換等操作,再對數(shù)據(jù)進行邏輯區(qū)分匯總和數(shù)據(jù)質(zhì)量準(zhǔn)確度深入控制,創(chuàng)建出適用于港機結(jié)構(gòu)控制的安全體系,建立控制系統(tǒng)數(shù)據(jù)合集。
關(guān)鍵詞:港機;挖掘數(shù)據(jù);控制系統(tǒng);預(yù)處理
港機是港口物資交換的主要傳輸工具。港機的工作年限較長,許多港口的港機均存在老齡化的特點,由于港口繁忙的運輸工作,其工作安全性成為了較大的隱患。目前檢測的手段,具體為使材料不同位置受力,繪制各個位置的應(yīng)力應(yīng)變曲線,然后根據(jù)其強度和韌性,來判斷材料的使用安全性和報廢壽命。但是這種方法需要有專業(yè)的測試人員來管理設(shè)備,測試周期較長、數(shù)據(jù)波動大,同時對測試人員的專業(yè)素養(yǎng)要求較高。另外在測試過程中可以得到很多有益的信息或者規(guī)律,但缺乏專業(yè)的研究人員深入尋找規(guī)律,導(dǎo)致數(shù)據(jù)不能充分應(yīng)用。
現(xiàn)階段,大量檢測數(shù)據(jù)的處理和分析已經(jīng)逐漸得到重視,尤其是通過電氣控制模型來實現(xiàn)對于數(shù)據(jù)的控制與處理,雖然能夠達到較好的安全控制效果,但對數(shù)據(jù)處理能力依舊不足,對大型港機的檢測數(shù)據(jù)處理挖掘為當(dāng)務(wù)之急。目前數(shù)據(jù)挖掘領(lǐng)域研究方向為先設(shè)置空白對照模型,此模型為極低噪音、一致性較好的高質(zhì)量數(shù)據(jù)。但是在現(xiàn)實數(shù)據(jù)分析中,數(shù)據(jù)不可能這么完美,經(jīng)常會有噪音,甚至有不完整,不一致的情況出現(xiàn),此時數(shù)據(jù)預(yù)處理的重要性凸顯。
1數(shù)據(jù)預(yù)處理的概念與步驟
1.1數(shù)據(jù)預(yù)處理的概念
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘系統(tǒng)必要的一個組成模塊,它的目的為發(fā)現(xiàn)任務(wù),通過指導(dǎo)引用相關(guān)領(lǐng)域的知識,使用全新的算法模型來重新計算原有的數(shù)據(jù),將與目標(biāo)關(guān)系弱的部分刪除,使數(shù)據(jù)的計算更加迅速準(zhǔn)確。同時更有利于對數(shù)據(jù)的分類,有針對的處理,可以減少運算的壓力,優(yōu)化算法內(nèi)核。數(shù)據(jù)預(yù)處理可以挖掘到更深的規(guī)律,提高港機工作效率和精準(zhǔn)度。
預(yù)處理的運轉(zhuǎn)模式大致為理解用戶所需挖掘點,確定起點和任務(wù)。隨后將會調(diào)用數(shù)據(jù)源中與任務(wù)相關(guān)的部分,通過預(yù)先輸入的某個知識領(lǐng)域約束規(guī)則作為合法判定依據(jù),通過對違規(guī)的操作進行數(shù)據(jù)記錄,最終生成我們所需要的目標(biāo)數(shù)據(jù)。目標(biāo)數(shù)據(jù)即為最終處理后的二維表,其橫向閱讀為記錄和元組,縱向一般為變量,比如屬性或者字段。這就搭建了最初始的知識信息模板,該模板匯集了所有數(shù)據(jù)的總特征。
為了便于數(shù)據(jù)的匯總和此后的分析,可以通過數(shù)據(jù)預(yù)處理階段提高數(shù)據(jù)的質(zhì)量。數(shù)據(jù)的分析主要有可視化分析和數(shù)據(jù)挖掘質(zhì)量分析。由于數(shù)據(jù)并非是按照理想的規(guī)則排列,總會存在異質(zhì)性和非標(biāo)準(zhǔn)性,因此可以通過預(yù)處理對數(shù)據(jù)進行標(biāo)準(zhǔn)化。
1.2數(shù)據(jù)預(yù)處理的過程
(1) 數(shù)據(jù)預(yù)處理的首要工作為數(shù)據(jù)集成,基層指的是將多個文件或者是多種數(shù)據(jù)庫中所有的數(shù)據(jù)進行合并歸類處理。把那些遺漏、波動異?;蛘呤钦Z意不明有爭議的數(shù)據(jù)刪除。需要注意的是,數(shù)據(jù)集成并不是數(shù)據(jù)合并,而是將單位不同字長不一的數(shù)據(jù)進行整合,將最原始的數(shù)據(jù)在低層次進行提煉凝聚,這是屬于最初級的信息挖掘。
(2) 通過將源數(shù)據(jù)噪聲和無關(guān)的數(shù)據(jù)進行清洗,處理掉空白數(shù)據(jù)庫中的噪點,通過數(shù)據(jù)選擇對數(shù)據(jù)庫中的目標(biāo)進行檢索,數(shù)據(jù)選擇涵蓋了不同模式數(shù)據(jù)的變換、匯總和統(tǒng)一。根據(jù)時間的先后次序和數(shù)據(jù)變化的狀況,可以將數(shù)據(jù)清洗分成兩大類。一類為有監(jiān)督過程清洗,這種過程是在某領(lǐng)域?qū)I(yè)人員指導(dǎo)下,通過處理收集來的各種數(shù)據(jù),剔掉明顯錯誤的或者是不用重復(fù)的數(shù)據(jù)。另一類為無監(jiān)督過程清洗,這種清洗是根據(jù)大數(shù)據(jù)訓(xùn)練而得的算法,使計算更加智能化向AI方向發(fā)展,在處理過程中可以自動的鑒別有問題的地方進行清洗。
(3) 在數(shù)據(jù)處理中需要有轉(zhuǎn)換環(huán)節(jié),將不同的字段取值轉(zhuǎn)成數(shù)字格式,有利于進行檢索,
數(shù)據(jù)變換主要是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括規(guī)格化、歸約、切換、旋轉(zhuǎn)和投影等操作。
(4) 通過電氣控制的模式來達到對整個數(shù)據(jù)的預(yù)處理,主要是以人為的方式對其進行干擾,真正實現(xiàn)預(yù)處理過程的自動化與智能化水平,電氣控制的主要目的在于對數(shù)據(jù)中的雜點和亂點進行清除,同時利用其自動化水平來實現(xiàn)進一步操作。
2數(shù)據(jù)預(yù)處理的具體流程
2.1結(jié)構(gòu)安全控制數(shù)據(jù)集成
建立模型的基礎(chǔ)為調(diào)用數(shù)據(jù)和理解數(shù)據(jù)。在進行可視化數(shù)據(jù)分析前,一定要明確關(guān)鍵的業(yè)務(wù)問題和目標(biāo)。確立目標(biāo)后,需要對該工作的基本特征有具體的了解,這樣才能保證數(shù)據(jù)更加真實有效。在隨后的數(shù)據(jù)抽取過程需要對數(shù)據(jù)靈活的轉(zhuǎn)化,以方便進行數(shù)據(jù)庫的更新和管理。對于大型港口港機的檢測,主要是通過震動信號的反饋,對支撐結(jié)構(gòu)進行運載大型物件時應(yīng)力應(yīng)變的情況實時采集,以此為大型港機結(jié)構(gòu)安全控制數(shù)據(jù)的原數(shù)據(jù)。隨后在數(shù)據(jù)分析前,實施數(shù)據(jù)預(yù)處理。
在港機工作時的數(shù)據(jù)中突出的字段有:載荷、時間、循環(huán),港機的具體數(shù)據(jù)字段為:尺寸、材料和焊接狀況。因此通過這些字段的含義,可以進行結(jié)構(gòu)疲勞分析,或穩(wěn)定安全性測試。根據(jù)不同的字段就可以提取到有效的數(shù)據(jù),在大量數(shù)據(jù)的積累下,通過預(yù)處理刪除掉不合理的數(shù)據(jù), 就可以得到一致性較強的結(jié)果,可以把不同類型的結(jié)果,存放在同一個數(shù)據(jù)庫中,以便于隨后的深入挖掘。提數(shù)據(jù)的關(guān)聯(lián)性靠時間連接,這樣可以方便后續(xù)調(diào)用數(shù)據(jù)。
之后在較高準(zhǔn)確性和一致性的基礎(chǔ)上,仍要繼續(xù)進行檢驗和凈化。
數(shù)據(jù)的重要部分是在機械進行作業(yè)時,通過運輸?shù)跹b貨物現(xiàn)場獲得各觀測點的應(yīng)力應(yīng)變情況,但由于現(xiàn)場的變量較多,比如干擾信號、接觸問題或者是間隙配合歸零等誤差,因此數(shù)據(jù)的準(zhǔn)確性或有效性,將受到不同程度的干擾。因此,現(xiàn)在大多為繪制受力時的波形圖。通過對異常信號的處理,剔除掉錯誤的無效數(shù)據(jù)。具體的分析方法如圖1圖2所示。
比如在對原始信號進行分析的過程中,不難發(fā)現(xiàn)圖1在第5個循環(huán)處存在異常波動現(xiàn)象,這主要是由于峰值與峰谷之間存在較大的差異性,因此造成整體傳出的信號不同,而預(yù)處理模型能夠?qū)Υ诉M行識別,根據(jù)其預(yù)先設(shè)置的預(yù)處理電控模式將異常數(shù)據(jù)進行刪除,進而達到優(yōu)化整體數(shù)據(jù)的目的。通過圖2我們可知,往往很多數(shù)據(jù)的波動現(xiàn)象都不是容易被發(fā)現(xiàn)的,而電控模型的有效應(yīng)用可以真正實現(xiàn)對噪點的識別,進而對其進行刪除和優(yōu)化。
2.2結(jié)構(gòu)安全控制數(shù)據(jù)挖掘的數(shù)據(jù)選擇
數(shù)據(jù)的收集工作較為漫長,需要較多的測試,收集結(jié)束后需要進行數(shù)據(jù)選擇,為后續(xù)的可視化數(shù)據(jù)挖掘提供基礎(chǔ)。在數(shù)據(jù)選擇的過程中包含數(shù)據(jù)的轉(zhuǎn)換和匯總。數(shù)據(jù)選擇的意義是在于縮小處理區(qū)域,提高處理效率,并且能夠更加深入的挖掘數(shù)據(jù)。
單側(cè)點測試數(shù)據(jù),是在整個測試作業(yè)過程中,根據(jù)應(yīng)力應(yīng)變繪制載荷圖譜,確定臨界應(yīng)力。從而進行材料損傷的判斷。在數(shù)據(jù)挖掘時用到的字段為:屈服強度、抗拉強度、測試時間、應(yīng)力應(yīng)變等。針對多測點測試數(shù)據(jù),進行數(shù)據(jù)的挖掘較為復(fù)雜,其主要內(nèi)容是在作業(yè)過程中,隨著時間的流逝小車位置變化,在每一時刻對應(yīng)的都有應(yīng)力應(yīng)變的不同狀況。針對強度峰值的指標(biāo),分析人員可以確定出危險點。此數(shù)據(jù)字段主要為:循環(huán)次數(shù)、測試時間、名稱、小車位置坐標(biāo)等。選擇不同的字段進行合并和整理形成一個數(shù)據(jù)庫,以便于可視化分析的讀取。
抽取是從數(shù)據(jù)集中選擇用于分析的數(shù)據(jù)段.清洗則是在將數(shù)據(jù)加入數(shù)據(jù)集之前,對源數(shù)據(jù)進行修改.在大型港機結(jié)構(gòu)安全控制中,如果是對單測點進行分析,要對數(shù)據(jù)進行濾波,濾掉較小的波動,以減少不必要的計算量,簡化計算過程,提高分析效率。圖3為一大型港機結(jié)構(gòu)在測試作業(yè)中原始的應(yīng)力波形圖,我們可以對重復(fù)部分進行抽取,一般來說只需要選用500-1500范圍內(nèi)的數(shù)據(jù)即可,這就使得原有工作量大大減少,從而有效提升了整個數(shù)據(jù)分析的工作效率。
3結(jié)束語
對于大型港機結(jié)構(gòu)安全控制數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理的論述,針對的是具體數(shù)據(jù)挖掘模型的需要,主要目的是為進行結(jié)構(gòu)疲勞壽命的估計與分類模型以及結(jié)構(gòu)擴展壽命的預(yù)測模型提供數(shù)據(jù)依據(jù)。隨著對數(shù)據(jù)質(zhì)量和有效數(shù)據(jù)挖掘研究工作的不斷深入,從內(nèi)容到方法將會不斷完善。
參考文獻:
[1] 劉園, 宓為建. 大型港口機械結(jié)構(gòu)安全控制中的數(shù)據(jù)挖掘[C]// 上海市國際工業(yè)博覽會暨上海市"工程與振動"科技論壇. 2005.
[2] 趙蘊華, 張靜. 基于數(shù)據(jù)挖掘的專利數(shù)據(jù)預(yù)處理系統(tǒng)的設(shè)計與實現(xiàn)[J]. 情報科學(xué), 2011(12):1851-1855.
[3] 菅志剛, 金旭. 數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn)[J]. 計算機應(yīng)用研究, 2004, 21(7):117-118.