尹君 代作松 王文哲
1. 國網(wǎng)烏魯木齊供電公司 新疆 烏魯木齊 830000
2. 南京南瑞信息通信科技有限公司 江蘇 南京 210003
3. 中國葛洲壩集團(tuán)國際工程有限公司 北京 100025
所謂的元數(shù)據(jù),指的是一種描述性數(shù)據(jù),是對(duì)系統(tǒng)進(jìn)行理解和使用的重要資料,也就是說所有對(duì)系統(tǒng)進(jìn)行描述的數(shù)據(jù)都屬于元數(shù)據(jù),如文檔、手冊(cè)等。從使用者的角度進(jìn)行劃分,可以將元數(shù)據(jù)分為業(yè)務(wù)與技術(shù)兩種;從記錄形式上劃分,可以分為結(jié)構(gòu)化與非結(jié)構(gòu)化兩種。元數(shù)據(jù)最主要的作用就是對(duì)系統(tǒng)進(jìn)行描述,從而幫助系統(tǒng)使用人員準(zhǔn)確全面的了解系統(tǒng)的各項(xiàng)功能。如果系統(tǒng)中缺少了元數(shù)據(jù),那么系統(tǒng)中所收集的和儲(chǔ)存的數(shù)據(jù)將會(huì)失去它的作用[1]。
由于各平臺(tái)間存在的差異,元數(shù)據(jù)的獲取方式各不相同,要想獲得完整準(zhǔn)確的元數(shù)據(jù),存在著一定困難。各企業(yè)所建立的大數(shù)據(jù)平臺(tái)都有一定的閉源性,特別是平臺(tái)相關(guān)的元數(shù)據(jù)獲取十分困難。第二,系統(tǒng)自動(dòng)獲取的元數(shù)據(jù)信息只對(duì)技術(shù)進(jìn)行了描述,而缺少業(yè)務(wù)類的元數(shù)據(jù)信息,這不利于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)提取與挖掘工作。第三,平臺(tái)元數(shù)據(jù)模型出現(xiàn)變更,通常是事后才發(fā)現(xiàn),這會(huì)對(duì)數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量造成較大的影響。企業(yè)業(yè)務(wù)變更頻繁的同時(shí),元數(shù)據(jù)模型也需要進(jìn)行頻繁的更新,在對(duì)元數(shù)據(jù)進(jìn)行管理中需要保證模型與業(yè)務(wù)數(shù)據(jù)的同步,如果管理中出現(xiàn)問題,將會(huì)影響到系統(tǒng)對(duì)元數(shù)據(jù)的采集,從而影響了數(shù)據(jù)的質(zhì)量。通過上述問題可以看出,在大數(shù)據(jù)平臺(tái)日常的管理過程中,企業(yè)通常忽視了元數(shù)據(jù)管理的重要性,在需要使用時(shí)才發(fā)現(xiàn)元數(shù)據(jù)出現(xiàn)了問題[2]。
3.1.1 技術(shù)型元數(shù)據(jù)的自動(dòng)獲取。電力行業(yè)的大數(shù)據(jù)平臺(tái)一般使用關(guān)系型數(shù)據(jù)庫進(jìn)行元數(shù)據(jù)的儲(chǔ)存。其具體的儲(chǔ)存情況如下:視圖信息、索引表的基礎(chǔ)信息、Hive表、儲(chǔ)存表都儲(chǔ)存在TBIS之中;視圖授權(quán)信息以及屬性信息儲(chǔ)存在平臺(tái)的儲(chǔ)存庫中。根據(jù)表與表之間的關(guān)聯(lián)性對(duì)表內(nèi)信息進(jìn)行整合,從而獲取表內(nèi)的字段、視圖等技術(shù)型元數(shù)據(jù)信息,在獲取這些元數(shù)據(jù)信息以后,通過業(yè)務(wù)表模型與業(yè)務(wù)字段模型來對(duì)電力行業(yè)大數(shù)據(jù)平臺(tái)的元數(shù)據(jù)信息進(jìn)行儲(chǔ)存。
3.1.2 元數(shù)據(jù)關(guān)聯(lián)性信息的分析。其具體的分析過程如下:第一,在日志文件中對(duì)HIVESQL數(shù)據(jù)進(jìn)行讀取,獲取到需要進(jìn)行處理的數(shù)據(jù)信息。第二,對(duì)數(shù)據(jù)信息中的關(guān)鍵信息進(jìn)行分塊處理,從而形成信息的邏輯分塊。第三,從形成的邏輯分塊中獲取到被處理信息的目標(biāo)、源、邏輯以及字段等信息,然后對(duì)這些信息進(jìn)行整合,形成元數(shù)據(jù)的基本信息,同時(shí)對(duì)數(shù)據(jù)的流向信息進(jìn)行記錄,進(jìn)而組建信息的關(guān)聯(lián)性。第四,在完成元數(shù)據(jù)信息的提取后,可以將這些信息封裝在平臺(tái)的任務(wù)之中,實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)對(duì)元數(shù)據(jù)處理的自動(dòng)化執(zhí)行。在大數(shù)據(jù)平臺(tái)實(shí)際進(jìn)行數(shù)據(jù)信息的處理時(shí),由于數(shù)據(jù)量較大,需要分析的工作量是巨大的。這時(shí)就可以采用日志切分法、多線程處理法等多種處理方式,提高數(shù)據(jù)信息分析處理效率,從而滿足電力行業(yè)數(shù)據(jù)處理的需求。
以技術(shù)部門為管理主導(dǎo)。元數(shù)據(jù)的管理工作與其他管理工作不同,其管理方式更偏向于技術(shù)活動(dòng)。需要專業(yè)的技術(shù)人員對(duì)其進(jìn)行開發(fā)與維護(hù),在大數(shù)據(jù)平臺(tái)建設(shè)之初就需要對(duì)元數(shù)據(jù)管理工作進(jìn)行建設(shè),并對(duì)其具體工作流程進(jìn)行明確的規(guī)定。
制定元數(shù)據(jù)的管理制度。管理制度中需要包含元數(shù)據(jù)的具體管理要求以及相關(guān)的注意事項(xiàng),具體內(nèi)容:第一,在元數(shù)據(jù)管理系統(tǒng)建立之初,就需要對(duì)業(yè)務(wù)型元數(shù)據(jù)的屬性進(jìn)行補(bǔ)充,且補(bǔ)充的內(nèi)容要準(zhǔn)確、全面并符合元數(shù)據(jù)補(bǔ)充規(guī)范,在系統(tǒng)完成后需要相關(guān)技術(shù)人員對(duì)補(bǔ)充的元數(shù)據(jù)信息進(jìn)行審核。第二,當(dāng)大數(shù)據(jù)平臺(tái)的業(yè)務(wù)信息、數(shù)據(jù)結(jié)構(gòu)以及相關(guān)功能發(fā)生變更時(shí),需要對(duì)相關(guān)的元數(shù)據(jù)進(jìn)行及時(shí)的更新,保證元數(shù)據(jù)信息與系統(tǒng)信息的一致,同時(shí)需要注意對(duì)歷史版本進(jìn)行保留。第三,大數(shù)據(jù)平臺(tái)建設(shè)時(shí),相關(guān)開發(fā)人員需要參照相關(guān)元數(shù)據(jù)的內(nèi)容,避免平臺(tái)后期開展的業(yè)務(wù)活動(dòng),與元數(shù)據(jù)信息的脫節(jié)。第四,當(dāng)大數(shù)據(jù)平臺(tái)中相關(guān)業(yè)務(wù)下線時(shí),要對(duì)相元數(shù)據(jù)進(jìn)行保存,以方便后期的查閱。
充分利用元數(shù)據(jù)管理系統(tǒng)。對(duì)元數(shù)據(jù)信息的利用,不僅局限于分析數(shù)據(jù)的關(guān)聯(lián)性以及版本的管理等,上述功能更偏向于為技術(shù)人員提供服務(wù)。在元數(shù)據(jù)的實(shí)際使用中,應(yīng)該充分挖掘元數(shù)據(jù)的利用方式。只有充分利用元數(shù)據(jù),才能體現(xiàn)出這些數(shù)據(jù)的價(jià)值,元數(shù)據(jù)的管理工作是為了更好的對(duì)其進(jìn)行利用,在利用過程中出現(xiàn)的問題又能反向的對(duì)其管理工作進(jìn)行完善。電力行業(yè)管理人員以及技術(shù)人員要養(yǎng)成使用元數(shù)據(jù)的習(xí)慣,從而更加充分的對(duì)其進(jìn)行利用。
血緣分析主要是對(duì)分析元數(shù)據(jù)的數(shù)據(jù)來源進(jìn),通過查看元數(shù)據(jù)的關(guān)聯(lián)信息,能反向進(jìn)行分析直到數(shù)據(jù)信息的起點(diǎn),從而了解數(shù)據(jù)信息的來源。血緣分析能夠?yàn)槠髽I(yè)解決數(shù)據(jù)的追溯問題,提高平臺(tái)數(shù)據(jù)信息的質(zhì)量。
關(guān)聯(lián)分析主要是分析信息的重要程度。通過分析信息的重要程度實(shí)現(xiàn)信息的準(zhǔn)確評(píng)估。這主要是幫助電力行業(yè)技術(shù)人員對(duì)重要數(shù)據(jù)進(jìn)行認(rèn)知,使技術(shù)人員能夠準(zhǔn)確地對(duì)重要數(shù)據(jù)進(jìn)行優(yōu)化,從而提升平臺(tái)的運(yùn)行效率。
元數(shù)據(jù)影響分析主要是分析數(shù)據(jù)的影響范圍。影響分析主要是對(duì)數(shù)據(jù)進(jìn)行正向的分析,從而到達(dá)數(shù)據(jù)的終點(diǎn)。影響分析主要是對(duì)電力行業(yè)各種數(shù)據(jù)的影響變化程度以及影響范圍進(jìn)行分析。該分析能解決企業(yè)數(shù)據(jù)平臺(tái)無法準(zhǔn)確定位影響范圍的問題,能為企業(yè)的平穩(wěn)生產(chǎn)提供數(shù)據(jù)保障。
總之,電力行業(yè)對(duì)業(yè)務(wù)的精細(xì)化管理提出了更高的要求,這就需要電力行業(yè)改變以往的數(shù)據(jù)管理方式。而對(duì)元數(shù)據(jù)進(jìn)行管理則是企業(yè)數(shù)據(jù)管理的基礎(chǔ),并在一定程度上保證了企業(yè)數(shù)據(jù)的質(zhì)量。