• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于大數(shù)據(jù)的可視化數(shù)據(jù)治理平臺的研究

    2022-04-21 04:45:32黃凱章鋮
    電子制作 2022年6期
    關(guān)鍵詞:數(shù)據(jù)處理組件可視化

    黃凱,章鋮

    (上??萍拣^,上海,200127)

    1 研究背景和目的

    隨著博物館和科技館等場館的信息化建設(shè)的不斷發(fā)展,場館運行、管理、服務(wù)等產(chǎn)生的數(shù)據(jù)也不斷在增加,現(xiàn)有的數(shù)據(jù)處理方式很難滿足業(yè)務(wù)的新要求。為了后期的數(shù)據(jù)的高質(zhì)量和靈活性,系統(tǒng)的數(shù)據(jù)治理工作顯得尤為重要。本文針對上述場景,研究一種基于大數(shù)據(jù)的可視化數(shù)據(jù)治理平臺,通過運用大數(shù)據(jù)技術(shù),向用戶提供可視化操作組件,從數(shù)據(jù)采集、數(shù)據(jù)處理到最后的數(shù)據(jù)輸出都是用戶進行按需操作。為了滿足用戶自定義處理的需求,平臺也提供給用戶自定義的操作能力,用戶通過自行編輯腳本實現(xiàn)想要進行的數(shù)據(jù)工作。另外為了保障后期系統(tǒng)數(shù)據(jù)處理的質(zhì)量,系統(tǒng)需要具備整合多系統(tǒng)之間數(shù)據(jù)源的處理能力,并且把數(shù)據(jù)處理為統(tǒng)一的數(shù)據(jù)格式,供用戶進行便捷使用。系統(tǒng)通過基本的大數(shù)據(jù)處理算法提供給用戶進行使用,即使用戶對大數(shù)據(jù)處理算法不是很了解也可以輸出用戶想要的數(shù)據(jù)內(nèi)容,可以解決用戶使用的瓶頸,平臺通過建立分布式架構(gòu),對數(shù)據(jù)處理能力進行智能化封裝和輸出,將數(shù)據(jù)處理能力統(tǒng)一對外進行模塊輸出,數(shù)據(jù)處理流程進行抽象、模型化,使平臺真正變成一個通用的對象,進而可以方便用戶自由的去設(shè)計業(yè)務(wù)邏輯與功能。

    2 數(shù)據(jù)治理平臺總體架構(gòu)

    本文中所研究的大數(shù)據(jù)的可視化數(shù)據(jù)治理平臺是基于博物館或科技館等相關(guān)系統(tǒng)場景進行搭建的,這些場景的相關(guān)系統(tǒng)一直是從傳統(tǒng)系統(tǒng)慢慢進行演變,現(xiàn)階段就存在系統(tǒng)數(shù)據(jù)來源廣,數(shù)據(jù)之間數(shù)據(jù)不兼容等問題。所以系統(tǒng)建設(shè)需要充分考慮目前系統(tǒng)的兼容性后未來系統(tǒng)升級的可拓展性,系統(tǒng)的構(gòu)建使用平臺化和模塊化的設(shè)計思路進行構(gòu)建,充分滿足目前當前系統(tǒng)的數(shù)據(jù)業(yè)務(wù)需求??梢暬瘮?shù)據(jù)治理平臺的總體架構(gòu)主要有四層進行組成,分別是用戶展示層、應(yīng)用層、支撐層和數(shù)據(jù)層。用戶展示層主要是系統(tǒng)使用用戶和使用人進行開放,本文中主要是系統(tǒng)管理人員和業(yè)務(wù)使用人員,通過大屏終端、PC電腦和移動終端提供系統(tǒng)展示能力。應(yīng)用層主要是負責(zé)提供應(yīng)用能力給上層進行使用,例如數(shù)據(jù)資產(chǎn)全景視圖、運營管理數(shù)據(jù)分析和安全態(tài)勢監(jiān)測等能力。支撐層主要是提供數(shù)據(jù)采集能力、數(shù)據(jù)治理平臺能力和數(shù)據(jù)可視化平臺能力。數(shù)據(jù)采集主要是對底層提供的原始數(shù)據(jù)進行整合處理,將原始數(shù)據(jù)進行處理后,進行數(shù)據(jù)能力統(tǒng)一封裝,處理好的數(shù)據(jù)統(tǒng)一提供接口對外進行提供輸出數(shù)據(jù)能力。數(shù)據(jù)治理平臺能力是對采集到的融合數(shù)據(jù)進行統(tǒng)一數(shù)據(jù)處理,包括基本的數(shù)據(jù)預(yù)處理,數(shù)據(jù)異常補全等數(shù)據(jù)處理能力。數(shù)據(jù)可視化平臺是將數(shù)據(jù)治理平臺的數(shù)據(jù)進行可視化的展示,數(shù)據(jù)可視化顯示,數(shù)據(jù)處理可視化建模和數(shù)據(jù)可視化管理能力。數(shù)據(jù)層就是最基本的各系統(tǒng)之間的原始數(shù)據(jù)庫的原始數(shù)據(jù),包括各種配置文件數(shù)據(jù)和數(shù)據(jù)庫數(shù)據(jù),例如檔案數(shù)據(jù)、票務(wù)數(shù)據(jù)和客流數(shù)據(jù)等等,這些數(shù)據(jù)都是各自子系統(tǒng)分別進行提供的,數(shù)據(jù)存儲的格式和方式都可能不盡相同,所以需要為數(shù)據(jù)進行統(tǒng)一元數(shù)據(jù)處理。具體系統(tǒng)總體架構(gòu)圖,如圖1所示。

    圖1 系統(tǒng)總體架構(gòu)圖

    3 數(shù)據(jù)治理平臺核心流程

    本文研究的一種基于大數(shù)據(jù)的可視化數(shù)據(jù)治理平臺主要是研究通過提供可視化的界面提供給用戶進行組合數(shù)據(jù)處理,數(shù)據(jù)處理模塊都通過模塊化的封裝提供給用戶,主要涉及數(shù)據(jù)采集處理和數(shù)據(jù)算法處理等模塊內(nèi)容,便于用戶自行進行數(shù)據(jù)數(shù)據(jù)操作。

    3.1 數(shù)據(jù)處理分析流程

    本文中搭建的數(shù)據(jù)治理平臺的數(shù)據(jù)處理需求不僅需要數(shù)據(jù)的采集功能,而且還需要數(shù)據(jù)的融合處理能力,同時為了滿足后期系統(tǒng)的可視化可擴展性,系統(tǒng)還需要滿足數(shù)據(jù)融合處理具有一定的自定義處理能力。系統(tǒng)進行數(shù)據(jù)處理的主要流程分為3步,即數(shù)據(jù)采集、數(shù)據(jù)清洗和數(shù)據(jù)發(fā)布。數(shù)據(jù)采集,就是從系統(tǒng)中抽取元數(shù)據(jù)信息。現(xiàn)有的博物館系統(tǒng)數(shù)據(jù)系統(tǒng)來源廣泛,包括票務(wù)系統(tǒng)、員工內(nèi)部系統(tǒng)、場館實時監(jiān)控系統(tǒng)和內(nèi)部物資管理系統(tǒng)等等,不同系統(tǒng)之間使用的數(shù)據(jù)庫也都不完全相同,包括SQL Server、Oracle、DB2和Mango DB等主流數(shù)據(jù)庫,還有一些系統(tǒng)使用的是國產(chǎn)的數(shù)據(jù)庫,數(shù)據(jù)讀取都是基于標準的JDBC、ODBC接口進行數(shù)據(jù)讀取。另外數(shù)據(jù)采集還包括一些文件數(shù)據(jù)的讀取工作,包括文本或者XML配置文件等。系統(tǒng)為了支持數(shù)據(jù)采集具有擴展性,通過建立具有調(diào)度能力的控制數(shù)據(jù)通道,用戶設(shè)置之后,系統(tǒng)自動進行數(shù)據(jù)采集。數(shù)據(jù)清洗主要是系統(tǒng)負責(zé)對一些異常數(shù)據(jù)、數(shù)據(jù)不一致或者空白數(shù)據(jù)等情況進行處理,最后形成一套完整的數(shù)據(jù)內(nèi)容,系統(tǒng)數(shù)據(jù)處理也是需要兼容后期的可擴展性。數(shù)據(jù)清理也支持用戶手動進行處理和數(shù)據(jù)運算處理程序。數(shù)據(jù)發(fā)布就是數(shù)據(jù)經(jīng)過清洗后,生產(chǎn)的數(shù)據(jù)發(fā)布到對外數(shù)據(jù)處理結(jié)構(gòu)中,這里的數(shù)據(jù)結(jié)構(gòu)也支持自定義進行編輯,用戶可以進行按需選擇使用,便于后期數(shù)據(jù)進行統(tǒng)一處理和應(yīng)用。數(shù)據(jù)治理平臺的數(shù)據(jù)處理分析流程圖,如圖2所示。

    圖2 數(shù)據(jù)處理流程圖

    3.2 數(shù)據(jù)血緣分析

    數(shù)據(jù)治理平臺需要處理的數(shù)據(jù)量很大,為了保證后期數(shù)據(jù)結(jié)果的高質(zhì)量和高價值,就需要保證數(shù)據(jù)處理的源頭進行處理的元數(shù)據(jù)處理過程質(zhì)量高。系統(tǒng)平臺采用血緣分析發(fā)幫助進行數(shù)據(jù)治理工作,一方面當發(fā)現(xiàn)數(shù)據(jù)有異常狀況時,可以幫助進行數(shù)據(jù)追蹤,找到有問題的數(shù)據(jù)源,另一方面可以根據(jù)血緣關(guān)系清洗數(shù)據(jù)清單可以直觀的保證數(shù)據(jù)的質(zhì)量。系統(tǒng)采用血緣分析將分析元數(shù)據(jù)的產(chǎn)生、加工處理及流轉(zhuǎn)流通鏈路,得出血緣關(guān)系與影響關(guān)系,輔助用戶定位數(shù)據(jù)倉庫建設(shè)過程中的問題及判斷數(shù)據(jù)變動的影響范圍,輔助用戶開展數(shù)據(jù)關(guān)聯(lián)分析。血緣分析主要分為三部分。第一部分主要為編寫依賴于sql語法規(guī)則的sql語句解析、詞法解析及語法解析等規(guī)則問題。第二部分信息傳播。第三部分編寫血緣計算計算模型。在分析過程中會生成血緣關(guān)系圖和影響關(guān)系圖,供用戶進行參考。血緣關(guān)系圖:解析數(shù)據(jù)加工處理過程,追溯對該對象有影響的所有表的范圍,支持表級及字段級關(guān)系展現(xiàn),并可查看其操作步驟。影響關(guān)系圖:解析數(shù)據(jù)加工處理過程,分析該對象發(fā)生變化后會影響或牽連到的表范圍,支持表級及字段級關(guān)系展現(xiàn),并可查看其操作步驟。具體的數(shù)據(jù)血緣分析示意圖,如圖3所示。

    圖3 數(shù)據(jù)血緣分析示意圖

    3.3 可視化數(shù)據(jù)治理流程

    平臺通過提供可拖曳的完善的圖形組件給用戶,讓用戶自行進行選擇建模使用,完成數(shù)據(jù)處理和計算分析的目的。用戶不需要具備專業(yè)的數(shù)據(jù)分析編碼的能力,只需要根據(jù)自身的需求進行選擇模塊進行建模,配置好相關(guān)的數(shù)據(jù)處理參數(shù)即可。用戶進行可視化數(shù)據(jù)治理流程,首先需要平臺通過內(nèi)置的自助數(shù)據(jù)導(dǎo)入功能對元數(shù)據(jù)進行準備操作,這樣可以保障數(shù)據(jù)處理操作不影響源數(shù)據(jù),不對原始系統(tǒng)數(shù)據(jù)產(chǎn)生干擾。待系統(tǒng)數(shù)據(jù)準備好后,用戶需要快速的瀏覽數(shù)據(jù)確保數(shù)據(jù)源正確,而且可以了解數(shù)據(jù)的基本分布情況。然后可以使用數(shù)據(jù)處理功能,對數(shù)據(jù)進行關(guān)聯(lián)、追加和合并等操作。同時平臺內(nèi)置了多種度量指標計算模塊和多種計算模式,通過這些模塊的嵌入集成,讓業(yè)務(wù)人員即使在不理解算法原理的情況下,也可快速完成數(shù)據(jù)處理的應(yīng)用,進行相應(yīng)的深度數(shù)據(jù)分析工作。具體的可視化數(shù)據(jù)治理流程圖如圖4所示。

    圖4 可視化數(shù)據(jù)治理流程圖

    4 數(shù)據(jù)治理平臺實踐成果

    基于大數(shù)據(jù)的可視化數(shù)據(jù)治理平臺的數(shù)據(jù)采集方式支持用戶進行可視化的拖拽選擇,可以讓用戶靈活實現(xiàn)數(shù)據(jù)采集的功能,而且還提供用戶自定義采集的能力,便于用戶自行拓展數(shù)據(jù)采集能力。目前平臺對主流的數(shù)據(jù)采集模塊進行了組件封裝,具體包括如下組件庫,主流數(shù)據(jù)庫、主流文件、配置文本文件和接口方式接入。系統(tǒng)提供的輸入組件能實現(xiàn)基本的數(shù)據(jù)輸入和更新操作,另外針對輸入的數(shù)據(jù)系統(tǒng)還提供基本的數(shù)據(jù)處理能力,包括基本的字符串處理功能。這些組件都是以圖形化的能力向用戶提供,方便用戶進行編排和使用,另外,平臺還提供圖形化的集成開發(fā)環(huán)境,提供多種數(shù)據(jù)處理組件,方便編排復(fù)雜數(shù)據(jù)處理流程以及管控多種模式的數(shù)據(jù)處理任務(wù)。系統(tǒng)為了滿足數(shù)據(jù)處理的效率,支持數(shù)據(jù)進行批處理操作,用戶選擇圖形化的數(shù)據(jù)處理組件后,組件之間數(shù)據(jù)處理操作按照處理順序進行運行計算。數(shù)據(jù)采集實際運行效果圖,如圖5所示。

    圖5 數(shù)據(jù)采集實際運行效果圖

    大數(shù)據(jù)的可視化數(shù)據(jù)治理平臺提供數(shù)據(jù)預(yù)處理能力,同樣也是可以通過拖拽式界面操作,用戶通過組件式選擇相關(guān)的數(shù)據(jù)預(yù)處理能力組件進行處理能力組合。平臺數(shù)據(jù)處理模塊支持數(shù)據(jù)提前預(yù)處理的功能,用戶選擇的數(shù)據(jù)處理組件之間都是模塊化的橋接,為了保證數(shù)據(jù)處理的效率,數(shù)據(jù)模塊之間如果提前進行預(yù)處理,可以節(jié)約時間。目前系統(tǒng)支持數(shù)據(jù)清理、數(shù)據(jù)變換等數(shù)據(jù)預(yù)處理能力。數(shù)據(jù)模塊之間進行數(shù)據(jù)融合處理,不僅僅支持數(shù)據(jù)快速構(gòu)建通用的處理模型進行數(shù)據(jù)處理,數(shù)據(jù)表之間為了便于用戶快速的進行數(shù)據(jù)處理,提供快速分解、融合和分析等功能。另外,平臺還提供了專業(yè)的數(shù)據(jù)處理計算能力,具備目前主流的數(shù)據(jù)處理算法,方便用戶直接進行使用,無需進行開發(fā)和便捷。用戶可以根據(jù)自己數(shù)據(jù)建模的需求進行選擇相關(guān)的算法進行構(gòu)建數(shù)據(jù)處理模塊,系統(tǒng)會對基本的算法建模進行推薦和指導(dǎo)建議,方便輸出最優(yōu)的數(shù)據(jù)內(nèi)容,滿足用戶的數(shù)據(jù)預(yù)處理需求。另外,本文中的系統(tǒng)平臺提供的算法主要基于業(yè)界主流的Spark分布式內(nèi)存計算框架開發(fā),能夠滿足用戶針對高數(shù)據(jù)量處理的使用場景,用戶還可以自行采用Scala語言編寫相關(guān)腳本來實現(xiàn)個性化的數(shù)據(jù)處理算法,來滿足用戶的特殊需求。數(shù)據(jù)預(yù)處理示意圖,如圖6所示。

    圖6 數(shù)據(jù)預(yù)處理示意圖

    可視化數(shù)據(jù)治理平臺支持選擇相關(guān)機器學(xué)習(xí)算法進行數(shù)據(jù)處理,系統(tǒng)中集成了基本的分類算法、回歸算法和聚集算法等功能,另外還提供了一些高效的自定義優(yōu)化算法,包括視覺聚類算法、稀疏時間序列算法和稀疏迭代回歸等算法,大大的提升了數(shù)據(jù)處理的性能。用戶通過選擇相關(guān)的算法進行數(shù)據(jù)計算分析建模,根據(jù)數(shù)據(jù)處理的目的進行算法選擇,平臺在數(shù)據(jù)運行中產(chǎn)生的數(shù)據(jù)都是進行文件化和可視化圖標形式進行數(shù)據(jù),用戶通過查閱相關(guān)數(shù)據(jù)數(shù)據(jù),進行數(shù)據(jù)分析。如果數(shù)據(jù)未達到預(yù)期或者錯誤,用戶還可以選擇迭代計算和模型調(diào)優(yōu),保證最終產(chǎn)生的數(shù)據(jù)具有正確性和高實用性。針對具有大數(shù)據(jù)知識的專業(yè)人士,系統(tǒng)提供支持深度學(xué)習(xí)框架TensorFlow,提供用戶編碼式構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò),這樣就可以滿足用戶自定義調(diào)優(yōu)和自主化數(shù)據(jù)處理。機器學(xué)習(xí)能力示意圖,如圖7所示。

    圖7 機器學(xué)習(xí)能力示意圖

    5 小結(jié)

    通過對大數(shù)據(jù)的可視化數(shù)據(jù)治理平臺的調(diào)查和相關(guān)專業(yè)文獻的研究,本文介紹了大數(shù)據(jù)的可視化數(shù)據(jù)治理平臺的關(guān)鍵核心處理技術(shù)、總體設(shè)計架構(gòu)和工作原理,完成了相關(guān)大數(shù)據(jù)的可視化數(shù)據(jù)治理平臺的實現(xiàn)。大數(shù)據(jù)的可視化數(shù)據(jù)治理平臺通過提供靈活的可視化拖拽組件提供給用戶進行使用,用戶不需要對大數(shù)據(jù)處理專業(yè)算法進行非常的了解,就可以使用組合組件來滿足數(shù)據(jù)處理的要求。同時平臺支持自定義編寫腳本來實現(xiàn)使用用戶的算法進行數(shù)據(jù)治理。最終數(shù)據(jù)可以通過圖形化或者文件化的形式為用戶提供服務(wù),滿足用戶靈活性和高質(zhì)量的數(shù)據(jù)使用需求。

    猜你喜歡
    數(shù)據(jù)處理組件可視化
    基于CiteSpace的足三里穴研究可視化分析
    無人機智能巡檢在光伏電站組件診斷中的應(yīng)用
    能源工程(2022年2期)2022-05-23 13:51:50
    認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
    基于Power BI的油田注水運行動態(tài)分析與可視化展示
    云南化工(2021年8期)2021-12-21 06:37:54
    ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
    新型碎邊剪刀盤組件
    重型機械(2020年2期)2020-07-24 08:16:16
    基于CGAL和OpenGL的海底地形三維可視化
    U盾外殼組件注塑模具設(shè)計
    “融評”:黨媒評論的可視化創(chuàng)新
    傳媒評論(2019年4期)2019-07-13 05:49:14
    基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
    都兰县| 建平县| 鄢陵县| 陇南市| 满城县| 西充县| 乌拉特前旗| 漯河市| 鹤峰县| 从化市| 南木林县| 运城市| 邵武市| 资溪县| 罗定市| 屏东县| 沙田区| 卓资县| 哈尔滨市| 望江县| 大庆市| 高陵县| 和政县| 永宁县| 虎林市| 阳泉市| 长垣县| 抚宁县| 四平市| 桓台县| 刚察县| 南开区| 万年县| 大同市| 青浦区| 陕西省| 兴隆县| 本溪| 商洛市| 石门县| 涟源市|