孟慶昕
(中國電子科技集團公司電子科學(xué)研究院,北京100041)
全國一體化國家大數(shù)據(jù)中心頂層設(shè)計和應(yīng)用示范工作,基于系統(tǒng)形態(tài)的創(chuàng)新,連接政府和社會現(xiàn)有數(shù)據(jù)中心,整合數(shù)據(jù)資源,通過“數(shù)據(jù)即服務(wù)、平臺即服務(wù)、應(yīng)用即服務(wù)”等服務(wù)形式,構(gòu)建“跨層級縱向匯集、跨部門橫向共享”的數(shù)據(jù)集中共享環(huán)境,推動全國數(shù)據(jù)資源在國家安全和社會治理等方面的深度開發(fā)和綜合運用,形成“全網(wǎng)一體、全域覆蓋、全維應(yīng)用”的大數(shù)據(jù)服務(wù)體系,實現(xiàn)從“有形”的國家大數(shù)據(jù)中心實體到“無形”的國家大數(shù)據(jù)中心體系的轉(zhuǎn)變。解決全國層面數(shù)據(jù)統(tǒng)籌管理和數(shù)據(jù)資源共享問題,突破異地多源數(shù)據(jù)一致性查詢、異地多中心間資源共享調(diào)度等關(guān)鍵技術(shù),研制數(shù)據(jù)中心準(zhǔn)入驗證環(huán)境和數(shù)據(jù)交換平臺,建設(shè)國家大數(shù)據(jù)共享調(diào)度節(jié)點,集成接入電子政務(wù)、智慧城市、、空管、電磁等業(yè)務(wù)域大數(shù)據(jù)中心,其中電子政務(wù)數(shù)據(jù)體系研究涉及了從各政府部門獲取的格式化數(shù)據(jù)和非格式化數(shù)據(jù),包括文本、圖片、視頻等多類數(shù)據(jù)。目前已模擬形成了政務(wù)服務(wù)事項目錄(1400 多條)、證照數(shù)據(jù)(200 多條)、企業(yè)基本信息(200 多條);智慧城市有6 大基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)和5 大業(yè)務(wù)領(lǐng)域標(biāo)準(zhǔn)的267348條城市數(shù)據(jù)的數(shù)據(jù)目錄,龐大的數(shù)據(jù)量,急需實現(xiàn)對全國層面的數(shù)據(jù)統(tǒng)籌管理、一致性智能查詢等功能。
數(shù)據(jù)倉庫技術(shù)是一個面向主題的、集成的、相對穩(wěn)定的和反映歷史變化的數(shù)據(jù)集合組織技術(shù)。建立大數(shù)據(jù)存儲模型,建立全網(wǎng)統(tǒng)一編碼規(guī)則及數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系描述,支持有效對數(shù)據(jù)進行存儲、索引及追溯,以及面向大數(shù)據(jù)分析應(yīng)用主題的數(shù)據(jù)組織。數(shù)據(jù)倉庫系統(tǒng)是一個信息提供平臺,它從各個業(yè)務(wù)處理系統(tǒng)獲得數(shù)據(jù),主要采取星型模型和雪花模型進行數(shù)據(jù)組織,并為用戶提供各種手段從數(shù)據(jù)中獲取信息和知識。數(shù)據(jù)倉庫的關(guān)鍵是數(shù)據(jù)的存儲和管理,數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進行抽取、清理、并有效的集成,按照主題進行組織。
通過采用“Hadoop+關(guān)系型數(shù)據(jù)庫“混合架構(gòu),實現(xiàn)了大數(shù)據(jù)存儲模型,建立了全平臺統(tǒng)一編碼規(guī)則及數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系描述,抽取了原始監(jiān)測數(shù)據(jù),預(yù)處理監(jiān)測數(shù)據(jù),設(shè)備狀態(tài)數(shù)據(jù),環(huán)境監(jiān)控數(shù)據(jù),業(yè)務(wù)應(yīng)用數(shù)據(jù)。支持對數(shù)據(jù)有效存儲、索引及追溯,以及面向大數(shù)據(jù)分析應(yīng)用主題的數(shù)據(jù)組織。解決了多格式、多種類、多來源的數(shù)據(jù)標(biāo)準(zhǔn)化問題,實現(xiàn)數(shù)據(jù)存儲架構(gòu)。
對于海量數(shù)據(jù)清洗過程中需要強大的計算能力,特別是在一致性查詢,更是提出了更高的要求,該技術(shù)充分利用集群強大的計算、存儲能力,采用分層的設(shè)計思想,在底層將集群作為數(shù)據(jù)格式統(tǒng)一的存儲平臺,將各種異構(gòu)數(shù)據(jù)源統(tǒng)一到集群的存儲系統(tǒng)中,并采用集群來分析處理巨大的待清洗數(shù)據(jù),在集群層之上則為相應(yīng)的并行核心清洗模塊,包括數(shù)據(jù)加載模塊、分布式孤立點挖掘模塊、結(jié)果分析及存儲模塊,透明的調(diào)用集群底層的計算和存儲能力。通過研究空值、數(shù)值型、日期型、字符串型等多種異構(gòu)數(shù)據(jù)清洗技術(shù),對多種類型的異構(gòu)數(shù)據(jù)都能完成清洗工作,為后期的一致性查詢做好基礎(chǔ)準(zhǔn)備,同時在數(shù)據(jù)清洗中引入數(shù)據(jù)挖掘方法,如用于檢驗異常記錄的聚類方法、用于發(fā)現(xiàn)不符合現(xiàn)有模式的異常記錄的模型方法、用于發(fā)現(xiàn)數(shù)據(jù)集中不符合具有支持度規(guī)則和高置信度的異常數(shù)據(jù)的關(guān)聯(lián)規(guī)則方法。
元數(shù)據(jù)索引加速在大數(shù)據(jù)的應(yīng)用過程中,用于解決關(guān)系型數(shù)據(jù)庫百億級數(shù)據(jù)量級全文檢索及數(shù)據(jù)計算時效問題,實現(xiàn)快速定位及數(shù)據(jù)集抽象。通過倒排算法,完成“單詞-文檔矩陣”的存儲形式,目標(biāo)是為了可以根據(jù)單詞快速獲取包含這個單詞的文檔列表,并進行比對。倒排索引包括單詞字典、倒排文件列表和倒排文件物理實體。
單詞詞典:索引單位是單詞,單詞詞典是由文檔集合中出現(xiàn)過的所有單詞構(gòu)成的字符串集合,單詞詞典內(nèi)每條索引項記載單詞本身的一些信息以及指向“倒排列表”的指針。
倒排文件列表:記載出現(xiàn)過得某個單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息,每條記錄成為一個倒排項(Posting)。根據(jù)倒排列表,即可獲知哪些文檔包含某個單詞。
倒排文件物理實體:所有單詞的倒排列表往往順序地存儲在磁盤的某個文件里,這個文件即被稱之為倒排文件,倒排文件是存儲倒排索引的物理文件。經(jīng)過測試驗證,元數(shù)據(jù)索引加速技術(shù)可以加速響應(yīng)bolt計算組元的查詢命中,例如用戶輸入查詢詞“114.067222,87.234543”,搜索系統(tǒng)查找倒排索引,從中可以讀出包含這個單詞的文檔,這些文檔就是提供給Bolt 的搜索結(jié)果,而利用單詞頻率信息、文檔頻率信息即可以對這些候選搜索結(jié)果進行排序,計算文檔和查詢相似性,按照相似性得分由高到低排序輸出,從而替代到傳統(tǒng)關(guān)系型數(shù)據(jù)庫全文檢查,提升數(shù)據(jù)快速檢索的命中率
并行計算機引擎技術(shù)是大數(shù)據(jù)中心運行計算的核心,實現(xiàn)將大數(shù)據(jù)級處理任務(wù)拆解成批量子計算組集合的計算框架,將一次一百億數(shù)據(jù)集合計算任務(wù)拆分為百十子進程計算,對子計算進程進行過程狀態(tài)監(jiān)管,最終子進程全集完成計算后由統(tǒng)一局和計算進行統(tǒng)計結(jié)果,并進行調(diào)度。
結(jié)合全國一體化國家大數(shù)據(jù)中心能力需求,通過原型系統(tǒng)建設(shè)和示范應(yīng)用建設(shè),搭建形成南京空管大數(shù)據(jù)中心、深圳智慧城市大數(shù)據(jù)中心、貴陽電子政務(wù)大數(shù)據(jù)中心、北京電子政務(wù)大數(shù)據(jù)中心。其中,深圳智慧城市大數(shù)據(jù)中心已匯集公安局、發(fā)改委、地稅局、民政局等24 種數(shù)據(jù)資源,接入120 張數(shù)據(jù)表1650 個數(shù)據(jù)項,共計262 億條記錄,同時還匯聚10 余萬路視頻數(shù)據(jù),支撐公共服務(wù)、城市運營管理等業(yè)務(wù),有效提升數(shù)據(jù)處理效率15%左右。貴陽電子政務(wù)大數(shù)據(jù)中心服務(wù)器規(guī)模已達到50 臺,成功匯集貴陽市政府各委辦局共享交換數(shù)據(jù),這其中多源一致性智能查詢技術(shù)起到了關(guān)鍵作用。
基于大數(shù)據(jù)的精準(zhǔn)與主題服務(wù)分析實現(xiàn)了政務(wù)服務(wù)業(yè)務(wù)分析系統(tǒng),精準(zhǔn)推送和辦事人相關(guān)的服務(wù)和信息,優(yōu)化辦事體驗。主要包括政務(wù)數(shù)據(jù)采集、精準(zhǔn)搜索、服務(wù)檔案、精準(zhǔn)服務(wù)推送和主題服務(wù)分析?;趯?jīng)信委、統(tǒng)計局、稅務(wù)局、財政局、工商局等部門的經(jīng)濟運行相關(guān)數(shù)據(jù)采集,通過對區(qū)域經(jīng)濟、企業(yè)經(jīng)營數(shù)據(jù)、投資、財政等重點主題分析和消費、能源運行形勢等常規(guī)主題分析實現(xiàn)了經(jīng)濟運行業(yè)務(wù)分析系統(tǒng),及時發(fā)現(xiàn)區(qū)域經(jīng)濟運行的異常,給宏觀調(diào)整產(chǎn)業(yè)發(fā)展政策提供數(shù)據(jù)依據(jù),為工業(yè)經(jīng)濟運行監(jiān)測預(yù)警奠定基礎(chǔ),使對工業(yè)經(jīng)濟發(fā)展的趨勢判斷和預(yù)測更加科學(xué)、更加準(zhǔn)確,為宏觀決策提供可靠依據(jù),保持和促進工業(yè)經(jīng)濟的健康、持續(xù)發(fā)展。
數(shù)據(jù)目錄訂閱系統(tǒng)&審批系統(tǒng)基于配置文件形式進行數(shù)據(jù)交互,完成數(shù)據(jù)解析入庫,提供數(shù)據(jù)目錄展示、數(shù)據(jù)目錄檢索、數(shù)據(jù)目錄訂閱功能以及數(shù)據(jù)操作審批流程,其中審批系統(tǒng)能夠提供服務(wù)接口供其他系統(tǒng)調(diào)用,審批系統(tǒng)功能涵蓋數(shù)據(jù)接入審批、數(shù)據(jù)使用審批以及數(shù)據(jù)刪除審批,實現(xiàn)了智慧城市敏感數(shù)據(jù)保護。同時正在結(jié)合脫敏設(shè)備,對敏感字段加工處理。
建設(shè)全市統(tǒng)一的通訊庫,實現(xiàn)跨行業(yè)、跨區(qū)域、跨業(yè)務(wù)、跨機構(gòu)的基礎(chǔ)通訊方式的整合及互聯(lián)互通。以全市統(tǒng)一通訊庫為核心,關(guān)聯(lián)人口、法人、房屋部件、事件等業(yè)務(wù)庫,將業(yè)務(wù)及能力封裝成服務(wù),統(tǒng)一調(diào)度,供上層業(yè)務(wù)應(yīng)用使用。
貴陽電子政務(wù)大數(shù)據(jù)中心典型應(yīng)用是數(shù)據(jù)融合在民生領(lǐng)域的綜合應(yīng)用,應(yīng)用基于自有數(shù)據(jù)和仿真模擬數(shù)據(jù)匯聚融合了全國不同地區(qū)、不同行業(yè)和不同系統(tǒng)的數(shù)據(jù)。全景式立體化展現(xiàn)了民生領(lǐng)域,特別是旅游行業(yè)的綜合態(tài)勢,數(shù)據(jù)來源包括貴陽本地電子政務(wù)中心、南京空管大數(shù)據(jù)中心、智慧城市大數(shù)據(jù)中心、電磁大數(shù)據(jù)中心,完成共計3 大類,18 小類的數(shù)據(jù)融合分析應(yīng)用。
本文介紹了以基于數(shù)據(jù)倉庫技術(shù),大數(shù)據(jù)清洗技術(shù)、元數(shù)據(jù)索引加速技術(shù)和并行計算機引擎技術(shù)為核心的異地多源數(shù)據(jù)一致性智能查詢的實現(xiàn)方法,并成功運用在全國一體化國家大數(shù)據(jù)中心項目中,在實際的電子政務(wù)場景中得到了檢驗,從綜合性能來考慮,是目前實現(xiàn)異地多源數(shù)據(jù)一致性檢驗技術(shù)的有效方法。