• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      智慧城市多源異構(gòu)大數(shù)據(jù)處理框架

      2017-04-07 03:14:20劉巖王華秦葉陽朱興杰
      大數(shù)據(jù) 2017年1期
      關(guān)鍵詞:異構(gòu)結(jié)構(gòu)化數(shù)據(jù)處理

      劉巖,王華,秦葉陽,朱興杰

      1. 泰康保險(xiǎn)集團(tuán)股份有限公司數(shù)據(jù)信息中心,北京 102206;2. 中國人民大學(xué),北京 100872;3. 北京大學(xué),北京 100871

      智慧城市多源異構(gòu)大數(shù)據(jù)處理框架

      劉巖1,王華2,秦葉陽3,朱興杰1

      1. 泰康保險(xiǎn)集團(tuán)股份有限公司數(shù)據(jù)信息中心,北京 102206;2. 中國人民大學(xué),北京 100872;3. 北京大學(xué),北京 100871

      智慧城市建設(shè)的重心已由傳統(tǒng)IT系統(tǒng)和信息資源共享建設(shè),轉(zhuǎn)變?yōu)閿?shù)據(jù)的深度挖掘利用和數(shù)據(jù)資產(chǎn)的運(yùn)營流通。大數(shù)據(jù)中心是數(shù)據(jù)資產(chǎn)管理和利用的實(shí)體基礎(chǔ),其核心驅(qū)動(dòng)引擎是大數(shù)據(jù)平臺(tái)及各類數(shù)據(jù)挖掘與分析系統(tǒng)。討論了智慧城市大數(shù)據(jù)中心建設(shè)的功能架構(gòu),圍繞城市多源異構(gòu)數(shù)據(jù)處理的實(shí)際需要,對(duì)數(shù)據(jù)中心大數(shù)據(jù)平臺(tái)的架構(gòu)進(jìn)行了拆分講解,并以視頻大數(shù)據(jù)處理為例,闡述了數(shù)據(jù)中心中大數(shù)據(jù)平臺(tái)的運(yùn)轉(zhuǎn)流程。

      智慧城市;大數(shù)據(jù);多源異構(gòu);視頻分析

      1 引言

      隨著智慧城市建設(shè)逐步由信息基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)建設(shè)邁入數(shù)據(jù)資產(chǎn)集約利用與運(yùn)營管理階段,城市大數(shù)據(jù)中心已成為智慧城市打造核心競爭力、提升政府管理效能的重要工具。一方面政府借助大數(shù)據(jù)中心建設(shè)可以將有限的信息基礎(chǔ)設(shè)施資源集中高效管理和利用,大幅降低各自為政、運(yùn)維機(jī)關(guān)龐雜、財(cái)政壓力過大的問題;另一方面,可以在國務(wù)院、發(fā)展和改革委員會(huì)大力支持的政策東風(fēng)下,打破部門間數(shù)據(jù)壁壘,推動(dòng)政府各部門職能由管理轉(zhuǎn)為服務(wù),提高數(shù)據(jù)共享利用率和透明度。以大數(shù)據(jù)中心為核心構(gòu)建城市駕駛艙,實(shí)現(xiàn)城市運(yùn)轉(zhuǎn)過程的實(shí)時(shí)全面監(jiān)控,提高政府決策的科學(xué)性和及時(shí)性。智慧城市大數(shù)據(jù)中心建設(shè)功能框架如圖1所示,其中針對(duì)不同部門的數(shù)據(jù)源,由數(shù)據(jù)收集系統(tǒng)完成數(shù)據(jù)的匯聚,并根據(jù)數(shù)據(jù)業(yè)務(wù)類型和內(nèi)容的差異進(jìn)行粗分類。為避免過多“臟數(shù)據(jù)”對(duì)大數(shù)據(jù)平臺(tái)的污染,對(duì)于批量數(shù)據(jù),不推薦直接將數(shù)據(jù)匯入大數(shù)據(jù)平臺(tái),而是單設(shè)一個(gè)前端原始數(shù)據(jù)資源池,在這里暫時(shí)存儲(chǔ)前端流入的多源異構(gòu)數(shù)據(jù),供大數(shù)據(jù)平臺(tái)處理調(diào)用。

      大數(shù)據(jù)平臺(tái)是城市大數(shù)據(jù)中心運(yùn)轉(zhuǎn)的核心驅(qū)動(dòng)引擎,主要完成多源數(shù)據(jù)導(dǎo)入、冗余存儲(chǔ)、冷熱遷移、批量計(jì)算、實(shí)時(shí)計(jì)算、圖計(jì)算、安全管理、資源管理、運(yùn)維監(jiān)控等功能[1],大數(shù)據(jù)平臺(tái)的主體數(shù)據(jù)是通過專線連接或硬件復(fù)制各政府部門數(shù)據(jù)庫的方式獲得,例如地理信息系統(tǒng)(geographic information system,GIS)數(shù)據(jù)、登記信息等。部分?jǐn)?shù)據(jù)通過直連業(yè)務(wù)部門傳感監(jiān)測設(shè)備的方式獲得,例如監(jiān)控視頻、河道流量等。大數(shù)據(jù)平臺(tái)的輸出主要是結(jié)構(gòu)化關(guān)聯(lián)數(shù)據(jù)以及統(tǒng)計(jì)分析結(jié)果數(shù)據(jù),以方便各類業(yè)務(wù)系統(tǒng)的直接使用。

      不同部門間共享與交換的數(shù)據(jù)不推薦直接使用原始數(shù)據(jù),一方面是因?yàn)樵紨?shù)據(jù)內(nèi)容密級(jí)存在差異,另一方面是因?yàn)樵紨?shù)據(jù)內(nèi)容可能存在錯(cuò)誤或紕漏。推薦使用經(jīng)過大數(shù)據(jù)平臺(tái)分類、過濾和統(tǒng)計(jì)分析后的數(shù)據(jù)。不同使用部門經(jīng)過政務(wù)信息門戶統(tǒng)一需求申請(qǐng)和查看所需數(shù)據(jù),所有數(shù)據(jù)的交換和審批以及數(shù)據(jù)的監(jiān)控運(yùn)維統(tǒng)一由數(shù)據(jù)信息中心負(fù)責(zé),避免了跨部門協(xié)調(diào)以及數(shù)據(jù)管理不規(guī)范等人為時(shí)間的損耗,極大地提高了數(shù)據(jù)的流通和使用效率。另外,針對(duì)特定的業(yè)務(wù)需求,可以基于大數(shù)據(jù)平臺(tái)擁有的數(shù)據(jù)進(jìn)行定制開發(fā),各業(yè)務(wù)系統(tǒng)屬于應(yīng)用層,建設(shè)時(shí)不宜與大數(shù)據(jù)平臺(tái)部署在同一服務(wù)器集群內(nèi),并且要保證數(shù)據(jù)由大數(shù)據(jù)平臺(tái)至業(yè)務(wù)系統(tǒng)的單向性,盡量設(shè)置業(yè)務(wù)數(shù)據(jù)過渡區(qū),避免應(yīng)用系統(tǒng)直接對(duì)大數(shù)據(jù)平臺(tái)核心區(qū)數(shù)據(jù)的訪問。

      目前主流大數(shù)據(jù)平臺(tái)都采用以Hadoop為核心的數(shù)據(jù)處理框架,例如Cloudera公司的CDH(Cloudera Distribution for Hadoop)和星環(huán)信息科技(上海)有限公司(Transwarp)的TDH(Transwarp Data Hub)、Apache Hadoop等。以Hadoop為核心的大數(shù)據(jù)解決方案占大數(shù)據(jù)市場95%以上的份額,目前國內(nèi)80%的市場被 Cloudera占有,剩余20%的市場由星環(huán)信息科技(上海)有限公司、北京紅象云騰系統(tǒng)技術(shù)有限公司、華為技術(shù)有限公司等大數(shù)據(jù)公司分享。隨著數(shù)據(jù)安全意識(shí)的增強(qiáng)、價(jià)格競爭優(yōu)勢的擴(kuò)大,國內(nèi)企業(yè)在國內(nèi)大數(shù)據(jù)市場的份額和影響力正在快速提升。大數(shù)據(jù)的應(yīng)用歷程可歸納為3個(gè)階段:第一個(gè)階段是面向互聯(lián)網(wǎng)數(shù)據(jù)收集、處理的搜索推薦時(shí)代;第二個(gè)階段是面向金融、安全、廣播電視數(shù)據(jù)的用戶畫像和關(guān)系發(fā)現(xiàn)時(shí)代;第三個(gè)階段是面向多數(shù)據(jù)源與多業(yè)務(wù)領(lǐng)域數(shù)據(jù)的融合分析與數(shù)據(jù)運(yùn)營時(shí)代,并且對(duì)數(shù)據(jù)處理規(guī)模和實(shí)時(shí)性的要求大幅提高。

      本文在智慧城市大數(shù)據(jù)中心建設(shè)方案的基礎(chǔ)上,闡述了多源異構(gòu)大數(shù)據(jù)處理的框架和流程,并以最典型的非結(jié)構(gòu)化視頻大數(shù)據(jù)處理為例,介紹了多源異構(gòu)大數(shù)據(jù)處理框架運(yùn)轉(zhuǎn)的流程。

      2 多源異構(gòu)大數(shù)據(jù)處理框架

      2.1 系統(tǒng)整體架構(gòu)

      多源異構(gòu)是大數(shù)據(jù)的基本特征[2],為適應(yīng)此類數(shù)據(jù)導(dǎo)入、存儲(chǔ)、處理和交互分析的需求,本文設(shè)計(jì)了如圖2所示的系統(tǒng)框架,主要包括3個(gè)層面的內(nèi)容:基礎(chǔ)平臺(tái)層、數(shù)據(jù)處理層、應(yīng)用展示層。其中,基礎(chǔ)平臺(tái)層由Hadoop生態(tài)系統(tǒng)組件以及其他數(shù)據(jù)處理工具構(gòu)成,除了提供基本的存儲(chǔ)、計(jì)算和網(wǎng)絡(luò)資源外,還提供分布式流計(jì)算、離線批處理以及圖計(jì)算等計(jì)算引擎;數(shù)據(jù)處理層由多個(gè)數(shù)據(jù)處理單元組成,除了提供基礎(chǔ)的數(shù)據(jù)抽取與統(tǒng)計(jì)分析算法外,還提供半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)化數(shù)據(jù)處理算法、數(shù)據(jù)內(nèi)容深度理解算法等,涉及自然語言處理、視頻圖像內(nèi)容理解、文本挖掘與分析等,是與人工智能聯(lián)系最緊密的層,該層數(shù)據(jù)處理效果的好壞直接決定了業(yè)務(wù)應(yīng)用層數(shù)據(jù)統(tǒng)計(jì)分析的準(zhǔn)確性和客戶體驗(yàn);應(yīng)用展示層由SSH(Struts+Spring+Hibernate)框架及多類前端可視化工具組成,對(duì)應(yīng)用層的約束是比較寬松的,主要是對(duì)數(shù)據(jù)處理層結(jié)果的進(jìn)一步歸納和總結(jié),以滿足具體業(yè)務(wù)的需要。系統(tǒng)框架的使用優(yōu)先推薦開源生態(tài)系統(tǒng)及其組件,系統(tǒng)存儲(chǔ)主要依托Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)、HBase,同時(shí)支持Oracle、MySQL等結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng),計(jì)算框架涵蓋MapReduce、Storm、Spark以及定制分布式視頻流處理引擎,可視化系統(tǒng)基于SSH框架設(shè)計(jì),可根據(jù)實(shí)際需求,靈活配置。

      圖2 多源異構(gòu)大數(shù)據(jù)處理框架

      2.2 多源數(shù)據(jù)導(dǎo)入

      鑒于數(shù)據(jù)存儲(chǔ)介質(zhì)、數(shù)據(jù)存儲(chǔ)類型和數(shù)據(jù)傳輸方式的差異,系統(tǒng)在數(shù)據(jù)導(dǎo)入單元設(shè)計(jì)了如下數(shù)據(jù)導(dǎo)入框架,借助不同的導(dǎo)入工具,實(shí)現(xiàn)不同源數(shù)據(jù)和不同結(jié)構(gòu)數(shù)據(jù)的導(dǎo)入,如圖3所示。其中,對(duì)實(shí)時(shí)性要求較高的監(jiān)測數(shù)據(jù)以分布式消息隊(duì)列的形式由Kafka分發(fā);關(guān)系型數(shù)據(jù)庫使用Sqoop等工具,直接將數(shù)據(jù)導(dǎo)入HDFS[3,4];對(duì)于安全等級(jí)較高的數(shù)據(jù)和其他一些離線數(shù)據(jù),使用硬件復(fù)制或文件傳輸協(xié)議(file transfer protocol,F(xiàn)TP)傳輸?shù)姆绞綄?dǎo)入;對(duì)于日志等文本數(shù)據(jù)使用Flume工具導(dǎo)入;對(duì)于互聯(lián)網(wǎng)數(shù)據(jù)使用爬蟲程序爬取,并導(dǎo)入;對(duì)于視頻等多媒體數(shù)據(jù),使用各廠商提供的定制碼流軟件開發(fā)工具包(software development kit, SDK)開發(fā)導(dǎo)入程序,或者利用多媒體流處理引擎直接抓取和在線處理。在智慧城市建設(shè)過程中,數(shù)據(jù)來源差異一般較大,數(shù)據(jù)庫中存放的主要是經(jīng)過業(yè)務(wù)系統(tǒng)加工后的數(shù)據(jù),而描述行為過程的數(shù)據(jù)一般都未被記錄,此時(shí),需要定制開發(fā)能夠直接連接原始數(shù)據(jù)源的數(shù)據(jù)采集工具。

      2.3 異構(gòu)數(shù)據(jù)處理

      根據(jù)數(shù)據(jù)類型的差異,選擇不同的計(jì)算和存儲(chǔ)引擎。對(duì)于非實(shí)時(shí)性數(shù)據(jù)計(jì)算,選擇MapReduce計(jì)算引擎[5];對(duì)實(shí)時(shí)性要求較高的數(shù)據(jù)計(jì)算,選擇Spark或Storm計(jì)算框架[6,7];對(duì)時(shí)序不可分的流媒體數(shù)據(jù)處理,選擇定制流媒體計(jì)算引擎,如圖4所示。對(duì)于結(jié)構(gòu)化或鍵值對(duì)數(shù)據(jù),采用Hive或HBase存儲(chǔ),兼容Oracle和MySQL等關(guān)系型數(shù)據(jù)庫;對(duì)于日志、多媒體等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),采用HDFS存儲(chǔ)。數(shù)據(jù)倉庫可以統(tǒng)一建立在HDFS上,統(tǒng)一的存儲(chǔ)有助于最大化地發(fā)揮分布式系統(tǒng)的數(shù)據(jù)處理能力,充分利用內(nèi)網(wǎng)帶寬,減少異構(gòu)數(shù)據(jù)倉庫自身性能瓶頸導(dǎo)致的大數(shù)據(jù)系統(tǒng)性能下降問題。

      圖3 多源數(shù)據(jù)導(dǎo)入框架

      對(duì)于結(jié)構(gòu)化數(shù)據(jù)的處理主要包括內(nèi)容清洗、統(tǒng)計(jì)分析、關(guān)聯(lián)分析等;對(duì)于半結(jié)構(gòu)化數(shù)據(jù)的處理涉及模板分類、字段檢索、關(guān)鍵字段提取等;對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理涉及音視頻內(nèi)容的結(jié)構(gòu)轉(zhuǎn)化、文本內(nèi)容的挖掘與分析、語義理解與情感分析等。隨著數(shù)據(jù)結(jié)構(gòu)多樣性和內(nèi)容不確定性的增加,數(shù)據(jù)處理的復(fù)雜度和難度呈現(xiàn)指數(shù)型非線性增長,諸多數(shù)據(jù)處理問題在這個(gè)階段轉(zhuǎn)變?yōu)槿斯ぶ悄芩惴▎栴}。

      圖4 異構(gòu)數(shù)據(jù)處理框架

      2.4 統(tǒng)一運(yùn)維管理

      大數(shù)據(jù)平臺(tái)的運(yùn)維管理借助統(tǒng)一運(yùn)維管理平臺(tái)實(shí)現(xiàn),管控平臺(tái)具備大數(shù)據(jù)平臺(tái)定制化組件安裝、資源靈活配置、字段級(jí)權(quán)限控制、賬戶管理等功能,借助統(tǒng)一的運(yùn)維管理平臺(tái),對(duì)平臺(tái)安裝節(jié)點(diǎn)的CPU、內(nèi)存、硬盤資源進(jìn)行控制,并對(duì)節(jié)點(diǎn)所在機(jī)架進(jìn)行規(guī)劃,通過運(yùn)維管理主節(jié)點(diǎn),可實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)的自動(dòng)部署和安裝,與此同時(shí),運(yùn)維管理平臺(tái)可實(shí)時(shí)監(jiān)控正在運(yùn)行的各服務(wù)的資源使用情況和任務(wù)進(jìn)度情況,為各服務(wù)提供資源隔離或資源搶占式兩種選擇方案,靈活配置服務(wù)運(yùn)行節(jié)點(diǎn),大大節(jié)省運(yùn)維管理人員的工作量。

      3 視頻數(shù)據(jù)處理應(yīng)用示例

      在智慧城市建設(shè)中,視頻不僅是存儲(chǔ)規(guī)模最大的數(shù)據(jù),同時(shí)也是最典型的異構(gòu)大數(shù)據(jù),數(shù)據(jù)內(nèi)容在不同的處理階段,表現(xiàn)為不同的數(shù)據(jù)形式:非結(jié)構(gòu)化(視頻、圖像)、半結(jié)構(gòu)化(特征點(diǎn))、結(jié)構(gòu)化(特征向量、描述屬性)。視頻數(shù)據(jù)[8]不僅用于治安偵查、違章監(jiān)測,還被用于城市人群密度監(jiān)測,結(jié)合輿情、地理定位等信息,可用于對(duì)城市不同區(qū)域安全等級(jí)的評(píng)估。視頻數(shù)據(jù)處理算法框架如圖5所示,視頻數(shù)據(jù)處理的過程是逐步將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù),然后做統(tǒng)計(jì)和關(guān)聯(lián)分析的過程。

      3.1 視頻數(shù)據(jù)標(biāo)記

      視頻數(shù)據(jù)標(biāo)記有助于提高視頻內(nèi)容提取和描述的準(zhǔn)確性和穩(wěn)定性,使得視頻內(nèi)容檢測與分析算法的設(shè)計(jì)更有針對(duì)性,原則上對(duì)視頻內(nèi)容的結(jié)構(gòu)化描述信息越全面越好,但是容易受標(biāo)記人員主觀因素干擾,因此只選擇容易區(qū)分和定義的以下幾類標(biāo)記信息:視頻場景、視頻主色、運(yùn)動(dòng)方向、適用算法。視頻場景可分為:卡口、路口、廣場、街道等,視頻主色可分為:彩色和灰色,運(yùn)動(dòng)方向根據(jù)圖像坐標(biāo)系分為8個(gè)方向,適用算法主要用于標(biāo)記該視頻適用于哪類算法,例如行人檢測、遺留物檢測、交通標(biāo)志檢測、車牌檢測等。標(biāo)記后的視頻經(jīng)過視頻分割算法處理,被切分成大小適合MapReduce處理的文件塊。

      圖5 視頻數(shù)據(jù)處理流程

      3.2 視頻內(nèi)容挖掘

      圖6 視頻內(nèi)容挖掘流程

      視頻多媒體數(shù)據(jù)包含的信息非常豐富,這里僅以視頻中的人、車、自行車目標(biāo)的檢測與跟蹤為例,闡述非結(jié)構(gòu)化視頻大數(shù)據(jù)內(nèi)容挖掘的實(shí)現(xiàn)過程。

      視頻內(nèi)容挖掘是通過對(duì)視頻文件或視頻流的解碼,逐幀進(jìn)行分析處理的。視頻中的運(yùn)動(dòng)目標(biāo)是檢測的主要對(duì)象,通過背景建模、前景目標(biāo)分割算法確定潛在運(yùn)動(dòng)目標(biāo)的位置,然后通過運(yùn)動(dòng)目標(biāo)跟蹤算法對(duì)粘連目標(biāo)、誤分割目標(biāo)以及特征不穩(wěn)定目標(biāo)進(jìn)行切分、合并和過濾處理,處理流程如圖6所示,圖6中對(duì)不同的運(yùn)動(dòng)目標(biāo)分別建立檢測存儲(chǔ)隊(duì)列、跟蹤存儲(chǔ)隊(duì)列、結(jié)果存儲(chǔ)隊(duì)列,用以實(shí)現(xiàn)基于視頻前后幀序列的目標(biāo)過濾與判定。整個(gè)處理過程可以使用MapReduce框架實(shí)現(xiàn),值得注意的是,視頻對(duì)象處理需要耗費(fèi)大量的內(nèi)存資源,單靠Java虛擬機(jī)(Java virtual machine,JVM)已難以滿足需求,因此,推薦使用C+Java的混合語言編程處理模式。

      3.3 視頻目標(biāo)分類

      對(duì)視頻內(nèi)容挖掘單元輸出的目標(biāo)圖像文件做進(jìn)一步顯著性檢測與分類判定,主要包括圖像中的人體檢測、車輛檢測、自行車檢測,并對(duì)目標(biāo)圖像中包含多個(gè)目標(biāo)的情況進(jìn)行切分,對(duì)誤檢或位置不精確的目標(biāo)進(jìn)行過濾或校正。

      本文使用優(yōu)化的彈性形變模型(deformable parts model,DPM)算法對(duì)目標(biāo)圖像進(jìn)行二次檢測,如圖7所示。為提高檢測精度,對(duì)尺寸(寬或高)小于320像素的圖像進(jìn)行插值處理,擴(kuò)大至(寬或高)640像素,二次檢測的結(jié)果仍以圖像文件的形式存儲(chǔ)在HDFS上,文件屬性及其與原視頻流的對(duì)應(yīng)關(guān)系記錄在HBase中,該對(duì)應(yīng)關(guān)系主要包括原視頻路徑、圖像對(duì)應(yīng)視頻中的幀序號(hào)等。

      圖7 基于優(yōu)化DPM的行人二次定位示例

      3.4 視頻目標(biāo)檢索

      視頻目標(biāo)檢索是在視頻目標(biāo)分類結(jié)果的基礎(chǔ)上,對(duì)圖像內(nèi)容進(jìn)行結(jié)構(gòu)化特征描述[9],特征向量冷數(shù)據(jù)存儲(chǔ)在HBase中,熱數(shù)據(jù)存儲(chǔ)在內(nèi)存中,每一次的檢索查詢是對(duì)所有圖像數(shù)據(jù)特征的相似性比較。其中特征向量的構(gòu)建綜合考慮顏色不變性和尺度不變性的現(xiàn)實(shí)需求,使得特征向量對(duì)顏色變化敏感而對(duì)尺度變化頑健,目標(biāo)間的相似性通過特征向量余弦計(jì)算。視頻監(jiān)控目標(biāo)檢索示例如圖8所示。

      圖8 視頻監(jiān)控目標(biāo)檢索示例

      3.5 區(qū)域密度監(jiān)測

      如圖9所示,將檢測到的人、車、自行車等以行為人為主體的目標(biāo)與監(jiān)控?cái)z像機(jī)的地理位置結(jié)合在一起,得出人車分布情況和城市活躍度情況。圖9(a)以曲線形式展示了不同時(shí)刻的人車分布情況,圖9(b)為基于密度波動(dòng)的城市活躍度評(píng)分。

      4 結(jié)束語

      在智慧城市建設(shè)中,大數(shù)據(jù)中心扮演著城市大腦的角色,匯聚了來自不同業(yè)務(wù)部門、不同企事業(yè)單位和不同行為人的過程、行為和位置等數(shù)據(jù),這些城市主體元素的監(jiān)測數(shù)據(jù)組成了大數(shù)據(jù)中心龐雜的數(shù)據(jù)源,大數(shù)據(jù)平臺(tái)及各類數(shù)據(jù)挖掘與分析系統(tǒng)組成了大數(shù)據(jù)中心的數(shù)據(jù)分析引擎。在政府角色由城市管理轉(zhuǎn)向城市運(yùn)營和服務(wù)的過程中,大數(shù)據(jù)中心建設(shè)起到了重要的推動(dòng)作用。本文從智慧城市大數(shù)據(jù)中心運(yùn)轉(zhuǎn)的角度,介紹了大數(shù)據(jù)中心對(duì)多源異構(gòu)大數(shù)據(jù)處理的架構(gòu)體系,并且以最典型的視頻大數(shù)據(jù)處理為例,講解了大數(shù)據(jù)平臺(tái)中非結(jié)構(gòu)化數(shù)據(jù)處理的方法和流程,最后給出了數(shù)據(jù)挖掘結(jié)果如何服務(wù)于智慧城市的應(yīng)用示例。

      [1] 程學(xué)旗, 靳小龍,王元卓,等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào), 2014, 25(9): 1889-1908. CHENG X Q, JIN X L, WANG Y Z, et al. Survey on big data system and analytic technology[J]. Journal of Software, 2014, 25(9): 1889-1908.

      [2] 石宇, 詹明, 尹璐, 等. 面向?qū)ο蟮亩嘣串悩?gòu)數(shù)據(jù)關(guān)聯(lián)組織與分析[J]. 測繪通報(bào), 2015(1): 102-104. SHI Y, ZHAN M, YIN L, et al. Research on associated orgabization and analysis of target-oriented multi-source heterogeneous data[J]. Bulletin of Surveying and Mapping, 2015(1): 102-104.

      [3] GHEMAWAT S, GOBIOFF H, LEUNG S. File and storage systems: the Google file system[J]. ACM Sigops Operating Systems Review, 2003, 37(5): 29-43.

      [4] HE H, DU Z, ZHANG W, et al. Optimization strategy of Hadoop small file storage for big data in healthcare[J]. Journal of Supercomputing, 2015, 72(10): 1-12.

      [5] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.

      圖9 城市區(qū)域密度監(jiān)測示例

      [6] 孫大為, 張廣艷, 鄭緯民. 大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系統(tǒng)分析[J]. 軟件學(xué)報(bào), 2014, 25(4): 839-862.SUN D L, ZHANG G Y, ZHENG W M. Big data stream computing: technologies and instances[J]. Journal of Software, 2014, 25(4): 839-862.

      [7] 齊開元, 趙卓峰. 針對(duì)高速數(shù)據(jù)流的大規(guī)模數(shù)據(jù)實(shí)時(shí)處理方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2012, 35(3): 477-490. QI K Y, ZHAO Z F. Real-time processing for high speed data stream over large scale data[J]. Chinese Journal of Computers, 2012, 35(3): 477-490.

      [8] DING S H, LI G, LI Y, et al. SurvSurf: human retrieval on large surveillance video data[J]. Multimedia Tools & Applications, 2016(1): 1-29.

      [9] ZHU H D, SHEN Z, SHANG L, et al. Parallel image texture feature extraction under Hadoop cloud platform[J]. Springer International Publishing, 2014(8588): 459-465.

      Multisource heterogeneous big data processing architecture in smart city

      LIU Yan1, WANG Hua2, QIN Yeyang3, ZHU Xingjie1
      1. Data & Information Services Center, Taikang Insurance Group Co., Ltd., Beijing 102206, China 2. Renmin University of China, Beijing 100872, China 3. Peking University, Beijing 100871, China

      The focus of smart city construction has been transferred from the tradition IT systems and sharing of information resources construction into the data mining operations and the flow of data assets. Big data center is the physical infrastructure of data assets management and utilization. Its core driver includes big data platform and kinds of data mining and analysis systems. The functional architecture of big data center in smart cities was discussed. And around the actual needs of urban multisource heterogeneous data processing, the structure of the big data platform used by parts was explained. Then taking the video processing as an example, the working flow of big data platform in the big data center was described.

      smart city, big data, multisource and heterogeneous, video analysis

      TP391

      A

      10.11959/j.issn.2096-0271.2017007

      劉巖(1982-),男,泰康保險(xiǎn)集團(tuán)股份有限公司數(shù)據(jù)信息中心高級(jí)工程師、高級(jí)主管,中國計(jì)算機(jī)學(xué)會(huì)會(huì)員,主要研究方向?yàn)橹腔鄢鞘薪ㄔO(shè)與規(guī)劃、多源異構(gòu)大數(shù)據(jù)內(nèi)容挖掘與分析、人工智能理論與應(yīng)用等,在大數(shù)據(jù)系統(tǒng)設(shè)計(jì)、人臉識(shí)別、OCR識(shí)別等領(lǐng)域具有豐富的實(shí)踐經(jīng)驗(yàn),曾作為首席專家參與多個(gè)城市智慧化發(fā)展規(guī)劃與實(shí)施建設(shè)。目前已發(fā)表學(xué)術(shù)論文25篇,申請(qǐng)美國發(fā)明專利4項(xiàng),中國發(fā)明專利17項(xiàng),軟件著作權(quán)3項(xiàng),榮獲省科技進(jìn)步獎(jiǎng)一項(xiàng),承擔(dān)多個(gè)“973”計(jì)劃項(xiàng)目、國家自然科學(xué)基金等項(xiàng)目。

      王華(1985-),男,中國人民大學(xué)碩士生,主要研究方向?yàn)榇髷?shù)據(jù)處理架構(gòu)與應(yīng)用、多源異構(gòu)數(shù)據(jù)內(nèi)容清洗及結(jié)構(gòu)化轉(zhuǎn)化等,對(duì)Hadoop、Spark生態(tài)系統(tǒng)及組件具有豐富的應(yīng)用實(shí)踐經(jīng)驗(yàn)。

      秦葉陽(1986-),女,就職于北京大學(xué),安徽榮創(chuàng)智能科技有限公司聯(lián)合創(chuàng)始人,主要研究方向?yàn)橹腔鄢鞘行畔⒒ㄔO(shè)、大數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)與應(yīng)用、信息安全等,在信息化系統(tǒng)建設(shè)、項(xiàng)目組織與運(yùn)營管理、公共關(guān)系管理等方面具有豐富的經(jīng)驗(yàn)。

      朱興杰(1986-),男,泰康保險(xiǎn)集團(tuán)股份有限公司數(shù)據(jù)信息中心應(yīng)用創(chuàng)新高級(jí)工程師,主要研究方向?yàn)橐曨l數(shù)據(jù)內(nèi)容挖掘與分析、人臉檢測與識(shí)別、機(jī)器學(xué)習(xí)等。

      2016-11-18

      猜你喜歡
      異構(gòu)結(jié)構(gòu)化數(shù)據(jù)處理
      試論同課異構(gòu)之“同”與“異”
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
      LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
      基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      在新興異構(gòu)SoCs上集成多種系統(tǒng)
      南昌市| 广州市| 林甸县| 独山县| 夏河县| 普宁市| 五家渠市| 五大连池市| 华坪县| 库尔勒市| 新河县| 石柱| 鄂托克旗| 兴城市| 东海县| 瑞昌市| 新郑市| 老河口市| 郓城县| 东乡县| 衡南县| 太康县| 商河县| 黑河市| 河东区| 太保市| 桐梓县| 麻城市| 福清市| 怀仁县| 开江县| 宁都县| 冀州市| 乐都县| 甘孜| 平顶山市| 涿鹿县| 古田县| 秀山| 宁晋县| 海阳市|