盧康權(quán)
中國(guó)人民銀行杭州中心支行科技處 浙江 杭州 310001
隨著互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展,物聯(lián)網(wǎng)技術(shù)的大量運(yùn)用以及移動(dòng)互聯(lián)網(wǎng)的日益普及,大數(shù)據(jù)概念也應(yīng)運(yùn)而生。大數(shù)據(jù)不僅僅是一種新技術(shù),也不是單一的新產(chǎn)品,而是一種新現(xiàn)象,是近來(lái)計(jì)算機(jī)研究的一個(gè)新熱點(diǎn)。大數(shù)據(jù)泛指超大規(guī)模的數(shù)據(jù)集合,可從中挖掘出極具價(jià)值的信息,但利用傳統(tǒng)技術(shù)無(wú)法進(jìn)行及時(shí)分析和處理[1]。本文通過(guò)分析大數(shù)據(jù)計(jì)算框架、大數(shù)據(jù)關(guān)鍵技術(shù),在金融監(jiān)管領(lǐng)域應(yīng)用大數(shù)據(jù)技術(shù)進(jìn)行信息處理。
大數(shù)據(jù)的4V特征[2]對(duì)計(jì)算能力提出了擴(kuò)展要求。計(jì)算能力擴(kuò)展一般分為兩種方式:第一是垂直擴(kuò)展(scale up),是指向系統(tǒng)中的單個(gè)節(jié)點(diǎn)添加資源,通常涉及向單個(gè)計(jì)算機(jī)添加CPU或內(nèi)存等,每一個(gè)組件的功能均會(huì)對(duì)總體性能造成限制。垂直擴(kuò)展的好處是對(duì)上層應(yīng)用系統(tǒng)透明,缺點(diǎn)是高性能資源成本較高,并且擴(kuò)展上限是現(xiàn)有業(yè)界的軟硬件技術(shù)水平。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)、中間件等軟件一般采用垂直擴(kuò)展。第二是水平擴(kuò)展(scale out),是指向系統(tǒng)添加更多節(jié)點(diǎn),比如向分布式軟件應(yīng)用程序添加新計(jì)算機(jī)。隨著硬件價(jià)格的下降和性能的不斷提高,低成本的節(jié)點(diǎn)可以不停地添加到一個(gè)集群中,提高集群的整體計(jì)算能力。彈性的水平擴(kuò)展架構(gòu)本質(zhì)來(lái)說(shuō)就是分布式架構(gòu),因此不會(huì)局限于任何單一計(jì)算機(jī)的資源容量,幾乎可以線性擴(kuò)展所有資源。水平擴(kuò)充的優(yōu)點(diǎn)是可以利用低成本的組件,擴(kuò)充能力強(qiáng),缺點(diǎn)是上層應(yīng)用系統(tǒng)需要適當(dāng)改造。分布式計(jì)算架構(gòu)廣泛應(yīng)用于大數(shù)據(jù)系統(tǒng)。
大數(shù)據(jù)計(jì)算框架從本質(zhì)上來(lái)說(shuō)就是分布式計(jì)算架構(gòu)的拓展。分布式計(jì)算的發(fā)展經(jīng)歷了多種不同技術(shù)路線的演化[3-6]。從20世紀(jì)80年代開始,人們就從操作系統(tǒng)等系統(tǒng)軟件進(jìn)行研究,探索通過(guò)網(wǎng)絡(luò)以分布式替換單機(jī)式操作系統(tǒng),盡管其理論、技術(shù)都已較為成熟,由于技術(shù)條件、市場(chǎng)等原因,沒有被用戶接受。在20世紀(jì)90年代,基于專有多級(jí)網(wǎng)絡(luò)計(jì)算需求,業(yè)界開始研究部署分布計(jì)算環(huán)境(中間件),支持分布式應(yīng)用,產(chǎn)生了一系列事務(wù)處理、遠(yuǎn)程過(guò)程調(diào)用、消息隊(duì)列和面向?qū)ο蟮雀黝愔虚g件,目前仍廣泛應(yīng)用在信息系統(tǒng)中?;谠诨ヂ?lián)網(wǎng)上進(jìn)行大規(guī)模分布式計(jì)算的需求,陸續(xù)出現(xiàn)了Web Services網(wǎng)以及網(wǎng)格計(jì)算等協(xié)同技術(shù),解決了中間件需要專有協(xié)議等缺陷,進(jìn)一步提高了跨維度網(wǎng)絡(luò)資源的共享程度。
為滿足大數(shù)據(jù)處理對(duì)存儲(chǔ)和計(jì)算能力的巨大需求,數(shù)據(jù)中心內(nèi)部運(yùn)用的分布式計(jì)算技術(shù)得到了長(zhǎng)足進(jìn)步。隨著網(wǎng)絡(luò)技術(shù)發(fā)展,局域網(wǎng)主流傳輸速度可以輕松達(dá)到萬(wàn)兆以上,數(shù)據(jù)中心內(nèi)集群節(jié)點(diǎn)間的互聯(lián)速度可與單一節(jié)點(diǎn)內(nèi)部數(shù)據(jù)傳輸速度相媲美。同時(shí)單一節(jié)點(diǎn)的計(jì)算能力也突飛猛進(jìn),通過(guò)由普通PC組成的集群可以提供超大的存儲(chǔ)容量和超強(qiáng)的計(jì)算能力。為了提高可靠性和可用性,通過(guò)分布式存儲(chǔ)為同一數(shù)據(jù)創(chuàng)建若干個(gè)副本,或者通過(guò)算法提供一定冗余數(shù)據(jù)。傳統(tǒng)高性能計(jì)算中的并行調(diào)用接口抽象度不高, 對(duì)開發(fā)人員的技術(shù)能力要求很高,較難推廣。現(xiàn)代大數(shù)據(jù)分布式計(jì)算架構(gòu),通過(guò)高層次抽象,提供類似傳統(tǒng)編程方式的接口,屏蔽并行處理細(xì)節(jié),可以把大規(guī)模的計(jì)算自動(dòng)并發(fā)和分布式執(zhí)行。
Google公司開發(fā)了基于集群的分布式、并行處理整體基礎(chǔ)架構(gòu),該技術(shù)是利用冗余和同步技術(shù)來(lái)處理可能的節(jié)點(diǎn)失效問(wèn)題,包括GFS(分布式文件系統(tǒng))、MapReduce(分布式計(jì)算模式)和BigTable(大規(guī)模分布式數(shù)據(jù)庫(kù))等關(guān)鍵技術(shù)[7]。這為其他的大數(shù)據(jù)架構(gòu)提供了一個(gè)很好的參考思路。
分布式文件系統(tǒng),用于處理大型分布式的大量數(shù)據(jù)訪問(wèn)。運(yùn)行于普通的PC硬件上,必須提供防止單節(jié)點(diǎn)的損壞帶來(lái)數(shù)據(jù)丟失的高冗余性。HDFS是分布式文件系統(tǒng)在開源大數(shù)據(jù)軟件Hadoop中的實(shí)現(xiàn)。MapReduce,通過(guò)并行方式處理大規(guī)模數(shù)據(jù)集的數(shù)據(jù)以提升性能。包括兩項(xiàng)核心操作:映射和歸納) 操作。對(duì)外提供了簡(jiǎn)單的接口服務(wù),其后臺(tái)復(fù)雜的并行處理和流程調(diào)度對(duì)開發(fā)人員是透明的。Hadoop也通過(guò)MapReduce編程模型進(jìn)行計(jì)算資源調(diào)度。BigTable是用于存儲(chǔ)和處理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)的非關(guān)系型數(shù)據(jù)庫(kù),是一系列分布式、多維度排序的映射表。HBase實(shí)現(xiàn)了類似的分布式數(shù)據(jù)庫(kù)。
以某金融監(jiān)管機(jī)構(gòu)為例,通過(guò)金融監(jiān)管大數(shù)據(jù)平臺(tái)建設(shè),有效提升數(shù)據(jù)治理水平。統(tǒng)一匯集政府部門、監(jiān)管及金融機(jī)構(gòu)等多方基礎(chǔ)數(shù)據(jù),多層次、多角度開展數(shù)據(jù)分析與展示,反映全省金融運(yùn)行態(tài)勢(shì),在線分析蘊(yùn)藏的金融風(fēng)險(xiǎn),為業(yè)務(wù)履職和決策提供有力支撐。平臺(tái)基于Elastic MapReduce(EMR)搭建,包括 Hadoop、Spark、Kafka、HBase等核心開源組件,構(gòu)建了統(tǒng)一的大數(shù)據(jù)平臺(tái)和底層應(yīng)用支撐環(huán)境等基礎(chǔ)設(shè)施。建設(shè)覆蓋全省的統(tǒng)一身份認(rèn)證系統(tǒng),為各系統(tǒng)提供單點(diǎn)登錄和統(tǒng)一門戶。打通底層數(shù)據(jù)通路,實(shí)現(xiàn)互聯(lián)互通,通過(guò)大數(shù)據(jù)平臺(tái),為全省系統(tǒng)內(nèi)數(shù)據(jù)的一點(diǎn)匯聚提供統(tǒng)一服務(wù),逐步推動(dòng)改變各個(gè)業(yè)務(wù)“數(shù)據(jù)孤島”的現(xiàn)狀。開發(fā)一批有省域特色的金融監(jiān)管應(yīng)用。如:數(shù)字大屏、駕駛艙、數(shù)據(jù)倉(cāng)等應(yīng)用。
基于大數(shù)據(jù)的金融監(jiān)管平臺(tái)解決方案主要包括如下關(guān)鍵特性:
(1)統(tǒng)一基礎(chǔ)平臺(tái)規(guī)劃,避免多次投入重復(fù)建設(shè)。統(tǒng)一規(guī)劃建設(shè)全省大數(shù)據(jù)應(yīng)用基礎(chǔ)技術(shù)平臺(tái),功能涵蓋數(shù)據(jù)的采集融合、統(tǒng)計(jì)運(yùn)算、建模分析和可視化展示,平臺(tái)可供全省員工開展工作所用。避免各地市/各業(yè)務(wù)條線在項(xiàng)目建設(shè)過(guò)程中對(duì)基礎(chǔ)功能的重復(fù)研究、重復(fù)設(shè)計(jì)、重復(fù)建設(shè)和資金的重復(fù)投入。此外,通過(guò)對(duì)大數(shù)據(jù)基礎(chǔ)技術(shù)平臺(tái)的統(tǒng)一管理運(yùn)維,也能確保平臺(tái)運(yùn)維的專業(yè)化和標(biāo)準(zhǔn)化,避免“各管一片、標(biāo)準(zhǔn)不一”的現(xiàn)象,節(jié)省重復(fù)運(yùn)維成本。
(2)統(tǒng)一數(shù)據(jù)整合治理,規(guī)范采集渠道與流程。對(duì)全省的數(shù)據(jù)資源進(jìn)行統(tǒng)一規(guī)劃治理,制訂形成一套全省統(tǒng)一的數(shù)據(jù)治理標(biāo)準(zhǔn)規(guī)范,并統(tǒng)一管理數(shù)據(jù)采集來(lái)源,規(guī)范數(shù)據(jù)統(tǒng)計(jì)口徑,優(yōu)化數(shù)據(jù)分類分級(jí),制定數(shù)據(jù)資源目錄,形成全省統(tǒng)一管理數(shù)據(jù),各業(yè)務(wù)部門及分支機(jī)構(gòu)統(tǒng)一使用數(shù)據(jù)的良好局面。逐步打破數(shù)據(jù)藩籬,打通數(shù)據(jù)孤島,解決各業(yè)務(wù)條線數(shù)據(jù)互相孤立的問(wèn)題。
(3)統(tǒng)一數(shù)據(jù)質(zhì)量管控,解放人力為履職提質(zhì)增效。建設(shè)基于大數(shù)據(jù)平臺(tái)的統(tǒng)一數(shù)據(jù)采集系統(tǒng),將監(jiān)管所需各外部單位數(shù)據(jù)的采集工作納入平臺(tái)進(jìn)行統(tǒng)一管理。制定數(shù)據(jù)質(zhì)量管理標(biāo)準(zhǔn),將以往各個(gè)業(yè)務(wù)條線日常需要投入大量人力進(jìn)行的數(shù)據(jù)收集、格式訂正、檢查核對(duì)、統(tǒng)計(jì)匯總和問(wèn)題反饋等工作全部納入平臺(tái)自動(dòng)化管理。并為業(yè)務(wù)數(shù)據(jù)管理人員設(shè)計(jì)開發(fā)數(shù)據(jù)監(jiān)控界面,提供“一站式”數(shù)據(jù)質(zhì)量管理服務(wù)。
(4)統(tǒng)一業(yè)務(wù)數(shù)據(jù)倉(cāng)建設(shè),提供“自助式”數(shù)據(jù)服務(wù)。通過(guò)開展全省數(shù)據(jù)治理和統(tǒng)一管理,可整合形成完整的全省經(jīng)濟(jì)金融數(shù)據(jù)倉(cāng),解決以往數(shù)據(jù)分散,整合困難的難題?;谄脚_(tái)中完整的全省經(jīng)濟(jì)、金融大數(shù)據(jù)智庫(kù),配合合理的數(shù)據(jù)權(quán)限管理機(jī)制,全省各業(yè)務(wù)工作人員可便捷的訪問(wèn)和共享所需數(shù)據(jù),可自行開展本業(yè)務(wù)或跨業(yè)務(wù)的自動(dòng)化數(shù)據(jù)分類查詢、統(tǒng)計(jì)分析等應(yīng)用。避免以往不同部門間、同部門不同科室間在共享數(shù)據(jù)時(shí)耗費(fèi)大量的人力溝通成本和整理加工耗時(shí)。
(5)統(tǒng)一應(yīng)用系統(tǒng)部署,滿足業(yè)務(wù)履職所需。圍繞機(jī)構(gòu)的履職目標(biāo),分期分批規(guī)劃開展與央監(jiān)管履職密切相關(guān)的大數(shù)據(jù)業(yè)務(wù)應(yīng)用場(chǎng)景,如:金融統(tǒng)計(jì)類、經(jīng)濟(jì)/產(chǎn)業(yè)分析類、政策評(píng)估類、金融風(fēng)險(xiǎn)防控類、金融監(jiān)管類和金融服務(wù)類等數(shù)據(jù)應(yīng)用場(chǎng)景。其次,規(guī)劃過(guò)程中不僅關(guān)注宏觀和事后的各類金融統(tǒng)計(jì)分析,也加強(qiáng)對(duì)履職相關(guān)的關(guān)鍵業(yè)務(wù)數(shù)據(jù)采集的全量化、明細(xì)化、實(shí)時(shí)化。實(shí)現(xiàn)關(guān)鍵業(yè)務(wù)的非現(xiàn)場(chǎng)監(jiān)管與現(xiàn)場(chǎng)檢查協(xié)同,提升事中甚至事前的監(jiān)測(cè)預(yù)警。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,必然可以通過(guò)數(shù)據(jù)挖掘技術(shù),在低價(jià)值密度的數(shù)據(jù)分布中發(fā)現(xiàn)大數(shù)據(jù)的高價(jià)值。大數(shù)據(jù)在行業(yè)管理、數(shù)據(jù)標(biāo)準(zhǔn)化與決策分析等領(lǐng)域?qū)⒋笥凶鳛?,將極大提升中大型企業(yè)的網(wǎng)絡(luò)信息服務(wù)水平。