張 巖,胡林生
(西安歐亞學院,西安 710065)
隨著時代和科技的發(fā)展,信息量劇增,大數(shù)據(jù)一詞也越來越火熱,TB 級數(shù)據(jù)已經很常見,PB、EB 級的數(shù)據(jù)也會成為趨勢。在數(shù)據(jù)科學研究發(fā)展的歷程中,大型的企業(yè)都有自己的數(shù)據(jù)管理部門、數(shù)據(jù)管理途徑和方法。而一些中小型企業(yè),尤其是中小型金融科技企業(yè),其發(fā)展戰(zhàn)略側重于業(yè)務的快速發(fā)展,在企業(yè)運營過程中,忽略了數(shù)據(jù)的維護和管理。
企業(yè)在運營中產生的數(shù)據(jù)既有結構化的數(shù)據(jù),例如企業(yè)員工相關信息、企業(yè)打卡記錄、企業(yè)訂單、企業(yè)倉庫管理、客戶記錄信息、客戶信用評價信息等,也有非結構化的數(shù)據(jù),包括企業(yè)運營日志、文檔、照片、音頻、視頻等。而且這些數(shù)據(jù)每天都在隨著業(yè)務的開展而增加和更新,數(shù)據(jù)量巨大,很多中小型金融科技企業(yè)并沒有對數(shù)據(jù)進行規(guī)范化的管理。這些數(shù)據(jù)背后都隱藏著巨大的價值,企業(yè)需要建立一個規(guī)范化的數(shù)據(jù)管理平臺,既能存儲數(shù)據(jù),也能加強數(shù)據(jù)的規(guī)范化管理,提高數(shù)據(jù)的安全性。
隨著大數(shù)據(jù)時代的到來,信息量日益增加,金融科技企業(yè)必將產生大數(shù)據(jù)的存儲和分析需求。傳統(tǒng)的關系型數(shù)據(jù)庫僅支持結構化數(shù)據(jù),可以滿足日常企業(yè)運維;但對于海量的數(shù)據(jù),再加上許多非結構化的數(shù)據(jù),傳統(tǒng)的關系型數(shù)據(jù)庫已經不能滿足存儲需求。數(shù)據(jù)的安全性也非常重要,如果數(shù)據(jù)僅存在于某個數(shù)據(jù)庫或者某臺機器,安全性達不到要求,那么數(shù)據(jù)的共享程度也不高。為解決這些問題,可以通過在多臺大容量Linux服務器上部署Hadoop 大數(shù)據(jù)平臺,搭建HDFS(Hadoop Distributed File System,Hadoop 分布式文件系統(tǒng))分布式集群環(huán)境,對數(shù)據(jù)文件進行分布式處理,能提高數(shù)據(jù)的存儲效率、安全性、可靠性。在Hadoop 大數(shù)據(jù)平臺上,構建Hive 數(shù)據(jù)倉庫,在Hive 數(shù)據(jù)倉庫中對海量結構化數(shù)據(jù)進行分析,能滿足大數(shù)據(jù)分析的需求。
Hadoop 分布式文件系統(tǒng)是可以運行在N 臺通用(廉價)機上的分布式文件系統(tǒng)。HDFS 分布式集群環(huán)境就是將分布式文件系統(tǒng)部署在成百上千臺服務器組成的集群上,同一個企業(yè)不同地區(qū)服務器協(xié)同工作,能夠完成企業(yè)日常數(shù)據(jù)的運維工作。
HDFS 分布式文件系統(tǒng)有如下優(yōu)勢。①支持超大文件的存儲,可以存放超大數(shù)據(jù)集,例如TB 級、PB 級數(shù)據(jù)的存儲。②快速高容錯性,HDFS 分布式文件系統(tǒng)部署在N 臺服務器,每臺服務器都有數(shù)據(jù)塊。集群環(huán)境中,硬件故障會導致個別服務器故障,HDFS 分布式文件系統(tǒng)可以進行錯誤檢測,快速并自動恢復數(shù)據(jù)。③流式數(shù)據(jù)訪問,HDFS 分布式集群環(huán)境,通常數(shù)據(jù)處理規(guī)模比較大,應用程序通常以流的形式訪問數(shù)據(jù)集,而不是用戶交互式處理。顧名思義,流式數(shù)據(jù)就是數(shù)據(jù)流源源不斷像水流一樣從各個地方匯聚而來。為了保證高吞吐量的數(shù)據(jù)訪問,HDFS 流式讀取數(shù)據(jù)的方式,更適合數(shù)據(jù)的批處理。④高吞吐量,HDFS 提供對數(shù)據(jù)的高吞吐量訪問,適用于具有海量數(shù)據(jù)集的應用程序。HDFS 的設計是為了存儲大文件,它更注重數(shù)據(jù)訪問的吞吐量。HDFS 采用的是“一次性寫,多次讀”這種簡單的數(shù)據(jù)一致性模型,有利于提高數(shù)據(jù)訪問吞吐量。
①高性能,克服單一服務器存儲數(shù)據(jù)的困難,例如,某金融科技公司將普通數(shù)據(jù)服務器更換為2U 四節(jié)點分布式集群存儲方式,可以提高數(shù)據(jù)存儲容量和性能。②節(jié)省空間,部署機架式CPU 集群服務器,可以降低機房空間成本,存儲數(shù)據(jù)也不需要單獨放入每臺機器;節(jié)省的空間可以更多用于金融業(yè)務和設計演示場地。③省電優(yōu)勢,刀片設備耗電量比傳統(tǒng)模式下,大大降低設備功耗,后期服務器運維的成本也會有所降低。④可擴展性,分布式文件系統(tǒng)是一個高度可用的橫向擴展型系統(tǒng),當隨著業(yè)務量的增加,數(shù)據(jù)量越來越多,可以自行增加節(jié)點進行管理。⑤易于管理,多臺CPU 服務器同時工作,通過CDH 管理界面進行統(tǒng)一部署、管理和維護,更加方便快捷,軟件統(tǒng)一維護和升級,不會導致數(shù)據(jù)存儲丟失。
隨著互聯(lián)網(wǎng)金融、大數(shù)據(jù)的迅速發(fā)展,金融行業(yè)的競爭也非常激烈,為提高企業(yè)辦事效率,增強風險預測能力,越來越多的金融公司希望能夠降低攬客成本和客戶服務成本。此時,金融科技就發(fā)揮了重要的作用。
為此,中小型金融科技企業(yè)都在努力實施金融科技項目,例如:為提高柜臺工作效率,降低各個營業(yè)網(wǎng)點業(yè)務開通成本,可以通過智能化信息柜臺辦理相關業(yè)務,也可以通過掃描二維碼辦理相關業(yè)務;通過手機客戶端進行快速理賠,可以提升用戶理賠效率,節(jié)省時間和人力成本;通過智能化信貸平臺,對用戶特征進行分析,構建模型,提升風險評估效率,降低人力投入成本。
在銀行、保險行業(yè)工作流程中,存款項目、信貸申請、放貸項目、保險和理賠等業(yè)務除了在數(shù)據(jù)庫中記錄每天的數(shù)據(jù)交易信息,還會產生大量的非結構化數(shù)據(jù),例如,辦理相關業(yè)務的各自照片和文檔記錄,很明顯會產生海量的圖片、文檔、音頻和視頻等非結構化數(shù)據(jù),這些數(shù)據(jù)會隨著時間變化,其文件個數(shù)都會爆發(fā)性增長,對傳統(tǒng)的存儲系統(tǒng)架構帶來新的挑戰(zhàn)。為解決這些數(shù)據(jù)可能存在的問題,需要構建大數(shù)據(jù)平臺對數(shù)據(jù)進行存儲,并能方便快捷的完成數(shù)據(jù)查詢和調取。
Hadoop 生態(tài)系統(tǒng)架構(如圖1)有三大核心組件:HDFS、MapReduce 和Yarn,分別發(fā)揮著各自的功能和作用。其中,HDFS 是分布式文件系統(tǒng),主要將文件分布式存儲在多臺服務器上;MapReduce 是并行計算編程框架,其作用主要是在多臺服務器上實現(xiàn)并行運算;Yarn 是分布式資源調度平臺,主要是幫助用戶調度大量的MapReduce 程序,并能夠合理地分配分布式運算資源。在Hadoop 生態(tài)系統(tǒng)架構中,HDFS 是Hadoop生態(tài)系統(tǒng)的分布式文件系統(tǒng),主要負責數(shù)據(jù)的切片與分布式存儲。HDFS 可以提供高吞吐率的數(shù)據(jù)訪問服務,在超大數(shù)據(jù)集上的應用最為廣泛。
圖1 Hadoop 生態(tài)系統(tǒng)架構圖
HDFS 采用典型的Master/Slave 主從架構。一個HDFS 集群由一個NameNode 和多個DataNode 組成。其中,NameNode是中心服務器,稱為名稱節(jié)點或主節(jié)點,主要負責管理文件塊的記錄和客戶端的訪問。DataNode 一般是一個節(jié)點一個,稱為數(shù)據(jù)節(jié)點或從節(jié)點,主要負責數(shù)據(jù)塊的創(chuàng)建、復制和存儲。
HDFS 分布式文件系統(tǒng)工作流程:
①當用戶通過客戶端把一個文件存入HDFS 分布式文件系統(tǒng),HDFS 會對這個文件進行切塊,切塊后的每個文件都有標識,然后分散存儲在負責DataNode 節(jié)點的N 臺Linux 服務器中;②一旦某個文件被切塊存儲,那么,HDFS 中的NameNode 會記錄用戶每一個文件的切塊信息,并且會記錄每個切塊的存儲路徑;③為確保數(shù)據(jù)的安全性,HDFS 會把每一個文件塊在集群環(huán)境中存放多個副本,具體的切塊行為,用戶可以指定,分布式文件系統(tǒng)默認每個切塊存在3 個副本。
綜上所述,一個HDFS 分布式文件系統(tǒng),就是由一臺運行了NameNode 的服務器,和N 臺運行了DataNode 的服務器組成。Hadoop 集群環(huán)境是典型的Master/Slave 結構,其中名字節(jié)點NameNode 屬于Master,DataNode 屬于Slave。
圖2 HDFS 存儲機制原理圖
HDFS 以獨特的存儲機制,創(chuàng)建了閑置硬件資源共享的經濟模式。HDFS 分布式文件系統(tǒng)將大大節(jié)省中小型金融科技企業(yè)在閑置硬件資源的消耗,可以為企業(yè)提供大數(shù)據(jù)分布式存儲平臺;HDFS 將開啟企業(yè)信息數(shù)字化的時代,為中小型科技企業(yè)提供了一個共享數(shù)據(jù)平臺,中小型金融科技企業(yè)HDFS 用戶可以實現(xiàn)對企業(yè)對全部數(shù)據(jù)的收集匯總、數(shù)據(jù)分析以及數(shù)據(jù)安全存儲。
中小型金融科技企業(yè)搭建Hadoop 大數(shù)據(jù)平臺,為企業(yè)提供了可靠的大數(shù)據(jù)存儲和分析平臺。Hadoop 大數(shù)據(jù)平臺對結構化和復雜大數(shù)據(jù)進行快速、可靠分析,從而為企業(yè)做出科學合理的決策,促進收入增長,改善服務,降低成本提供很好的技術支撐。分布式大數(shù)據(jù)平臺促進了中小型金融科技企業(yè)發(fā)展模式創(chuàng)新,推動了數(shù)據(jù)產業(yè)轉型升級,發(fā)揮了數(shù)據(jù)的重要價值,具備應對新時代下海量客戶、海量業(yè)務統(tǒng)計大數(shù)據(jù)的能力。新時代互聯(lián)網(wǎng)場景下,Hadoop 大數(shù)據(jù)平臺為金融科技企業(yè)發(fā)展提供了扎實的技術保障,金融信息化的運轉將更加高效便捷,推動金融科技企業(yè)良好發(fā)展。