樊 冰,張聯(lián)洲,趙志剛,朱效民
(1.山東省水利科學(xué)研究院,250014,濟(jì)南;2.山東省計(jì)算中心(國家超級計(jì)算濟(jì)南中心),250014,濟(jì)南)
基于大數(shù)據(jù)驅(qū)動(dòng)的山東水利信息高效管理系統(tǒng)建設(shè)研究
樊 冰1,張聯(lián)洲1,趙志剛2,朱效民2
(1.山東省水利科學(xué)研究院,250014,濟(jì)南;2.山東省計(jì)算中心(國家超級計(jì)算濟(jì)南中心),250014,濟(jì)南)
開展水利大數(shù)據(jù)分區(qū)管理模型應(yīng)用研究,構(gòu)建水利大數(shù)據(jù)分區(qū)管理模型,開發(fā)水利大數(shù)據(jù)分區(qū)管理系統(tǒng),實(shí)現(xiàn)水利大數(shù)據(jù)的分區(qū)管理與深度挖掘應(yīng)用。在水利大數(shù)據(jù)環(huán)境下,研究了如何將分散在不同系統(tǒng)、不同部門的水利系統(tǒng)數(shù)據(jù)進(jìn)行高效整合,做到數(shù)據(jù)互聯(lián)?;诖髷?shù)據(jù)互聯(lián)及存儲(chǔ)平臺,對如何進(jìn)行全員數(shù)據(jù)統(tǒng)一分析、展示,實(shí)現(xiàn)跨業(yè)務(wù)系統(tǒng)的協(xié)同應(yīng)用,實(shí)現(xiàn)水利信息化集成數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的互通與結(jié)合,進(jìn)行了關(guān)鍵技術(shù)分析。
大數(shù)據(jù);海量存儲(chǔ);數(shù)據(jù)挖掘;智能檢索;山東
近年,隨著大數(shù)據(jù)技術(shù)的興起,海量數(shù)據(jù)的集成與統(tǒng)一管理、存儲(chǔ)、分析成為了可能。利用最新的大數(shù)據(jù)互聯(lián)互通、存儲(chǔ)技術(shù)等,可將分散在不同系統(tǒng)、不同部門的水利系統(tǒng)數(shù)據(jù)進(jìn)行整合,做到數(shù)據(jù)互聯(lián),并基于此數(shù)據(jù)互聯(lián)及存儲(chǔ)平臺,通過針對全員數(shù)據(jù)的統(tǒng)一分析及數(shù)據(jù)挖掘技術(shù),建立面向全員數(shù)據(jù)的GIS展示、分析及可視化平臺,實(shí)現(xiàn)跨業(yè)務(wù)系統(tǒng)的協(xié)同應(yīng)用,實(shí)現(xiàn)水利信息化集成數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的互通與結(jié)合。
山東省信息化工作開展較早,并取得了較大成績,但由于體制機(jī)制等方面的原因,在建設(shè)規(guī)模、應(yīng)用成效等方面與以上海市水務(wù)局等為代表的東部先進(jìn)省份(直轄市)的差距正逐步拉大。山東省水利信息化基礎(chǔ)設(shè)施仍然薄弱,水利信息化在適應(yīng)以水資源可持續(xù)利用支撐經(jīng)濟(jì)社會(huì)可持續(xù)發(fā)展的要求上還存在一定差距,水利信息化工作還面臨著許多困難,突出表現(xiàn)在兩個(gè)方面:
一是建設(shè)標(biāo)準(zhǔn)不規(guī)范。大部分地區(qū)都是根據(jù)各自的工作需要,邊建設(shè)邊實(shí)施,工程建設(shè)隨意性大,難以形成統(tǒng)一、完整的系統(tǒng)。信息采集系統(tǒng)不配套,動(dòng)態(tài)信息采集環(huán)節(jié)薄弱,信息采集在空間、時(shí)間和類型上還有很大差距,特別是信息的數(shù)字化和規(guī)范化程度過低。軟件開發(fā)技術(shù)和標(biāo)準(zhǔn)不統(tǒng)一,系統(tǒng)開發(fā)水平參差不齊,系統(tǒng)兼容性及可擴(kuò)展性差,導(dǎo)致資源整合和數(shù)據(jù)共享困難。
二是基礎(chǔ)數(shù)據(jù)庫的建設(shè)問題。完善的基礎(chǔ)數(shù)據(jù)庫是水利信息化建設(shè)的核心,但目前大部分?jǐn)?shù)據(jù)庫分散建設(shè)在各個(gè)地區(qū)和不同的業(yè)務(wù)部門,數(shù)據(jù)庫建設(shè)過多且分散,已建成的應(yīng)用系統(tǒng)及數(shù)據(jù)庫分別在各自服務(wù)器運(yùn)行,存在用戶身份認(rèn)證不統(tǒng)一、采用的數(shù)據(jù)庫功能不全面等問題,數(shù)據(jù)庫間缺乏信息共享機(jī)制與手段,許多數(shù)據(jù)庫為解決特定的項(xiàng)目或業(yè)務(wù)需求而建,自成體系,規(guī)范性差,存儲(chǔ)數(shù)據(jù)難以同化、難以調(diào)用、難以共享,導(dǎo)致數(shù)據(jù)庫只能在有限范圍、有限時(shí)段內(nèi)被少數(shù)人員熟悉和使用,客觀上形成了信息孤島、數(shù)字鴻溝和資源壁壘,難以實(shí)現(xiàn)數(shù)據(jù)共享與統(tǒng)一管理。
因此,基于現(xiàn)有的水利信息系統(tǒng)進(jìn)行數(shù)據(jù)的互聯(lián)互通建設(shè),形成大數(shù)據(jù)環(huán)境,并對大數(shù)據(jù)進(jìn)行挖掘分析和GIS展示是非常有必要的且是非常迫切的。
一是開展水利大數(shù)據(jù)分區(qū)管理模型應(yīng)用研究,構(gòu)建水利大數(shù)據(jù)分區(qū)管理模型,開發(fā)水利大數(shù)據(jù)分區(qū)管理系統(tǒng),實(shí)現(xiàn)水利大數(shù)據(jù)的分區(qū)管理與深度挖掘應(yīng)用。二是在水利大數(shù)據(jù)環(huán)境下,研究水利大數(shù)據(jù)在線GIS應(yīng)用模式和構(gòu)筑水利信息化“ONLINE GIS”基礎(chǔ)架構(gòu)和應(yīng)用服務(wù)平臺的關(guān)鍵技術(shù),開發(fā)水利大數(shù)據(jù)在線GIS應(yīng)用系統(tǒng),實(shí)現(xiàn)GIS空間數(shù)據(jù)管理、空間數(shù)據(jù)分析和空間數(shù)據(jù)可視化。三是研究大數(shù)據(jù)環(huán)境下水利業(yè)務(wù)信息的一體化智能檢索(垂直檢索)關(guān)鍵技術(shù),建立水利數(shù)據(jù)垂直搜索引擎基礎(chǔ)理論模型,開發(fā)山東省水利數(shù)據(jù)搜索引擎,解決通用搜索引擎查詢結(jié)果相關(guān)度低、返回信息過多、死鏈接較多、信息無序化等問題。四是研究構(gòu)建一體化多維信息感知網(wǎng)基礎(chǔ)架構(gòu)。
水利大數(shù)據(jù)系統(tǒng)將匯集、存儲(chǔ)3類重要數(shù)據(jù):①基礎(chǔ)數(shù)據(jù),包含歷史水文數(shù)據(jù)、地理信息數(shù)據(jù)、工情數(shù)據(jù);②專用數(shù)據(jù),包含社會(huì)經(jīng)濟(jì)信息、旱情(墑情)數(shù)據(jù)、實(shí)時(shí)水雨情數(shù)據(jù)、歷史洪水?dāng)?shù)據(jù)、歷史臺風(fēng)數(shù)據(jù)、超文本數(shù)據(jù)、歷史水量數(shù)據(jù)、圖形、動(dòng)態(tài)影像、水土保持?jǐn)?shù)據(jù)、水資源數(shù)據(jù)、水環(huán)境數(shù)據(jù)、水利規(guī)劃計(jì)劃數(shù)據(jù)、水利經(jīng)濟(jì)數(shù)據(jù)、水利科技數(shù)據(jù)、水利檔案數(shù)據(jù)、行政管理數(shù)據(jù)、水利人事數(shù)據(jù)、水利建設(shè)數(shù)據(jù)、水利黨務(wù)數(shù)據(jù)、水利紀(jì)檢監(jiān)察數(shù)據(jù)、水利財(cái)務(wù)數(shù)據(jù)、農(nóng)村水利管理數(shù)據(jù)、水利政策法規(guī)數(shù)據(jù)、海河局?jǐn)?shù)據(jù)、淮河局?jǐn)?shù)據(jù)、小清河數(shù)據(jù)等;③元數(shù)據(jù)。水利大數(shù)據(jù)系統(tǒng)還將融合各級政府、相關(guān)政府部門、部門內(nèi)部不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。
本次研究內(nèi)容圍繞水利數(shù)據(jù)的匯集和存儲(chǔ)展開,主要實(shí)現(xiàn)方法為多源異構(gòu)水利數(shù)據(jù)的高效整合、海量水利數(shù)據(jù)的高效存儲(chǔ)、海量數(shù)據(jù)的展示與分析挖掘。
1.多源異構(gòu)水利數(shù)據(jù)的高效整合
水利數(shù)據(jù)的來源可分為3類,分別來自淺層互聯(lián)網(wǎng)、深層互聯(lián)網(wǎng)或其他遺留水利業(yè)務(wù)系統(tǒng)以及多種傳感器。數(shù)據(jù)具有明顯的多源異構(gòu)特性,給數(shù)據(jù)采集、整合帶來很大困難。本系統(tǒng)將有針對性地攻克基于網(wǎng)絡(luò)爬蟲的互聯(lián)網(wǎng)信息智能爬取技術(shù)、基于API的遺留系統(tǒng)數(shù)據(jù)整合技術(shù)和傳感數(shù)據(jù)高并發(fā)采集技術(shù)等3類數(shù)據(jù)采集技術(shù),實(shí)現(xiàn)多源異構(gòu)水利數(shù)據(jù)的高效整合。
2.海量水利數(shù)據(jù)的高效存儲(chǔ)
水利數(shù)據(jù)類型多樣,而當(dāng)前大數(shù)據(jù)存儲(chǔ)與處理技術(shù)沒有 “包治百病”的方案,需要根據(jù)數(shù)據(jù)類型和訪問模式選擇合適的存儲(chǔ)技術(shù),如分布式文件系統(tǒng)適合存儲(chǔ)海量大文件(如大圖像或流媒體),對象存儲(chǔ)適合存儲(chǔ)海量小文件(如文檔、小圖片),分布式列數(shù)據(jù)庫適合存儲(chǔ)海量弱關(guān)系半結(jié)構(gòu)化數(shù)據(jù)(如簡單物聯(lián)數(shù)據(jù)、日志),關(guān)系庫集群則適合存儲(chǔ)強(qiáng)關(guān)系結(jié)構(gòu)化數(shù)據(jù)。為綜合發(fā)揮不同大數(shù)據(jù)技術(shù)的優(yōu)勢,本系統(tǒng)將研發(fā)融合存儲(chǔ)控制器,根據(jù)數(shù)據(jù)類型調(diào)用相應(yīng)存儲(chǔ)系統(tǒng),實(shí)現(xiàn)海量水利數(shù)據(jù)的高效存儲(chǔ)。
3.基于水利大數(shù)據(jù)統(tǒng)一平臺的數(shù)據(jù)展示及分析挖掘
水利大數(shù)據(jù)平臺系統(tǒng)整合了若干水利信息系統(tǒng)的數(shù)據(jù),這些行業(yè)信息包含大量的半結(jié)構(gòu)化、非結(jié)構(gòu)化信息數(shù)據(jù),信息數(shù)據(jù)的組成結(jié)構(gòu)、類型格式、存在形態(tài)等都愈加復(fù)雜。如何對這些大數(shù)據(jù)處理和挖掘分析是重要的研究內(nèi)容。主要包括:海量數(shù)據(jù)的查詢和搜索、大數(shù)據(jù)統(tǒng)計(jì)分析、大數(shù)據(jù)挖掘。
1.多源異構(gòu)水利數(shù)據(jù)的高效整合
(1)基于網(wǎng)絡(luò)爬蟲的互聯(lián)網(wǎng)信息智能爬取技術(shù)
網(wǎng)絡(luò)爬蟲是一種按照一定規(guī)則,自動(dòng)抓取網(wǎng)絡(luò)信息的程序或者腳本,該技術(shù)可自動(dòng)采集淺層互聯(lián)網(wǎng)數(shù)據(jù)。本系統(tǒng)重點(diǎn)從抓取范圍和速度兩方面來完善互聯(lián)網(wǎng)信息智能爬取技術(shù)。
全面抓?。弘S著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)頁實(shí)現(xiàn)形式多種多樣,不同的開發(fā)技術(shù)應(yīng)用于網(wǎng)頁研發(fā)中,給網(wǎng)頁抓取帶來了困難。為實(shí)現(xiàn)網(wǎng)頁信息的全面抓取,本系統(tǒng)對異構(gòu)網(wǎng)頁抓取技術(shù)進(jìn)行研究,可實(shí)現(xiàn)網(wǎng)頁信息的全面抓取。
快速抓?。夯ヂ?lián)網(wǎng)的業(yè)務(wù)相關(guān)網(wǎng)站數(shù)量非常龐大,單點(diǎn)抓取技術(shù)效率低,無法滿足大規(guī)模網(wǎng)頁數(shù)據(jù)的快速抓取需要。本系統(tǒng)采用MapReduce編程模型,可進(jìn)行分布式計(jì)算并行抓取,從而實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的快速抓取。
建立索引:把抓來的信息建立類似書目的數(shù)據(jù)文件,便于實(shí)現(xiàn)高速檢索。索引系統(tǒng)涉及的關(guān)鍵技術(shù)點(diǎn)有分詞技術(shù)、預(yù)評分和后評分、增量索引與全索引、排序技術(shù)、熱點(diǎn)詞高速緩存、標(biāo)準(zhǔn)檢索語句解析等。
(2)基于 API(應(yīng)用程序編程接口)的遺留系統(tǒng)數(shù)據(jù)整合技術(shù)
遺留系統(tǒng)數(shù)據(jù)是指各水利部門歷年建設(shè)的各類信息采集存儲(chǔ)系統(tǒng),由于開發(fā)公司不同,系統(tǒng)又多無原代碼,如進(jìn)行重新編譯改造難度很大,再加上深層互聯(lián)網(wǎng)及遺留系統(tǒng)數(shù)據(jù)受制于技術(shù)、接口及實(shí)施效率,整合難度很大。
本系統(tǒng)采用深層互聯(lián)網(wǎng)及遺留系統(tǒng)數(shù)據(jù)訪問API的自動(dòng)生成技術(shù),進(jìn)而通過API整合遺留系統(tǒng)數(shù)據(jù)?;谲浖w系結(jié)構(gòu)重建技術(shù),通過對系統(tǒng)界面和數(shù)據(jù)流的學(xué)習(xí),將系統(tǒng)復(fù)雜的數(shù)據(jù)請求及展示轉(zhuǎn)化為開放、簡潔的API數(shù)據(jù)服務(wù),不受限于源系統(tǒng)的開發(fā)語言、存在形態(tài),對各種形態(tài)的系統(tǒng)均能生成數(shù)據(jù)服務(wù),提供開放、不受限的數(shù)據(jù)服務(wù)。該技術(shù)顛覆傳統(tǒng)數(shù)據(jù)整合方式,非侵入式地獲取異構(gòu)業(yè)務(wù)系統(tǒng)數(shù)據(jù)并提供API數(shù)據(jù)服務(wù),無需對遺留系統(tǒng)的代碼、數(shù)據(jù)、文檔做全面分析,只要有人機(jī)界面即可完成,可顯著降低整合難度,提高整合效率,可用于數(shù)據(jù)集成、數(shù)據(jù)交易、移動(dòng)開發(fā)、大數(shù)據(jù)處理、數(shù)據(jù)集成與業(yè)務(wù)流轉(zhuǎn)、商業(yè)智能與分析等方面。
(3)傳感數(shù)據(jù)高并發(fā)采集技術(shù)
當(dāng)前很多物聯(lián)網(wǎng)應(yīng)用都有性能瓶頸,即僅能適應(yīng)傳感器點(diǎn)數(shù)比較少的場景,傳感器點(diǎn)數(shù)過萬后就難以勝任,性能瓶頸嚴(yán)重制約著傳統(tǒng)物聯(lián)網(wǎng)在更大范圍的推廣應(yīng)用。性能瓶頸的根源在于后臺采集服務(wù)器的設(shè)計(jì)缺陷。
本系統(tǒng)將從兩個(gè)方面進(jìn)行攻關(guān),一是綜合采用epoll模型、線程池、數(shù)據(jù)庫連接池技術(shù),實(shí)現(xiàn)單臺采集服務(wù)器可支撐過萬并發(fā);二是實(shí)驗(yàn)采集服務(wù)器集群技術(shù),當(dāng)并發(fā)壓力超過單臺服務(wù)器負(fù)載時(shí),通過橫向擴(kuò)展(增加服務(wù)器)來分擔(dān)壓力。
2.海量水利數(shù)據(jù)的高效存儲(chǔ)
本系統(tǒng)將研發(fā)融合存儲(chǔ)技術(shù):對于非結(jié)構(gòu)化數(shù)據(jù),采用HDFS(分布式文件系統(tǒng))存儲(chǔ)大文件(如大圖像或流媒體),采用Swift存儲(chǔ)海量小文件(如文檔、小圖片),采用HBase存儲(chǔ)海量半結(jié)構(gòu)化數(shù)據(jù) (如簡單物聯(lián)數(shù)據(jù)、日志),采用MyCAT+MySQL關(guān)系庫集群存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);然后通過融合存儲(chǔ)控制器,根據(jù)數(shù)據(jù)類型,調(diào)用相應(yīng)存儲(chǔ)系統(tǒng)(如圖1所示),充分發(fā)揮不同存儲(chǔ)技術(shù)的優(yōu)勢。
(1)結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)
結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)比較成熟,通常采用分布式關(guān)系型數(shù)據(jù)庫集群,集群有多種,如負(fù)載均衡集群、故障轉(zhuǎn)移集群、主從集群、多活集群等,借助分布式關(guān)系數(shù)據(jù)庫集群,可以滿足海量數(shù)據(jù)存儲(chǔ)與處理需求,并可以獲得更高的吞吐量、更好的資源利用率和更低的響應(yīng)時(shí)間。
(2)半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)
半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)采用列存儲(chǔ)數(shù)據(jù)庫方案HBase。HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,列存儲(chǔ)數(shù)據(jù)庫將數(shù)據(jù)以鍵和列的形式存儲(chǔ)于表中,并且在表中將鍵以字典的順序排列。表在行的方向上分割為多個(gè)域,域是按大小分割的,每個(gè)表開始只有一個(gè)域,隨著數(shù)據(jù)增多,域不斷增大,當(dāng)增大到一個(gè)閥值的時(shí)候,域就會(huì)等分為兩個(gè)新的域,之后會(huì)有越來越多的域。域是分布式存儲(chǔ)和負(fù)載均衡的最小單元,不同域分布到不同域服務(wù)器上。列存儲(chǔ)數(shù)據(jù)庫適合存儲(chǔ)數(shù)據(jù)量大,與普通純文本數(shù)據(jù)相比具有一定的結(jié)構(gòu)性,但是結(jié)構(gòu)變化大,難以建立嚴(yán)格的理論模型的半結(jié)構(gòu)化數(shù)據(jù)。而且分布式列存儲(chǔ)數(shù)據(jù)庫還可以提供非常好的擴(kuò)展性和可靠性。
(3)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)
非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)可分為對象存儲(chǔ)系統(tǒng) Swift和分布式文件系統(tǒng)HDFS。對象存儲(chǔ)系統(tǒng)將數(shù)據(jù)通路(數(shù)據(jù)讀或?qū)懀┖涂刂仆罚ㄔ獢?shù)據(jù))分離,并且基于對象存儲(chǔ)設(shè)備(OSD)構(gòu)建存儲(chǔ)系統(tǒng),每個(gè)對象存儲(chǔ)設(shè)備具有一定的智能,能夠自動(dòng)管理其上的數(shù)據(jù)分布。對象存儲(chǔ)系統(tǒng)主要有3個(gè)組成部分:代理服務(wù)器、存儲(chǔ)服務(wù)器和一致性服務(wù)器。認(rèn)證服務(wù)通過認(rèn)證節(jié)點(diǎn)完成。代理服務(wù)器是提供API的服務(wù)器進(jìn)程,負(fù)責(zé)組件間的相互通信,對于每個(gè)客戶端的請求及查詢賬號、容器或?qū)ο蟮奈恢眠M(jìn)行相應(yīng)地轉(zhuǎn)發(fā)。存儲(chǔ)服務(wù)器提供了磁盤設(shè)備上的存儲(chǔ)服務(wù)。一致性服務(wù)器用于查找并解決由數(shù)據(jù)損壞和硬件故障引起的錯(cuò)誤。
分布式文件系統(tǒng)HDFS是通過高效的分布式算法,將數(shù)據(jù)的存儲(chǔ)及訪問分布在大量服務(wù)器之中,在可靠的多備份存儲(chǔ)的同時(shí)還能將訪問分布在集群中的各個(gè)服務(wù)器之上。對于較大的文件,HDFS將文件的不同部分存放于不同服務(wù)器之上,在訪問大型文件時(shí),系統(tǒng)可以從服務(wù)器陣列中的多個(gè)服務(wù)器并行讀入,增加了大文件讀入的訪問帶寬。該系統(tǒng)對存儲(chǔ)和讀取大文件有獨(dú)特優(yōu)勢,且適合一次寫入、多次讀取。
圖1 數(shù)據(jù)融合存儲(chǔ)技術(shù)
(4)數(shù)據(jù)緩存
為提升平臺的性能、可用性和穩(wěn)定性,可采用數(shù)據(jù)緩存系統(tǒng)。數(shù)據(jù)緩存系統(tǒng)主要包含文件緩存模塊、延遲寫入模塊和數(shù)據(jù)庫緩存模塊等。文件緩存模塊和數(shù)據(jù)庫緩存模塊可以對用戶最新讀取或頻繁讀取的數(shù)據(jù)進(jìn)行緩存,當(dāng)用戶下次讀取相同數(shù)據(jù)時(shí)可以直接從緩存中獲得而無須再次訪問文件存儲(chǔ)系統(tǒng),從而大幅度減少數(shù)據(jù)讀取時(shí)間,提升系統(tǒng)性能和用戶體驗(yàn)。延遲寫入模塊則是暫時(shí)緩存用戶存儲(chǔ)的數(shù)據(jù)在緩存區(qū),當(dāng)緩存的數(shù)據(jù)達(dá)到一定規(guī)模后再統(tǒng)一存儲(chǔ),這樣可以減少對磁盤的頻繁寫入,而且可以提高磁盤的使用率。數(shù)據(jù)被緩存后即告知用戶寫入完成,因?yàn)閷?shù)據(jù)寫入緩存的速度比寫入磁盤的數(shù)度快很多,所以延遲寫入可以大幅度降低數(shù)據(jù)的寫入時(shí)間,提高系統(tǒng)性能。
3.水利大數(shù)據(jù)展示及分析挖掘
(1)大數(shù)據(jù)查詢與檢索
在海量行業(yè)系統(tǒng)中快速、準(zhǔn)確查找用戶所關(guān)心的數(shù)據(jù)是數(shù)據(jù)平臺的重要功能,特別是針對非結(jié)構(gòu)化數(shù)據(jù)的查詢和檢索,這也是跨媒體領(lǐng)域研究的重點(diǎn)。擬通過對異構(gòu)數(shù)據(jù)統(tǒng)一表示、索引方法的研究,實(shí)現(xiàn)跨媒體數(shù)據(jù)的快速查詢和搜索。
(2)大數(shù)據(jù)統(tǒng)計(jì)分析
大數(shù)據(jù)的統(tǒng)計(jì)分析是部門做總結(jié)、匯報(bào)和決策的基礎(chǔ),統(tǒng)計(jì)分析對于政務(wù)部門非常重要,一是要得到統(tǒng)計(jì)分析的結(jié)果,二是要實(shí)現(xiàn)分析結(jié)果的可視化。部門對統(tǒng)計(jì)報(bào)表、視化效果的需求迫切,眾多部門的個(gè)性化需求多。擬結(jié)合部門業(yè)務(wù)需求,開源BI系統(tǒng),研發(fā)高效的大數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)。
(3)大數(shù)據(jù)挖掘
大數(shù)據(jù)挖掘是行業(yè)大數(shù)據(jù)分析平臺的核心內(nèi)容,針對不同部門的需求進(jìn)行業(yè)務(wù)建模,對應(yīng)到相應(yīng)的數(shù)據(jù)挖掘模型,通過對大數(shù)據(jù)挖掘模型和算法的研究,實(shí)現(xiàn)針對結(jié)構(gòu)化數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)的分布式數(shù)據(jù)挖掘,為各部門提供快速、高效挖掘分析服務(wù),為決策提供更新全面可靠的依據(jù)。本系統(tǒng)通過MapReduce的大數(shù)據(jù)挖掘算法、半監(jiān)督學(xué)習(xí)方法、信息瓶頸理論聚類、基于互信息特征提取等方法,解決了大規(guī)模半監(jiān)督學(xué)習(xí)的難題。對于圖像、語音等檢測和識別問題,本系統(tǒng)通過對MapReduce深度神經(jīng)網(wǎng)絡(luò)進(jìn)行研究,制定了高效的并行深度學(xué)習(xí)方法,解決了行業(yè)大數(shù)據(jù)中遇到的大規(guī)模圖像、語音、文本識別與分類問題。
[1]程學(xué)旗,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014(9).
[2]劉明亮,等.數(shù)據(jù)挖掘技術(shù)標(biāo)準(zhǔn)綜述[J].計(jì)算機(jī)科學(xué),2008(6).
責(zé)任編輯 安天杭
Studies on construction of highly-efficient water information management system based on big data drive
Fan Bing,Zhang Lianzhou,Zhao Zhigang,Zhu Xiaomin
Establishment of a management model with big data sub-system based on research and studies is vitalforrealization ofdivided managementand furtherapplication ofwaterinformation.The study has concentrated on how to realize information integration ofscattered data in differentsystemsand varied departments,within the environment of big data,so as to get interconnected data.Key technologies for overall analysis and demonstration of all data are evaluated,in order to apply business system in a coordinated way and achieve interconnection and combination between integrated water information and Internet data.
big data;mass memory;data mining;intelligent retrieval;Shandong
TP393+TV
:B
:1000-1123(2017)10-0055-04
2017-02-15
樊冰,工程師,研究方向?yàn)樗畔⒒?/p>