江子皓 王慧亮 吳澤寧 胡潤停
摘要:隨著大數(shù)據(jù)技術的發(fā)展,基于大數(shù)據(jù)技術開展城市暴雨洪澇研究成為熱點。根據(jù)城市防洪工作中對暴雨洪澇相關數(shù)據(jù)的業(yè)務需求,在對多源異構數(shù)據(jù)分析的基礎上,設定洪水敏感性因素分析主題,構建相應的多維數(shù)據(jù)組織模式,建立城市暴雨洪澇數(shù)據(jù)倉庫,有效地對城市暴雨洪澇多源異構數(shù)據(jù)進行儲存、管理與組織?;诤樗舾行砸蛩胤治鲋黝}數(shù)據(jù)倉庫,利用關聯(lián)規(guī)則分析進行數(shù)據(jù)挖掘,識別不同敏感性因素與洪水度量之間的關聯(lián)規(guī)則,歸納出敏感性因素與洪水過程之間的關系,結果表明:將城市暴雨洪澇數(shù)據(jù)集成到數(shù)據(jù)倉庫中并進行相關的數(shù)據(jù)挖掘操作,可以為防洪決策提供新的可行途徑。
關鍵詞:城市暴雨洪澇;數(shù)據(jù)倉庫;關聯(lián)規(guī)則;數(shù)據(jù)挖掘
中圖分類號:TP392
文獻標志碼:A
doi:10. 3969/j .issn.1000- 1379.2019. 04.007
1 前言
隨著水利信息化建設的不斷完善,以及遙感、GIS、物聯(lián)網等現(xiàn)代信息技術的發(fā)展和應用,城市防洪減災相關數(shù)據(jù)快速增長[1],具有數(shù)據(jù)量大、數(shù)據(jù)結構復雜、數(shù)據(jù)來源多樣、數(shù)據(jù)價值密度低等典型的大數(shù)據(jù)特征,如何構建針對城市洪澇的數(shù)據(jù)倉庫并對數(shù)據(jù)加以有效利用,成為城市水文學研究的難點[2]。數(shù)據(jù)倉庫可以有效集成多源異構數(shù)據(jù),用于支持管理決策過程[3],同時用戶可以在數(shù)據(jù)倉庫基礎上進行聚類、關聯(lián)等決策分析,通過數(shù)據(jù)挖掘得到數(shù)據(jù)背后隱藏的信息。
目前國內外防洪領域數(shù)據(jù)倉庫技術已有一些應用研究成果,H_ Mcgrath等[4]建立一個數(shù)據(jù)倉庫來存儲相關洪水預報數(shù)據(jù),應對加拿大新不倫瑞克省城市洪水風險管理的需要,介紹了如何定位和搜集城市防洪數(shù)據(jù)倉庫所需數(shù)據(jù)集,并提出了該數(shù)據(jù)倉庫未來可以有哪些應用方向,包括利用聯(lián)機分析處理( OLAP)和數(shù)據(jù)挖掘工具進行防洪決策支持以及實現(xiàn)城市防洪數(shù)據(jù)在線可視化等:Z.Pan-Pan等[5]利用OWB工具建立防洪數(shù)據(jù)倉庫與分布式數(shù)據(jù)源之間的數(shù)據(jù)語法系統(tǒng),根據(jù)系統(tǒng)環(huán)境差異和數(shù)據(jù)復雜性等對原始數(shù)據(jù)進行篩選,最終實現(xiàn)了防洪信息的實時性;張蓉[6]利用數(shù)據(jù)倉庫技術集成了大連市各水庫防洪數(shù)據(jù),保證了這些防洪數(shù)據(jù)能夠實時共享,并利用聯(lián)機分析處理( OLAP)從不同角度對防洪數(shù)據(jù)進行分析,達到了對數(shù)據(jù)充分利用的目的:丁斌等[7]利用數(shù)據(jù)倉庫技術建立黃河防洪調度綜合決策會商支持系統(tǒng),采用科學的數(shù)據(jù)組織方法將不同數(shù)據(jù)源進行集成并直觀地提供給防洪決策者,目前已廣泛應用在防洪、防凌、調水調沙和水資源調度等工作中:梁國華等[8]進行了應用于洪澇災害預防的數(shù)據(jù)倉庫研究,認為目前數(shù)據(jù)倉庫技術的研究與開發(fā)尚在起步階段,難以滿足決策支持系統(tǒng)或某些特殊領域要求??傮w來說,目前國內外數(shù)據(jù)倉庫技術在防洪領域中應用研究較少,且這些研究大多著重數(shù)據(jù)倉庫結構體系及建模方法研究,很少進行相關實例應用研究。本文結合鄭州市洪澇基礎數(shù)據(jù),嘗試將城市暴雨洪澇數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術相結合,挖掘分析不同敏感性因素與暴雨洪澇之間的內在聯(lián)系,為防洪決策提供支持。
2 基于洪水敏感性分析主題的城市暴雨洪澇數(shù)據(jù)倉庫構建
2.1數(shù)據(jù)倉庫規(guī)劃與需求分析
建立數(shù)據(jù)倉庫一般以一個主題或若干個主題來完成[9].所包含的數(shù)據(jù)是根據(jù)不同的需求場景進行綜合的,也就是不同的主題。主題是在較高層次上將信息系統(tǒng)中的數(shù)據(jù)進行綜合、歸類和分析利用的一個抽象概念,在邏輯上主題可以表達為某一宏觀分析領域所涉及的分析對象[10]。由于城市暴雨洪澇涉及面過廣,因此在建立數(shù)據(jù)倉庫的時候應設定相應的主題來應對不同的城市防洪決策需求。本文設定的主題為洪水敏感性因素分析,結合水文、地質、氣象、社會經濟等數(shù)據(jù)資料,根據(jù)洪水災害發(fā)生與否或災害程度根據(jù)找出不同敏感性因素與洪水之間的聯(lián)系。
洪水敏感性因素分析數(shù)據(jù)倉庫是在多個數(shù)據(jù)源基礎上建立起來的信息集成平臺[11],在對不同數(shù)據(jù)源進行分析之后,將多源異構數(shù)據(jù)通過ETL(抽取、轉換、加載)工具轉換成統(tǒng)一的格式,并輸人數(shù)據(jù)倉庫中,然后通過OLAP(聯(lián)機分析處理)或數(shù)據(jù)挖掘技術對數(shù)據(jù)進行分析,找到開發(fā)者想要的數(shù)據(jù)之間的聯(lián)系,即能夠為防洪決策提供支持的知識。圖1為洪水敏感性因素分析數(shù)據(jù)倉庫系統(tǒng)體系結構。
(1)數(shù)據(jù)源:洪水敏感性因素分析數(shù)據(jù)倉庫包括各個可能對城市洪水過程造成影響的數(shù)據(jù),涵蓋承災體、致災因子、孕災環(huán)境和災害本體,一般來自于多個數(shù)據(jù)源,包括已建成的暴雨洪澇數(shù)據(jù)庫、地理信息數(shù)據(jù)庫等業(yè)務數(shù)據(jù)庫,統(tǒng)計的歷史場次洪水降雨量、積水水位、流量等觀測數(shù)據(jù),還有各類防洪規(guī)劃、行政區(qū)劃、流域水系等外部數(shù)據(jù)。
(2)數(shù)據(jù)轉化:在了解所需數(shù)據(jù)類型、范圍、位置的基礎上,通過ETL工具將不同數(shù)據(jù)源中分散或標準不統(tǒng)一的數(shù)據(jù)抽取出來,經過聚合、函數(shù)、組合等轉換,最終加載到目標數(shù)據(jù)倉庫中。
(3)數(shù)據(jù)倉庫:數(shù)據(jù)倉庫可以看作一個整合了不同業(yè)務數(shù)據(jù)的統(tǒng)一數(shù)據(jù)中心,除業(yè)務數(shù)據(jù)外,還有一類管理存儲數(shù)據(jù)的元數(shù)據(jù),主要指數(shù)據(jù)結構以及描述結構的信息,而且定義了數(shù)據(jù)之間的邏輯聯(lián)系以及數(shù)據(jù)轉換的操作規(guī)則,將數(shù)據(jù)倉庫系統(tǒng)有機結合起來。
(4)前端應用:數(shù)據(jù)倉庫的應用主要包括數(shù)據(jù)查詢和報表、應用開發(fā)、聯(lián)機分析處理( OLAP)、數(shù)據(jù)挖掘,在本研究中針對基于洪水敏感性因素分析主題數(shù)據(jù)倉庫進行數(shù)據(jù)挖掘應用。
2.2 數(shù)據(jù)倉庫建立
本研究選取鄭州市區(qū)為研究區(qū),并將其劃分為3 324個子區(qū)域[12]。為了找出在降雨時有哪些屬性對洪水過程有較大影響,搜集整理各子區(qū)域的面積、土地利用類型、地形條件、行政區(qū)劃等數(shù)據(jù),還有2011-2014年共12場歷史洪水的降雨蒸發(fā)數(shù)據(jù)以及各子區(qū)域內的平均水深、最大水深、總徑流量、高峰流量以及積水時長數(shù)據(jù)。
針對洪水敏感性因素分析主題所包含的數(shù)據(jù)類別進行分析,將城市暴雨洪澇數(shù)據(jù)立方體分為日期、水文氣象、地形、行政區(qū)劃、土地利用5個維度和平均深度、最大深度、總徑流量、高峰流量、積水時長5個度量,具體維度所包含的屬性見表1。
加上已確定的暴雨洪澇度量值,可以設計出城市暴雨洪澇洪水敏感性因素分析主題的數(shù)據(jù)倉庫邏輯模型,見圖2。
3 基于關聯(lián)規(guī)則的城市暴雨洪澇敏感性因素分析
3.1 數(shù)據(jù)預處理
基于數(shù)據(jù)倉庫開展城市暴雨洪澇敏感性因素分析,也就是數(shù)據(jù)挖掘技術,其數(shù)據(jù)直接來源于洪水敏感性因素分析主題數(shù)據(jù)倉庫中的數(shù)據(jù)。為了分析子區(qū)域內不同屬性與洪水之間的關聯(lián)規(guī)則,本次數(shù)據(jù)挖掘選取面積、不透水率、坡度、各土地利用類型面積占比作為敏感性因素,平均水深、最大水深、總徑流量、高峰流量以及積水時長作為洪水事實度量,挖掘不同敏感性因素與度量之間的關聯(lián)規(guī)則,其中子區(qū)域的平均水深、最大水深、積水時長以積水點監(jiān)測數(shù)據(jù)為準。將以上敏感性因素與度量分別按表2和表3所列分類標準離散化。分類標準由歷史經驗確定,雖然經過離散化的數(shù)據(jù)會丟失許多細節(jié),但變得更有意義,由此才能產生出能被大眾所接受的規(guī)則[13]。
3.2 關聯(lián)規(guī)則分析及Apriori算法
關聯(lián)規(guī)則分析是數(shù)據(jù)挖掘中一個重要的分支[14],本次應用是為了發(fā)現(xiàn)城市暴雨洪澇數(shù)據(jù)倉庫中不同項(維度屬性與事實度量)之間的聯(lián)系,這些聯(lián)系構成的規(guī)則可以幫助決策者進行防洪決策。關聯(lián)規(guī)則表達的是項之間的關系,如規(guī)則X→Y表達了X決定Y,其中X看作規(guī)則的前件,Y看作規(guī)則的后件。在本次關聯(lián)規(guī)則分析中,前件指需要進行分析的維度屬性(洪水敏感性因素),后件指洪水事實度量,支持度(SLLpport)和置信度(confidence)用來描述規(guī)則的強度。
對于規(guī)則X→y.若支持度太小,表示X與Y在事務數(shù)據(jù)庫很少同時出現(xiàn),關注這條規(guī)則沒有實際意義;若置信度太小,表示Y受X的影響程度很低,關注這條規(guī)則同樣沒有意義。因此,需要給定一個最小支持度閾值min_sup和最小置信度閾值min_conf,在城市暴雨洪澇系統(tǒng)中,只有規(guī)則X→Y的支持度≥min_sup且置信度≥min_conf時,才稱規(guī)則X→Y,為強關聯(lián)規(guī)則,也就是對防洪決策有用的規(guī)則。
其中強關聯(lián)規(guī)則的挖掘重點在于如何找到頻繁項集,對于全局項集I的非空子集I,若support(I1)≥min_sup,則稱,,為頻繁項集;若I1中包含有,的k個項,則稱,I1為頻繁k-項集。
傳統(tǒng)的關聯(lián)規(guī)則算法基本步驟為:找出所有支持度大于最小支持度閾值的項集,檢驗是否滿足最小置信度閾值要求,生成強關聯(lián)規(guī)則。傳統(tǒng)方法采用的是窮舉法的思路,在求頻繁項集的過程中對每個非空集合都要遍歷事務數(shù)據(jù)庫,以求出它的支持度是否滿足最小支持度閾值,顯然這個方法是十分低效的。本研究選用Apriori算法進行數(shù)據(jù)挖掘,目的是改進求頻繁項集的簡單低效算法,采用逐層搜索策略產生所有的頻繁項集[15].其基本原理是若項集A是一個頻繁項集,則4的任意非空子集同樣是頻繁項集,方法具體描述如下:
設C為長度為k的候選集合,L為長度為k的頻繁項集的集合,先找到所有的頻繁1-項集的集合L1,由L2,生成候選集合C2,再由C2生成L2,即頻繁2-項集的集合,然后由L2生成候選集合C3。依此類推,直到沒有新的頻繁k-項集被發(fā)現(xiàn)。這個方法只需在求每一個L時對事務數(shù)據(jù)庫作一次完全掃描,效率得到顯著提高。在本次關聯(lián)規(guī)則挖掘應用中,選定最小支持度閾值為0.1,最小置信度閾值為0.5。
3.3 結果分析
應用上述數(shù)據(jù)挖掘算法與預處理的數(shù)據(jù)進行數(shù)據(jù)挖掘操作后,得到476條強關聯(lián)規(guī)則,但其中存在許多沒有意義的規(guī)則,比如屬性與屬性之間、度量與度量之間的關聯(lián)規(guī)則。經過篩選和歸納整理之后,得出6條與洪水相關的強關聯(lián)規(guī)則,這也是進行防洪決策所需要的規(guī)則,見圖3。
對以上強關聯(lián)規(guī)則進行分析,得到以下結論。
(1)從前兩條規(guī)則看出,水域面積過小容易造成在降雨時發(fā)生較長時間的積水和較大的淹沒深度,特別是建筑面積過大導致區(qū)域透水性降低,會使受災程度加重。其原因是河湖水域可以對雨水進行儲蓄、調節(jié)和傳輸,從而使得臨近區(qū)域不容易發(fā)生積水,在以后的城市發(fā)展規(guī)劃中可以增加水域面積以減輕城市暴雨洪澇災害的影響。
(2)從第三、第四和第五條規(guī)則可以看出,在城市化過程中林草地面積降低,建筑和道路面積占比增大,進而導致城市不透水性增強,使得雨水匯流速度加快,而且城市管網規(guī)劃建設不足,無法提供足夠的排水管網,導致雨水無法順利排走而發(fā)生大的洪水,在以后的城市發(fā)展規(guī)劃過程中需要增加城市綠地面積占比以及修建足夠的排水管道。
(3)從最后一條規(guī)則可以看出,面積較小和坡度分類為2的子區(qū)域可能在降雨發(fā)生時產生較大的洪水,原因是這些子區(qū)域匯流過程較為簡單,雨水會迅速排到相應的積水點,造成積水過深的情況,在進行城市防洪決策時應重點防護這些匯水面積小且具有一定坡度的區(qū)域。
4 結語
本文針對洪水敏感性分析主題數(shù)據(jù)倉庫進行構建,確定了數(shù)據(jù)倉庫所需數(shù)據(jù)源、數(shù)據(jù)倉庫體系結構和多維數(shù)據(jù)模型組織方式,并采用基于關聯(lián)規(guī)則的Apriori算法對鄭州市近年12場洪水資料進行數(shù)據(jù)挖掘應用,得到6條強關聯(lián)規(guī)則,發(fā)現(xiàn)對城市暴雨洪澇影響最大的因素有區(qū)域透水性、坡度和排水管道密度等。在未來城市建設過程中,這些因素是需要重點關注的,即通過數(shù)據(jù)倉庫的建立和數(shù)據(jù)挖掘應用能夠對城市防洪決策工作提供支持。
目前數(shù)據(jù)倉庫技術在防洪領域的應用還處于起步階段,暴雨洪澇數(shù)據(jù)離散化還沒有一個統(tǒng)一的分類標準,不同的分類標準可能會導致挖掘結果大不相同,如何建立準確的分類標準是基于大數(shù)據(jù)技術開展城市洪澇研究的重點和難點,還有待進一步研究。
參考文獻:
[1]楊太萌,基于大數(shù)據(jù)的城市防汛決策支持系統(tǒng)研究[D].杭州:浙江大學,2016:1-5.
[2] 李恒義,孟琳琳,基于海綿城市的北京市巨災洪水防御體系設計[J].人民黃河,2016,38(7):35-38.
[3] INMON W H.Building the Data Warehouse[M]. USA: JohnWiley&Sons,Inc. 2002:1-3.
[4]
MCCRATH H, STEFANAKIS E,NASTEV M.Developmentof a Data Warehouse for Riverine and Coastal Flood RiskManagement[J].ISPRS - International Archives of the Pho-togrammetry, Remote Sensing and Spatial Information Sci-ences,2014(2):41-48.
[5] ZHANC P P,SUN P J,CUO X J.Application of OWB onData Syntaxis of Flood - Control System[J].InformationTechnology, 2013, 37(3):139-142.
[6] 張蓉,大連市防洪減災決策支持系統(tǒng)設計[D].大連:大連理工大學,2014:1-35.
[7] 丁斌,姚保順,杜文,黃河防洪調度綜合決策會商支持系統(tǒng)建設[J].水資源保護,2017,33(6):55-59.
[8] 梁國華,周惠成.防洪數(shù)據(jù)倉庫的結構模型研究及應用[J].遼寧工程技術大學學報,2003,23(1):88-91.
[9]吳召俊,某銀行的企業(yè)級數(shù)據(jù)倉庫設計探究[J].電子技術與軟件工程,2014(5):195.
[10] 朱傳華,三峽庫區(qū)地質災害數(shù)據(jù)倉庫與數(shù)據(jù)挖掘應用研究[D].武漢:中國地質大學,2010:11-29.
[11] 陳德清,王問宇,楊海坤,數(shù)據(jù)倉庫技術在水文數(shù)據(jù)綜合分析中的應用研究[J].水利信息化,2010(3):18-21.
[12] 王慧亮,吳澤寧,胡彩虹,基于CIS與SWMM耦合的城市暴雨洪水淹沒分析[J].人民黃河,2017,39(8):31-35.
[13] 張駿,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在馬鞍山供水系統(tǒng)中的應用[D].哈爾濱:哈爾濱工業(yè)大學,2007:21-32.
[14] 李春葆,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘實踐[M].北京:電子工業(yè)出版社,2014:85-86.
[15] ACRAWAL R,IMIELINSKIT,SWAMI A.Mining Associ-ation rules Between Sets of Items in Large Databases[ J].ACM, Acm Sigmod Record. 1993, 22(2): 207-216.