韓 瑛
(天津市公安局,天津 300040)
大數(shù)據(jù)在信息系統(tǒng)設(shè)計與推廣中的思考
韓 瑛
(天津市公安局,天津 300040)
相對于大數(shù)據(jù)技術(shù),大數(shù)據(jù)更加注重的是在思考和設(shè)計方式上的轉(zhuǎn)變,在大數(shù)據(jù)理念和技術(shù)快速興起并受到廣泛關(guān)注的背景下,結(jié)合公安行業(yè)的信息化特點探討大數(shù)據(jù)在信息化建設(shè)中的應(yīng)用基礎(chǔ)和實施策略。
大數(shù)據(jù);數(shù)據(jù)倉庫;信息化建設(shè);系統(tǒng)推廣;功能調(diào)研
目前,“大數(shù)據(jù)”理念和相關(guān)技術(shù)已經(jīng)被廣泛討論和研究,一方面,對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為實際的應(yīng)用價值;另一方面,大數(shù)據(jù)的影響范圍由電商、金融向政府、公安等更多的行業(yè)和領(lǐng)域擴展。
要應(yīng)用大數(shù)據(jù),就必須要對其有詳細(xì)的定義,但是站在不同的角度和時期對其有不同的認(rèn)識,我們可以認(rèn)為大數(shù)據(jù)就是“利用歷史積累的海量數(shù)據(jù)建立數(shù)學(xué)模型,分析事物之間的相關(guān)關(guān)系,挖掘數(shù)據(jù)的價值,解決實際問題,”也可以認(rèn)為大數(shù)據(jù)是“無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合”或“大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!辈还苋绾味x,大數(shù)據(jù)不但要求“大”,而且要求“全”,注重數(shù)據(jù)的完整性和相關(guān)性,推翻了采樣分析和追求因果關(guān)系的傳統(tǒng)觀點。
大數(shù)據(jù)具有明顯的行業(yè)特征,其落地的關(guān)鍵在于與行業(yè)應(yīng)用的深度融合,傳統(tǒng)BI通過大量的ETL形成完整的數(shù)據(jù)倉庫,而基于大數(shù)據(jù)的BI分析可能會將數(shù)據(jù)倉庫設(shè)計為分布式的、能夠處理非結(jié)構(gòu)化數(shù)據(jù)的綜合性數(shù)據(jù)倉庫。數(shù)據(jù)分析的基本方法和思路沒有改變,只是落地到執(zhí)行的數(shù)據(jù)存儲和數(shù)據(jù)處理方法改變了,當(dāng)然對系統(tǒng)集群的維護也提出了更高的要求。
現(xiàn)在,大數(shù)據(jù)理念和相關(guān)技術(shù)在新興行業(yè)中應(yīng)用已較為成熟,例如,電商行業(yè)直接借助于新興的互聯(lián)網(wǎng)技術(shù),獲取大量不同類型的客戶數(shù)據(jù),從中分析客戶行為規(guī)律,為其提供相關(guān)的商品推薦。另外,大數(shù)據(jù)理念和技術(shù)在公安行業(yè)中的應(yīng)用也嶄露頭角。
大數(shù)據(jù)正在逐漸影響著更多的行業(yè),對傳統(tǒng)的業(yè)務(wù)系統(tǒng)也會有新的貢獻。公安行業(yè)信息化投資大、風(fēng)險高,技術(shù)人員和領(lǐng)導(dǎo)團隊都需要從大量當(dāng)前系統(tǒng)使用情況的數(shù)據(jù)中抽取有價值的信息作為系統(tǒng)推廣、后期調(diào)研、綜合研判的依據(jù)。公安業(yè)務(wù)系統(tǒng)數(shù)據(jù)具有分散性、多樣性和異構(gòu)性特點,隨著數(shù)據(jù)量的增加,對大量信息的處理難度也不斷增大,從大量數(shù)據(jù)中發(fā)現(xiàn)有利信息成為數(shù)據(jù)利用的關(guān)鍵技術(shù)。這些是公安行業(yè)信息系統(tǒng)建設(shè)的難點也正是大數(shù)據(jù)理念和技術(shù)引入的必要性和數(shù)據(jù)基礎(chǔ)。
目前,一些警種已經(jīng)把數(shù)據(jù)倉庫引入到研判的信息系統(tǒng)中,用商務(wù)智能的方法處理數(shù)據(jù),以便能夠迅速、準(zhǔn)確、全面及時地掌握各方面信息,從整體上提高生產(chǎn)率。數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的和反映歷史變化的數(shù)據(jù)集合,通過對原有的大量復(fù)雜數(shù)據(jù)進行抽取、轉(zhuǎn)換、加載而形成真實、全面、統(tǒng)一的數(shù)據(jù)。在獲取了全面的數(shù)據(jù)信息之后,還需要建立相關(guān)模型,挖掘數(shù)據(jù)中隱含的知識,探索案件發(fā)生的規(guī)律,預(yù)測警情等,為更有效地進行資源分配和防范犯罪提供可靠依據(jù)。
很多地區(qū)都開始了公安云的建設(shè)。如江蘇省、山東省、湖北省等地區(qū)都建立起了省級的云平臺,建立統(tǒng)一的管理和服務(wù)平臺,實現(xiàn)了數(shù)據(jù)的資產(chǎn)化管理和集成應(yīng)用。主要表現(xiàn)在:注重現(xiàn)場自動化建設(shè)、注重應(yīng)用的集成、注重對數(shù)據(jù)的深入利用、注重通過信息化促進工作優(yōu)化。這些都是傳統(tǒng)BI技術(shù)在公安行業(yè)中的應(yīng)用,要拓展新思路,探索新方法,實現(xiàn)新發(fā)展,可以從大數(shù)據(jù)理念的角度出發(fā)思考問題。
公安行業(yè)作為具有代表性的新興行業(yè),其現(xiàn)有的信息系統(tǒng)相對成熟,傳統(tǒng)觀念已根深蒂固,針對大數(shù)據(jù)技術(shù)的人員儲備不足,信息化技術(shù)在上游業(yè)務(wù)中的應(yīng)用較少,如果完全以新技術(shù)取代傳統(tǒng)技術(shù)對企業(yè)的系統(tǒng)架構(gòu)、信息安全和人員配置以及運維方法都會造成很大的沖擊,導(dǎo)致整個生產(chǎn)鏈條的紊亂。因此,公安行業(yè)需要引進大數(shù)據(jù)理念和技術(shù),要從上游業(yè)務(wù)中開始注重各方面基礎(chǔ)數(shù)據(jù)的采集,逐步穩(wěn)妥地將數(shù)據(jù)理念滲入到傳統(tǒng)的BI技術(shù)中。但不宜大范圍地更換新技術(shù),應(yīng)該先建立試點,待技術(shù)成熟、制度完善、有應(yīng)用戰(zhàn)果之后再進行推廣。
公安經(jīng)濟保衛(wèi)工作也在按照這個思路向新理念、新技術(shù)靠攏。近些年,先后完成了經(jīng)保業(yè)務(wù)等專業(yè)數(shù)據(jù)庫建設(shè),囊括了經(jīng)保信息系統(tǒng)投入開發(fā)后所產(chǎn)生的絕大部分業(yè)務(wù)數(shù)據(jù),形成了覆蓋整體業(yè)務(wù)的數(shù)據(jù)管理體系,并參照警綜平臺和情報平臺的數(shù)據(jù)模型,開展了業(yè)務(wù)系統(tǒng)的升級改造,先后與多個系統(tǒng)進行了對接,為數(shù)據(jù)的綜合應(yīng)用打下了堅實基礎(chǔ),使數(shù)據(jù)管理基本實現(xiàn)正規(guī)化。隨著對云計算技術(shù)的全面應(yīng)用,參照大數(shù)據(jù)的理念,已經(jīng)具備了開展大數(shù)據(jù)應(yīng)用的理論基礎(chǔ)和技術(shù)基礎(chǔ)。
2.1關(guān)聯(lián)分析是關(guān)注點
大數(shù)據(jù)時代,人們追求的是相關(guān)性而不是因果性。建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心。相關(guān)關(guān)系是通過識別有用的關(guān)聯(lián)物來幫助人們分析一個現(xiàn)象,而不是通過揭示其內(nèi)部的運作機制。
2.2建立分析模型是根本
大數(shù)據(jù)應(yīng)用具有明顯的行業(yè)特征,其落地的關(guān)鍵在于與行業(yè)應(yīng)用的深度融合,根據(jù)行業(yè)特點,建立不同的分析模型,以促使大數(shù)據(jù)應(yīng)用更好的“落地”。
2.3可視化應(yīng)用是亮點
首先,大數(shù)據(jù)技術(shù)分析的數(shù)據(jù)量大而且結(jié)構(gòu)多樣化,分析過程比較復(fù)雜,但是普通用戶不能從大數(shù)據(jù)中直接獲取知識,因此更關(guān)心結(jié)果的展示,所以,數(shù)據(jù)可視化應(yīng)用是大數(shù)據(jù)技術(shù)的亮點。
其次,作為傳統(tǒng)的IT系統(tǒng),現(xiàn)有的系統(tǒng)架構(gòu)和技術(shù)人員配置都相對成熟,但是這些基礎(chǔ)設(shè)施、數(shù)據(jù)結(jié)構(gòu)、技術(shù)儲備都無法滿足大數(shù)據(jù)分析的技術(shù)要求,所以面臨技術(shù)升級(如分布式系統(tǒng)架構(gòu)Hadoop等)的挑戰(zhàn),這就要求具備強大而穩(wěn)定的技術(shù)開發(fā)和運維團隊。
基于以上分析,認(rèn)為公安行業(yè)應(yīng)當(dāng)實行大數(shù)據(jù)理念和傳統(tǒng)的BI技術(shù)并行的策略。根據(jù)自身實際情況,從系統(tǒng)建設(shè)的標(biāo)準(zhǔn)化必備模塊、數(shù)據(jù)管理制度建設(shè)、綜合數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)的應(yīng)用分析四個層面開展工作,包括以下內(nèi)容:
3.1建設(shè)標(biāo)準(zhǔn)化必備模塊
3.1.1數(shù)據(jù)采集
大數(shù)據(jù)的采集是指通過多個數(shù)據(jù)庫或多類統(tǒng)一業(yè)務(wù)的信息存儲表來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。如使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù)。此外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于采集業(yè)務(wù)的其他角度的描述信息。
在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為在同一時間,可能會有成千上萬的用戶來進行訪問和操作,如人口信息,它們并發(fā)的訪問量在峰值時達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計。
3.1.2數(shù)據(jù)導(dǎo)入與預(yù)處理
雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作,來滿足部分業(yè)務(wù)的實時計算需求。
導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆,甚至千兆級別。
3.1.3統(tǒng)計分析
統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC 的Greenplum,Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。
統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
3.1.4數(shù)據(jù)挖掘
與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,起到預(yù)測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學(xué)習(xí)的SVM和用于分類的Naive Bayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
3.2完善數(shù)據(jù)管理制度
進一步完善數(shù)據(jù)管理制度,用大數(shù)據(jù)理念梳理并完善各警種的數(shù)字資源管理,構(gòu)建集日常工作、預(yù)警提示、決策支持與服務(wù)為一體的大數(shù)據(jù)應(yīng)用體系,尤其是建立和規(guī)范實時數(shù)據(jù)和視頻數(shù)據(jù)的存儲管理機制,形成以專業(yè)數(shù)據(jù)庫為基礎(chǔ)、中心數(shù)據(jù)庫為核心包括實時數(shù)據(jù)庫和空間數(shù)據(jù)庫的涵蓋數(shù)據(jù)入庫、質(zhì)量控制、數(shù)據(jù)標(biāo)準(zhǔn)化與數(shù)據(jù)整合的數(shù)據(jù)管理體系。
3.3公安數(shù)據(jù)集市
從公安業(yè)務(wù)需求和信息化的實際情況來看,建立地區(qū)級的數(shù)據(jù)倉庫應(yīng)該是下一步工作的主要方向。目前可以以中心數(shù)據(jù)庫為基礎(chǔ)建立地區(qū)級數(shù)據(jù)倉庫,梳理和構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)項、數(shù)據(jù)評測指標(biāo)體系,實現(xiàn)業(yè)務(wù)分析對象與指標(biāo)體系的靈活、快速組合,滿足各級用戶日常數(shù)據(jù)分析的個性化需求,提高用戶數(shù)據(jù)綜合分析能力,為大數(shù)據(jù)在共享、預(yù)測、研判等應(yīng)用方面提供基礎(chǔ)支撐,提高深層次業(yè)務(wù)數(shù)據(jù)分析能力,并促進各級管理水平的提升。該系統(tǒng)的功能主要包括指標(biāo)體系定義、分析對象自定義、指標(biāo)連續(xù)性跟蹤、數(shù)據(jù)與圖形一體化展示、成果分布和共享、標(biāo)準(zhǔn)化分析、靈活數(shù)據(jù)查詢等。
3.4開展分析平臺建設(shè)
以正在運行的公安業(yè)務(wù)系統(tǒng)數(shù)據(jù)為基礎(chǔ),建立各種業(yè)務(wù)的業(yè)務(wù)分析模型,包括預(yù)警模型和研判預(yù)測模型等,對得到的數(shù)據(jù)進行分析,實現(xiàn)對人、事、物的安全預(yù)警及預(yù)見性維護,最大限度降低事件的發(fā)生,保證公安工作的高效性和連續(xù)性。
在大數(shù)據(jù)理念和技術(shù)受到廣泛關(guān)注和應(yīng)用的背景下,公安行業(yè)也應(yīng)該引入大數(shù)據(jù)的理念和相關(guān)技術(shù)。但要先做試點建設(shè),與現(xiàn)有的系統(tǒng)架構(gòu)和技術(shù)相配合,從上游業(yè)務(wù)開始循序漸進,逐步完成理念和技術(shù)的平穩(wěn)轉(zhuǎn)變,然后再大范圍推廣,實現(xiàn)整個生產(chǎn)鏈條的技術(shù)理念的更新和發(fā)展。
10.3969/j.issn.1673-0194.2015.02.122
TP311.52
A
1673-0194(2015)02-0166-02
2014-12-26