孫軒 孫濤
摘? 要: 近年來,大數(shù)據在公共管理領域的應用日趨增加,但由于缺乏理論指導,其應用決策往往無一定之規(guī)。相比于技術層面創(chuàng)新,思維方式變革在大數(shù)據時代更為重要。本質上,公共大數(shù)據具有“廣泛記錄”和“有限描述”特性。為保證其利用的科學性、合理性和可靠性,在公共管理應用決策中,應建立4M思維:即通過微觀探究(Microscope),發(fā)掘數(shù)據的內在價值;憑借復合利用(Mixability),提升數(shù)據的知識挖掘廣度;以語義為導向(Meaning),實現(xiàn)數(shù)據與應用的有效結合;采用多維分析(Multidimension),保證數(shù)據應用結論的有效性。在分析的基礎上,結合北京市交通治理的實踐,對大數(shù)據的應用思維進一步詮釋。
關鍵詞: 大數(shù)據;公共管理;4M思維;應用決策;治理能力
中圖分類號: D035? ? ? ? ?文獻標識碼:A? ?文章編號:1009-3176(2019)01-056-(10)
作為信息化和數(shù)字化技術高速發(fā)展的產物,大數(shù)據正深刻地影響著人們社會、經濟生活的方方面面。如今,借助OA、ERP以及在此基礎上發(fā)展起來的各類數(shù)字化應用系統(tǒng),企業(yè)和政府的所有經營、管理活動可以被實時記錄;利用教育、醫(yī)療、社保等網絡共享平臺,居民全生命周期的個人信息能夠被完整保存;而通過傳感器、物聯(lián)網和UGC(User Generated Content)網絡資源,社會、經濟、文化等多方面的特征參數(shù)和輔助信息也不斷得以豐富和更新。這些數(shù)據都為物理世界和非物理世界的描述、分析、理解和管理提供了多維度、詳盡的數(shù)據資料[1],并推動管理學科朝著科學化、智慧化的方向發(fā)展[2][3]。
從其所產生的價值效應來看,在某種程度上可以說,大數(shù)據是當前先進生產力的體現(xiàn)。它既是一種現(xiàn)象,也涉及一系列相關技術,更需要新的研究范式和思維方式與之相適應[4]。近年來,大數(shù)據在公共管理領域的應用越來越多[5],從國家到地方,都在積極探索數(shù)據治理的體系架構[6]、政策法規(guī)[7]和應用方法[8]。但現(xiàn)有的研究成果通常只能為政府部門的特定業(yè)務提供技術方案和案例參考。因此,大部分政府公職人員對于大數(shù)據的認識仍然停留在其表面特征,現(xiàn)實工作中技術與方法的學習、模仿遠大于數(shù)據資源的有效利用。一方面,日益復雜的經濟、社會環(huán)境對公共管理提出了越來越高的要求,各個部門都希望通過大數(shù)據的分析、挖掘提升應用決策的科學性;另一方面,大量公共數(shù)據被存儲在政府的數(shù)據庫中,卻往往難以得到充分、有效利用,有的甚至因為缺乏應用需求而被直接清除或動態(tài)覆蓋。究其原因,傳統(tǒng)的數(shù)據思維方式已經無法滿足大數(shù)據時代公共管理應用決策的需要。
一、大數(shù)據的應用挑戰(zhàn)
隨著應用的深入,研究學者和工程專家從不同角度對大數(shù)據進行定義,提出了3V(Volume、Velocity、Variety)、4V(3V + Value)、5V(4V + Veracity)等一系列特征描述框架[9]。其中,4V在各領域得到最為廣泛的認同,被認為是大數(shù)據不同于傳統(tǒng)數(shù)據資料的本質特征。一直以來,無論是數(shù)據收集、整理,還是分析、應用,對于大數(shù)據的研究和探討,大多圍繞其4V特征展開,嘗試從技術層面解決現(xiàn)實工作中所面臨的復雜問題[10]。然而,以數(shù)據處理能力提升和計算方法創(chuàng)新為導向的思路,往往容易陷入技術陷阱,并產生許多脫離實際的錯誤,特別是在人文社會科學和公共管理領域,例如:對政治傾向的錯誤預測,對疾病發(fā)病率的高估,對災害影響的失效描述[11]。大數(shù)據在創(chuàng)造機遇的同時,也給管理和應用帶來了諸多挑戰(zhàn)。
1.體量增長與價值提升
體量大小通常被看作是表征數(shù)據資源豐富程度的最重要參考指標。從TB(萬億字節(jié))到PB(千萬億字節(jié)),甚至是EB(百億億字節(jié)),日趨完善、多樣的數(shù)據收集體系和信息平臺使我們能夠獲得的數(shù)據資料比以往任何時期都要多。由IBM2011年的統(tǒng)計結果可知,我們每天都可以創(chuàng)造出超過2.5EB的新數(shù)據。根據Human Face of big data于2012年發(fā)布的項目報告,F(xiàn)acebook每天會產生300億條以上的信息記錄,Youtube上每分鐘都會新增時長達48小時的視頻資料并帶來每天40億的瀏覽量,Google每天處理超過20PB的信息請求。而在我國,百度2015年收錄的網頁數(shù)量也已超過一萬億張,每天響應中國網民請求達幾十億次;阿里集團擁有近千PB的數(shù)據,日處理數(shù)據量等同于幾千個國家圖書館信息總量之和;騰訊數(shù)據中心存儲的數(shù)據總量超過1000PB,且日均數(shù)據增速達500TB;據九次方大數(shù)據創(chuàng)始人王參壽描述,我國全國的政府數(shù)據加起來實際已有數(shù)百甚至上千個阿里的數(shù)據體量。
然而,數(shù)據量的增長并不能完全代表其內在價值的提升。特別是,當我們面對的是復雜、異構、無序的大數(shù)據集時,信息理解和知識發(fā)現(xiàn)的成本已遠遠超過了通過統(tǒng)計匯總和抽樣調查所獲得的小數(shù)據。從應用角度看,雖然數(shù)據的準確性、有效性和完整性在整體上決定了其分析結果的合理性,但當數(shù)據規(guī)模達到一定程度時其分析利用的投資收益往往會隨著數(shù)據量的進一步增加而急劇降低[12];而從數(shù)據共享角度看,盡管各級政府都在努力推動部門間數(shù)據的互聯(lián)互通以及各領域大數(shù)據的開放與利用,卻由于數(shù)據標準不統(tǒng)一、結構化不足、語義缺失,其實際應用范圍、使用效率和產生的社會、經濟價值都受到嚴重制約[13]。為了保證數(shù)據的可用性,提高其價值密度和使用效率,很多時候有必要對原始數(shù)據進行適當清洗、整理和提煉,將粗放的數(shù)據資源轉化為高質量的數(shù)據資產[14]。
2.技術革新與模式轉變
面對海量、多樣化、快速更新的大數(shù)據,公共管理輔助決策的信息應用技術和手段正在產生巨大變革[15]。隨著各單位間溝通與協(xié)作的加強,跨領域的數(shù)據互通與共享越來越多,過去廣泛使用的關系型數(shù)據庫逐漸被Hadoop、NoSQL數(shù)據系統(tǒng)所取代,靈活、網絡化的數(shù)據中心和云計算平臺成為政府大數(shù)據存儲、管理的基礎。針對復雜的數(shù)據類型、全新的現(xiàn)實問題,習慣于使用統(tǒng)計表格對數(shù)據進行標準化整理與匯總的信息部門,在新時期不得不開始嘗試借助R、Phython、GIS(GeographicInformation System)或各類專業(yè)化應用系統(tǒng)進行多層面的數(shù)據分析,以提升數(shù)據認知和理解的深度。特別是那些直接參與城市運營的政府機構,如今也不再滿足于傳統(tǒng)的程序化處理機制,而是更多地通過引入智能化輔助決策系統(tǒng),基于實時的數(shù)據收集能力和高效的可視化監(jiān)測手段,對轄區(qū)環(huán)境、事務和突發(fā)狀況進行動態(tài)管理。
但是,大數(shù)據帶來的不僅僅是技術手段的革新,數(shù)據分析方法和利用方式轉變對于管理決策制定具有更為重要的意義[16]。從量化指標的比較到數(shù)據壓縮與融合、從公式計算到變量間的泛在關聯(lián),各領域應用在進行數(shù)據分析時已不再單純強調理論模型的科學性,而是日益關注于數(shù)據本身的加工、處理和信息表達。例如,進行智慧交通管理,需要以數(shù)據所反映的動態(tài)交通現(xiàn)象為基礎進行道路流量預測和復雜網絡控制[17];實現(xiàn)網絡社會的數(shù)字化治理,關鍵在于識別信息流通的復雜結構特征和核心節(jié)點間的連接關系[18];而在公共政策分析方面,只有從具體語境出發(fā)對不同數(shù)據集進行闡釋,才能有效理解和推斷多利益群體、多階層的行為反應,明確執(zhí)行過程中的潛在影響和問題[19]。知識既來源于數(shù)據又作用于數(shù)據,圍繞流動性強、碎片化、不規(guī)則且來源各異的數(shù)據資料,從實證視角對事物的共性規(guī)律和個性特征進行探索成為大數(shù)據分析、應用的關鍵。
3.數(shù)據挖掘與事務管理
為了發(fā)現(xiàn)大數(shù)據背后的潛藏價值,數(shù)據挖掘在當下得到了前所未有的關注。越來越多的大數(shù)據應用嘗試通過不同方式的數(shù)據解譯和時間、空間維度的深入剖析,對已知經驗與未知問題進行驗證和說明[20]。不同于簡單的統(tǒng)計描述與比較,數(shù)據挖掘往往更關注于研究對象的組成結構、變化規(guī)律和關聯(lián)關系。采用聚類分析或機器學習手段對數(shù)據樣本的個體屬性與群體特質進行研究,能夠了解相關事物的系統(tǒng)構成和基本模式;憑借函數(shù)擬合與特征識別方法,對數(shù)據的變化和差異進行分析,可以有效認知事物的發(fā)生、發(fā)展規(guī)律;通過對數(shù)據間的關聯(lián)關系進行細致探討,我們能找出現(xiàn)象的產生原因和影響因素,并在此基礎上更好地理解事物的相互作用機制[21]。而除此之外,可視化作為一種更加靈活、綜合的數(shù)據挖掘手段,如今也被廣泛運用于社會科學領域的各項實踐活動中[22]。
不過,大數(shù)據應用絕不是純粹的科學計算與研究,其實際價值應更多地體現(xiàn)于事務管理的改革創(chuàng)新[23]。公共管理在逐漸走向精細化、現(xiàn)代化、智能化的過程中,公眾需求理解、資源優(yōu)化配置、應急動態(tài)響應等方面都存在著大量的復雜問題[24]。雖然大數(shù)據的重要性近年來一再得到認可,但供給與需求對接不暢、理論支撐不足、應用框架缺失使得基層的數(shù)字化治理往往“名過其實”,許多有價值的數(shù)據得不到充分利用。以應用為導向,如何將大數(shù)據分析融入公共部門的日常工作,實現(xiàn)問題探索與治理實踐的統(tǒng)一,切實提升基礎設施運行效率和民生服務質量、保障社會安全、改善生活環(huán)境,是各級地方政府所面臨的巨大挑戰(zhàn)。
二、公共大數(shù)據的本質
公共數(shù)據涉及經濟、文化、教育、公安、交通、醫(yī)療、衛(wèi)生、就業(yè)、社保、環(huán)境等眾多領域。它既包括政府因工作開展而產生和采集的業(yè)務數(shù)據,也包括與公共管理實踐相關的各類外部網絡數(shù)據。相比純粹的商業(yè)數(shù)據和科學數(shù)據,其來源更豐富、復雜性更強、應用更多元化,而且與日常生活的關系更加密切。在大數(shù)據時代,公共數(shù)據收集的途徑、方式和速度與過去相比有著巨大差異,不僅數(shù)據量急劇增加,而且數(shù)據內涵也發(fā)生了深刻變化。
1.廣泛記錄
數(shù)據的本質是記錄。在數(shù)字化手段和信息化技術還不夠發(fā)達的時期,人們往往只能通過抽樣調查方法,對部分典型或特殊事物在特定時段的狀態(tài)進行有針對性的記錄。由此獲得的傳統(tǒng)數(shù)據雖然也具有一定代表性,但相對于現(xiàn)實世界的復雜情況,卻是不全面、不完整、不連續(xù)的。與之相比,大數(shù)據所記錄的內容則要更為廣泛。
一方面,大數(shù)據屬于強細節(jié)記錄(Full-detailed)。過去那些用于反映經濟、社會生活中各種現(xiàn)象和事件的抽象指標參數(shù)正在被一系列直觀的數(shù)字檔案所取代。這些數(shù)字檔案不再僅僅聚焦于個別感興趣的對象,而是力圖對整個場景進行細致刻畫。例如,安裝在各個交通路口的攝像頭不僅記錄了該位置通過的車輛信息,也記錄了車輛通過時刻的路況環(huán)境;網絡電商的交易數(shù)據,不僅記錄最終的交易金額,也記錄了買賣雙方交易事前、事中和事后的交流內容;各大醫(yī)院保存的電子病歷,不僅包括病人的診斷結果,也涉及其病發(fā)癥狀、應診醫(yī)生、醫(yī)療處方和后續(xù)療程。
另一方面,大數(shù)據傾向于全樣本記錄(Full-sampled)。隨著傳感器、物聯(lián)網和移動互聯(lián)網等技術手段的廣泛應用,公共數(shù)據的收集能力相比過去得到了大幅提高,其關注對象也不再限于群體集合或少數(shù)個體,而是針對集合中的每一個組成單元。利用號牌識別和ETC技術,我們可以了解通過特定路口的每一輛車,而不僅僅是記錄通行的車輛數(shù)目;借助信用卡、一卡通等帶有身份標識的消費工具,每個人在購買商品或服務的過程中,其社會、經濟活動可以被有效記錄;而通過GPS和手機信令的空間定位信息,每一部正在使用手機的當前位置也都能夠被實時掌握。
與此同時,大數(shù)據往往是全周期記錄(Full-period)。在數(shù)字化管理體系下,數(shù)據的產生和收集已成為日常工作的重要組成部分。伴隨著公共服務提供和公共事務辦理的過程,一系列相關數(shù)據得以不斷更新。如今,我們能夠獲得的不單單是代表事物當前狀態(tài)的片段數(shù)據,而是反映其變化和發(fā)展的完整歷史軌跡。比如,通過連續(xù)的空氣質量監(jiān)測,各城市能夠了解其近一周、一月、一年甚至多年的大氣環(huán)境狀況;基于出租車、鐵路和航空公司的銷售運營記錄,城市內和城際間每天、每周、每月乃至每年的人流情況都可以被清晰地反映;而根據公交車乘坐、公共自行車租賃和水、電、氣等生活必需品的使用記錄,政府能夠掌握公共資源在不同時段的使用需求。
大數(shù)據的廣泛記錄背后充斥著海量信息。海量信息在給公共管理帶來眾多潛在應用的同時,卻也給每一個應用的信息利用帶來了巨大的認知負擔。針對具體的管理實踐需求,我們往往只關注大數(shù)據所反映的某些特定現(xiàn)象和問題,而其絕大部分內容則會被認為是“無效信息”和“暗數(shù)據”[25]。
2.有限描述
數(shù)據的應用目標在于描述。為了清晰、有效、準確地描述特定問題、現(xiàn)象和規(guī)律,過去我們制定了許多標準化的數(shù)據收集、整理和分析流程,以獲得盡可能可靠的小數(shù)據。與之相比,大數(shù)據雖然蘊藏著更多信息,但很多時候它只能對事物進行有限描述。
一方面,大數(shù)據的描述具有表面性(Superficial)。不同于傳統(tǒng)的社會調查和調研數(shù)據,以計算機技術為支撐和以自動化數(shù)據采集、整理為主導的大數(shù)據,通常只是對于所發(fā)生事物的現(xiàn)象進行描述,而難以深入其本質。現(xiàn)象與現(xiàn)象之間,通過統(tǒng)計計算歸納出的泛相關性,也僅能說明一些表面問題,無法科學地闡釋其內在機理。面對啤酒與尿布的關聯(lián)、男性內褲與經濟形勢的聯(lián)系、女服務員顏值與股市波動的關系、不同星座人群的性格特點,雖然我們都能夠從數(shù)據中找出一些規(guī)律,并嘗試從不同角度給出看似合理的解釋,但其真實原因及影響過程卻始終不得而知。
另一方面,大數(shù)據的描述存在有偏性(Biased)。如今,企事業(yè)單位和政府機構的數(shù)據獲取能力越來越強,通過各種渠道所獲得的每一個數(shù)據集都足夠大。但由于業(yè)務領域的區(qū)別、觀察視角的不同、用戶群體的差異,其數(shù)據描述實際上只能代表特定情況、特定方面或特定人群,而并非對普適規(guī)律的系統(tǒng)詮釋。例如:通過對社交媒體數(shù)據進行跟蹤分析,我們能夠了解公眾對各類事件的網絡輿情變化,但用戶的線上活動很多時候并不能完全反映其真實想法和線下行為;司機的駕駛習慣對車輛保險的定額有著重要參考價值,然而個人交通事故的發(fā)生率還與其視力水平、身體狀況、所駕車輛、行駛路線等內容有著密切關系;滴滴打車雖然能夠通過對出租車的行駛軌跡進行數(shù)據挖掘,理解居民在不同時段的乘車出行模式,卻無法涵蓋通過公交、地鐵出行人群的行為選擇。
另外,大數(shù)據的描述還缺乏精確性(Inaccurate)。在這個數(shù)據爆炸的時代,快速的更新頻率和錯綜復雜的來源,都給數(shù)據的精度控制和評定帶來了極大困難。特別是那些基于網絡開放平臺所獲得的大數(shù)據,很多時候,我們根本無法對其誤差和真實性進行有效估量與驗證。以中關村在線、搜房網、汽車之家為代表的交易門戶網站,雖然能夠提供相關領域商品的一系列資訊數(shù)據,但其數(shù)據的采集方式、計算方法都不得而知;以大眾點評、口碑網為代表的眾源信息平臺,盡管為事物認知提供了豐富的資料描述,但該類數(shù)據在語義表達方面卻存在巨大的模糊性;對于論壇、貼吧、微博等自媒體數(shù)據而言,網絡水軍的廣泛存在,也使得其實際參考價值大打折扣。
大數(shù)據并不能完美地解決所有問題,其有限描述能力給應用實踐帶來了一定風險。但不可否認,它為我們了解現(xiàn)實世界開辟了一個全新的視角[26]。在DT時代,尋求答案不能僅依靠簡單的量化計算,而是要在充分認識大數(shù)據的價值和不足基礎上,對其進行有效利用。
三、應用決策的4M思維
作為政府公職行使的主要形式和政策制定的基礎,應用決策在公共管理實踐中具有重要意義[27]。高效的公共服務應用離不開合理的數(shù)據分析,而科學的決策制定過程也需要依靠充分的數(shù)據支撐。為了提升公共管理質量,保證應用決策的可靠性,面對大數(shù)據的廣泛記錄和有限描述能力,其數(shù)據利用的思維方式必須進行相應轉變。
1.微觀探究(Microscope)
受到計算機技術發(fā)展和人類認知能力制約,各級政府機構和機關單位長期以來習慣于通過宏觀分析了解事物的當前狀況和歷史變化,并在此基礎上總結歸納其發(fā)生、發(fā)展規(guī)律。所使用的數(shù)據大多嚴重缺乏微觀細節(jié);即便通過特殊手段進行詳盡的數(shù)據收集,經過一層層匯集、整理,最終也轉化為一目了然的指標參數(shù)。匯總數(shù)據固然簡潔、明了,但同時也丟失了許多對于應用決策而言極為重要的參考信息。它不僅無法對事物的不同組成部分進行細致刻畫,也不能對其描述內容進行深入剖析,清晰說明相關分項指標對最終數(shù)據的影響,更難以明確知道該數(shù)據在不同情況下的差異和變化。
隨著經濟、社會發(fā)展與改革的推進,數(shù)據的深度理解對于保障應用決策的合理性具有越來越重要的意義。很多復雜問題的解決有賴于細致的數(shù)據分析,而大數(shù)據的強細節(jié)、全樣本和全周期記錄特性則為事物的微觀探究創(chuàng)造了先決條件?;谡Z境的數(shù)據統(tǒng)計與比較,可以為現(xiàn)象理解提供更完整的信息[28];從個體出發(fā)的數(shù)據描述與多層次綜合,能夠為規(guī)律發(fā)現(xiàn)提供更系統(tǒng)的知識[29];而完整、有效的時序分析與模擬仿真,則為我們認識事物的變化過程和機制提供了更加科學的手段[30]。無論是政策分析、社會治理,還是資源優(yōu)化與應急處置,數(shù)據的分析與利用已不能僅僅停留在宏觀層面,只有在微觀視角下對問題的本質進行探討,才能充分發(fā)掘大數(shù)據的內在價值。
2.復合利用(Mixability)
面對制度化、標準化的日常工作,政府部門的數(shù)據使用往往具有極強的獨立性和針對性。各單位在對具體事務進行分析和處理時,都習慣基于自身的應用體系和流程進行封閉式的信息整理,而較少考慮數(shù)據的多重價值以及數(shù)據與數(shù)據之間的潛在聯(lián)系。然而,對于包含豐富細節(jié)的大數(shù)據來說,傳統(tǒng)的單通道數(shù)據解讀與應用不僅難以滿足復雜事物認知和現(xiàn)象理解的現(xiàn)實需求,而且也是對信息資源的極大浪費。同一份數(shù)據,采用不同手段、從不同層面進行分析和探討,可以獲得多樣、系統(tǒng)的知識;各部門所收集和掌握的數(shù)據資料,不僅對其自身的業(yè)務開展具有重要意義,很多時候也有利于其他相關單位的資源規(guī)劃、配置與調度、管理。
大數(shù)據對于應用決策的支持,不只體現(xiàn)在問題探究的深度上,也反映于其知識挖掘的廣度。廣泛記錄所帶來的多元信息,決定了大數(shù)據分析方式和使用過程的復合性。對數(shù)據的信息利用,并不局限于個別問題的解決,更多的是通過時序關聯(lián)、業(yè)務關聯(lián)和知識關聯(lián),實現(xiàn)不同應用場景下的形勢判斷與發(fā)展預測[31]。由于內容的開放性和可重用性,大數(shù)據的計算框架正從過去的“以流程為中心”轉變?yōu)椤耙詳?shù)據為中心”[32],從強調數(shù)據的保密和自主管理逐漸過渡到注重其在線應用與互操作[33]??紤]到數(shù)據外部關聯(lián)所帶來的乘數(shù)效應,跨領域互通與共享被認為是大數(shù)據價值放大的有效途徑,而“塊數(shù)據”的推廣與應用則能夠進一步為數(shù)據復合和信息流動奠定基礎[34]。
3.語義導向(Meaning)
不同于直觀、明確的小數(shù)據,大數(shù)據由于內容描述的表面性,其分析、處理過程通常離不開隱含信息的挖掘和語義屬性的探討。相比數(shù)據本身的變化、差異和量化特征,其價值更多地應體現(xiàn)于對內容和結果的應用解釋[35]。對于文本數(shù)據而言,傳統(tǒng)的詞頻統(tǒng)計方法僅能揭示語料記錄的關注重點,只有通過句法解析和語境理解才可以明確其表述的真實含義和背后所反映的情感、態(tài)度;多媒體數(shù)據的挖掘,不能僅依靠資料的分類組織與整理,如果缺乏深入、有效的語義標注和索引,大量有價值的信息將埋沒于復雜、異構的數(shù)據文件中而難以被利用;即便是數(shù)值數(shù)據的分析與應用,離開了知識推理與語義論證,其參數(shù)計算最多也只能反映一些表面現(xiàn)象,而無法說明現(xiàn)實世界的事物本質與客觀規(guī)律。
從數(shù)據選擇、加工到存儲、管理與分發(fā)、利用,語義在基于大數(shù)據應用決策的整個流程中起到了越來越重要的作用,它既是數(shù)據和應用之間的黏合劑,也是信息融合與知識創(chuàng)新的基礎。語義場景的構建、語義內涵的闡釋、語義關系的剖析日益成為大數(shù)據分析、探索的關鍵。為了提高大數(shù)據的應用效率,保證信息的合理、有效利用,一方面,需要根據數(shù)據的語義內涵對其進行結構化、標簽化處理,將隱含信息顯性、規(guī)范地表達出來,以滿足大規(guī)模計算和機器學習的現(xiàn)實要求[36];另一方面,還要考慮事物間的內在關聯(lián),依據本體論、知識圖譜和語義網,圍繞實際應用構建具有針對性的語義計算框架,實現(xiàn)從表層感知到深入理解[37]、從被動響應到智慧服務[38]的價值過渡和升華。
4.多維分析(Multidimension)
大數(shù)據雖然為我們了解現(xiàn)實世界提供了更多精細、完整的記錄資料,但面對復雜的內、外部環(huán)境,有偏性和不精確的內容描述卻使得其分析結果的真實性和可信度大打折扣。使用大數(shù)據對事物進行探索,就好比“盲人摸象”,通過單一視角或依靠單一數(shù)據源所得出的結論通常都難以全面、準確地反映其實際情況和變化規(guī)律[39]。從現(xiàn)有的眾多應用來看,數(shù)據本身的代表性問題往往是一系列誤差的主要來源。與此同時,在對事物的當前狀態(tài)進行量化評價時,由于其多維度的外在表現(xiàn)形式,僅依據某類屬性特征進行比較和判斷,相應結論必然會有所偏頗;基于歷史數(shù)據對事件的發(fā)展過程進行推演和預測,也非常容易因為相似樣本有限和誘導因素的多樣化,導致最終結果存在較大的不確定性。
在推動國家治理體系和治理能力現(xiàn)代化的發(fā)展背景下,“尋數(shù)治理”需要通過不同視角的補充、完善和相互印證,盡量避免數(shù)據利用過程中的無效探討和由此造成的錯誤決策。在大數(shù)據收集方面,采用不同方式獲得的數(shù)據越多,對事物的描述往往越接近其真實狀態(tài)[40];在數(shù)據計算方面,借助多源數(shù)據的交叉比較與融合糾正,能夠使系統(tǒng)誤差得以科學評估與有效控制[41];而在數(shù)據內容的表達方面,則可充分利用可視化仿真、虛擬現(xiàn)實、增強現(xiàn)實等全方位展示手段,最大限度提高應用決策者的信息綜合能力[42]。從“全息感知”到立體化理解,從單一標簽到多層面畫像,大數(shù)據分析維度增加帶來的不僅僅是數(shù)量上的變化,更是應用決策質量的躍升。
四、4M思維在北京市交通治理中的實踐探索
交通擁堵是當前各大城市公共治理過程中普遍面臨的難題。地方交管部門雖然采用特定的車流限制和疏導措施,也出臺了一系列相關政策,但過高的人口密度、逐年攀升的汽車保有量和巨大的區(qū)域通勤壓力使得城市“車-路矛盾”始終難以得到有效解決,并由此帶來了包括環(huán)境污染在內的諸多經濟、社會問題。而借助大數(shù)據,我們可以在有限條件下盡可能地提高城市治理水平,改善道路通行環(huán)境、完善城市功能系統(tǒng)。
相比全國其他城市,北京市的交通數(shù)據積累和應用探索都比較超前,其實踐經驗具有很強的參考、借鑒意義。在沒有先進的數(shù)據獲取手段下,早在1986年,北京就開始開展軍民出行調查,詳細記錄每一戶當天的出行日志;2008年之前,北京市五環(huán)以內快速主干道基本都安裝了車流量監(jiān)測器,而所有出租車也裝配了GPS接收機,進行浮動車動態(tài)數(shù)據采集。如今,為了更好地發(fā)現(xiàn)問題、找出規(guī)律、提出方案,基于大數(shù)據的城市交通治理正在得到越來越多的認可,并被寫入《北京市“十三五”時期交通發(fā)展建設規(guī)劃》。綜觀當前的諸多應用,其大數(shù)據的分析、利用過程實際上都離不開4M思維的理論框架。
北京市交通委員會和市公交集團聯(lián)合多所高校與科研院所共建的“北京城市交通協(xié)同創(chuàng)新中心”,在利用大數(shù)據開展城市交通研究與治理方面做了大量工作。其中,以“微觀探究”思維為主導,利用公交ID卡數(shù)據和每一臺運營出租車的GPS定位數(shù)據對不同時段的公共交通出行和道路交通流量進行細致分析,并借助模擬仿真手段實現(xiàn)由微觀到宏觀的城市交通過程推演與預測;基于“復合利用”的思路,不僅將車流量數(shù)據應用于城市交通狀況的評價,而且與北京市交通行業(yè)節(jié)能減排中心合作,利用該數(shù)據對道路網周邊的空氣質量變化進行研究,探討綠色可持續(xù)交通體系構建問題;而且采用“多維分析”方法,在展現(xiàn)道路擁堵的變化規(guī)律時,充分綜合出租車、公交車以及手機定位等各類數(shù)據,全方位涵蓋不同交通出行方式,以提升信息的完整性與準確性。
為了深化大數(shù)據的行業(yè)應用,給交通規(guī)劃、管理提供決策支持,北京交通發(fā)展研究院與中國電信共建的“城市與交通大數(shù)據聯(lián)合實驗室”致力于數(shù)據資源的有效整合與利用。在對人流和車流的運動規(guī)律進行研究時,從“微觀”層面入手,嘗試利用大數(shù)據探索每個區(qū)域、每條道路的人和車都從哪來、要到哪去;出于理解城市居民出行需求的目的,根據數(shù)據背后隱含的“語義”信息,對城市空間布局、業(yè)態(tài)和區(qū)位作用機制進行量化描述和分析,力求弄清行人、車輛和道路網絡之間的復雜關系與相互影響;更通過打造交通大數(shù)據生態(tài)圈,實現(xiàn)多方數(shù)據的“復合”與交叉利用,在借助電信數(shù)據提升交通治理能力的同時,也將公共交通數(shù)據應用于移動端的智能服務推廣。
另外,北京市交管局以及騰訊、百度、滴滴打車等企業(yè)也都從不同角度收集并擁有大量的城市交通相關數(shù)據。對于這些數(shù)據的利用,絕不是僅僅依靠傳統(tǒng)的指標監(jiān)測手段進行路況播報和車輛監(jiān)管,而是通過“微觀探究”,對市區(qū)交通現(xiàn)象和過程進行細致剖析,發(fā)掘不同區(qū)域、不同人群的出行特征和行為模式;憑借“復合利用”,拓展交通數(shù)據在多個相關部門和服務行業(yè)的應用,實現(xiàn)政府、企業(yè)、社會的多元協(xié)同治理與基于位置的服務;以“語義導向”,分析交通問題的表征內容、產生原因和后續(xù)影響,推動公共服務的供給側改革和精細化管理;采用“多維分析”,完善和補充對復雜交通體系的認知,保證管理決策的正確性和有效性。
五、結? 語
大數(shù)據不是簡單的“大存儲+大計算”,它給整個社會帶來的挑戰(zhàn),不完全在于技術層面。其價值更多地體現(xiàn)于對實際應用決策的支持,而應用決策的最終需求往往又會到影響到數(shù)據收集、整理、分發(fā)、利用的各個環(huán)節(jié)。只有明確公共大數(shù)據的特性與差異,才能清晰地了解數(shù)據應當怎樣科學利用、如何有效共享、怎么合理開放。特別是,隨著人工智能(Artificial Intelligence)技術的進一步發(fā)展,機器對數(shù)據的自動化學習和智能化處理將越來越廣泛。人類對數(shù)據分析和應用過程的管理,也將逐漸從程序化干預過渡到方向性控制,而此時其應用決策的思維方式將顯得更為關鍵。
通過分析、探討所總結的4M思維,在公共管理大數(shù)據應用決策中扮演著重要角色。不僅是交通治理,人口、經濟、文化、教育、醫(yī)療衛(wèi)生、土地資源、公共安全等領域的數(shù)據利用都面臨著思維方式轉變的問題。雖然大數(shù)據的分析、應用和開放還涉及社會倫理、經濟效益、部門關系、政策法規(guī)等眾多方面,而且需要考慮數(shù)據脫敏、數(shù)據流通、數(shù)據權益和數(shù)據標準化等一系列問題,但從大數(shù)據的廣泛記錄和有限描述特性出發(fā),微觀探究、復合利用、語義導向和多維分析對于保證數(shù)據的科學、合理、可靠利用具有指導意義。
參考文獻:
[1] Lynch C. Big data: How do your data grow?[J]. Nature, 2008, 455(7209): 28-29.
[2] McAfee A, Brynjolfsson E. Big data: the management revolution[J]. Harvard business review, 2012, 90(10): 60-68.
[3] George G, Haas M R, Pentland A. Big data and management[J]. Academy of Management Journal, 2014, 57(2): 321-326.
[4] 徐宗本, 馮芷艷, 郭迅華等. 大數(shù)據驅動的管理與決策前沿課題[J]. 管理世界, 2014(11):158-163.
[5] Kim G H, Trimi S, Chung J H. Big-data applications in the government sector[J]. Communications of the ACM, 2014, 57(3): 78-85.
[6] 陳之常. 應用大數(shù)據推進政府治理能力現(xiàn)代化——以北京市東城區(qū)為例[J]. 中國行政管理, 2015(2): 38-42.
[7] 張勇進, 王璟璇. 主要發(fā)達國家大數(shù)據政策比較研究[J]. 中國行政管理, 2014(12): 113-117.
[8] 米加寧, 章昌平, 李大宇, 林濤. 第四研究范式: 大數(shù)據驅動的社會科學研究轉型[J]. 學海, 2018(02): 11-27.
[9] Wamba S, Akter S, Edwards A, et al. How 'big data'can make big impact: Findings from a systematic review and a longitudinal case study[J]. International Journal of Production Economics, 2015, 165: 234-246.
[10] 李國杰, 程學旗. 大數(shù)據研究:未來科技及經濟社會發(fā)展的重大戰(zhàn)略領域--大數(shù)據的研究現(xiàn)狀與科學思考[J]. 中國科學院院刊, 2012, 27(6):5-15.
[11] Lazer D, Kennedy R, King G, et al. The parable of Google Flu: traps in big data analysis[J]. Science, 2014, 343(6176): 1203-1205.
[12] Nair B. Reaping ROI from Big Data[J]. CSI Communications, 2014, 38(3):29-30.
[13] Zuiderwijk A, Janssen M. Open data policies, their implementation and impact: A framework for comparison[J]. Government Information Quarterly, 2014, 31(1): 17-29.
[14] Tang, N. Big data cleaning[A]. In Asia-Pacific Web Conference[C]. Berlin Heidelberg: Springer-Verlag, 2014.
[15] Jagadish H V, Gehrke J, Labrinidis A, et al. Big data and its technical challenges[J]. Communications of the ACM, 2014, 57(7): 86-94.
[16] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013, 1(1): 51-59.
[17] Shi Q, Abdel-Aty M. Big data applications in real-time traffic operation and safety monitoring and improvement on urban expressways[J]. Transportation Research Part C: Emerging Technologies, 2015, 58: 380-394.
[18] Tan W, Blake M B, Saleh I, et al. Social-network-sourced big data analytics[J]. IEEE Internet Computing, 2013, 17(5): 62-69.
[19] Schintler L A, Kulkarni R. Big data for policy analysis: The good, the bad, and the ugly[J]. Review of Policy Research, 2014, 31(4): 343-348.
[20] Fan W, Bifet A. Mining big data: current status, and forecast to the future[J]. ACM SIGKDD Explorations Newsletter, 2013, 14(2): 1-5.
[21] Kantardzic M. Data mining: concepts, models, methods, and algorithms[M]. New Jersey: John Wiley & Sons, 2011.
[22] 孫軒, 孫濤. 基于大數(shù)據的城市可視化治理:輔助決策模型與應用[J], 公共管理學報, 2018, 15,(2): 120-129.
[23] LaValle S, Lesser E, Shockley R, et al. Big data, analytics and the path from insights to value[J]. MIT sloan management review, 2011, 52(2): 21-31.
[24] Teisman G R, Klijn E H. Complexity theory and public management: An introduction[J]. Public Management Review, 2008, 10(3): 287-297.
[25] Heidorn P B. Shedding light on the dark data in the long tail of science[J]. Library Trends, 2008, 57(2): 280-299.
[26] Davenport T H, Barth P, Bean R. How big data is different[J]. MIT Sloan Management Review, 2012, 54(1): 22-24.
[27] Bozeman B, Pandey S K. Public management decision making: Effects of decision content[J]. Public Administration Review, 2004, 64(5): 553-565.
[28] Light, Paul, and George Butterworth (eds). Context and cognition: Ways of learning and knowing[M]. New York: Routledge, 2016.
[29] Girard Y, Hett F, Schunk D. How individual characteristics shape the structure of social networks[J]. Journal of Economic Behavior & Organization, 2015, 115: 197-216.
[30] Hassan, S., Antunes, L., & Arroyo, M. Deepening the demographic mechanisms in a data-driven social simulation of moral values evolution[A]. In International Workshop on Multi-Agent Systems and Agent-Based Simulation[C]. Berlin Heidelberg: Springer-Verlag, 2008.
[31] Fan W, Bifet A. Mining big data: current status, and forecast to the future[J]. ACM SIGKDD Explorations Newsletter, 2013, 14(2): 1-5.
[32] Li A S, Soh B, Bhatti M I, et al. Data-centric view of knowledge in information systems literature review[J]. International Journal of Services, Economics and Management, 2016, 7(2-4): 111-123.
[33] Madden S. From databases to big data[J]. IEEE Internet Computing, 2012, 16(3): 4-6.
[34] 大數(shù)據戰(zhàn)略重點實驗室. 塊數(shù)據[M]. 北京: 中信出版社, 2015.
[35] Frankel F, Reid R. Big data: Distilling meaning from data[J]. Nature, 2008, 455(7209): 30-30.
[36] Berman J J. Principles of big data: preparing, sharing, and analyzing complex information[M]. San Francisco: Morgan Kaufmann Publishers Inc., 2013.
[37] 王天思. 大數(shù)據中的因果關系及其哲學內涵[J]. 中國社會科學, 2016,(5):22-42.
[38} 溫有奎, 喬曉東. 大數(shù)據下智慧發(fā)現(xiàn)服務平臺研究[J]. 情報學報, 2015, 34,(11):1181-1189.
[39] Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and data engineering, 2014, 26(1): 97-107.
[40] Kostyuchenko, Y. V., Movchan, D., Kopachevsky, I., &Bilous, Y. Robust algorithm of multi-source data analysis for evaluation of social vulnerability in risk assessment tasks[A]. In SAI Intelligent Systems Conference (IntelliSys)[C]. London: IEEE, 2015.
[41] Rssler S. Data fusion: identification problems, validity, and multiple imputation[J]. Austrian Journal of Statistics, 2016, 33(1&2): 153-171.
[42] Olshannikova E, Ometov A, Koucheryavy Y, et al. Visualizing Big Data with augmented and virtual reality: challenges and research agenda[J]. Journal of Big Data, 2015, 2(1): 1-27.