厲蕊 陳素梅 陳豪
[摘 要]大數(shù)據(jù)已經(jīng)是包羅萬(wàn)象,滲透到社會(huì)發(fā)展的很多領(lǐng)域,并且還在不斷擴(kuò)大中。大數(shù)據(jù)研究的難點(diǎn)在于提取數(shù)據(jù),數(shù)據(jù)提取的核心在于網(wǎng)絡(luò)中的相關(guān)關(guān)系,而勢(shì)科學(xué)理論中的信息作用機(jī)制的“差別與聯(lián)系”也體現(xiàn)了相關(guān)關(guān)系。通過(guò)計(jì)算與比較各種數(shù)據(jù)維度的信息勢(shì),就能有效認(rèn)識(shí)大數(shù)據(jù)中各數(shù)據(jù)維度的相關(guān)關(guān)系,從而提高知識(shí)的提取能力。
[關(guān)鍵詞]大數(shù)據(jù);數(shù)據(jù)挖掘;勢(shì)科學(xué)
doi:10.3969/j.issn.1673 - 0194.2017.24.088
[中圖分類(lèi)號(hào)]TP311.13 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2017)24-0-02
1 大數(shù)據(jù)概述
大數(shù)據(jù)泛指巨量的數(shù)據(jù)集,記錄了眾多信息主體的狀態(tài)、特征、行為、偏好和思想等方面,因可從中挖掘出有價(jià)值的信息而受到全世界關(guān)注。國(guó)外對(duì)大數(shù)據(jù)的權(quán)威定義為:由科學(xué)儀器、傳感器、互聯(lián)網(wǎng)電子商務(wù)、電子郵件、音視頻軟件和網(wǎng)絡(luò)點(diǎn)擊流等眾多數(shù)據(jù)源生成的大規(guī)模、多元化、復(fù)雜、長(zhǎng)期的分布式數(shù)據(jù)集。IBM將大數(shù)據(jù)特性歸納為4V:大量化(Volume),多樣化(Variety),快速化(Velocity)和真實(shí)性(Veracity)。
大數(shù)據(jù)的主要用途為進(jìn)行分析預(yù)測(cè)和輔助決策,在政府管理、公共服務(wù)、金融投資、商業(yè)分析和企業(yè)管理等領(lǐng)域都已經(jīng)有廣泛應(yīng)用。
大數(shù)據(jù)目前應(yīng)用的主要場(chǎng)景有:驅(qū)動(dòng)企業(yè)營(yíng)銷(xiāo)創(chuàng)新,效率提升和策略?xún)?yōu)化,改善客戶(hù)體驗(yàn)和實(shí)現(xiàn)實(shí)時(shí)化,個(gè)性化產(chǎn)品與服務(wù)創(chuàng)新以及進(jìn)行風(fēng)險(xiǎn)監(jiān)控;幫助政府對(duì)重點(diǎn)管理領(lǐng)域進(jìn)行實(shí)時(shí)跟蹤和分析,提高監(jiān)管和服務(wù)效率;對(duì)環(huán)境災(zāi)害和傳染性疾病進(jìn)行提前監(jiān)測(cè),做好災(zāi)害預(yù)警防備和疾病防治。
人們平常說(shuō)的大數(shù)據(jù)實(shí)際上只是簡(jiǎn)稱(chēng),更準(zhǔn)確的叫法應(yīng)為大數(shù)據(jù)挖掘,不挖掘出大數(shù)據(jù)的價(jià)值大數(shù)據(jù)也就沒(méi)有用處、沒(méi)有意義。麥肯錫(McKinsey)指出大數(shù)據(jù)挖掘是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革,大數(shù)據(jù)將是提高創(chuàng)新、競(jìng)爭(zhēng)、生產(chǎn)力的下一個(gè)前沿陣地。
現(xiàn)階段,大數(shù)據(jù)研究與應(yīng)用正從起步階段開(kāi)始進(jìn)入深化發(fā)展階段,但還有很多技術(shù)難題有待解決,支撐的理論和方法也不夠,研究遠(yuǎn)遠(yuǎn)落后于應(yīng)用的需求。大數(shù)據(jù)挖掘需要處理的數(shù)據(jù)不僅龐大而且多源異構(gòu),有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),在類(lèi)型上又分為數(shù)字、文字、圖片、文檔、網(wǎng)頁(yè)和視頻等不同種類(lèi),并以數(shù)據(jù)流的形式快速、動(dòng)態(tài)地產(chǎn)生,導(dǎo)致大數(shù)據(jù)各數(shù)據(jù)維度之間的差異懸殊,并缺乏條理性,同時(shí)也難以清洗冗余數(shù)據(jù),給大數(shù)據(jù)研究帶來(lái)了很大困難。如何從海量、碎片化的大數(shù)據(jù)中提取出知識(shí)點(diǎn)進(jìn)行有效融合計(jì)算,并解決科研問(wèn)題,是目前亟待解決的問(wèn)題,也是當(dāng)前的研究熱點(diǎn)和難點(diǎn)。
2 勢(shì)科學(xué)概述
勢(shì)科學(xué)是李德昌教授自創(chuàng)的科學(xué)理論,是以信息為基本元的科學(xué)理論,信息是研究一切自然和社會(huì)現(xiàn)象及原理的基本元素,勢(shì)科學(xué)總結(jié)信息的有序是知識(shí),知識(shí)的有序是方法,方法的有序是智慧;知識(shí)不是簡(jiǎn)單的數(shù)據(jù)累計(jì),而是有序的可以指導(dǎo)實(shí)踐的信息。勢(shì)科學(xué)理論指出只有既有差別又有聯(lián)系的信息,才是有序的信息,才能從中提取出知識(shí),再將知識(shí)融會(huì)貫通發(fā)現(xiàn)出規(guī)律從而解決復(fù)雜問(wèn)題。
勢(shì)科學(xué)理論根植于我國(guó)傳統(tǒng)文化,也與西方自然科學(xué)理論的研究一脈相承,找到自然科學(xué)研究與社會(huì)科學(xué)研究的相同之處,在原理上也具有一致性,因此高度概括出核心概念“勢(shì)”。勢(shì)=差別×聯(lián)系=差別÷距離,勢(shì)即梯度、導(dǎo)數(shù)和斜率,勢(shì)科學(xué)的基本作用機(jī)制是勢(shì)增原理“聯(lián)系擴(kuò)大差別,差別促進(jìn)聯(lián)系”,差別最大即相反,聯(lián)系最大即相同,即相反又相同,則為對(duì)稱(chēng)。對(duì)稱(chēng)是自然界最普適、最高級(jí)的狀態(tài),歸于對(duì)稱(chēng)性原理的勢(shì)科學(xué)為研究人類(lèi)社會(huì)發(fā)展,提供了具有普適性的動(dòng)力學(xué)原理。勢(shì)科學(xué)理論在中國(guó)管理實(shí)踐、區(qū)域發(fā)展、企業(yè)治理和高等教育上已經(jīng)取得了豐碩研究成果。
3 勢(shì)科學(xué)在大數(shù)據(jù)中的應(yīng)用
3.1 勢(shì)科學(xué)視角看大數(shù)據(jù)
從勢(shì)科學(xué)視角看大數(shù)據(jù)近幾年的高速發(fā)展來(lái)源于:差別促進(jìn)聯(lián)系,聯(lián)系擴(kuò)大差別,“勢(shì)趨”不變,推動(dòng)著大數(shù)據(jù)研究加速擴(kuò)張和加速發(fā)展。另外,因?yàn)閭鹘y(tǒng)基于小樣本數(shù)據(jù)挖掘出新的價(jià)值越來(lái)越難,在追逐創(chuàng)新的驅(qū)動(dòng)下,針對(duì)大數(shù)據(jù)的挖掘順勢(shì)而來(lái)。在勢(shì)科學(xué)理論中,有序的消息稱(chēng)為信息,信息量或信息勢(shì)代表著有序信息的數(shù)量,并定義“創(chuàng)新”是系統(tǒng)過(guò)程在信息勢(shì)作用下超過(guò)某個(gè)臨界值,發(fā)生非平衡相變和非線性分叉所產(chǎn)生。正是大數(shù)據(jù)挖掘出的價(jià)值具有的信息勢(shì)夠大,超過(guò)了某個(gè)臨界值,所以大數(shù)據(jù)挖掘被視為是重要?jiǎng)?chuàng)新并獲得廣泛追捧。因此在大數(shù)據(jù)研究中,首先要找到信息量大的數(shù)據(jù)維度并根據(jù)研究的問(wèn)題提取出知識(shí),再通過(guò)進(jìn)一步分析挖掘出重要的信息,從而獲得更大的信息勢(shì),產(chǎn)生出創(chuàng)新和帶來(lái)更大價(jià)值。
3.2 大數(shù)據(jù)重點(diǎn)研究相關(guān)關(guān)系
在小樣本數(shù)據(jù)挖掘中,必須有明確的因果關(guān)系作支撐,才能保證從小樣本數(shù)據(jù)中得到的規(guī)律和價(jià)值信息是正確的。但在大數(shù)據(jù)挖掘時(shí),因?yàn)闃颖疽?guī)模巨大、涵蓋廣闊,沒(méi)有像小樣本數(shù)據(jù)中那樣以偏概全,所以?xún)H需要分析大數(shù)據(jù)之間的相關(guān)關(guān)系,就能得到正確的結(jié)果。大數(shù)據(jù)主要也是研究相關(guān)關(guān)系,畢竟在大數(shù)據(jù)這種復(fù)雜系統(tǒng)中,要解決的問(wèn)題也很復(fù)雜,更多時(shí)候是眾多相關(guān)因素共同作用下產(chǎn)生出的某種結(jié)果,同時(shí)因果關(guān)系只不過(guò)是相關(guān)關(guān)系中的特例。例如,股市的漲跌來(lái)自于宏觀經(jīng)濟(jì)基本面、市場(chǎng)情緒和政策面等多種相關(guān)因素的共同作用,而不是受某幾個(gè)特定的因素決定走勢(shì)和結(jié)果。正因?yàn)楣墒惺芴嘞嚓P(guān)因素的共同作用,數(shù)據(jù)量大又變化快,股市漲跌才如此難以預(yù)測(cè)。
可見(jiàn),相關(guān)關(guān)系分析對(duì)大數(shù)據(jù)研究意義重大。大數(shù)據(jù)挖掘本質(zhì)就是從紛繁復(fù)雜的多維大數(shù)據(jù)中根據(jù)相關(guān)關(guān)系,用數(shù)學(xué)模型、算法對(duì)大數(shù)據(jù)進(jìn)行計(jì)算,從而發(fā)現(xiàn)和總結(jié)規(guī)律,并投入實(shí)踐產(chǎn)生價(jià)值。勢(shì)科學(xué)研究的核心問(wèn)題是信息作用機(jī)制,只有相互間有相關(guān)關(guān)系即存在信息阻尼,才能產(chǎn)生作用力,也是重點(diǎn)研究相關(guān)關(guān)系。勢(shì)科學(xué)最基本的概念是差別和聯(lián)系,具有高度邏輯性和對(duì)稱(chēng)性,可以用來(lái)表示大數(shù)據(jù)各維度數(shù)據(jù)間的相關(guān)關(guān)系的不同側(cè)面。同時(shí),勢(shì)增原理“差別促進(jìn)聯(lián)系,聯(lián)系擴(kuò)大差別”,也演繹出大數(shù)據(jù)中相關(guān)信息相互作用于結(jié)果的內(nèi)在動(dòng)力學(xué)原理。因此,勢(shì)科學(xué)理論很適合分析大數(shù)據(jù)內(nèi)部的相關(guān)關(guān)系,通過(guò)深入準(zhǔn)確分析相關(guān)關(guān)系,為從中提取出知識(shí)和解決科研問(wèn)題帶來(lái)了很大幫助。
3.3 信息勢(shì)概念對(duì)大數(shù)據(jù)研究的作用
在大數(shù)據(jù)研究中,為了能得到理想結(jié)果,往往會(huì)將眾多不同來(lái)源的數(shù)據(jù)放在一起研究。此時(shí)如果只關(guān)注到數(shù)據(jù)的廣度,會(huì)造成數(shù)據(jù)維度太多,分散研究注意力,也會(huì)給研究帶來(lái)多余的問(wèn)題,所以有必要消除冗余的數(shù)據(jù)廣度,專(zhuān)注于數(shù)據(jù)的深度。如果通過(guò)人為拍腦袋覺(jué)得去掉哪些維度數(shù)據(jù),或是決定哪些維度數(shù)據(jù)更重要,這類(lèi)做法對(duì)大數(shù)據(jù)研究來(lái)說(shuō)很不嚴(yán)謹(jǐn),也不科學(xué)。大數(shù)據(jù)科學(xué)的本意就是在黑箱中用科學(xué)理論和方法摸索大數(shù)據(jù),挖掘出潛在價(jià)值,人為主觀地干涉越少越好。因此,在數(shù)據(jù)選取和主要性判斷上,需要用更科學(xué)的理論和方法處理。
在信息論中,信息被表達(dá)為負(fù)熵,負(fù)熵即意味著有序,有序構(gòu)成梯度,而梯度就是勢(shì),所以信息等于勢(shì),信息勢(shì)等價(jià)于有效信息量。如果大數(shù)據(jù)中某個(gè)數(shù)據(jù)維度在與內(nèi)部其他數(shù)據(jù)維度相關(guān)關(guān)系上,表現(xiàn)出差別較大而聯(lián)系又較緊,說(shuō)明它的有效信息量更大即信息勢(shì)更大。信息勢(shì)更大的數(shù)據(jù)維度所包含的知識(shí)也就越多,就能為解決大數(shù)據(jù)科研問(wèn)題提供更多的知識(shí)和更好的選擇,所起的作用也就更大。通過(guò)用信息勢(shì)來(lái)衡量大數(shù)據(jù)中數(shù)據(jù)維度相關(guān)關(guān)系大小,能夠幫助科研人員透過(guò)現(xiàn)象看到本質(zhì),更有效地從大數(shù)據(jù)中提取出有用的知識(shí),助力挖掘出大數(shù)據(jù)價(jià)值。
4 結(jié) 語(yǔ)
勢(shì)科學(xué)的信息作用機(jī)制完美演繹了大數(shù)據(jù)內(nèi)部相關(guān)關(guān)系的意義,通過(guò)勢(shì)科學(xué)分析大數(shù)據(jù)中數(shù)據(jù)維度的信息勢(shì),能夠解析大數(shù)據(jù)網(wǎng)絡(luò)中復(fù)雜的關(guān)系結(jié)構(gòu),能使科研人員更好地研究大數(shù)據(jù)相關(guān)關(guān)系,找到大數(shù)據(jù)中蘊(yùn)含的不同知識(shí),從而能更好地解決科研問(wèn)題,讓大數(shù)據(jù)產(chǎn)生出更大的價(jià)值。數(shù)據(jù)維度信息勢(shì)模型是建立在普適性的基礎(chǔ)上,在眾多不同類(lèi)型的大數(shù)據(jù)研究中都能用來(lái)分析大數(shù)據(jù)中的相關(guān)關(guān)系和發(fā)現(xiàn)規(guī)律,并提取出知識(shí)。
對(duì)大數(shù)據(jù)和勢(shì)科學(xué)的交叉研究還需要繼續(xù)深入下去,研究者在以后的研究中可以利用勢(shì)科學(xué)相關(guān)理論,進(jìn)行大數(shù)據(jù)知識(shí)融合、知識(shí)庫(kù)建設(shè)和復(fù)雜問(wèn)題研究,形成“數(shù)據(jù)-信息-知識(shí)-智慧-決策”的一整套完整和科學(xué)的理論與方法體系,助力大數(shù)據(jù)挖掘不斷向前發(fā)展,讓大數(shù)據(jù)的價(jià)值更好地展現(xiàn)出來(lái)并惠及社會(huì)。
主要參考文獻(xiàn)
[1]李德昌.勢(shì)科學(xué)視域中管理系統(tǒng)的邏輯機(jī)制——從整體直覺(jué)到邏輯演繹的中國(guó)管理學(xué)研究[J].管理學(xué)報(bào),2008(6).
[2]李德昌,張守鳳.基于信息本質(zhì)的不確定性機(jī)制的中國(guó)管理實(shí)踐研究及評(píng)價(jià)——?jiǎng)菘茖W(xué)視角[J].管理學(xué)報(bào),2012(8).