摘 要:繼云計算、云平臺之后,大數(shù)據(jù)又悄悄成為時下熱詞,“今天你云了嗎?”的問候語,也變成了“今天你大數(shù)據(jù)了嗎?”什么是大數(shù)據(jù)?大數(shù)據(jù)就是數(shù)據(jù)多、數(shù)據(jù)大?大數(shù)據(jù)與以往的數(shù)據(jù)(我們不妨先稱之為“小數(shù)據(jù)”)有什么區(qū)別?以上問題值得我們深思與探究。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)應(yīng)用;結(jié)合教育
“大數(shù)據(jù)”一詞早在20世紀40年代就已出現(xiàn),百度、互聯(lián)網(wǎng)周刊、IBM,許多機構(gòu)都為大數(shù)據(jù)給出了定義,在《大數(shù)據(jù)時代》一書中,作者將數(shù)據(jù)、技術(shù)與思維并列為三大角色,我認為大數(shù)據(jù)正是這三者的統(tǒng)一,即數(shù)據(jù)本身,數(shù)據(jù)處理技術(shù),數(shù)據(jù)應(yīng)用思維。下面我們就從數(shù)據(jù)、技術(shù)、思維三個方面看看大數(shù)據(jù)與小數(shù)據(jù)有什么不同,來幫助大家更好地理解大數(shù)據(jù)。
一、 大數(shù)據(jù)時代來了
數(shù)據(jù)本身我們并不陌生,日常生活中充滿了數(shù)據(jù),人類對數(shù)據(jù)的使用早在上古時代就已開始,人們通過對日、月位置及四季的變化來制訂歷法,就是一個完整的數(shù)據(jù)采集、分析與應(yīng)用的過程。小數(shù)據(jù)時代我們對數(shù)據(jù)分析更多是定性也定量的,大數(shù)據(jù)時代對數(shù)據(jù)的定義與之相比還有差異,一是數(shù)據(jù)量的加大。大數(shù)據(jù)是利用所有數(shù)據(jù),而不依賴于隨機樣本,這種全數(shù)據(jù)的模式,成功地避開了樣本數(shù)量與樣本選擇對結(jié)果的不良影響;二是數(shù)據(jù)的生命周期更長了。當我們處理一條信息時,一定會關(guān)注信息的時效性,比如當飛機成功降落后,在一個較短的時間內(nèi),對于我們來說相關(guān)的信息被認為已經(jīng)失去意義。然而在大數(shù)據(jù)時代,數(shù)據(jù)的生命周期更長了,我們可以通過對一名乘客以往的飛行記錄來分析預(yù)測他下次飛行的時間及目的,從而制定相應(yīng)的推銷計劃;三是非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了更多的位置。小數(shù)據(jù)時代數(shù)據(jù)分析的對象更多是線性的,結(jié)構(gòu)化的數(shù)據(jù)。大數(shù)據(jù)時代非結(jié)構(gòu)化數(shù)據(jù)日益增加,數(shù)據(jù)格式更是紛繁蕪雜,文字的、圖片的、各類報表、音頻的、視頻的,數(shù)據(jù)的數(shù)量、種類、結(jié)構(gòu)都發(fā)生了巨大的變化。
這里的技術(shù)是指數(shù)據(jù)分析技術(shù),小數(shù)據(jù)時代我們分析更多的是結(jié)構(gòu)化數(shù)據(jù),追求數(shù)據(jù)的準確性。在大數(shù)據(jù)時代,結(jié)構(gòu)化的數(shù)據(jù)只能占到5%甚至更少,我們需要面對分析的更多是非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)量的增大,非結(jié)構(gòu)化數(shù)據(jù)的增加,數(shù)據(jù)格式的不統(tǒng)一,讓我們不得不接受數(shù)據(jù)的混雜和不精確。比如我們在搜索引擎中輸入“三通”,我們得到的結(jié)果可能是海峽兩岸三通,可能是教育“三通兩平臺”,還有可能是水暖產(chǎn)品。當然實際情況要復雜的多,越是非結(jié)構(gòu)化的數(shù)據(jù),其分析處理難度就越大,對技術(shù)的要求就越高,我們盡可能地為文章加注關(guān)鍵詞也是降低處理難度的一種方式。這種數(shù)據(jù)的不準確性并不影響我們對大數(shù)據(jù)的使用,大數(shù)據(jù)的核心是預(yù)測,這種預(yù)測是用概率來說話的,有時我們不得不接受一個問題不是只有唯一答案的結(jié)果。
大數(shù)據(jù)時代對數(shù)據(jù)的分析更多是相關(guān)關(guān)系,而不是因果關(guān)系。在小數(shù)據(jù)時代我們對數(shù)據(jù)的分析,是希望通過對數(shù)據(jù)的分析找出不同變量間的因果關(guān)系,從而達到對生產(chǎn)、生活的指導。而大數(shù)據(jù)時代并不糾結(jié)于數(shù)據(jù)的因果,而更多的關(guān)注“是什么”,至于“為什么”的問題放在了次要的位置,比如通過對數(shù)據(jù)的分析,我們看到每天上網(wǎng)時長在半小時到1小時之間的學生,平均成績要更高,那我們要做的首先就是創(chuàng)造相應(yīng)的條件,其次才會去深入研究其中的因果關(guān)系。
大數(shù)據(jù)時代,數(shù)據(jù)量及數(shù)據(jù)的來源不斷增加,數(shù)據(jù)分析技術(shù)日益更新,然而擁抱大數(shù)據(jù)時代還要從思想認識上更準確的理解大數(shù)據(jù),IT(Information Technology)既要有信息,也要有技術(shù),沒有信息,技術(shù)就是無源之水;沒有技術(shù),信息只是毫無意義的“0、1”堆積。在大數(shù)據(jù)時代,同樣重要的還有思維,首先要認識數(shù)據(jù)的價值,然后采用合理的分析方法得出結(jié)論,最終將其轉(zhuǎn)化為價值。數(shù)據(jù)不應(yīng)只是擺在政府官員桌上的報告,也不應(yīng)只是年終總結(jié)的種種圖表,數(shù)據(jù)應(yīng)成為可利用,可創(chuàng)造價值的資源,數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用三者應(yīng)形成一個良好的閉環(huán),形成政府支持、服務(wù)社會、產(chǎn)業(yè)反哺的數(shù)據(jù)產(chǎn)業(yè)良性發(fā)展。
大數(shù)據(jù)時代已經(jīng)來臨,大數(shù)據(jù)帶給我們的是全新的數(shù)據(jù)分析與使用方式,是全新的思維與觀念,是巨大的機遇與挑戰(zhàn),面對大數(shù)據(jù)帶來的變革,有清晰的認識與明確的規(guī)劃是我們的當務(wù)之急。
二、 中國的數(shù)據(jù)建設(shè)現(xiàn)狀
在中國,早在2002年,國家“四大基礎(chǔ)數(shù)據(jù)庫”的概念就被提出,即人口基礎(chǔ)信息庫、法人單位基礎(chǔ)信息庫、自然資源和空間地理基礎(chǔ)信息庫、宏觀經(jīng)濟數(shù)據(jù)庫(見《國家信息化領(lǐng)導小組關(guān)于我國電子政務(wù)建設(shè)指導意見》)。雖然《意見》中將“四大基礎(chǔ)數(shù)據(jù)庫”作為國家電子政務(wù)建設(shè)的重要組成部分提出,但其具體的技術(shù)規(guī)范和實現(xiàn)方法未能明確,“四大基礎(chǔ)數(shù)據(jù)庫”的建設(shè)現(xiàn)狀并不令人樂觀。
中國數(shù)據(jù)產(chǎn)業(yè)大都還停留在數(shù)據(jù)采集與交易的初級形態(tài),與國外相比還存在數(shù)據(jù)量小,尤其是公共數(shù)據(jù)量??;數(shù)據(jù)分析、使用手段簡單,數(shù)據(jù)增值不足;立法與規(guī)范不足,數(shù)據(jù)濫用等問題。
十二屆全國人大三次會議上,李克強總理在政府工作報告中首次提出“互聯(lián)網(wǎng)+”行動計劃。十八屆五中全會公報提出要實施“國家大數(shù)據(jù)戰(zhàn)略”,第一次將大數(shù)據(jù)寫入黨的全會決議,標志著大數(shù)據(jù)戰(zhàn)略正式上升為國家戰(zhàn)略。
三、 教育大數(shù)據(jù)
在教育方面,2012年劉延東副總理(時任國務(wù)委員)提出:“要以建設(shè)好‘三通兩平臺為抓手,也就是‘寬帶網(wǎng)絡(luò)校校通、優(yōu)質(zhì)資源班班通、網(wǎng)絡(luò)學習空間人人通,建設(shè)教育資源公共服務(wù)平臺和教育管理公共服務(wù)平臺?!毕破鹆私逃畔⒒ㄔO(shè)又一次高潮,其中“兩平臺”建設(shè)正是我們迎接大數(shù)據(jù)時代的良好契機。
“兩平臺”建設(shè)是指教育管理公共服務(wù)平臺和教育資源公共服務(wù)平臺(以下簡稱管理平臺和資源平臺),目前全國各省均在如火如荼的進行這項建設(shè)工作。其中教育管理公共服務(wù)平臺。采用“兩級建設(shè),五級應(yīng)用”的建設(shè)模式,即圍繞國家教育改革發(fā)展的中心任務(wù),按照國家和省兩級數(shù)據(jù)中心建設(shè),中央、省、市(地)、縣和學校五級應(yīng)用的基本思路、建設(shè)覆蓋全國,各級各類教育的學校、教師、學生的信息管理系統(tǒng)。同時教育管理公共服務(wù)平臺在資金解決和數(shù)據(jù)中心建設(shè)方面均有指導性意見。國家級教育資源公共服務(wù)平臺已經(jīng)建成,各省如何建設(shè)沒有明確的意見。endprint
我認為兩平臺并非兩個孤立的平臺,在建設(shè)、應(yīng)用等層面兩平臺都有密不可分的聯(lián)系,兩平臺應(yīng)做到數(shù)據(jù)互通,相互融合,這樣有利于大數(shù)據(jù)的分析。
“大數(shù)據(jù)的挖掘主要是網(wǎng)絡(luò)化環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)挖掘”,“在非結(jié)構(gòu)化數(shù)據(jù)挖掘中,會自然進行數(shù)據(jù)清洗和和逐步強形式化,自然形成半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),以提高數(shù)據(jù)使用效率”。對大數(shù)據(jù)的分析與利用很大程度上要轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),以便我們找出其中的規(guī)律。同樣,結(jié)構(gòu)化的數(shù)據(jù)也是我們做大數(shù)據(jù)分析的重要依據(jù),通過結(jié)構(gòu)化的數(shù)據(jù)我們可以更精確地分析教師與學生的不同,不同學生之間的個體差異。
如果說管理平臺是實現(xiàn)管理現(xiàn)代化的重要基礎(chǔ),資源平臺就是教學應(yīng)用最主要的系統(tǒng),在教師和學生的應(yīng)用過程將產(chǎn)生海量的數(shù)據(jù),這些數(shù)據(jù)絕大多數(shù)是非結(jié)構(gòu)化數(shù)據(jù),如果僅僅是將這些數(shù)據(jù)作為資源存儲起來,這是對數(shù)據(jù)資源的一種浪費,千百萬教師、學生應(yīng)用的過程、軌跡,這些有價值的數(shù)據(jù)被忽略了。對這些數(shù)據(jù)的分析,可以告訴我們教師、學生喜歡用什么樣的資源,哪些系統(tǒng)對提高學生成績有幫助,他們的使用習慣是什么,這些是可用于再創(chuàng)造價值的信息,我們要做的絕不僅是將資源簡單的堆積。
管理平臺可以為資源平臺實現(xiàn)實名認證提供支持,通過實名認證將兩平臺有機聯(lián)系起來,為日后實現(xiàn)大數(shù)據(jù)分析與應(yīng)用打基礎(chǔ)。大數(shù)據(jù)發(fā)展的障礙,在于數(shù)據(jù)的“流動性”和“可獲取性”,美國、英國、印度均有數(shù)據(jù)公開的措施、舉動。數(shù)據(jù)資源不同于任何一種自然資源,它不會越用越少,甚至枯竭,而是隨著數(shù)據(jù)的應(yīng)用、匯聚,它會愈發(fā)壯大、再生。我們建設(shè)的管理公共服務(wù)平臺從字面上看,它應(yīng)該提供公共服務(wù),而不應(yīng)成為上報統(tǒng)計系統(tǒng)或者簡單的查詢系統(tǒng),它應(yīng)提供豐富的數(shù)據(jù)接口,充分發(fā)揮數(shù)據(jù)的價值。
前面提過管理平臺的建設(shè)模式是“兩級建設(shè),五級應(yīng)用”,市以下的教育部門不再部署。學校在信息化建設(shè)過程中,有很多系統(tǒng)都需要教師、學生信息,需要信息管理系統(tǒng)的支持,這種需求如何解決?自行再部署一套學籍管理系統(tǒng)和人事管理系統(tǒng),加大了工作量不說,如何保證兩套系統(tǒng)數(shù)據(jù)的一致性?如何利用學生在資源服務(wù)平臺的學習軌跡把握學生學習的特點,從而制訂更有針對性的學習方法?對學生各類數(shù)據(jù)的應(yīng)用如何保證其合法性,有效的維護個人隱私?以上的種種問題都需要我們進行認真的考慮。
“兩平臺”建設(shè)應(yīng)開放接口,統(tǒng)一標準,為基礎(chǔ)應(yīng)用提供數(shù)據(jù)支持。教育部2012年發(fā)布了《教育管理信息 教育管理基礎(chǔ)代碼》等七個教育信息化行業(yè)標準,而實際情況是,各地,尤其是縣、校兩級信息化建設(shè)中很少或根本不考慮這些行業(yè)標準,究其原因一個是基層信息化建設(shè)缺乏指導,對標準、規(guī)范認識不足,這似乎不是聘請幾個專家參與方案制訂或招標能夠解決的;另一個更重要的原因是不考慮這些行業(yè)標準似乎沒有什么影響,工程一樣進行,成績一樣斐然。如果統(tǒng)一建設(shè)的管理平臺提供數(shù)據(jù)共享接口,其他后續(xù)平臺能且只能由此獲得基礎(chǔ)數(shù)據(jù),那么這些行業(yè)標準就不是可有可無了。
“兩平臺”建設(shè)更應(yīng)考慮數(shù)據(jù)運營的模式與規(guī)范,保證數(shù)據(jù)應(yīng)用的合法與健康。大數(shù)據(jù)要流通、要分享,數(shù)據(jù)開放需要信任,要獲取信任就要有隱私保護措施做基礎(chǔ)。我們不僅要共享數(shù)據(jù),更應(yīng)在一個可執(zhí)行性強的數(shù)據(jù)應(yīng)用規(guī)則下共享,讓人們感到數(shù)據(jù)是安全的,隱私是有保障的。這是一個體系的建設(shè),而不是簡單的一紙文件,既要保證數(shù)據(jù)的應(yīng)用符合國家法律規(guī)定,也要保證其符合全社會的一般道德規(guī)范,避免對個人行為的量化與評估。
“兩平臺”是教育領(lǐng)域的基礎(chǔ)應(yīng)用平臺,其重要性不言而喻,為加快“兩平臺”建設(shè),提升“兩平臺”應(yīng)用效果,達到建、用的和詣統(tǒng)一,我認為應(yīng)建立基于我省“兩平臺”數(shù)據(jù)使用的教育數(shù)據(jù)應(yīng)用規(guī)范。
最后,大數(shù)據(jù)不是什么神秘的法寶,它是一種資源、一種工具,我們既不能畏懼它,也不能被它的神圣光環(huán)所迷惑。我國基礎(chǔ)數(shù)據(jù)庫建設(shè)存在缺乏頂層設(shè)計、各自為政、重復建設(shè)等弊端,為應(yīng)對大數(shù)據(jù)時代的來臨,更好地實施國家大數(shù)據(jù)戰(zhàn)略,在頂層設(shè)計,運行機制、立法規(guī)范、人才培養(yǎng)方面還有大量工作要做,讓我們善用大數(shù)據(jù)。
參考文獻:
[1]國家信息化領(lǐng)導小組關(guān)于我國電子政務(wù)建設(shè)指導意見(中辦發(fā)〔2002〕17號)[S].
[2]劉延東.國務(wù)委員在全國教育信息化工作電視電話會議上的講話[R].
[3]教育部等九部門關(guān)于加快推進教育信息化當前幾項重點工作的通知[R].
[4]李德毅.大數(shù)據(jù)挖掘帶動的變遷[N].中國信息化周報,2014年6月9日.
[5]田溯寧.擁抱“大數(shù)據(jù)時代”——《大數(shù)據(jù)時代》推薦序一[J].
[6][英]維克·托邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[J].
作者簡介:
劉晉東,山西省太原市,山西省電化教育館。endprint