• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      讓大數(shù)據(jù)分析更可信

      2017-04-21 08:06:34王騰蛟李喜蓮
      大數(shù)據(jù) 2017年2期
      關(guān)鍵詞:數(shù)據(jù)源海量方法

      王騰蛟,李喜蓮

      北京大學(xué)信息科學(xué)技術(shù)學(xué)院,北京 100871

      讓大數(shù)據(jù)分析更可信

      王騰蛟,李喜蓮

      北京大學(xué)信息科學(xué)技術(shù)學(xué)院,北京 100871

      大數(shù)據(jù)在學(xué)術(shù)界和產(chǎn)業(yè)界的各個(gè)領(lǐng)域正扮演著愈加重要的角色,但同時(shí),大數(shù)據(jù)是否可信,引發(fā)了無(wú)數(shù)研究者的廣泛關(guān)注和激烈討論。從大數(shù)據(jù)名稱的歷史演變、大數(shù)據(jù)應(yīng)用的案例分析以及大數(shù)據(jù)工程的角度探索大數(shù)據(jù)的可信程度,并由此總結(jié)出保證大數(shù)據(jù)分析正確性需要解決的3個(gè)挑戰(zhàn):正確選擇數(shù)據(jù)源、科學(xué)抽樣有代表性和有價(jià)值的數(shù)據(jù)、嚴(yán)謹(jǐn)完備的大數(shù)據(jù)工程分析方法。

      大數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù);海量數(shù)據(jù);大數(shù)據(jù)工程

      1 引言

      《Nature》大數(shù)據(jù)專欄曾經(jīng)論述數(shù)據(jù)在數(shù)學(xué)、物理、工程、社會(huì)及經(jīng)濟(jì)等領(lǐng)域扮演著愈加重要的角色,《光明日?qǐng)?bào)》報(bào)道,以“社交網(wǎng)絡(luò)分析”“觀點(diǎn)挖掘”等大數(shù)據(jù)技術(shù)為基礎(chǔ)的人文社會(huì)科學(xué)研究方法逐漸被采納,并成為重要的發(fā)展方向,人文社會(huì)科學(xué)的大數(shù)據(jù)研究必然會(huì)成為人文社會(huì)科學(xué)的主流領(lǐng)域之一。因此,學(xué)術(shù)界大數(shù)據(jù)已經(jīng)成為眾多學(xué)科的一種科研方法,工業(yè)界依據(jù)大數(shù)據(jù)的分析結(jié)果進(jìn)行決策支持的方法已被廣泛應(yīng)用于各個(gè)行業(yè)。大數(shù)據(jù)是否可信,引發(fā)了人們的激烈討論。

      本文主要從大數(shù)據(jù)的歷史演變、大數(shù)據(jù)分析的可信性以及大數(shù)據(jù)工程的角度,分析大數(shù)據(jù)面臨的機(jī)遇和挑戰(zhàn)以及如何應(yīng)用科學(xué)合理的工程方法保證大數(shù)據(jù)分析的正確性。

      2 大數(shù)據(jù)名稱的歷史演變

      從數(shù)據(jù)管理系統(tǒng)誕生以來(lái),人們對(duì)如何管理和分析“大”數(shù)據(jù)的期望不斷提高,同時(shí)也在努力探索數(shù)據(jù)管理和數(shù)據(jù)分析的新技術(shù)與新方法。從數(shù)據(jù)庫(kù)領(lǐng)域的研究者來(lái)看,當(dāng)前大數(shù)據(jù)概念的誕生,有其歷史必然性,并有一個(gè)清晰的演變軌跡:從超大規(guī)模數(shù)據(jù)庫(kù)(very large data base,VLDB)的發(fā)展到海量數(shù)據(jù)(massive data)的興起,再到當(dāng)前大數(shù)據(jù)(big data)的熱潮。

      2.1 20世紀(jì)70—80年代:VLDB的發(fā)展

      20世紀(jì)70—80年代,人們用VLDB描述管理大規(guī)模數(shù)據(jù)的技術(shù)。

      這一時(shí)期的數(shù)據(jù)管理技術(shù)有了突破性的進(jìn)展,即誕生了關(guān)系數(shù)據(jù)庫(kù)的概念,關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)在產(chǎn)業(yè)界快速發(fā)展。1970年,“關(guān)系數(shù)據(jù)庫(kù)之父”Codd E F博士在期刊《Communications of the ACM》上發(fā)表了一篇名為《A relational model of data for large shared data banks》的論文,提出關(guān)系模型的概念,奠定了關(guān)系模型的理論基礎(chǔ)。其后涌現(xiàn)了很多關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),其代表產(chǎn)品有Oracle、IBM公司的DB2、微軟公司的MS SQL Server以及Informix等。有了關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)的支撐,數(shù)據(jù)管理的規(guī)模顯著提高,人們管理數(shù)據(jù)的能力也大大增強(qiáng)。

      同時(shí),大量的研究學(xué)者和學(xué)術(shù)會(huì)議聚焦于探討新的應(yīng)用領(lǐng)域面臨的數(shù)據(jù)管理問(wèn)題和技術(shù)挑戰(zhàn)。1975年,第一屆VLDB學(xué)術(shù)會(huì)議在美國(guó)馬薩諸塞州的費(fèi)雷明漢召開(kāi)。經(jīng)過(guò)幾十年的發(fā)展,現(xiàn)在VLDB學(xué)術(shù)會(huì)議已成為數(shù)據(jù)庫(kù)領(lǐng)域中最主要、規(guī)模最大的國(guó)際學(xué)術(shù)會(huì)議之一。

      2.2 20世紀(jì)90年代—21世紀(jì)初:海量數(shù)據(jù)的興起

      20世紀(jì)90年代—21世紀(jì)初,人們開(kāi)始用海量數(shù)據(jù)來(lái)描述管理和分析大規(guī)模數(shù)據(jù)的技術(shù)。

      這一時(shí)期的數(shù)據(jù)管理技術(shù)有了另一項(xiàng)突破性的進(jìn)展:“數(shù)據(jù)倉(cāng)庫(kù)”和“數(shù)據(jù)挖掘”技術(shù)從概念走向應(yīng)用。20世紀(jì)90年代初,美國(guó)著名信息工程專家Inmon W H在其里程碑式的著作《Building the data warehouse》提出“數(shù)據(jù)倉(cāng)庫(kù)”的概念,認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題、集成、相對(duì)穩(wěn)定、反映歷史變化的數(shù)據(jù)集合,是用于決策支持的知識(shí)管理。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)不同,其重點(diǎn)不是數(shù)據(jù)的簡(jiǎn)單堆積,而是從容量龐大型數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),并將其清理、轉(zhuǎn)換為新的存儲(chǔ)格式和集中統(tǒng)一、隨時(shí)可用的知識(shí)和信息。“數(shù)據(jù)挖掘”也是隨“數(shù)據(jù)倉(cāng)庫(kù)”產(chǎn)生的一個(gè)新概念,是一個(gè)自動(dòng)或半自動(dòng)化地從大量數(shù)據(jù)中發(fā)現(xiàn)有效、有意義、潛在有用、易于理解的數(shù)據(jù)模式的復(fù)雜過(guò)程。

      20世紀(jì)90年代后期,全球的數(shù)據(jù)資源高速增長(zhǎng),主要體現(xiàn)在兩個(gè)方面:一是互聯(lián)網(wǎng)及其應(yīng)用的快速發(fā)展產(chǎn)生了海量數(shù)據(jù);二是各個(gè)行業(yè)大批成熟的業(yè)務(wù)信息系統(tǒng)投入運(yùn)行,并積累了海量數(shù)據(jù)。此時(shí)人們認(rèn)識(shí)到,數(shù)據(jù)是一種寶貴的資源,但還沒(méi)有充分發(fā)揮作用。

      在學(xué)術(shù)界,1 9 9 1年、1 9 9 3年、1994年相繼舉行了數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(knowledge discovery in database,KDD)專題討論會(huì),并于1995年由專題討論會(huì)發(fā)展成為國(guó)際會(huì)議年會(huì)。1999年,國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)中設(shè)立了“網(wǎng)絡(luò)環(huán)境下海量信息的組織與處理的理論與方法研究”項(xiàng)目,探索并解決網(wǎng)絡(luò)環(huán)境下?lián)碛泻A啃畔ⅰ⑦\(yùn)行海量進(jìn)程的服務(wù)軟件系統(tǒng)的設(shè)計(jì)、實(shí)現(xiàn)和維護(hù)中的重大問(wèn)題。

      2.3 當(dāng)前:大數(shù)據(jù)的熱潮

      當(dāng)前全球的大數(shù)據(jù)熱潮,無(wú)論深度還是廣度都超過(guò)了VLDB和海量數(shù)據(jù)時(shí)代。

      但是大數(shù)據(jù)熱潮也帶來(lái)了巨大的爭(zhēng)議。一種觀點(diǎn)認(rèn)為大數(shù)據(jù)技術(shù)推動(dòng)了新的應(yīng)用;另一種觀點(diǎn)則認(rèn)為,當(dāng)前的大數(shù)據(jù)缺少革命性的技術(shù)進(jìn)展,是廣泛的應(yīng)用需求再次激發(fā)了對(duì)數(shù)據(jù)管理和分析技術(shù)的探索。然而,全社會(huì)畢竟開(kāi)始認(rèn)識(shí)到數(shù)據(jù)的重要性,計(jì)算機(jī)科學(xué)家畢竟Lee T B曾經(jīng)強(qiáng)調(diào)數(shù)據(jù)的價(jià)值:數(shù)據(jù)的價(jià)值將使得比系統(tǒng)本身更持久(data is a precious thing and will last longer than the systems themselves)。全球大數(shù)據(jù)市場(chǎng)規(guī)模如圖1所示。

      大數(shù)據(jù)的出現(xiàn)吸引了政府和科學(xué)領(lǐng)域的研究熱潮,有支持者也有反對(duì)者。

      在政府與國(guó)際關(guān)系方面,2012年3月29日奧巴馬政府公布了“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,旨在幫助美國(guó)提升從海量和復(fù)雜的數(shù)據(jù)中獲取知識(shí)的能力,將大數(shù)據(jù)的研究上升為國(guó)家意志。

      在科學(xué)研究方面,2 0 0 8年9月《Nature》雜志出版了一期大數(shù)據(jù)???,論述數(shù)據(jù)在數(shù)學(xué)、物理、工程及社會(huì)、經(jīng)濟(jì)等領(lǐng)域扮演的愈加重要的角色。2011年2月,《Science》也推出了一期關(guān)于數(shù)據(jù)處理的???,從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟(jì)學(xué)、超級(jí)計(jì)算、環(huán)境科學(xué)等多個(gè)方面介紹了海量數(shù)據(jù)帶來(lái)的技術(shù)挑戰(zhàn)。2012年11月7日,微軟發(fā)布《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》,大數(shù)據(jù)科研方法從之前的實(shí)驗(yàn)歸納型科研、模型推演型科研、計(jì)算模擬型科研推進(jìn)到第四范式—— 數(shù)據(jù)密集型科研。

      圖1 全球大數(shù)據(jù)市場(chǎng)規(guī)模

      反對(duì)的言論也有很多,比如以機(jī)器學(xué)習(xí)領(lǐng)域著名學(xué)者Jordan M I教授為代表的反對(duì)者認(rèn)為,“大數(shù)據(jù)的冬天”將要來(lái)臨。

      仔細(xì)分析反對(duì)者的態(tài)度,并沒(méi)有否定大數(shù)據(jù)的發(fā)展趨勢(shì)。反對(duì)者認(rèn)為,海量數(shù)據(jù)確實(shí)可以經(jīng)過(guò)分析得到一定的結(jié)論,但是面對(duì)同樣的數(shù)據(jù),不同的方法可能得到的結(jié)論是矛盾的。并且大數(shù)據(jù)從“定義”到“4V(volume, variety, velocity, value)”,僅僅強(qiáng)調(diào)了數(shù)據(jù)的特點(diǎn),并沒(méi)有強(qiáng)調(diào)新的規(guī)范高效的數(shù)據(jù)管理技術(shù),才引發(fā)了大家在大數(shù)據(jù)核心技術(shù)方面的爭(zhēng)議。

      3 大數(shù)據(jù)是否可信

      在大數(shù)據(jù)的熱潮中,大數(shù)據(jù)已經(jīng)成為學(xué)術(shù)界眾多學(xué)科的一種科研方法,在產(chǎn)業(yè)界,依據(jù)大數(shù)據(jù)的分析結(jié)果進(jìn)行決策支持的方法已被廣泛應(yīng)用于各個(gè)行業(yè)。但是人們注意到,大數(shù)據(jù)有成功亦有失敗的案例,在這個(gè)背景下,大數(shù)據(jù)是否可信,引發(fā)了人們的激烈討論。

      大數(shù)據(jù)在政治[1]、經(jīng)濟(jì)[2]和文化[3]領(lǐng)域獲得了一些成功應(yīng)用,如股票預(yù)測(cè)、房?jī)r(jià)漲跌預(yù)測(cè)、政治情感預(yù)測(cè)等。羅伯特·邦德等人在《Nature》雜志上發(fā)文比較了網(wǎng)絡(luò)社會(huì)網(wǎng)絡(luò)①互聯(lián)網(wǎng)下的社交網(wǎng)絡(luò),如Facebook或者Twitter和面對(duì)面社會(huì)網(wǎng)絡(luò)②真實(shí)的社交網(wǎng)絡(luò)影響政治行為的路徑。他們?cè)?010年美國(guó)國(guó)會(huì)大選期間對(duì)6 100萬(wàn)個(gè)Facebook用戶實(shí)施了一項(xiàng)發(fā)送政治動(dòng)員消息的隨機(jī)控制實(shí)驗(yàn),研究發(fā)現(xiàn),這些消息直接影響了數(shù)百萬(wàn)人的政治的自我表達(dá)、信息尋找和現(xiàn)實(shí)生活中的投票行為[1]?!禨cience》上另外一篇文章談到“用大數(shù)據(jù)分析世界文化中心的興衰”,使用谷歌Freebase收集和分析15萬(wàn)人出生和死亡的時(shí)間、地點(diǎn)數(shù)據(jù)。他們利用這些計(jì)算機(jī)領(lǐng)域看似很少的數(shù)據(jù),驚奇地發(fā)現(xiàn)“歷史事件和人口遷移變化之間的聯(lián)系,而這些歷史事件通常鮮為人知,人們通常忽略了他們的歷史意義”[3]。大數(shù)據(jù)的這些成功應(yīng)用促使大家注重用大數(shù)據(jù)的方法解決問(wèn)題,并且大數(shù)據(jù)技術(shù)正在不斷改善著人們的研究視野、研究方法和研究工具。

      3.1 重新審視“谷歌預(yù)測(cè)流行病錯(cuò)誤”

      2008年,谷歌公司擬定了一系列高科技衛(wèi)生計(jì)劃,并投資1 500萬(wàn)美元預(yù)防下一代全球性流行病。用各地區(qū)網(wǎng)民搜索“流行病”關(guān)鍵詞(比如溫度計(jì)、流感癥狀、胸悶等)的數(shù)目,預(yù)測(cè)流行病爆發(fā)的時(shí)間、地點(diǎn)。谷歌公司第一次開(kāi)始預(yù)測(cè)流感就取得了很好的效果,比美國(guó)疾病預(yù)防控制中心(Centers for Disease Control and Prevention,CDC)提前兩個(gè)星期預(yù)測(cè)到了流感的爆發(fā)。但美國(guó)流感季節(jié)的到來(lái)似乎讓谷歌公司的算法有些措手不及,它估計(jì)的流感峰值幾乎是CDC的兩倍,有些地方的數(shù)據(jù)甚至顯示出更大的差距[4]。

      《Nature》和《Science》上也抨擊了谷歌公司的這項(xiàng)計(jì)劃,“這些系統(tǒng)反應(yīng)快,覆蓋人群范圍廣,但是也有著很多弊端”。這在當(dāng)時(shí)被認(rèn)為是“big data”的“big error”,反對(duì)方認(rèn)為出現(xiàn)這一失誤的原因在于,僅僅按照點(diǎn)擊頻率預(yù)測(cè)流行病的工程方法是有問(wèn)題的,因?yàn)殛P(guān)鍵詞點(diǎn)擊和現(xiàn)實(shí)理解有差距,點(diǎn)擊并不代表患病。

      其他研究者則把目光投向了Twitter。Twitter可能是除社交媒體外,可供公眾選擇的一個(gè)獲取信息的最大渠道。約翰斯?霍普金斯大學(xué)的團(tuán)隊(duì)最近已經(jīng)對(duì)幾千條與流感相關(guān)的Twitter信息進(jìn)行了分析,以便梳理出哪些信息是由真正患有流感的民眾發(fā)布,哪些僅僅只是在發(fā)布流感新聞的鏈接。

      從《Nature》和《Science》對(duì)谷歌公司預(yù)測(cè)流行病錯(cuò)誤的批評(píng)可以看出,擁有了數(shù)據(jù)之后,應(yīng)該從不同角度加以審視,確保對(duì)數(shù)據(jù)的來(lái)源、驗(yàn)證方法、控制手段以及是否有臟數(shù)據(jù)等問(wèn)題都了如指掌,才能開(kāi)展下一步的數(shù)據(jù)分析。Twitter的結(jié)果進(jìn)一步證明了數(shù)據(jù)源固然重要,但是選取和抽樣合理的樣本、采用符合實(shí)際的分析方法,才能得出合理的結(jié)論。否則即使擁有再大的數(shù)據(jù)集,脫離場(chǎng)景來(lái)談大數(shù)據(jù)的應(yīng)用,長(zhǎng)久而言也會(huì)收獲甚微。

      3.2 研究現(xiàn)狀

      最近幾年大數(shù)據(jù)的失敗案例屢見(jiàn)不鮮,導(dǎo)致錯(cuò)誤的原因也有很多。2015年,Gartner公司分析師Svetlana Sicular對(duì)于大數(shù)據(jù)項(xiàng)目的失敗,全面總結(jié)出7個(gè)主要原因,并劃分3個(gè)大類:戰(zhàn)略、技術(shù)、分析。戰(zhàn)略方面的失敗提到選擇了錯(cuò)誤的應(yīng)用場(chǎng)景;技術(shù)層面的失敗包括無(wú)法應(yīng)對(duì)料想外的問(wèn)題和缺乏大數(shù)據(jù)分析技能,表明目前存在的大數(shù)據(jù)技術(shù)手段都不太成熟,沒(méi)有標(biāo)準(zhǔn)的處理流程;數(shù)據(jù)分析本身的失敗包括,對(duì)數(shù)據(jù)過(guò)于自信(如谷歌公司的流感預(yù)測(cè)),提出了錯(cuò)誤的問(wèn)題,應(yīng)用了錯(cuò)誤的模型。雖然目前大數(shù)據(jù)結(jié)合了眾多學(xué)科研究的方法,比如數(shù)據(jù)科學(xué)的興起,與神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、語(yǔ)義計(jì)算以及人工智能等其他相關(guān)技術(shù)的結(jié)合,逐漸成為大數(shù)據(jù)分析領(lǐng)域的熱點(diǎn)。但缺乏完整規(guī)范的理論體系和技術(shù)體系作為支撐,導(dǎo)致部分嘗試以失敗告終。

      那么大數(shù)據(jù)能否作為一種科研方法以及是否可信?從以上案例分析總結(jié)3個(gè)方面:正確選擇數(shù)據(jù)源、科學(xué)抽樣有代表性和有價(jià)值的數(shù)據(jù)、嚴(yán)謹(jǐn)完備的大數(shù)據(jù)工程分析方法,在某種程度上是決定大數(shù)據(jù)成功與否的關(guān)鍵。但是目前還是存在很多由于錯(cuò)誤數(shù)據(jù)源導(dǎo)致的失敗案例,而且也沒(méi)有形成科學(xué)的抽樣方法,值得一提的是,近兩年已經(jīng)在全球范圍內(nèi)興起大數(shù)據(jù)的標(biāo)準(zhǔn)化工作。

      3.3 數(shù)據(jù)源的選擇

      哈佛商學(xué)院客座教授托馬斯·達(dá)文波特(Davenport T H)寫了一本名為《Keeping up with the quants》的新書,其中認(rèn)為,管理大數(shù)據(jù)項(xiàng)目的一個(gè)重要部分是要問(wèn)正確的問(wèn)題:如何定義問(wèn)題、需要哪些數(shù)據(jù)、來(lái)自哪里等。說(shuō)明了大數(shù)據(jù)研究中非常重要的一點(diǎn)是數(shù)據(jù)源的選擇。

      近兩年來(lái),大數(shù)據(jù)被應(yīng)用到天氣預(yù)報(bào)、影視制片、交通、商場(chǎng)等與人們息息相關(guān)的行業(yè)。不同的行業(yè)必須選擇領(lǐng)域相關(guān)、主題相關(guān)的數(shù)據(jù),要先明確期望的目標(biāo),再確定正確的數(shù)據(jù)源,最后才可能利用大數(shù)據(jù)分析技術(shù)得到期望的結(jié)果?!都埮莆荨愤x擇用戶的電影評(píng)分?jǐn)?shù)據(jù),基于對(duì)觀眾偏好的分析,預(yù)測(cè)、設(shè)計(jì)觀眾喜歡的劇情,找觀眾喜愛(ài)的演員出演相關(guān)的角色,甚至可以預(yù)測(cè)票房。京東集團(tuán)選擇每天積累的上億用戶購(gòu)買行為數(shù)據(jù),分析出消費(fèi)者的個(gè)人興趣,以數(shù)據(jù)驅(qū)動(dòng)算法,從而實(shí)現(xiàn)精準(zhǔn)推薦。數(shù)據(jù)源的正確選擇是充分利用大數(shù)據(jù)時(shí)代帶來(lái)的巨大價(jià)值的首要條件。

      3.4 大數(shù)據(jù)的抽樣

      有一種觀點(diǎn)認(rèn)為,大數(shù)據(jù)得到的是數(shù)據(jù)的全集,不再需要傳統(tǒng)的抽樣方法。然而這種觀點(diǎn)也遭到了很多的質(zhì)疑,甚至是批評(píng)。

      社會(huì)調(diào)查是典型的數(shù)據(jù)抽樣方法,通常被認(rèn)為是用代表性樣本測(cè)量和分析公眾意見(jiàn)中有關(guān)社會(huì)和政治問(wèn)題的科學(xué)方法。盡管如此,社會(huì)調(diào)查還是受到其樣本量小、更新速度慢、無(wú)響應(yīng)率高以及昂貴成本的限制[5,6]。近些年來(lái),網(wǎng)絡(luò)空間大數(shù)據(jù)成為獲取和理解公眾輿論的新資源,因?yàn)樗臄?shù)據(jù)量大、更新速度快,并且容易獲得[7,8]。例如,這些網(wǎng)絡(luò)空間的意見(jiàn)被用來(lái)預(yù)測(cè)票房[9]和政治選舉[10]。然而,一些科學(xué)家持有相反的觀點(diǎn),例如有些專家認(rèn)為,互聯(lián)網(wǎng)輿情系統(tǒng)得到的結(jié)果往往是偏激的,數(shù)據(jù)雖然大,但代表的更多的是一類偏激人群的觀點(diǎn)。他們懷疑,由于網(wǎng)絡(luò)空間和現(xiàn)實(shí)世界之間的輿論差異,社會(huì)調(diào)查不能被大數(shù)據(jù)取代,除非這種差異可以量化和科學(xué)地消除[11]。

      在大數(shù)據(jù)時(shí)代,如何利用大數(shù)據(jù)解放社會(huì)調(diào)查的限制,又能將科學(xué)合理的抽樣方法應(yīng)用于大數(shù)據(jù)分析,或者構(gòu)建一套針對(duì)海量數(shù)據(jù)抽樣的科學(xué)方法,是大數(shù)據(jù)分析的關(guān)鍵,也是一個(gè)值得重視的新的研究方向。

      3.5 大數(shù)據(jù)工程

      軟件工程是當(dāng)前軟件危機(jī)誕生時(shí)產(chǎn)生的一項(xiàng)技術(shù),用于保證大規(guī)模軟件開(kāi)發(fā)的質(zhì)量。

      大數(shù)據(jù)分析顯然是一個(gè)巨大的工程,如何保證這個(gè)工程正確實(shí)施,也是一個(gè)值得關(guān)注的研究方向。如果能夠像軟件工程方法一樣,利用完備的理論體系、技術(shù)體系和測(cè)試體系,也許大數(shù)據(jù)的一些失敗可以避免,并且能夠得到更廣泛的應(yīng)用。

      總之,科學(xué)嚴(yán)謹(jǐn)?shù)拇髷?shù)據(jù)研究需要大家沉下心做工程分析,重視采用科學(xué)的工程方法,評(píng)估從數(shù)據(jù)收集到應(yīng)用的每一個(gè)技術(shù)環(huán)節(jié)。比如借鑒“軟件工程”的概念,建立、完善和補(bǔ)充大數(shù)據(jù)從獲取、整理、存儲(chǔ)、索引到查詢與檢索、分析與挖掘、加工與展現(xiàn)的整個(gè)生命周期的基礎(chǔ)理論、技術(shù)方法以及系統(tǒng)。這兩年,在全球范圍內(nèi)興起了對(duì)大數(shù)據(jù)的標(biāo)準(zhǔn)化工作,為國(guó)內(nèi)加快大數(shù)據(jù)標(biāo)準(zhǔn)化研究提供了很好的機(jī)會(huì)。2014年6月,中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院編制的大數(shù)據(jù)標(biāo)準(zhǔn)化白皮書詳細(xì)描述了大數(shù)據(jù)標(biāo)準(zhǔn)化要完成的詳細(xì)工作,包括基礎(chǔ)標(biāo)準(zhǔn)、數(shù)據(jù)處理、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、產(chǎn)品和平臺(tái)、應(yīng)用和服務(wù)等各個(gè)方面,說(shuō)明業(yè)界已經(jīng)開(kāi)始重視大數(shù)據(jù)作為一種科研方法的規(guī)范化。期待未來(lái)的大數(shù)據(jù)工程可以保證大數(shù)據(jù)分析的正確性。

      4 結(jié)束語(yǔ)

      本文從3個(gè)方面分析了大數(shù)據(jù)面臨的機(jī)遇和挑戰(zhàn),即大數(shù)據(jù)的歷史演變、大數(shù)據(jù)分析的可信性以及大數(shù)據(jù)工程。

      大數(shù)據(jù)概念的誕生,與其歷史演變軌跡密不可分:從VLDB到海量數(shù)據(jù),再到當(dāng)前的大數(shù)據(jù),每一個(gè)階段都吸引了學(xué)術(shù)界的廣泛關(guān)注,并促進(jìn)了產(chǎn)業(yè)界大規(guī)模數(shù)據(jù)管理和分析技術(shù)的迅猛發(fā)展。

      大數(shù)據(jù)時(shí)代帶來(lái)的巨大效益顯而易見(jiàn),同時(shí)大數(shù)據(jù)時(shí)代的不確定性和失敗的前車之鑒也給很多領(lǐng)域帶來(lái)了挑戰(zhàn)。由于缺乏科學(xué)合理的理論體系和技術(shù)體系,眾多專家質(zhì)疑大數(shù)據(jù)是否可信。保證大數(shù)據(jù)分析的正確性,需要應(yīng)對(duì)3個(gè)重要挑戰(zhàn),即選擇正確的數(shù)據(jù)源,抽樣有代表性和有價(jià)值的數(shù)據(jù),再加上完備的大數(shù)據(jù)工程分析方法,期待未來(lái)的大數(shù)據(jù)工程可以保證大數(shù)據(jù)分析的正確性。

      [1]BOND R M, FARISS C J, JONES J J, et al. A 61-million-person experiment in social influence and political mobilization[J]. Nature, 2012, 489(7415): 295-298.

      [2]EINAV L, LEVIN J. Economics in the age of big data[J]. Science, 2014, 346(6210):1243089.

      [3]SCHICH M, SONG C, AHN Y Y, et al. Anetwork framework of cultural history[J]. Science, 2014, 345(6196): 558-562.

      [4]KHOURY M J, IOANNIDIS J P A. Big data meets public health[J]. Science, 2014, 346(6213): 1054-1055.

      [5]CURTIN R, PRESSER S, SINGER E. Changes in telephone survey nonresponse over the past quarter century[J]. Public Opinion Quarterly, 2005, 69(1): 87-98.

      [6]WEISBERG H F. The total survey error approach: a guide to the new science of survey research[M]. Chicago: University of Chicago Press, 2005.

      [7]CROSAS M, KING G, HONAKER J, et al. Automating open science for big data[J]. The Annals of the American Academy of Political and Social Science, 2015, 659(1): 260-273.

      [8]KING G. Ensuring the data-rich future of the social sciences[J]. Science, 2011, 331(6018): 719-721.

      [9]ASUR S, HUBERMAN B A. Predicting the future with social media[C]//2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT), Aug 31-Sept 3, 2010, Toronto, Canada. New Jersey: IEEE Press, 2010: 492-499.

      [10]CONNOR B O, BALASUBRAMANYAN R, ROUTLEDGE B R, et al. From tweets to polls: linking text sentiment to public opinion time series[C]//4th Int'l AAAI Conference on Weblogs and Social Media, May 23-26, 2010, Washington, DC, USA. [S.l.: s.n.], 2010.

      [11]GOLDER S A, MACY M W. Digital footprints: opportunities and challenges for online social research[J]. Annual Review of Sociology, 2014, 40(1): 129-152.

      Making big data analysis more credible

      WANG Tengjiao, LI Xilian
      School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China

      Big data is playing an increasingly important role in various areas of academia and industry. However, whether big data can be trusted has caused widespread concern and intense discussion among countless researchers. The credibility of big data from the historical evolution of big data names, case studies of big data applications and big data engineering was explored, and thus the three challenges needed to be addressed to ensure the correctness of big data analysis were concluded: the right choice of data source, the scientific sampling of representative and valuable data, the rigorous and complete big data engineering analysis method.

      big data, data warehouse, massive data, big data engineering

      TP391

      A

      10.11959/j.issn.2096-0271.2017017

      王騰蛟(1973-),男,北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師,北京大學(xué)文理大數(shù)據(jù)研究中心常務(wù)副主任,主要研究方向?yàn)閿?shù)據(jù)庫(kù)管理系統(tǒng)、互聯(lián)網(wǎng)數(shù)據(jù)分析、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘等。

      李喜蓮(1992-),女,北京大學(xué)信息科學(xué)技術(shù)學(xué)院碩士生,主要研究方向?yàn)榇髷?shù)據(jù)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等。

      2017-01-06

      國(guó)家自然科學(xué)基金資助項(xiàng)目(No. 61572043);國(guó)家重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目(No. 2016YFB1000704)

      Foundation Items: The National Natural Science Foundation of China (No. 61572043), The National Key Research and Development Program (No. 2016YFB1000704)

      猜你喜歡
      數(shù)據(jù)源海量方法
      一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
      海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
      可能是方法不對(duì)
      一個(gè)圖形所蘊(yùn)含的“海量”巧題
      用對(duì)方法才能瘦
      Coco薇(2016年2期)2016-03-22 02:42:52
      四大方法 教你不再“坐以待病”!
      Coco薇(2015年1期)2015-08-13 02:47:34
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
      捕魚
      临湘市| 乌拉特前旗| 天气| 敦化市| 宁津县| 衡阳县| 台中市| 许昌县| 元朗区| 沂水县| 商丘市| 星座| 秦安县| 象山县| 乌拉特前旗| 始兴县| 新邵县| 黑水县| 宣威市| 宜宾市| 横山县| 镇沅| 屏东市| 大安市| 平舆县| 溆浦县| 石首市| 乐至县| 武山县| 肇源县| 塔城市| 辽源市| 靖宇县| 西和县| 门源| 土默特右旗| 德安县| 石城县| 屯昌县| 曲松县| 长寿区|