□蘇 源 王媛媛
早在1980年,著名未來學(xué)家阿爾文·托夫勒在其《第三次浪潮》中首次提到“大數(shù)據(jù)”一詞。在20世紀(jì)90年代,“數(shù)據(jù)倉庫之父”比爾·伊蒙(Bill Inmon)更明確提出了“大數(shù)據(jù)”的概念,直至2009年,隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、三網(wǎng)融合等IT 與通信技術(shù)的迅猛發(fā)展,信息社會已經(jīng)進(jìn)入了大數(shù)據(jù)(Big Data)時(shí)代。大數(shù)據(jù)改變了人們的思維模式,將數(shù)據(jù)分析的思想認(rèn)識從“向后分析”變成了“向前分析”,已經(jīng)不斷地滲透到各行各業(yè),國內(nèi)學(xué)者對其進(jìn)行了大量研究,近年來也獲得了很多研究成果,為了更好把握大數(shù)據(jù)的發(fā)展方向,對其研究成果進(jìn)行分析是很有意義的。
以“中國知識資源總庫”(CNKI)“中國期刊全文數(shù)據(jù)庫”為數(shù)據(jù)源,檢索策略定為:篇名=“大數(shù)據(jù)”or“海量數(shù)據(jù)”or“Big Data”or“Extensive Data”O(jiān)R 關(guān)鍵詞=“大數(shù)據(jù)”or“海量數(shù)據(jù)”or“Big Data”or“Extensive Data”,檢索時(shí)間截止到2013年12月進(jìn)行研究。對檢索出符合要求的大數(shù)據(jù)研究文獻(xiàn)4,333 篇進(jìn)行下載,從目標(biāo)數(shù)據(jù)集中去除非研究性文獻(xiàn)、重復(fù)文獻(xiàn)、廣告推銷等與大數(shù)據(jù)研究內(nèi)容不相關(guān)的文獻(xiàn),對于缺失值較少又可以準(zhǔn)確填充的內(nèi)容進(jìn)行補(bǔ)充,最終保留了相關(guān)文獻(xiàn)2,910 篇,對其進(jìn)行詳細(xì)分析。
(一)時(shí)間維分析。根據(jù)表1,大數(shù)據(jù)研究論文數(shù)量整體呈增長趨勢,1985年第一篇有關(guān)大數(shù)據(jù)(海量數(shù)據(jù))的研究論文發(fā)表于CNKI 期刊網(wǎng),在2005 ~2009年發(fā)展態(tài)勢趨于平緩,2009年后增長速度加快,尤其是2013年,數(shù)量達(dá)到2012年論文的4 倍多,迎來了大數(shù)據(jù)研究的高潮。由于計(jì)算機(jī)和移動(dòng)設(shè)備,企業(yè)、醫(yī)院等信息系統(tǒng)正在持續(xù)不斷創(chuàng)造出大量信息,使得處理、分析數(shù)據(jù)難度增加,吸引了更多學(xué)者的研究;國外大數(shù)據(jù)的研究氛圍與重視程度、各企業(yè)之間的競爭,對我國大數(shù)據(jù)研究起到促進(jìn)作用;國家政策也起到了推波助瀾的作用,例如2012年12月中國國際經(jīng)貿(mào)大數(shù)據(jù)研究中心成立等。
(二)期刊維分析。通過分析發(fā)現(xiàn),共有984 種期刊刊載了大數(shù)據(jù)研究論文,只刊載1 篇論文的期刊共568 種,占到期刊總量的57.72%,可見越來越多的期刊開始關(guān)注大數(shù)據(jù)研究并刊載相關(guān)論文,大數(shù)據(jù)研究正處于迅猛發(fā)展階段??d大數(shù)據(jù)研究論文大于10 篇的期刊共有56 種,大數(shù)據(jù)研究領(lǐng)域33.78%的論文刊載在5.7%的期刊上,期刊比較集中,核心期刊群基本形成。從刊載論文數(shù)量排在前十名的期刊來看,大數(shù)據(jù)研究論文更多地刊載在與計(jì)算機(jī)、信息有關(guān)的期刊上。
表1 大數(shù)據(jù)研究論文的時(shí)間分布
表2 累計(jì)刊載論文20 篇及以上的期刊
(三)作者維分析。本文提取第一作者進(jìn)行分析,領(lǐng)域論文第一作者共2,674 人,如表3 所示,發(fā)表量為1 篇的著者數(shù)占93.53%,超出了洛特卡定律60.79%的經(jīng)驗(yàn)值,而發(fā)表量為2 篇的著者人數(shù)只占到4.82%,遠(yuǎn)遠(yuǎn)低于洛特卡定律25%的經(jīng)驗(yàn)值。為了解該領(lǐng)域活躍作者,根據(jù)普賴斯定律,確定高產(chǎn)作者的計(jì)算公式為:
(四)基金維分析。在2,910 篇研究論文中,有基金資助的論文共783 篇,占論文總數(shù)的27%,共獲得基金資助1,339項(xiàng)(次),篇均基金資助0.46 項(xiàng)(次)。根據(jù)基金資助級別分成4 大類:國家級、教育部與科學(xué)院資助、省部級、其他項(xiàng)目資助,如圖1 所示。通過基金資助,會吸引更多科研人員開展研究,尤其是地理位置偏僻,經(jīng)濟(jì)水平不高,科研資源有限的西北地區(qū)。
表3 論文篇數(shù)及作者數(shù)統(tǒng)計(jì)表
表4 領(lǐng)域核心關(guān)鍵詞
圖1 領(lǐng)域基金分布圖
高頻關(guān)鍵詞在一定程度上反映了當(dāng)前大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn),從2,910 篇論文中共提取15,152 個(gè)關(guān)鍵詞,平均每篇包含5 個(gè)關(guān)鍵詞。通過內(nèi)容整理與語言統(tǒng)一,利用普賴斯公式(m=0.749 ×)確定基于詞頻的核心關(guān)鍵詞,這里nmax代表最高頻關(guān)鍵詞的詞頻,m 代表核心關(guān)鍵詞的最低詞頻。經(jīng)計(jì)算,m≈19,所以頻數(shù)大于等于19 的關(guān)鍵詞為大數(shù)據(jù)領(lǐng)域的核心關(guān)鍵詞,共有56 個(gè),如表4 所示。
圖2 高頻詞共現(xiàn)圖譜
從圖2 可以看出,頻次最多的是“大數(shù)據(jù)”與“海量數(shù)據(jù)”,處于邊緣的關(guān)鍵詞較多,說明大數(shù)據(jù)研究范圍很廣,總體上研究熱點(diǎn)集中于大數(shù)據(jù)挖掘與分析、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用和機(jī)遇與挑戰(zhàn)四個(gè)方面。
通過對大數(shù)據(jù)領(lǐng)域研究的2,910 篇論文進(jìn)行收集、整理,利用文獻(xiàn)計(jì)量法和共詞分析法,借助Excel 和Ucinet 工具,獲得國內(nèi)大數(shù)據(jù)研究的發(fā)展態(tài)勢,確定重點(diǎn)文獻(xiàn),了解發(fā)文趨勢、作者及基金資助情況,發(fā)現(xiàn)該領(lǐng)域重點(diǎn)及熱點(diǎn)問題,為本領(lǐng)域今后的研究工作提供參考和啟示。本文在各維度的分析中缺乏動(dòng)態(tài)的考量,在之后更深入的研究中可以引入。
[1]馮芷艷,郭迅華,曾大軍,陳國青.大數(shù)據(jù)背景下商務(wù)管理研究若干前言課題[J].管理科學(xué)學(xué)報(bào),2013,16(1):1 ~8
[2]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域[J].戰(zhàn)略與決策研究,2012,27(6):649
[3]陳維軍.文獻(xiàn)計(jì)量法與內(nèi)容分析法的比較研究[J].情報(bào)科學(xué),2001,19(8):884 ~886
[4]王曰芬,路菲,吳小雷.文獻(xiàn)計(jì)量和內(nèi)容分析的比較與綜合研究[J].圖書情報(bào)工作,2005,49(9):70 ~73
[5]馮璐,冷伏海.共詞分析方法理論進(jìn)展[J].中國圖書館學(xué)報(bào),2006,32(2):88 ~92
[6]張勤,馬費(fèi)成.國外知識管理研究范式——以共詞分析為方法[J].管理科學(xué)學(xué)報(bào),2007,10(6):65 ~75