□陳航宇 楊 鑫 羅子江
隨著網(wǎng)絡(luò)化、信息化的普及,網(wǎng)絡(luò)數(shù)據(jù)呈爆炸式增長,云計(jì)算及人工智能等大數(shù)據(jù)技術(shù)快速興起并滲透到各個(gè)領(lǐng)域,極大改善了人們的生活。如李積雲(yún)等[1]提出一種基于大數(shù)據(jù)的智慧農(nóng)業(yè)共性信息技術(shù),改進(jìn)了農(nóng)產(chǎn)品的流通模式。王淑平等[2]在研究醫(yī)療大數(shù)據(jù)特征的基礎(chǔ)上,探討了醫(yī)療大數(shù)據(jù)的應(yīng)用體系和應(yīng)用場景。杜吉梁等[3]使用大數(shù)據(jù)技術(shù),構(gòu)建出多源數(shù)據(jù)的挖掘模型與時(shí)空分析模型,并應(yīng)用在食品安全監(jiān)管中,有效排除安全隱患。可見,大數(shù)據(jù)技術(shù)為各行各業(yè)帶來了新的思維視角,充分激發(fā)出數(shù)據(jù)對社會(huì)發(fā)展的影響與推動(dòng),具有極大的研究價(jià)值。然而當(dāng)前關(guān)于大數(shù)據(jù)技術(shù)的研究呈現(xiàn)出一種繁雜的現(xiàn)狀,亟需對本領(lǐng)域內(nèi)研究成果進(jìn)行系統(tǒng)梳理,同時(shí)也鮮有學(xué)者對文獻(xiàn)計(jì)量、知識(shí)圖譜等方法進(jìn)行遷移應(yīng)用。本文提出一種文獻(xiàn)計(jì)量和共詞分析相結(jié)合的研究方法,并運(yùn)用知識(shí)圖譜等可視化技術(shù)從多角度系統(tǒng)梳理該領(lǐng)域的學(xué)術(shù)成果,力求對后續(xù)研究提供一定借鑒。
研究數(shù)據(jù)源自中國知網(wǎng)(CNKI)期刊數(shù)據(jù)庫,選用高級檢索,以“大數(shù)據(jù)技術(shù)”為主題進(jìn)行精準(zhǔn)檢索,其中,為確保數(shù)據(jù)質(zhì)量,將期刊來源類別設(shè)定為“核心期刊+CSSCI”,共檢索出2,532篇文獻(xiàn)。經(jīng)過人工預(yù)處理,如剔除前言、寄語等無關(guān)數(shù)據(jù),獲得有效文獻(xiàn)2,465篇,共含標(biāo)題、時(shí)間、期刊、關(guān)鍵詞等9個(gè)特征。
(一)文獻(xiàn)時(shí)間分布。通過統(tǒng)計(jì)最近二十多年以來在中國知網(wǎng)對于以大數(shù)據(jù)技術(shù)為核心詞匯的文章,并仔細(xì)統(tǒng)計(jì)其各個(gè)時(shí)期的發(fā)表文章數(shù),我們可直觀地展示出發(fā)文量隨年份的變化狀況,發(fā)現(xiàn)大數(shù)據(jù)技術(shù)領(lǐng)域中的發(fā)文數(shù)量呈現(xiàn)先緩慢波動(dòng)后迅速增長并逐漸趨至平穩(wěn)的總體發(fā)展態(tài)勢,具體可以分成三個(gè)階段。第一階段是1997年至2011年,該期間內(nèi)發(fā)文量上下浮動(dòng),但年文獻(xiàn)量均低于4篇,正值“大數(shù)據(jù)技術(shù)”領(lǐng)域的萌芽期。第二階段是2012年至2017年,發(fā)文量與年均增幅都有較大提升,可稱作快速發(fā)展期。第三階段是2018年至今,發(fā)文量的年均增幅較小,呈平穩(wěn)波動(dòng),是該領(lǐng)域的穩(wěn)定發(fā)展期。
(二)文獻(xiàn)期刊分布。對大數(shù)據(jù)技術(shù)領(lǐng)域中的期刊分布情況進(jìn)行統(tǒng)計(jì),結(jié)果發(fā)現(xiàn),2,465篇相關(guān)論文共分布在750種核心期刊內(nèi),其中《現(xiàn)代電子技術(shù)》和《人民論壇》的期刊載文量最多,分別是43次和42次,均篇被引用5.6次和4.4次。而《電子政務(wù)》和《現(xiàn)代教育技術(shù)》的總引用量較多,分別為1,347次和1,111次,均篇被引用35.4次和55.6次。整體而言,我國研究大數(shù)據(jù)技術(shù)的文獻(xiàn)主要集中在管理學(xué)、計(jì)算機(jī)科學(xué)和情報(bào)學(xué)等學(xué)科相關(guān)的期刊,是促進(jìn)本領(lǐng)域發(fā)展的中堅(jiān)力量。
(三)發(fā)文機(jī)構(gòu)分布。本文將期刊文獻(xiàn)的第一單位視為統(tǒng)計(jì)指標(biāo)進(jìn)行分析,我們通過仔細(xì)對比發(fā)現(xiàn)發(fā)文機(jī)構(gòu)主要來自全國各大高校,其中文獻(xiàn)數(shù)量排名前三的分別為:清華大學(xué)(73篇)、中國人民大學(xué)(55篇)、武漢大學(xué)(52篇)。同時(shí),如圖1所示還可以發(fā)現(xiàn),這些機(jī)構(gòu)地處科技發(fā)達(dá)的城市,有效推動(dòng)了大數(shù)據(jù)技術(shù)的進(jìn)步和發(fā)展,也表明非發(fā)達(dá)地區(qū)在大數(shù)據(jù)技術(shù)相關(guān)文獻(xiàn)發(fā)表上還需要進(jìn)一步加大力度,在大數(shù)據(jù)技術(shù)的研究上讓全國均衡仍然任重道遠(yuǎn)。
圖1 發(fā)文機(jī)構(gòu)分布
(四)文獻(xiàn)作者分布。此部分主要依據(jù)普賴斯定律來統(tǒng)計(jì)大數(shù)據(jù)技術(shù)領(lǐng)域內(nèi)的高產(chǎn)作者,計(jì)算公式為M=0.749×(Nmax)1/2,其中Nmax表示作者的最高發(fā)文數(shù)。經(jīng)統(tǒng)計(jì),發(fā)現(xiàn)Nmax=11,計(jì)算M=2.48,取整,即發(fā)文量在3篇及以上的視為高產(chǎn),共有128人。統(tǒng)計(jì)發(fā)現(xiàn),南京審計(jì)大學(xué)陳偉發(fā)文量最高(11),其研究內(nèi)容多以大數(shù)據(jù)技術(shù)在審計(jì)學(xué)中的應(yīng)用和實(shí)踐為主。江蘇師范大學(xué)楊現(xiàn)民和南京大學(xué)甄峰等發(fā)文量也較高,均為8。
(一)高頻關(guān)鍵詞分析。關(guān)鍵詞是一篇論文的主要概括與研究重點(diǎn),可以反映該研究領(lǐng)域內(nèi)熱點(diǎn)。實(shí)驗(yàn)中我們使用Python對關(guān)鍵詞進(jìn)行提取和詞頻統(tǒng)計(jì)。結(jié)果發(fā)現(xiàn)2,465篇文獻(xiàn)共涉及關(guān)鍵詞6,029個(gè),總詞頻11,527,關(guān)鍵詞平均頻次1.801。表1列出部分詞頻較高的關(guān)鍵詞,從中可知,“大數(shù)據(jù)”的詞頻最高,為1,376次,“大數(shù)據(jù)技術(shù)”和“大數(shù)據(jù)時(shí)代”的頻數(shù)均在130次以上,分別為385和135次。其他頻數(shù)在60次以上的關(guān)鍵詞有“人工智能”“數(shù)據(jù)挖掘”“云計(jì)算”“物聯(lián)網(wǎng)”“信息技術(shù)”等,這些頻次較高的詞匯在一定程度上表示了本領(lǐng)域的研究熱點(diǎn),之后的關(guān)鍵詞共現(xiàn)分析進(jìn)一步說明了這一點(diǎn)。
表1 高頻關(guān)鍵詞統(tǒng)計(jì)表
(二)關(guān)鍵詞共現(xiàn)分析。為更好地挖掘關(guān)鍵詞之間的潛在關(guān)系與動(dòng)態(tài)變化,在完成了高頻關(guān)鍵詞的統(tǒng)計(jì)以后,實(shí)驗(yàn)中我們還在文中截取詞頻不低于7的132個(gè)關(guān)鍵詞進(jìn)行研究,并構(gòu)建出一個(gè)132×132的共現(xiàn)矩陣(如表2所示),表2中的數(shù)值是兩兩關(guān)鍵詞在同一篇文獻(xiàn)內(nèi)的共現(xiàn)次數(shù),對角線上數(shù)值是該關(guān)鍵詞的自身詞頻,從表2可知,“大數(shù)據(jù)”與“大數(shù)據(jù)技術(shù)”共現(xiàn)24次、與“人工智能”共現(xiàn)91次。這樣的統(tǒng)計(jì)結(jié)果表明,在對于大數(shù)據(jù)技術(shù)的研究中,目前有關(guān)“大數(shù)據(jù)”、“大數(shù)據(jù)技術(shù)”、“大數(shù)據(jù)時(shí)代”、“人工智能”、“數(shù)據(jù)挖掘”、“云計(jì)算”等重要內(nèi)容是目前的研究熱點(diǎn),未來有關(guān)這方面的研究也將成為重點(diǎn)。
表2 關(guān)鍵詞共現(xiàn)矩陣(部分)
(三)關(guān)鍵詞知識(shí)圖譜。共現(xiàn)矩陣中132個(gè)關(guān)鍵詞的總頻數(shù)為4,036,占全部關(guān)鍵詞的35.01%,高于知識(shí)圖譜構(gòu)建要求的27%,達(dá)到分析標(biāo)準(zhǔn)。本文借助Gephi軟件依據(jù)表2繪制“大數(shù)據(jù)技術(shù)”領(lǐng)域的關(guān)鍵詞知識(shí)圖譜,該圖譜共包括132個(gè)關(guān)鍵詞和1,800條共現(xiàn)邊。每一圓形節(jié)點(diǎn)代表一個(gè)相應(yīng)的關(guān)鍵詞,大小是其頻數(shù)高低,連線代表各關(guān)鍵詞間的關(guān)系,其粗細(xì)為共現(xiàn)頻數(shù)的高低,節(jié)點(diǎn)顏色及深淺代表關(guān)鍵詞的相似類別。居于圖譜中心位置的是“大數(shù)據(jù)”,與四周“大數(shù)據(jù)技術(shù)”“大數(shù)據(jù)時(shí)代”“人工智能”“數(shù)據(jù)挖掘”等詞匯的連線較多,關(guān)系緊密,表明這些關(guān)鍵詞是組成整個(gè)圖譜的核心結(jié)構(gòu),為本領(lǐng)域的研究重點(diǎn)。同時(shí),根據(jù)節(jié)點(diǎn)顏色還可以分成3個(gè)類別,第一類是圖譜右側(cè)的橙黃色節(jié)點(diǎn)區(qū)域,以“大數(shù)據(jù)技術(shù)”為中心,聚集了“大數(shù)據(jù)分析”“深度學(xué)習(xí)”“機(jī)器學(xué)習(xí)”“云計(jì)算技術(shù)”“數(shù)據(jù)挖掘”等關(guān)鍵詞;第二類是圖譜中心地帶區(qū)域,以“大數(shù)據(jù)”為中心,聚集了“人工智能”“互聯(lián)網(wǎng)+”“區(qū)塊鏈”“可視化”和“信息化”等關(guān)鍵詞;第三類是圖譜下側(cè)的粉色節(jié)點(diǎn)區(qū)域,以“教育大數(shù)據(jù)”為中心,聚集了“智慧教育”“學(xué)習(xí)分析”“智慧城市”“公共管理”“個(gè)性化學(xué)習(xí)”等關(guān)鍵詞。
本文以中國知網(wǎng)(CNKI)中已發(fā)表的2,465篇文獻(xiàn)為樣本,系統(tǒng)梳理了大數(shù)據(jù)技術(shù)領(lǐng)域中近年來的高質(zhì)量研究成果。通過對文獻(xiàn)時(shí)間、期刊、機(jī)構(gòu)、作者和關(guān)鍵詞共現(xiàn)等多方面分析,有效揭示出我國大數(shù)據(jù)技術(shù)領(lǐng)域的現(xiàn)有研究狀況和發(fā)展態(tài)勢,指出有關(guān)大數(shù)據(jù)技術(shù)、人工智能、數(shù)據(jù)挖掘、大數(shù)據(jù)分析、云計(jì)算、物聯(lián)網(wǎng)、區(qū)塊鏈等主要研究方向不僅是現(xiàn)在大數(shù)據(jù)技術(shù)方面的重點(diǎn)研究領(lǐng)域,在未來多年這幾個(gè)方向都將是研究熱點(diǎn)。文章借助知識(shí)圖譜等方法將結(jié)果可視化呈現(xiàn),有助于人們對本領(lǐng)域進(jìn)行更好地理解,并為未來研究者提供參考。