• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    對(duì)大數(shù)據(jù)研究關(guān)鍵詞的聚類(lèi)分析

    2019-09-10 06:55:39劉慶悅
    大眾科學(xué)·上旬 2019年4期
    關(guān)鍵詞:數(shù)據(jù)挖掘聚類(lèi)領(lǐng)域

    劉慶悅

    摘要:大數(shù)據(jù)對(duì)全球各領(lǐng)域的理念和方法帶來(lái)了較大的影響。本文通過(guò)對(duì)近十年來(lái)大數(shù)據(jù)研究的關(guān)鍵詞進(jìn)行聚類(lèi)分析,得到了大數(shù)據(jù)研究關(guān)鍵詞的12個(gè)類(lèi)團(tuán),以便相關(guān)人員更好地了解大數(shù)據(jù)研究的主要領(lǐng)域。

    關(guān)鍵詞:大數(shù)據(jù);聚類(lèi)分析;共現(xiàn)分析

    目前,大數(shù)據(jù)還沒(méi)有一個(gè)通用且準(zhǔn)確的定義。雖然國(guó)際上有眾多對(duì)大數(shù)據(jù)的不同理解,但人們普遍認(rèn)為大數(shù)據(jù)不僅有字面上的海量數(shù)據(jù)的含義,還包括對(duì)這些數(shù)據(jù)對(duì)象的處理和應(yīng)用。在本文中,大數(shù)據(jù)被界定為使用非傳統(tǒng)處理方法,在合理時(shí)間內(nèi),對(duì)一個(gè)體量特別大、數(shù)據(jù)類(lèi)型豐富的數(shù)據(jù)集進(jìn)行深度挖掘,獲得有價(jià)值的信息的技術(shù)。一般認(rèn)為,大數(shù)據(jù)具有3V特征:即Volume(規(guī)模性)、Variety(多樣性)、Velocity(高速性)。[1]規(guī)模性表示其數(shù)據(jù)體量龐大,多樣性表達(dá)出大數(shù)據(jù)的數(shù)據(jù)來(lái)源廣、類(lèi)型豐富且不同類(lèi)型的數(shù)據(jù)間可能關(guān)聯(lián)性很強(qiáng)。而高速性強(qiáng)調(diào)處理數(shù)據(jù)的效率,這一點(diǎn)也是它與傳統(tǒng)數(shù)據(jù)挖掘最大的區(qū)別。

    本文選取中國(guó)知網(wǎng)(CNKI)的核心期刊庫(kù)作為文獻(xiàn)獲取來(lái)源,采取高級(jí)檢索,檢索式為:主題=(“大數(shù)據(jù)”),來(lái)源類(lèi)別勾選“核心期刊”并按主題排序。選取自2008年以來(lái)每年搜索結(jié)果前5頁(yè)的文獻(xiàn),共1883篇。經(jīng)過(guò)篩選刪除不相關(guān)的文獻(xiàn),最后得到1563篇文獻(xiàn)。導(dǎo)出這些文獻(xiàn)的題錄信息,以此分析大數(shù)據(jù)技術(shù)近10年來(lái)的發(fā)展規(guī)律。

    從CNKI下載的文獻(xiàn)題錄中抽取期刊論文的標(biāo)題、關(guān)鍵詞等信息,以endnot格式存入數(shù)據(jù)庫(kù)中。通過(guò)SATI文獻(xiàn)計(jì)量軟件進(jìn)行關(guān)鍵詞的提取和頻率統(tǒng)計(jì)后,共得到2008-2019時(shí)間段的4058個(gè)關(guān)鍵詞。在經(jīng)過(guò)關(guān)鍵詞的合并與刪除后,本文選取了出現(xiàn)頻次大于等于8的關(guān)鍵詞作為高頻關(guān)鍵詞,最終得到了52個(gè)高頻關(guān)鍵詞。將這52個(gè)關(guān)鍵詞兩兩配對(duì),可得到2008-2019年大數(shù)據(jù)研究關(guān)鍵詞的共現(xiàn)矩陣,如表1所示:

    表1:2008-2019年大數(shù)據(jù)研究關(guān)鍵詞的共現(xiàn)矩陣(部分)

    共現(xiàn)矩陣 數(shù)據(jù)挖掘 云計(jì)算 數(shù)據(jù)分析 圖書(shū)館 聚類(lèi) Hadoop MapReduce

    數(shù)據(jù)挖掘 93 6 8 4 5 0 0

    云計(jì)算 6 61 6 4 0 2 5

    數(shù)據(jù)分析 8 6 56 2 0 0 0

    圖書(shū)館 4 4 2 36 0 2 0

    聚類(lèi) 5 0 0 0 30 0 0

    Hadoop 0 2 0 2 0 30 7

    MapReduce 0 5 0 0 0 7 28

    在共現(xiàn)矩陣基礎(chǔ)上,轉(zhuǎn)換得到共現(xiàn)矩陣的相異矩陣,將其導(dǎo)入SPSS軟件后,可得2008-2019年大數(shù)據(jù)研究關(guān)鍵詞聚類(lèi)的樹(shù)狀圖。該圖反映出了關(guān)鍵詞間的親疏關(guān)系,關(guān)鍵詞聚合越早,其間關(guān)聯(lián)度越高;關(guān)鍵詞聚合越多,則說(shuō)明這些關(guān)鍵詞所處的類(lèi)集中程度越高。根據(jù)樹(shù)狀圖,在閾值為16.5的位置處進(jìn)行切割,可將大數(shù)據(jù)技術(shù)的相關(guān)期刊文獻(xiàn)分為12個(gè)類(lèi)團(tuán):

    K1類(lèi)研究的是大數(shù)據(jù)技術(shù)對(duì)金融業(yè)的沖擊,代表關(guān)鍵詞是互聯(lián)網(wǎng)金融、商業(yè)銀行等。它們屬于大數(shù)據(jù)應(yīng)用的一部分,但近年來(lái)由于互聯(lián)網(wǎng)對(duì)于金融領(lǐng)域的沖擊格外大,因此有很多人關(guān)注大數(shù)據(jù)技術(shù)作為一種新興的信息技術(shù)會(huì)給這個(gè)領(lǐng)域帶來(lái)什么影響。

    K2類(lèi)研究大數(shù)據(jù)技術(shù)對(duì)教育界的影響,代表關(guān)鍵詞是教育大數(shù)據(jù)。教育領(lǐng)域以大數(shù)據(jù)為基礎(chǔ)構(gòu)建學(xué)習(xí)者知識(shí)、行為、經(jīng)驗(yàn)?zāi)P?,制定其學(xué)習(xí)檔案并依此分析科學(xué)的教學(xué)策略。

    K3類(lèi)研究數(shù)據(jù)集成,即將類(lèi)型、來(lái)源不同的數(shù)據(jù)集合在一起,進(jìn)行數(shù)據(jù)和信息共享,以避免信息孤島現(xiàn)象。

    詞團(tuán)K4是對(duì)大數(shù)據(jù)核心問(wèn)題的研究。代表關(guān)鍵詞為數(shù)據(jù)分析和數(shù)據(jù)處理。它們都處于大數(shù)據(jù)處理的前兩個(gè)階段,即數(shù)據(jù)抽取集成和數(shù)據(jù)分析階段。

    K5類(lèi)是對(duì)大數(shù)據(jù)工具和處理模式進(jìn)行研究。如前文所述,大數(shù)據(jù)技術(shù)與海量數(shù)據(jù)最大的區(qū)別在于它是否能采用傳統(tǒng)的方法對(duì)數(shù)據(jù)進(jìn)行高效率的處理。因此,以Hadoop為代表的非傳統(tǒng)大數(shù)據(jù)處理工具自然成為了研究的焦點(diǎn)。

    詞團(tuán)K6中包含著兩個(gè)與大數(shù)據(jù)技術(shù)緊密相關(guān)的技術(shù):云計(jì)算和物聯(lián)網(wǎng)。它們的發(fā)展為大數(shù)據(jù)技術(shù)提供了良好的平臺(tái)和技術(shù)豐富的數(shù)據(jù)來(lái)源,而大數(shù)據(jù)技術(shù)為處理這些海量的數(shù)據(jù)提供了可能。

    K7類(lèi)研究屬性約簡(jiǎn)算法改進(jìn),它只包括粗糙集和屬性約簡(jiǎn)兩個(gè)關(guān)鍵詞。基于粗糙集理論的屬性約簡(jiǎn)主要可以用來(lái)降維處理高維數(shù)據(jù)對(duì)象,但由于原有的屬性約簡(jiǎn)算法難以處理大數(shù)據(jù)集,因此很多學(xué)者提出了其改進(jìn)算法,以保證算法的可靠。

    K8主要研究的是數(shù)據(jù),代表關(guān)鍵詞為數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,主要探討怎樣管理好這些海量的數(shù)據(jù),保證數(shù)據(jù)的質(zhì)量。

    K9類(lèi)研究大數(shù)據(jù)領(lǐng)域的隱私和安全問(wèn)題,代表關(guān)鍵詞為隱私保護(hù)和數(shù)據(jù)安全。大數(shù)據(jù)技術(shù)雖然給我們的生活帶來(lái)了便利,但也帶來(lái)了很多風(fēng)險(xiǎn),許多過(guò)去人們不想被別人知道,或連自己都不知道的習(xí)慣被大數(shù)據(jù)記錄了下來(lái)并加以分析,將最真實(shí)的我們暴露在了互聯(lián)網(wǎng)的環(huán)境下。因此我們急需保護(hù)好這些個(gè)人隱私,使之得到合理有效的利用。同時(shí),大量數(shù)據(jù)的集成也給數(shù)據(jù)的安全性問(wèn)題帶來(lái)了挑戰(zhàn)。

    K10類(lèi)探討的是大數(shù)據(jù)對(duì)情報(bào)領(lǐng)域的影響,代表關(guān)鍵詞有競(jìng)爭(zhēng)情報(bào)、情報(bào)分析等。大數(shù)據(jù)可以給情報(bào)領(lǐng)域帶來(lái)更細(xì)、更豐富的數(shù)據(jù)流,但也對(duì)該領(lǐng)域提出了更高的技術(shù)要求。

    K11類(lèi)主要研究大數(shù)據(jù)給圖書(shū)領(lǐng)域帶來(lái)的革新,代表關(guān)鍵詞有數(shù)字圖書(shū)館、知識(shí)服務(wù)等。圖書(shū)領(lǐng)域往往是較早接觸新技術(shù)的領(lǐng)域,它們的數(shù)字化程度普遍較高,接觸到的數(shù)據(jù)量也很大。面對(duì)圖書(shū)館數(shù)字化的需求,大數(shù)據(jù)技術(shù)也成為了相關(guān)學(xué)者的研究熱點(diǎn)。

    詞團(tuán)K12有關(guān)數(shù)據(jù)挖掘,以關(guān)聯(lián)規(guī)則和數(shù)據(jù)倉(cāng)庫(kù)等關(guān)鍵詞為代表。它是大數(shù)據(jù)分析最基本的研究途徑,用以探究大量數(shù)據(jù)中潛在的有價(jià)值的信息。

    詞團(tuán)K13設(shè)計(jì)聚類(lèi),以聚類(lèi)和有關(guān)方法為代表。它是數(shù)據(jù)挖掘等互聯(lián)網(wǎng)技術(shù)的基礎(chǔ)。

    詞團(tuán)K14中包含的內(nèi)容較多,主要可分為機(jī)器學(xué)習(xí)和應(yīng)用兩部分。機(jī)器學(xué)習(xí)的代表關(guān)鍵詞主要有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,它也是一項(xiàng)與大數(shù)據(jù)技術(shù)緊密聯(lián)系的信息技術(shù)。而應(yīng)用方面包括云會(huì)計(jì)、數(shù)據(jù)新聞、思想政治教育等,是大數(shù)據(jù)技術(shù)與其他各個(gè)領(lǐng)域的結(jié)合應(yīng)用。

    參考文獻(xiàn):

    [1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,(01):146-169.

    猜你喜歡
    數(shù)據(jù)挖掘聚類(lèi)領(lǐng)域
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
    領(lǐng)域·對(duì)峙
    青年生活(2019年23期)2019-09-10 12:55:43
    基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
    基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
    一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
    自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
    基于GPGPU的離散數(shù)據(jù)挖掘研究
    滨州市| 淮北市| 方城县| 德昌县| 怀柔区| 手机| 武义县| 白河县| 龙海市| 临洮县| 青海省| 桐乡市| 都江堰市| 昌吉市| 顺昌县| 马龙县| 峨边| 西城区| 余江县| 黔江区| 堆龙德庆县| 蛟河市| 乳山市| 长春市| 西华县| 新余市| 巢湖市| 景德镇市| 始兴县| 龙井市| 友谊县| 盱眙县| 平定县| 昌黎县| 时尚| 黄陵县| 英德市| 鲜城| 荥经县| 汤原县| 涿州市|