金露
(安徽財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233041)
數(shù)據(jù)挖掘 (Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn) (KDD),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式,它是數(shù)據(jù)庫研究中的一個(gè)具有很高應(yīng)用價(jià)值的新領(lǐng)域,融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)[2]。本文從涉及數(shù)據(jù)挖掘的關(guān)鍵詞角度出發(fā),采用共詞分析法對高頻關(guān)鍵詞進(jìn)行研究。通過分析,了解目前以及未來數(shù)據(jù)挖掘研究的熱點(diǎn)領(lǐng)域,了解我國數(shù)據(jù)挖掘的發(fā)展現(xiàn)狀,以期更好地推動我國數(shù)據(jù)挖掘的發(fā)展。
(一)數(shù)據(jù)的收集與整理
本文選擇“中國學(xué)術(shù)期刊全文數(shù)據(jù)庫”為數(shù)據(jù)來源,期刊來源類別為“核心期刊”,題名中包括“數(shù)據(jù)挖掘”,時(shí)間范圍是2005-2009年,共檢索到相關(guān)文獻(xiàn)1289篇。這些論文發(fā)表在366種學(xué)術(shù)期刊上,期刊發(fā)文數(shù)的分布呈現(xiàn)冪指數(shù)分布(y=132.11X-0.8689)。
從發(fā)文期刊的情況看,《現(xiàn)代商場化》的發(fā)文數(shù)為80,在眾多期刊中位列第一,其次為《計(jì)算機(jī)工程與應(yīng)用》,發(fā)文數(shù)為74,第三是《計(jì)算機(jī)工程與設(shè)計(jì)》,發(fā)文數(shù)為55。位列前十的還有:《計(jì)算機(jī)工程》、 《微計(jì)算機(jī)信息》、 《計(jì)算機(jī)應(yīng)用研究》、《計(jì)算機(jī)科學(xué)》、《情報(bào)雜志》、《計(jì)算機(jī)應(yīng)用》、《統(tǒng)計(jì)與決策》。從發(fā)文期刊的分布情況來看,數(shù)據(jù)挖掘技術(shù)的研究應(yīng)用主要集中在商業(yè)與計(jì)算機(jī)領(lǐng)域。
關(guān)鍵詞是為了文獻(xiàn)標(biāo)引工作而從學(xué)術(shù)論文中選擇出來用以表示全文主題內(nèi)容信息款目的單詞和術(shù)語。某一學(xué)術(shù)研究領(lǐng)域較長時(shí)域內(nèi)的大量學(xué)術(shù)研究成果的關(guān)鍵詞的集合,可以揭示研究成果的總體內(nèi)容特征、研究內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的發(fā)展脈絡(luò)與發(fā)展方向等[3]。筆者檢索得到的1289篇期刊論文中共有關(guān)鍵詞4692個(gè),篇均3.64個(gè)。
由于關(guān)鍵詞是未規(guī)范的自然詞語,筆者利用手工方式對關(guān)鍵詞進(jìn)行清洗,主要有以下兩種方式:
1、合并。這種方式是把表達(dá)內(nèi)容一致的詞用一個(gè)常用的詞來代替。如Apriori模型、Apriori算法等用Apriori替代,CRM用客戶關(guān)系管理替代。
2、舍棄。這種方式主要針對系統(tǒng)自動生成的關(guān)鍵詞,這類關(guān)鍵詞無法準(zhǔn)確表達(dá)文章的主要內(nèi)容,舍棄這類關(guān)鍵詞。另外還有如“應(yīng)用”、“算法”等名詞,不適合做為關(guān)鍵詞,也將其舍棄。通過上面兩種方式,最后得到2061個(gè)關(guān)鍵詞,從中選取頻次大于等于10的關(guān)鍵詞作為高頻關(guān)鍵詞 (見表1),共提取出36個(gè)高頻詞,占關(guān)鍵詞總數(shù)的1.75%,出現(xiàn)頻次共為1934次,占總體的41.2%。
表1 高頻關(guān)鍵詞
(二)數(shù)據(jù)處理及分析。
在期刊論文、學(xué)位論文、會議論文等文獻(xiàn)當(dāng)中,存在著一些關(guān)鍵詞經(jīng)常同時(shí)出現(xiàn)在同一篇文獻(xiàn)中的現(xiàn)象,這種現(xiàn)象稱為關(guān)鍵詞共現(xiàn)現(xiàn)象[4]。根據(jù)關(guān)鍵詞共現(xiàn)矩陣,構(gòu)建社會網(wǎng)絡(luò)圖,反映研究領(lǐng)域的親疏關(guān)系。通過各節(jié)點(diǎn)的中心性指標(biāo),分析目前以及未來的研究熱點(diǎn)。
1、社會網(wǎng)絡(luò)分析。社會網(wǎng)絡(luò)分析主要指網(wǎng)絡(luò)中心勢分析,網(wǎng)絡(luò)中心勢是反映關(guān)鍵詞網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的差異性程度,包括點(diǎn)度中心勢、中間中心勢以及接近中心勢[4]。
圖1 高頻關(guān)鍵詞社會網(wǎng)絡(luò)圖
通過Excle軟件,計(jì)算出36個(gè)高頻關(guān)鍵詞的共現(xiàn)矩陣,利用Ucinet軟件,把關(guān)鍵詞共現(xiàn)矩陣數(shù)據(jù)轉(zhuǎn)換成社會網(wǎng)絡(luò)圖 (見圖1),得到網(wǎng)絡(luò)整體的點(diǎn)度中心勢指標(biāo)值是29.92%。,中間中心勢指標(biāo)值是15.17%。由于該網(wǎng)絡(luò)中存在孤立點(diǎn)GIS,因此無法計(jì)算接近中心勢。從結(jié)果看,網(wǎng)絡(luò)的集中趨勢并不非常明顯。
2、節(jié)點(diǎn)中心性分析。
節(jié)點(diǎn)的中心性是指每個(gè)關(guān)鍵詞在網(wǎng)絡(luò)中所處的地位,分為點(diǎn)度中心度、中間中心度以及接近中心度。通過Ucinet得到了36個(gè)關(guān)鍵詞的三個(gè)中心性指標(biāo)的數(shù)據(jù) (見表2),進(jìn)行歸一化處理 (將表2中A、B、C各列的數(shù)值除以該列數(shù)據(jù)的最大值)得到歸一化數(shù)據(jù) (見圖2)。
從圖2可以看出以下幾點(diǎn):
(1)隨著點(diǎn)度中心度指標(biāo)遞減,接近中心度呈現(xiàn)上升趨勢,但是差異不大。根據(jù)接近中心度很難判定哪些方面處于研究的核心地位。
(2)關(guān)聯(lián)規(guī)則的點(diǎn)度中心度和中間中心度都最高,接近中心度最小,由此可知,關(guān)聯(lián)規(guī)則在網(wǎng)絡(luò)中處于核心地位,是當(dāng)前研究的熱門話題。同時(shí),關(guān)鍵詞網(wǎng)絡(luò)也反應(yīng)了此現(xiàn)象。
(3)關(guān)聯(lián)規(guī)則、聚類分析、決策樹、遺傳算法這4個(gè)關(guān)鍵詞的點(diǎn)度中心度和中間中心度都比較高,這反應(yīng)出目前的研究重點(diǎn)為數(shù)據(jù)挖掘的算法技術(shù)領(lǐng)域。近幾年,數(shù)據(jù)挖掘技術(shù)的日益成熟,已在保險(xiǎn)、零售、金融等行業(yè)廣泛流傳。
(4)此外,Web數(shù)據(jù)挖掘的點(diǎn)度中心度雖然不高,但中間中心度較高,表明目前Web數(shù)據(jù)挖掘的地位不高,但是正逐步成為研究熱點(diǎn)。其影響也越來越高,Web數(shù)據(jù)挖掘影響其他關(guān)鍵詞的能力也越來越強(qiáng)。
表2 關(guān)鍵詞的中心性數(shù)據(jù)
圖2 三個(gè)中心性指標(biāo)的歸一化數(shù)據(jù)
本文通過高頻關(guān)鍵詞的網(wǎng)絡(luò)中心勢分析以及節(jié)點(diǎn)中心性分析,對國內(nèi)數(shù)據(jù)挖掘領(lǐng)域的研究有了較深入把握,得出以下結(jié)論:
(一)數(shù)據(jù)挖掘的研究內(nèi)容方面
通過高頻關(guān)鍵詞的節(jié)點(diǎn)中心性分析,看出關(guān)聯(lián)規(guī)則是目前研究的熱門話題,以關(guān)聯(lián)規(guī)則為首,聚類分析,決策樹、遺傳算法等數(shù)據(jù)挖掘技術(shù)是當(dāng)前的研究重點(diǎn),Web數(shù)據(jù)挖掘是未來的研究趨勢。
(二)數(shù)據(jù)挖掘研究存在的主要問題
1、數(shù)據(jù)挖掘的理論研究與應(yīng)用研究脫節(jié)。當(dāng)前,數(shù)據(jù)挖掘的研究主要集中在理論層次,如數(shù)據(jù)挖掘的技術(shù)、方法、任務(wù)等方面,對其應(yīng)用研究相對不足。筆者認(rèn)為,目前理論研究已經(jīng)達(dá)到一定的高度,應(yīng)用研究的發(fā)展沒有跟上理論研究的步伐,應(yīng)充分利用理論研究的成果,為應(yīng)用研究服務(wù),擴(kuò)大其研究范圍的深度和廣度。
2、數(shù)據(jù)挖掘的研究領(lǐng)域冷熱不均。根據(jù)數(shù)據(jù)挖掘各文獻(xiàn)的發(fā)文期刊統(tǒng)計(jì)結(jié)果可以看出,數(shù)據(jù)挖掘的研究領(lǐng)域主要涉及商業(yè)及計(jì)算機(jī)方面,反應(yīng)了研究領(lǐng)域存在冷熱不均現(xiàn)象。有效解決“冷門”問題,要求研究人員有創(chuàng)新意識,從不同角度,不同層次利用數(shù)據(jù)挖掘,更好地發(fā)揮數(shù)據(jù)挖掘的科學(xué)決策作用。
3、對復(fù)雜數(shù)據(jù)挖掘的關(guān)注度不夠。目前數(shù)據(jù)挖掘的研究主要以簡單數(shù)據(jù)挖掘?yàn)榛A(chǔ),對復(fù)雜數(shù)據(jù)挖掘的研究并不理想。例如WEB挖掘,這種能快速、有效地從網(wǎng)絡(luò)上獲取理想資源的技術(shù)還未得到普及[5]。筆者認(rèn)為,隨著信息化時(shí)代腳步的加快,多媒體信息在日常生產(chǎn)生活中充當(dāng)著越來越重要的角色,如何有效攫取隱藏在多媒體數(shù)據(jù)中的信息,復(fù)雜數(shù)據(jù)挖掘技術(shù)必不可少。
4、對數(shù)據(jù)的保護(hù)意識欠缺。在所有高頻關(guān)鍵詞中,唯一與數(shù)據(jù)保護(hù)相關(guān)的關(guān)鍵詞為“網(wǎng)絡(luò)安全”,出現(xiàn)頻次為12,僅占總頻次的0.6%。這深刻反映了目前我國研究人員的數(shù)據(jù)安全性和保護(hù)性意識嚴(yán)重缺乏。如何防止私有信息的侵犯以及保護(hù)敏感信息泄露尤為重要,應(yīng)該引起足夠重視。
[1]馮建彪.淺談數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].科技促進(jìn)發(fā)展,2009(6):88.
[2]員巧云,程剛.近幾年我國數(shù)據(jù)挖掘研究綜述[J].情報(bào)學(xué)報(bào),2005,24(2):250-256.
[3]魏瑞斌.基于關(guān)鍵詞的情報(bào)學(xué)研究主題的分析研究[J].情報(bào)科學(xué),2006,24(9):1400-1404,1434.
[4]魏瑞斌.社會網(wǎng)絡(luò)分析在關(guān)鍵詞網(wǎng)絡(luò)分析中的實(shí)證研究[J].情報(bào)雜志,2009,28(9):46-49.
[5]石志國,薛為民,王志良.隱馬爾可夫模型實(shí)現(xiàn)復(fù)雜數(shù)據(jù)挖掘[J].電腦開發(fā)與應(yīng)用,2003,16(4):4-6.