• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘技術(shù)在圖情領(lǐng)域的應(yīng)用研究

      2018-02-11 13:14:36史曉康
      神州·下旬刊 2018年12期
      關(guān)鍵詞:情報文檔數(shù)據(jù)挖掘

      史曉康

      摘要:數(shù)據(jù)挖掘是近年來發(fā)展較為迅速的數(shù)據(jù)分析和知識發(fā)現(xiàn)方法。本文采用KMeans聚類算法,對近年數(shù)據(jù)挖掘技術(shù)在圖書情報與數(shù)字圖書館領(lǐng)域的應(yīng)用與研究的相關(guān)文獻的關(guān)鍵詞進行聚類,以便對數(shù)據(jù)挖掘在圖書情報與數(shù)字圖書館領(lǐng)域的研究發(fā)展動態(tài)有一個直觀和充分的認識。

      關(guān)鍵詞:數(shù)據(jù)挖掘;圖書情報;數(shù)字圖書館;聚類

      1.引言

      數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取正確的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘結(jié)合了數(shù)據(jù)庫的數(shù)據(jù)管理、機器學(xué)習(xí)與傳統(tǒng)統(tǒng)計學(xué)的數(shù)據(jù)分析技術(shù),是知識發(fā)現(xiàn)(KDD Knowledge Discovery in Database)中的重要環(huán)節(jié),也是近年來發(fā)展較為迅速的領(lǐng)域之一,在模式識別、情報檢索、專家系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用。

      隨著互聯(lián)網(wǎng)的發(fā)展,傳統(tǒng)的圖書館也在朝著數(shù)字圖書館的方向發(fā)展,傳統(tǒng)的圖書情報領(lǐng)域也經(jīng)歷著變革,研究也更為多元化。其中,采用數(shù)據(jù)挖掘的方法對圖書情報領(lǐng)域相關(guān)問題研究,從中獲取出正確的、新穎的、潛在有用的、最終可理解的知識是一種不錯的嘗試。本文使用數(shù)據(jù)挖掘中的相關(guān)聚類算法,對近年來數(shù)據(jù)挖掘技術(shù)在圖書情報與數(shù)字圖書館領(lǐng)域的應(yīng)用進行主題詞聚類研究,以期望尋找到其內(nèi)在聯(lián)系。

      2.數(shù)據(jù)來源與研究方法

      本研究的數(shù)據(jù)來源為CNKI。在CNKI上進行檢索,設(shè)置學(xué)科為“圖書情報與數(shù)字圖書館”,篇名或關(guān)鍵詞含“數(shù)據(jù)挖掘”,來源類別中選取了SCI、EI、CSSCI等核心期刊,并按照發(fā)表時間降序排列,選取了最新發(fā)表的200篇文獻,提取關(guān)鍵詞作為分析的數(shù)據(jù)源。

      研究方法的選取,采用數(shù)據(jù)挖掘的方法對關(guān)鍵詞進行聚類,期望尋找其內(nèi)在聯(lián)系。本文采用經(jīng)典的KMeans算法。KMeans算法是原型聚類中最有代表性的方法,其基本思想是:先對原型進行初始化,隨機選擇k個樣本作為初始均值向量,然后對原型進行迭代更新求解,直到當前均值向量均不再變化或達到最大迭代次數(shù)為止。

      3.研究過程

      3.1 文本預(yù)處理

      從CNKI上下載到最新的200篇數(shù)據(jù)挖掘在圖書情報與數(shù)字圖書館領(lǐng)域的應(yīng)用的文獻的元數(shù)據(jù),保留關(guān)鍵詞列,同時使用文本編輯軟件Ultraedit統(tǒng)一關(guān)鍵詞的間隔符,

      同時,對論文中表達相同意思的不同詞語(如同義詞、英漢互譯詞等)進行統(tǒng)一,以尋求更好的聚類效果。具體如表1所示。

      3.2向量空間模型表示

      向量空間模型是由Gerard Salton 等人于1968 年提出的文本表示模型,目前已經(jīng)被成功運用于文本分類、自動索引和信息檢索等研究領(lǐng)域。由于向量空間模型的簡單有效性,本文將使用向量空間模型對文獻關(guān)鍵詞進行線性化,將之轉(zhuǎn)換成數(shù)學(xué)上可分析和處理的形式。該模型的主要思想是將每一文獻都映射成由一組規(guī)范化正交詞條矢量組成的向量空間中的一個點,各特征(關(guān)鍵詞)表示空間中的維度。本文采用Python編程實現(xiàn),同時設(shè)置min_df=2,即要求關(guān)鍵詞出現(xiàn)的次數(shù)大于等于2,才進行保留。最終得到的是200*88的矩陣,即表明200篇文獻中含有出現(xiàn)頻率大于1的88個不同的關(guān)鍵詞。

      3.3TF-IDF加權(quán)表示

      在傳統(tǒng)的布爾代數(shù)值表示方法中,當在文獻i中出現(xiàn)特征詞j時,矩陣a[i][j]取1,否則取0。這種表示方法比較單調(diào),忽視了特征詞的很多優(yōu)秀的內(nèi)在性質(zhì),如詞頻、特征詞對整個文獻集合的影響。TF-IDF 相對詞頻計算公式是由Salton 和McGill 于1983 年提出的文本特征表示方法。它的主要思想是,如果某個詞或短語在一篇文獻中出現(xiàn)的頻率比較高,并且在其他科技文獻中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力。TF-IDF 權(quán)重方法不僅改進了布爾權(quán)重法表示的單一性,還結(jié)合了特征詞的詞頻并且體現(xiàn)了特征詞對整個文獻集的作用。其計算公式如下所示。

      tfidf(w)=tf*log()

      其中,tf表示詞頻,即一個單詞在一個文檔中出現(xiàn)的次數(shù);df(w)表示在文檔集合中,含有該單詞的文檔的數(shù)據(jù);N表示文檔集合中的總文檔數(shù);tfidf(w)表示一個單詞在一個文檔中的相對重要性。本文采用python編程對關(guān)鍵詞進行加權(quán)處理。

      3.4KMeans聚類

      采用python的機器學(xué)習(xí)包scikit-learn對文檔進行聚類,采用的是之前所介紹的KMeans算法。設(shè)置KMeans的n_clusters=4,即表明將200篇文檔聚為4個簇。

      3.5可視化

      為了更直觀地看到聚類效果,可以對數(shù)據(jù)進行可視化處理。但是,由于文本數(shù)據(jù)的特征比較多,維度比較高,無法直觀地以圖表形式展現(xiàn)。因此,筆者首先采用了主成分分析(PCA Principal Component Analysis)的方法進行降維。主成分分析是最常用的一種降維方法,其基本思想是:對于正交屬性空間中的樣本點,尋找一個超平面對所有樣本進行恰當?shù)谋磉_,這個超平面具有這樣的性質(zhì):

      Ⅰ 最近重構(gòu)性:樣本點到這個超平面的距離都足夠近;

      Ⅱ 最大可分性:樣本點在這個超平面上的投影能盡可能分開。

      筆者在這里將原始特征空間降為三維空間。之后,采用python的matplotlib繪圖庫,繪制了降維之后的3D圖,三維空間中的每一個點表示一篇文檔,并為屬于不同簇的文檔用不同的顏色和標記進行區(qū)分,具體結(jié)果如圖1所示。雖然在降維過程中丟失了一部分信息,但還是能夠較好地反映出樣本的分布情況。

      4.結(jié)果討論

      由圖1的輸出結(jié)果可知,200篇關(guān)于數(shù)據(jù)挖掘在圖書情報與數(shù)字圖書館領(lǐng)域的應(yīng)用的文獻被聚為4個簇,通過查看簇中心向量,可得到各簇的高頻關(guān)鍵詞分布如表2所示。

      從表2可以看出,對文獻關(guān)鍵詞進行聚類,我們能了解到近年數(shù)據(jù)挖掘在圖書情報與數(shù)字圖書館領(lǐng)域的研究發(fā)展動態(tài)。具體來說,主要有以下方面:

      Ⅰ 數(shù)據(jù)挖掘與傳統(tǒng)的圖書館、檔案現(xiàn)代化、文獻數(shù)字資源等相結(jié)合的研究;

      Ⅱ單純采用分類、聚類、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘算法的知識發(fā)現(xiàn);

      Ⅲ 數(shù)據(jù)挖掘與其他數(shù)據(jù)分析方法如數(shù)據(jù)倉庫、文獻計量、知識圖譜、社會網(wǎng)絡(luò)分析等相結(jié)合,對圖書情報領(lǐng)域相關(guān)問題進行分析的研究;

      Ⅳ 數(shù)據(jù)挖掘技術(shù)在圖書館服務(wù)、智慧服務(wù)、知識服務(wù)等信息服務(wù)與應(yīng)用領(lǐng)域的應(yīng)用研究。

      可見,隨著近年來數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,其在圖書情報與數(shù)字圖書館領(lǐng)域也發(fā)揮著越來越重要的作用,采用數(shù)據(jù)挖掘的理念和方法進行研究分析,是圖書情報領(lǐng)域未來的發(fā)展方向之一。

      參考文獻:

      [1]周志華著.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社.2016.

      [2](美)韓家煒,(美)坎伯著.數(shù)據(jù)挖掘 概念與技術(shù) 英文版 原書第3版[M].北京:機械工業(yè)出版社.2012.

      [3]劉勘,周麗紅,陳譞.基于關(guān)鍵詞的科技文獻聚類研究[J].圖書情報工作,2012,04:6-11.

      [4]王富強,韓宇平,王朋,王靜.水資源學(xué)研究的關(guān)鍵詞共詞聚類分析[J].水利水電科技進展,2014,04:29-33.

      猜你喜歡
      情報文檔數(shù)據(jù)挖掘
      情報
      情報
      情報
      有人一聲不吭向你扔了個文檔
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于RI碼計算的Word復(fù)制文檔鑒別
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      交接情報
      峡江县| 原平市| 卓尼县| 兴城市| 吉水县| 肥东县| 射洪县| 平塘县| 元朗区| 阜阳市| 乐平市| 龙南县| 青阳县| 石城县| 宁德市| 奉贤区| 新绛县| 元朗区| 武义县| 鄂托克前旗| 徐闻县| 太仆寺旗| 密山市| 客服| 金川县| 霞浦县| 八宿县| 上蔡县| 温州市| 呼图壁县| 韶关市| 抚顺县| 望谟县| 敦化市| 永胜县| 江都市| 苍溪县| 库车县| 凤阳县| 山东省| 钦州市|