• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多尺度數(shù)據(jù)挖掘概述

      2023-02-19 12:25:00咸陽師范學(xué)院計算機(jī)學(xué)院張璐璐
      關(guān)鍵詞:基準(zhǔn)數(shù)據(jù)挖掘尺度

      咸陽師范學(xué)院計算機(jī)學(xué)院 張璐璐

      多尺度數(shù)據(jù)挖掘應(yīng)用領(lǐng)域廣泛,是一個跨學(xué)科課題,其在數(shù)據(jù)挖掘基礎(chǔ)之上,利用多尺度理論,多層次、多方位對數(shù)據(jù)進(jìn)行分析,學(xué)習(xí)更全面的信息。多尺度數(shù)據(jù)挖掘在不同學(xué)科、不同領(lǐng)域有著不同的應(yīng)用,針對一般數(shù)據(jù)集而言,主要集中在多尺度關(guān)聯(lián)規(guī)則、多尺度聚類和多尺度分類。為了便于理解,從概念、步驟和分類三方面對多尺度數(shù)據(jù)挖掘研究進(jìn)行了簡要的闡述以及分析。

      數(shù)據(jù)挖掘旨在從大量的數(shù)據(jù)中搜索隱藏于其中的信息[1]。隨著多尺度科學(xué)的發(fā)展和實際需求的增加,單純利用數(shù)據(jù)挖掘算法獲取知識有時難以達(dá)到理想效果。將多尺度理論引入數(shù)據(jù)挖掘領(lǐng)域,便于拓寬知識學(xué)習(xí)的深度和廣度。多尺度數(shù)據(jù)挖掘涉及學(xué)科廣泛,是一個典型的跨學(xué)科課題,融合了地理、圖像、生態(tài)等不同領(lǐng)域知識,且表現(xiàn)形式各不相同。目前,多尺度數(shù)據(jù)挖掘已取得一定成果。以一般數(shù)據(jù)集為例,對多尺度數(shù)據(jù)挖掘研究進(jìn)行簡要的闡述以及分析。

      1 多尺度數(shù)據(jù)挖掘概念

      多尺度數(shù)據(jù)挖掘以數(shù)據(jù)挖掘算法為基礎(chǔ),結(jié)合多尺度理論知識,對數(shù)據(jù)的尺度特性進(jìn)行操作,便于知識轉(zhuǎn)換,提高挖掘效率。簡單來說,多尺度數(shù)據(jù)挖掘就是采取智能手段獲取信息的過程。

      多尺度數(shù)據(jù)挖掘是指從多個尺度剖析數(shù)據(jù),構(gòu)建多尺度數(shù)據(jù)集,使用數(shù)據(jù)挖掘算法獲取知識,采用合適的尺度轉(zhuǎn)換方法進(jìn)行知識轉(zhuǎn)換,推衍得到其他尺度知識的過程。其主要包含兩部分內(nèi)容:數(shù)據(jù)的多尺度轉(zhuǎn)換和知識的多尺度轉(zhuǎn)換[2]。前者是指發(fā)掘數(shù)據(jù)的尺度特性,將單一尺度數(shù)據(jù)變化為不同尺度數(shù)據(jù);后者是指挖掘某一尺度數(shù)據(jù)信息,對得到的知識采取一定轉(zhuǎn)換機(jī)制,得到其他尺度信息。其核心思想在于“一次挖掘,多次利用”。

      2 多尺度數(shù)據(jù)挖掘步驟

      如圖1 所示,多尺度數(shù)據(jù)挖掘主要分為3 步:構(gòu)建多尺度數(shù)據(jù)集、基準(zhǔn)尺度選擇和知識尺度轉(zhuǎn)換。

      圖1 多尺度數(shù)據(jù)挖掘步驟Fig.1 The steps of multi-scale data mining

      2.1 構(gòu)建多尺度數(shù)據(jù)集

      在利用多尺度數(shù)據(jù)挖掘方法獲取數(shù)據(jù)之前,需要先對數(shù)據(jù)進(jìn)行預(yù)處理,得到不同尺度數(shù)據(jù),便于進(jìn)行信息提取。通過明確尺度含義,利用尺度特性,采取尺度劃分方法,對數(shù)據(jù)進(jìn)行尺度化操作。多尺度數(shù)據(jù)集是指結(jié)合數(shù)據(jù)特點,根據(jù)尺度層次關(guān)系,得到不同尺度具有偏序關(guān)系的數(shù)據(jù)集的集合。

      基于數(shù)據(jù)屬性的尺度特征,將數(shù)據(jù)集多尺度化。目前,構(gòu)建多尺度數(shù)據(jù)集有很多方法,例如概念分層、粒計算等價類劃分和概率密度估計離散化計算等。需要注意,在構(gòu)建多尺度數(shù)據(jù)集時,不僅要考慮到尺度特征的復(fù)雜性,還要思考尺度劃分后數(shù)據(jù)復(fù)雜程度的變化。采用數(shù)據(jù)熵[3]對數(shù)據(jù)多尺度進(jìn)行評價,其公式如下所示:

      式中,m表示尺度層次,Nm表示m層數(shù)據(jù)劃分塊數(shù),Pij表示數(shù)據(jù)j在第i塊中出現(xiàn)的概率。通過公式可以看出,選擇數(shù)據(jù)熵的尺度越高,建立的多尺度數(shù)據(jù)集覆蓋度就會越大。

      2.2 基準(zhǔn)尺度選擇

      基準(zhǔn)尺度是指首次進(jìn)行數(shù)據(jù)挖掘,獲取信息的尺度,常位于上下層尺度之間。利用基準(zhǔn)尺度信息,可以得到其他尺度信息?;鶞?zhǔn)尺度選擇面向?qū)ο笾饕? 種:帶標(biāo)簽數(shù)據(jù)和不帶標(biāo)簽數(shù)據(jù)。針對帶標(biāo)簽數(shù)據(jù)而言,用尺度劃分后數(shù)據(jù)能與原始數(shù)據(jù)最大程度的保持一致性作為衡量基準(zhǔn)尺度選擇的標(biāo)準(zhǔn)?;诹S嬎阕顑?yōu)尺度選擇思想[4],可以利用待決策域隨尺度變化情況確定基準(zhǔn)尺度。隨著尺度增長,當(dāng)待決策域不再變化時,選取基準(zhǔn)尺度。針對不帶標(biāo)簽數(shù)據(jù)而言,不同尺度下數(shù)據(jù)表現(xiàn)信息量不同,即每當(dāng)數(shù)據(jù)尺度被轉(zhuǎn)換時,都會改變少許信息量,因此可以利用信息熵進(jìn)行選擇[5]。根據(jù)信息熵衰減結(jié)果,選擇轉(zhuǎn)換后信息熵衰減少、信息損失低的尺度作為基準(zhǔn)尺度。

      2.3 知識尺度轉(zhuǎn)換

      在前兩步基礎(chǔ)之上,對獲取的知識進(jìn)行尺度推衍。知識尺度轉(zhuǎn)換是指根據(jù)現(xiàn)實需要,針對數(shù)據(jù)集特點和挖掘結(jié)果,采用轉(zhuǎn)換方法進(jìn)行知識推衍,從而得到其他尺度上的信息。根據(jù)轉(zhuǎn)換方向不同,尺度轉(zhuǎn)換主要分為尺度上推和尺度下推,如圖2 所示。在獲取某一尺度知識后,根據(jù)尺度轉(zhuǎn)換,可以推斷其他尺度知識。知識尺度轉(zhuǎn)換效率較高,但由于尺度效應(yīng)[6]的存在,一般情況下,不同尺度之間進(jìn)行知識或結(jié)論推衍時很難達(dá)到無差別轉(zhuǎn)換。為了降低尺度效應(yīng)帶來的影響,可以采取合適的尺度轉(zhuǎn)換方法,減少信息損失。目前,常用的尺度轉(zhuǎn)換方法有克里格法、斑塊模型、小波變換等。不同轉(zhuǎn)換方法側(cè)重點不同。實際操作過程中,可以根據(jù)需求靈活進(jìn)行選擇。

      圖2 尺度上推、尺度下推示意圖Fig.2 The inference map of upscaling and downscaling

      3 多尺度數(shù)據(jù)挖掘分類

      多尺度數(shù)據(jù)挖掘從多層次、多角度對數(shù)據(jù)進(jìn)行分析,有利于獲取信息的全面性,目的在于利用尺度轉(zhuǎn)換得到不同尺度知識。其在不同學(xué)科、不同領(lǐng)域有著不同的分類,針對一般數(shù)據(jù)集而言,主要集中在多尺度關(guān)聯(lián)規(guī)則、聚類和分類挖掘。

      3.1 多尺度關(guān)聯(lián)規(guī)則挖掘

      多尺度關(guān)聯(lián)規(guī)則挖掘是指基于多尺度理論構(gòu)建多尺度數(shù)據(jù)集,使用關(guān)聯(lián)規(guī)則方法獲取基準(zhǔn)尺度數(shù)據(jù)集中的知識,利用尺度轉(zhuǎn)換得到目標(biāo)尺度數(shù)據(jù)集知識的過程。

      對于多尺度關(guān)聯(lián)規(guī)則挖掘而言,目的在于得到不同尺度下數(shù)據(jù)對應(yīng)的關(guān)聯(lián)規(guī)則,而關(guān)聯(lián)規(guī)則可由頻繁項集推導(dǎo)生成。因此,在進(jìn)行多尺度關(guān)聯(lián)規(guī)則挖掘過程中,核心在于獲取對應(yīng)尺度頻繁項集。首先,對數(shù)據(jù)進(jìn)行尺度劃分,得到多尺度數(shù)據(jù)集,挖掘基準(zhǔn)尺度頻繁項集;然后,將頻繁項集作為轉(zhuǎn)換對象,采取合適的尺度轉(zhuǎn)換方法,得到其他尺度數(shù)據(jù)中頻繁項集;最后,利用頻繁項集推導(dǎo)關(guān)聯(lián)規(guī)則。

      3.2 多尺度聚類挖掘

      多尺度聚類挖掘是指通過尺度化手段構(gòu)建多尺度數(shù)據(jù)集,使用聚類挖掘方法獲取基準(zhǔn)尺度聚類結(jié)果,利用尺度轉(zhuǎn)換得到目標(biāo)尺度聚類結(jié)果的過程。

      針對多尺度聚類挖掘而言,尺度上推和尺度下推側(cè)重點略有不同。對于尺度上推而言,是從小尺度到大尺度信息轉(zhuǎn)換,常表現(xiàn)為減少簇的個數(shù)、平滑信息。在尺度上推過程中,以簇心為轉(zhuǎn)換對象,通過計算基準(zhǔn)尺度簇心相似度,獲取目標(biāo)尺度簇心。對于尺度下推而言,是從大尺度到小尺度信息轉(zhuǎn)換,常表現(xiàn)為增加簇的個數(shù)、細(xì)化信息。此時,如果繼續(xù)單純以簇心作為轉(zhuǎn)換對象,難以保證獲取信息的正確性。在尺度下推過程中,通過計算樣本間相似度,利用插值方法,得到目標(biāo)尺度聚類結(jié)果。

      3.3 多尺度分類挖掘

      多尺度分類挖掘是指結(jié)合尺度特性構(gòu)建多尺度數(shù)據(jù)集,使用分類挖掘方法獲取基準(zhǔn)尺度分類模型,利用尺度轉(zhuǎn)換得到目標(biāo)尺度分類模型的過程。

      挖掘的目的在于得到不同尺度分類模型,對數(shù)據(jù)進(jìn)行分類。不同分類模型具備特點不同,在進(jìn)行尺度轉(zhuǎn)換時,涉及轉(zhuǎn)換對象也有所差異。例如利用決策樹進(jìn)行學(xué)習(xí),主要表現(xiàn)為屬性值與對象值之間的映射關(guān)系轉(zhuǎn)換;在支持向量機(jī)訓(xùn)練中,主要表現(xiàn)為支持向量轉(zhuǎn)換;而對于神經(jīng)網(wǎng)絡(luò)模型而言,則表現(xiàn)為神經(jīng)元轉(zhuǎn)換。多尺度分類挖掘核心在于獲取基準(zhǔn)尺度數(shù)據(jù)知識后,確定轉(zhuǎn)換對象,通過知識推衍得到上下層尺度分類模型。

      不管是多尺度關(guān)聯(lián)規(guī)則、聚類還是分類,均是對基準(zhǔn)尺度信息進(jìn)行操作,獲取目標(biāo)尺度信息。

      4 結(jié)語

      多尺度數(shù)據(jù)挖掘本質(zhì)在于對不同尺度下的數(shù)據(jù)集進(jìn)行全面系統(tǒng)的分析,利用數(shù)據(jù)之間的關(guān)聯(lián)性,最終得到對應(yīng)尺度信息。本文從多尺度數(shù)據(jù)挖掘概念入手,在此基礎(chǔ)上,展開介紹多尺度數(shù)據(jù)步驟,給出多尺度數(shù)據(jù)挖掘分類,指出不同挖掘方式的特點和過程,對多尺度數(shù)據(jù)挖掘的研究進(jìn)行了簡要的闡述。

      引用

      [1] WU X D,ZHU X Q,WU G Q,et al.Data Mining with Big Data[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107.

      [2] 柳萌萌,趙書良,韓玉輝,等.多尺度數(shù)據(jù)挖掘方法[J].軟件學(xué)報,2016,27(12):3030-3050.

      [3] 張煜睿.基于多尺度數(shù)據(jù)挖掘的數(shù)據(jù)尺度劃分方法[J].電子技術(shù)與軟件工程,2020(21):144-145.

      [4] HAO C,LI J H,FAN M,et al.Optimal Scale Selection in Dynamic Multi-scale Decision Tables Based on Sequential Threeway Decisions[J].Information Sciences,2017,415-416:213-232.

      [5] 張昉,趙書良,武永亮.面向多尺度數(shù)據(jù)挖掘的數(shù)據(jù)尺度劃分方法[J].計算機(jī)科學(xué),2019,46(4):57-65.

      [6] 趙祎驊,田偉.多尺度數(shù)據(jù)挖掘方法的應(yīng)用研究[J].電腦編程技巧與維護(hù),20186):129-131.

      猜你喜歡
      基準(zhǔn)數(shù)據(jù)挖掘尺度
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      財產(chǎn)的五大尺度和五重應(yīng)對
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      明基準(zhǔn)講方法保看齊
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      滑落還是攀爬
      9
      巧用基準(zhǔn)變換實現(xiàn)裝配檢測
      河南科技(2014年15期)2014-02-27 14:12:35
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      上蔡县| 富平县| 武平县| 宣威市| 板桥市| 玉田县| 青阳县| 邵阳市| 瓮安县| 湟中县| 灵石县| 霍州市| 栾城县| 南宫市| 宣化县| 永清县| 高阳县| 高清| 洛南县| 黎平县| 德兴市| 德化县| 滨海县| 宣化县| 宜黄县| 丁青县| 江永县| 苏尼特右旗| 达尔| 邵阳县| 锦州市| 淳化县| 新乡市| 长葛市| 游戏| 慈溪市| 佛坪县| 葫芦岛市| 南溪县| 汽车| 衡水市|