• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    關于大數(shù)據挖掘中的數(shù)據分類算法技術的研究

    2020-08-26 07:46:55張書月
    電腦知識與技術 2020年20期
    關鍵詞:大數(shù)據信息化

    張書月

    摘要:隨著全球信息化發(fā)展的加快與信息技術的不斷革新,信息化已滲透到社會的方方面面,由此也產生了大量的數(shù)據信息。如何有效挖掘出我們需要的信息數(shù)據,提高信息找尋速度與利用率是我們需要解決的問題。本文主要對大數(shù)據挖掘中的數(shù)據分類算法技術進行研究,介紹了大數(shù)據挖掘與數(shù)據分類算法,對數(shù)據分類算法相關技術進行分析,旨在通過本文為數(shù)據挖掘分類算法的有效運用提供一些借鑒和參考。

    關鍵詞:大數(shù)據;信息化;分類算法

    中圖分類號:TP311 文獻標識碼:A

    文章編號:1009-3044(2020)20-0042-02

    大數(shù)據時代,進行信息化建設,推行數(shù)字化辦公的行業(yè)也不斷增加,大數(shù)據挖掘也得到了廣泛的應用,這既是機遇,也是挑戰(zhàn)。面對社會以及人們產生的各類數(shù)據,準確對其進行分類處理,挖掘出有效信息,提高信息利用率勢在必行。鑒于此,強化大數(shù)據挖掘,高效運用數(shù)據分類算法技術處理數(shù)據是極具現(xiàn)實意義的。下文將就大數(shù)據挖掘中的數(shù)據分類算法技術展開研究,詳細分析幾種經典的數(shù)據分類算法技術。

    1數(shù)據挖掘技術與數(shù)據分類算法概述

    1.1數(shù)據挖掘技術概述

    通俗地講,從海量數(shù)據信息中挖掘出有效信息就是數(shù)據挖掘。這種有用信息的發(fā)掘跟普通信息檢索有本質區(qū)別。數(shù)據挖掘是通過機器學習算法或關聯(lián)規(guī)則等形式發(fā)掘出間接、抽象的有效信息,而普通信息檢索是以查詢命令的形式獲取想要信息的,更為直接。例如,數(shù)據挖掘可從超市銷售記錄中獲取“買尿不濕多會買啤酒”間接信息,而信息檢索是無法獲取這一信息,超市可根據數(shù)據挖掘獲取的隱藏信息調整商品布局。數(shù)據挖掘也是一種從數(shù)據庫中發(fā)現(xiàn)知識的過程,主要包括三個步驟:(1)數(shù)據預處理:從大量數(shù)據中找抽取需要分析的數(shù)據,并以要求的格式整理出來;(2)尋找規(guī)律:利用數(shù)據挖掘技術找出數(shù)據間存在的規(guī)律;(3)知識表示:即通過可視化技術將找出的規(guī)律、知識呈現(xiàn)給用戶。數(shù)據挖掘是數(shù)據庫知識發(fā)現(xiàn)的一個關鍵步驟,可以說是信息時代的一項重大成果。

    1.2數(shù)據分類算法技術分類

    作為數(shù)據挖掘的重要技術,分類算法技術的作用不容忽視,主要是通過分析研究數(shù)據訓練集,從而找出分類規(guī)則以預測新數(shù)據類型,可將未知樣本分類到已存在類的技術。分類算法主要從兩個階段對數(shù)據進行處理:(1)模型構建:基于已知訓練數(shù)據集,對預定的概念集或者數(shù)據類集進行構建;(2)模型使用:基于構建的新模型,分類未知數(shù)據。分類算法技術可在文本、生物數(shù)據、多媒體以及社交網絡等多種問題領域應用,也是當前各界研究的熱點課題。需要注意的是,數(shù)據分類算法技術有多種算法,各有其適用情況,需要開發(fā)者根據實際情況靈活選擇,有效運用。

    2大數(shù)據挖掘中的數(shù)據分類算法技術分析

    2.1決策樹分類

    決策樹分類算法是一種基于實例歸類處理相關數(shù)據,采用由上而下分治形式的分類算法,也叫作貪心算法。從雜亂的事例或數(shù)據中找出分類規(guī)律,并借助決策樹形式表現(xiàn)出來是該算法的最大特點。在實際運用過程中,決策樹算法處理噪聲數(shù)據的健壯性是非常好的,因而被廣泛應用于各個領域的數(shù)據分類處理中,也是當前使用最為普遍的數(shù)據分類算法之一。

    決策樹算法構建是這樣的:屬性測試使用節(jié)點來表示,數(shù)據測試輸出則使用分制表示。如果分析未知數(shù)據樣本則將決策樹與樣本屬性值進行比較。以“買電腦預測”進行說明(見圖1),其中橢圓表示樹葉,而矩形則表示節(jié)點[1]。決策樹分類算法包括這幾個步驟:(1)選取某訓練集中最重要屬性作為決策樹的根,以屬性值為標準對訓練集進行分割,并從訓練數(shù)據節(jié)點中選擇出一個極具代表性的節(jié)點構建決策樹;(2)如果數(shù)據對象為同一類則使用該類類標號定義節(jié)點,也就是葉子節(jié)點;如果數(shù)據對象為不同類,則利用信息熵等策略衡量并選出一個屬性作為測試屬性,也就是測試節(jié)點;根據測試節(jié)點特點將訓練集分成諸多子集,從原始屬性開始將測試節(jié)點屬性幾種刪除;(3)周而復始重復上述步驟以生成完整分類訓練集的決策樹。需要注意的是,找出測試屬性是決策樹分類算法的關鍵。

    此外,決策樹的C4.5算法是一種簡便易操作的傳統(tǒng)決策樹算法模式,決策樹上各個節(jié)點的被測試屬性是根據最大信息增益與最小熵來確定的,根據測試結果對對象集進行劃分。ID3則是一種操作簡單、分類快速的決策樹學習算法??傊?,決策樹分類算法應用較多,具有較高的準確率與較好的可解釋性,并且對異常值、缺失值等分布敏感性較低,但也存在一定的不足,如容易過擬合,也就是訓練集可以正確分類,但是測試集表現(xiàn)較差,算法上會存在許多分支,必要時需要通過剪枝進行避免。

    2.2神經網絡分類算法

    20世紀40年代初,Me Culloch和Pitts提出了第一個神經元形式的數(shù)學模型。自此,各界對神經網絡的研究熱度有所增加,神經網絡在醫(yī)學、金融、地質學以及物理學等諸多領域都得到了一定程度的應用。但隨著對神經網絡功能與局限性分析的深入,該課題的研究也陷入了低潮,此階段,一些堅持研究的研究者取得了一些突破,如Grossberg提出了ART模型,Koho-nen提出了SOM模型。直到20世紀80年代,Hopf'ied的研究將神經網絡的研究再度推向高潮。Rumellhart、Me Cllel-Iand等人提卅的PDP理論已成為當前應用較為廠泛的數(shù)據分類算法之一[2]。神經網絡分類算法時基于人腦結構、功能的模仿以一定的連接方式將多個處理單元連接起來形成系統(tǒng),以動態(tài)響應外部輸入信息的方式對數(shù)據進行處理。該分類算法可解決這幾方面的數(shù)據挖掘問題:(1)具有非線性與時序性特征且較為復雜、存在噪音的大量數(shù)據;(2)分析表述與處理都要涉及領域知識的具有多樣性目標的數(shù)據;(3)數(shù)據分析目標較為復雜,且需要分析海量數(shù)據集。神經網絡不僅在數(shù)據挖掘的分類方面有所應用,還在預測、特征挖掘以及聚類等方面有所應用。

    2.3基于頻繁模式的分類算法

    基于頻繁模式的分類算法也就是基于關聯(lián)規(guī)則以不同標準對數(shù)據進行分類。該算法主要有CBA分類算法、CPAR分類算法以及CMAR分類算法這三種。

    2.3.1 CBA分類算法

    CBA分類算法是基于關聯(lián)規(guī)則依托數(shù)據構造分類器的數(shù)據分類算法,運用的是Apriori技術。該算法可表面化潛在的數(shù)據關聯(lián)規(guī)則,為數(shù)據分類處理創(chuàng)造有利條件,在大數(shù)據集上的準確率是比較高的。同時CBA分類算法也存在一定的不足,如在數(shù)據分類時數(shù)據遺漏風險較高,而將最小支持度甚至為0能一定程度降低數(shù)據遺漏風險,但也削弱了該算法的優(yōu)化作用,不利于運行效率的提高。

    2.3.2 CPAR分類算法

    基于預測關聯(lián)規(guī)則的分類算法就是CPAR分類算法,是基于FOLL形成的一種分類算法。該算法在處理數(shù)據時,通常都會形成一個標準化的規(guī)格,此時將正樣本刪除一直到正樣本覆蓋完數(shù)據集中的所有數(shù)據為止。同CBA、CMAR分類算法相較,CPAR在大數(shù)據庫的數(shù)據分類中應用效果更佳。

    2.3.3 CMAR分類算法

    CMAR是一種基于多關聯(lián)規(guī)則的分類算法,與CBA算法在找尋項集與構建分類器方面存在較大的差異。CBA算法是通過掃面數(shù)據庫以迭代的方式找出項集,從大到小排列白小支持度與最小置信度找出關聯(lián)規(guī)則,構建出分類模型,而CMAR算法是通過構建數(shù)的形式將項集找出并對分類器進行構造的。并且該算法的最小支持度與最小置信度的滿足集合是通過FP-growth算法轉換來實現(xiàn)的,通常一個步驟就能夠完成分類器構造與項集的挖掘。此外,同CBA分類算法相較,CMAR分類算法運行時間更短,內存使用率更高,可伸縮性也更強。

    2.4 Bayes分類算法

    Bayes分類算法是基于概率統(tǒng)計學而產生的一種分類算法。如樸素Bayes分類是基于訓練樣本對每個可能的類別來進行建模的,并且分為三個階段:(1)準備:對特征屬性進行確定,并依據屬性特征進行劃分,之后則分類待分類項,將待分類數(shù)據輸入,而將特征屬性與訓練樣本集合輸出;(2)分類器訓練:主要是生成分類器,將特征屬性、訓練樣本輸入,將分類器輸出;(3)應用:即借助分類器分類待分類項,是由程序完成的,將分類器與待分類項輸入,并將待分類型與類別之間的映射關系輸出。Bayes分類算法是一種應用較為廣泛的數(shù)據挖掘分類算法,但也存在一定的不足,比如實際應用中,類別總體概率與樣本概率分布通常是未知的,為了獲取這兩方面信息,樣本容量就不能太小。再比如Bayes分類算法表達文本的主題詞間應具有獨立性,然而實際上這樣的條件通常無法很好地滿足,這就一定程度降低了分類算法的應用效果,與理論值存在差異。

    2.5 VSM分類算法

    VSM分類算法也就是向量空間模型算法,在20世紀60年代末由Salton等人提出,是最早的關于信息檢索方面的分類算法。該算法是采用加權特征向量來表示文檔,之后再通過特征向量間的內積算出文本相似度,從而對分類樣本所屬類別進行確定。應用VSM分類算法時會先建立好相關的類別向量空間,分類時只需要計算出該樣本與各個類別向量的相似度并篩選出最大相似度作為該樣本的類別,需要注意的是,VSM分類算法是一種更適合于分類專業(yè)文獻的算法,對類別向量特征依賴度比較高,而類別每個特征項表達類別的能力會隨著該類別非零特征項的增多而減弱。

    2.6其他分類算法

    如遺傳算法是利用自然進化理念進行分類的。該算法下隨機產生樣本數(shù)據集進而產生規(guī)則,形成分類器。具體來說,樣本數(shù)據集用初始群體表示,每個規(guī)則使用二進制位串表示,初始群體根據一定的規(guī)則形成后代,而后代在根據一定的規(guī)則交叉產生后代,以此類推。噪聲數(shù)據處理、未經過學習模式分類中該算法應用效果較好,如實驗醫(yī)學、計算機朗讀英文課文等[3]。模糊集分類算法產生于20世紀60年代,是一種不準確處理數(shù)據的分類算法,可抽象化具有連續(xù)值屬性的數(shù)據,在衛(wèi)生保健、市場調研以及環(huán)境工程等領域應用較多[4]。

    3結束語

    綜上所述,隨著大數(shù)據時代的到來,社會各行各業(yè)與我們日常工作學習中都充斥著海量數(shù)據,數(shù)據挖掘的重要性也越發(fā)突出。而數(shù)據分類算法作為數(shù)據挖掘的關鍵技術和重要步驟,也被各界所重視。本文對數(shù)據挖掘與數(shù)據分類算法進行簡單的闡述,并詳細分析了數(shù)據分類算法技術的決策樹算法、神經網絡算法、基于頻繁模式的分類算法、Bayes算法、VSM分類算法以及其他算法。由此可見,不同數(shù)據分類算法各有特點,我們應根據實際情況準確選用合適的算法技術,以確保數(shù)據分類處理的有效性與可靠性。

    參考文獻:

    [1]馮曉媛.大數(shù)據挖掘技術應用研究[J].數(shù)字技術與應用,2019(1):127-128.

    [2]吳雅琴,王曉東.大數(shù)據挖掘中的混合差分進化K-Means無監(jiān)督聚類算法[J].重慶理工大學學報(自然科學),2019,33(5):107-112.

    [3]劉政宇.大數(shù)據分析挖掘技術及其決策應用研究[J].科學技術創(chuàng)新,2019(23):84-85.

    [4]王茜,平金珍,班婭萌.基于云計算的大數(shù)據挖掘內涵及解決方案研究[J].數(shù)字通信世界,2019(5):169-170.

    【通聯(lián)編輯:李雅琪】

    收稿日期:2020-03-27

    基金項目:2019年度廣州工商學院院級科研課題項目(項目編號:KA201929)

    猜你喜歡
    大數(shù)據信息化
    月“睹”教育信息化
    月“睹”教育信息化
    幼兒教育信息化策略初探
    甘肅教育(2020年18期)2020-10-28 09:06:02
    “云會計”在中小企業(yè)會計信息化中的應用分析
    活力(2019年21期)2019-04-01 12:16:40
    大數(shù)據環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
    新聞世界(2016年10期)2016-10-11 20:13:53
    基于大數(shù)據背景下的智慧城市建設研究
    科技視界(2016年20期)2016-09-29 10:53:22
    數(shù)據+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
    中國記者(2016年6期)2016-08-26 12:36:20
    信息化是醫(yī)改的重要支撐
    信息化
    江蘇年鑒(2014年0期)2014-03-11 17:09:40
    海城市| 闸北区| 日土县| 德庆县| 县级市| 高要市| 庆安县| 新乡县| 崇州市| 聊城市| 鸡东县| 双辽市| 读书| 辉南县| 雷波县| 石嘴山市| 新蔡县| 耿马| 霍州市| 霍林郭勒市| 大田县| 邵东县| 社旗县| 夹江县| 鄂托克旗| 太仆寺旗| 海淀区| 凤冈县| 泰宁县| 富平县| 迁西县| 南城县| 云和县| 德阳市| 锡林郭勒盟| 泸西县| 宁武县| 涞水县| 平武县| 南通市| 中卫市|