書(shū)名:《數(shù)據(jù)挖掘概念與技術(shù)》
作者:Jiawei Han,Micheline Kamber,Jian Pei
出版單位:機(jī)械工業(yè)出版社
ISBN:978-7-1113-9140-1
出版時(shí)間:2012 年8 月
定價(jià):79 元
在大數(shù)據(jù)時(shí)代,“數(shù)據(jù)就是一切”。誰(shuí)能夠擁有更為全面、精準(zhǔn)、及時(shí)的數(shù)據(jù),無(wú)疑在社會(huì)經(jīng)濟(jì)文化發(fā)展中就占據(jù)了絕對(duì)的優(yōu)勢(shì)。在計(jì)算機(jī)及其應(yīng)用技術(shù)和半導(dǎo)體技術(shù)的持續(xù)快速發(fā)展、廣泛應(yīng)用和滲透下,數(shù)據(jù)生產(chǎn)、搜集、儲(chǔ)存的技術(shù)理論也不斷更新,可以說(shuō),我們的生活、工作、學(xué)習(xí)就是處于汪洋的數(shù)據(jù)“大?!敝?,與此同時(shí),我們?nèi)匀辉诮柚屡d技術(shù)源源不斷地生產(chǎn)、制造更多的數(shù)據(jù)。那么,我們應(yīng)該如何充分、科學(xué)、巧妙應(yīng)用“包裹”我們的海量數(shù)據(jù)呢?數(shù)據(jù)挖掘和分析應(yīng)用可以告訴你答案。
《數(shù)據(jù)挖掘概念與技術(shù)(第三版)》作為數(shù)據(jù)挖掘領(lǐng)域里程碑式的經(jīng)典著作,該書(shū)系統(tǒng)介紹數(shù)據(jù)挖掘基本概念和方法,并細(xì)致、深入闡述數(shù)據(jù)挖掘領(lǐng)域最新技術(shù)、發(fā)展。鑒于數(shù)據(jù)挖掘領(lǐng)域技術(shù)突破和應(yīng)用實(shí)踐需求,該書(shū)在前兩版的基礎(chǔ)上進(jìn)一步優(yōu)化了該書(shū)理論知識(shí)結(jié)構(gòu)、脈絡(luò),擴(kuò)充了數(shù)據(jù)預(yù)處理、分類和聚類、OLAP 和離群點(diǎn)檢測(cè)、頻繁模式挖掘相關(guān)理論知識(shí),并進(jìn)一步探討挖掘網(wǎng)絡(luò)、復(fù)雜數(shù)據(jù)類型、支持向量機(jī)等相關(guān)知識(shí);在引入許多數(shù)據(jù)算法、實(shí)例的基礎(chǔ)上,采用偽代碼編寫(xiě),便于師生應(yīng)用于大規(guī)模數(shù)據(jù)挖掘項(xiàng)目。該書(shū)整體結(jié)構(gòu)合理,條理清晰,資料翔實(shí)豐富、全面,可作為數(shù)據(jù)挖掘、數(shù)據(jù)分析等相關(guān)專業(yè)課程教學(xué)材料,也可作為本科、碩士數(shù)據(jù)挖掘研究導(dǎo)論資料。
參考《數(shù)據(jù)挖掘概念與技術(shù)》中關(guān)于數(shù)據(jù)發(fā)展、數(shù)據(jù)挖掘的闡述,不難發(fā)現(xiàn),隨著大數(shù)據(jù)相關(guān)技術(shù)不斷發(fā)展,越來(lái)越多的人意識(shí)到擁有海量數(shù)據(jù)和擁有有效數(shù)據(jù)是截然不同的兩個(gè)問(wèn)題,盡管數(shù)據(jù)庫(kù)技術(shù)讓海量數(shù)據(jù)儲(chǔ)存成為可能,但如何處理、分析數(shù)據(jù)成為掌握關(guān)鍵數(shù)據(jù)、有效數(shù)據(jù)的關(guān)鍵。在過(guò)去,我們獲取“有效目標(biāo)數(shù)據(jù)”的方式是:相關(guān)專家、學(xué)者將信息、知識(shí)數(shù)據(jù)依據(jù)一些約定俗成的規(guī)則和方法進(jìn)行一系列處理,例如分析、篩選、分類等,然后再以圖書(shū)、文獻(xiàn)、資料等多種形式呈現(xiàn)在我們眼前。很明顯,這些數(shù)據(jù)處理方法有很大缺陷,一方面,這些專家、學(xué)者以及知識(shí)工程師的知識(shí)水平、閱歷、見(jiàn)識(shí)是有限的,因而通過(guò)傳統(tǒng)數(shù)據(jù)篩選處理出來(lái)的數(shù)據(jù)信息可信度就會(huì)打折扣;另一方面,這種數(shù)據(jù)獲取的方法耗時(shí)耗力,在現(xiàn)代經(jīng)濟(jì)文化產(chǎn)業(yè)高速發(fā)展的今天,在面對(duì)實(shí)現(xiàn)多個(gè)量級(jí)躍升的海量數(shù)據(jù)時(shí)就很難滿足社會(huì)現(xiàn)實(shí)經(jīng)濟(jì)發(fā)展需要,例如科研開(kāi)發(fā)、商業(yè)決策、產(chǎn)業(yè)調(diào)整。于是,面對(duì)海量、繁雜、發(fā)展的巨量數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。
大數(shù)據(jù)時(shí)代,信息數(shù)據(jù)的意義不在于“大”,而在于如何運(yùn)用“數(shù)據(jù)”。時(shí)至今日,經(jīng)過(guò)長(zhǎng)期探索、開(kāi)發(fā),數(shù)據(jù)挖掘技術(shù)已經(jīng)實(shí)現(xiàn)很大進(jìn)展,僅分類算法就有遺傳算法、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、粗糙集以及模糊邏輯技術(shù)等,大數(shù)據(jù)采集也逐漸呈現(xiàn)自動(dòng)化、全量采集、方式多樣化等特點(diǎn)。同時(shí),作為大數(shù)據(jù)應(yīng)用的重要載體,無(wú)論是企業(yè)、機(jī)構(gòu)還是個(gè)人,都可以以云計(jì)算為載體進(jìn)行數(shù)據(jù)應(yīng)用開(kāi)發(fā)。在數(shù)據(jù)挖掘中,通過(guò)大量數(shù)據(jù)進(jìn)行算法訓(xùn)練,建立可以準(zhǔn)確預(yù)測(cè)未知數(shù)據(jù)類別的科學(xué)泛化模型,從而得出反映數(shù)據(jù)之間內(nèi)在特性的關(guān)系模式,因而可以幫助人們更高效、更快速地處理數(shù)據(jù)。
在數(shù)據(jù)庫(kù)中能夠以二維表結(jié)構(gòu)來(lái)實(shí)現(xiàn)邏輯表達(dá)的數(shù)據(jù)稱為結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)是大數(shù)據(jù)挖掘應(yīng)用中最為常見(jiàn)的數(shù)據(jù)類型。結(jié)構(gòu)化數(shù)據(jù)往往用于記錄規(guī)模較小、含義明確的數(shù)據(jù),例如資產(chǎn)負(fù)債表、產(chǎn)品庫(kù)存等數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)則用于記錄網(wǎng)站流量、用戶瀏覽時(shí)間等。最為復(fù)雜的是非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)也是大數(shù)據(jù)處理中難度最高的,例如多媒體類的圖像和視音頻等。谷歌、臉書(shū)等公司進(jìn)行的“深度學(xué)習(xí)”相關(guān)技術(shù)研發(fā)就是對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘處理的成果。
大數(shù)據(jù)應(yīng)用最為直接的方式是數(shù)據(jù)統(tǒng)計(jì),即企業(yè)管理中的“商業(yè)智能系統(tǒng)”。隨著數(shù)據(jù)挖掘技術(shù)的應(yīng)用滲透和發(fā)展,數(shù)據(jù)報(bào)表已經(jīng)從原先的以周、天為單位到以小時(shí)、分鐘為單位的跨越,報(bào)表細(xì)分刻畫(huà)能力也實(shí)現(xiàn)很大提升。以大數(shù)據(jù)為依托,充分挖掘用戶個(gè)性化需求數(shù)據(jù)則可以為企業(yè)、網(wǎng)站服務(wù)提升提供有力保障。例如通過(guò)挖掘用戶個(gè)性需求,建立用戶需求針對(duì)性商品推薦模型,提升用戶購(gòu)買率,鼎鼎大名的亞馬遜網(wǎng)站上近1/5 的成功交易額都得益于個(gè)性化推薦系統(tǒng);個(gè)性化數(shù)據(jù)挖掘還能節(jié)約企業(yè)運(yùn)營(yíng)成本:通過(guò)分析用戶多樣化數(shù)據(jù)和消費(fèi)明細(xì),將用戶分為不同的類型,并為不同用戶群制定針對(duì)的促銷方式。