山東大學(xué)管理學(xué)院 張向偉
在現(xiàn)代社會中,數(shù)據(jù)量在不斷的增加,人們也越來越重視數(shù)據(jù)價(jià)值。大數(shù)據(jù)的數(shù)據(jù)體積比較大,并且數(shù)據(jù)類型比較復(fù)雜,如何對數(shù)據(jù)背后的內(nèi)涵進(jìn)行挖掘,如何對復(fù)雜數(shù)據(jù)背后的意義進(jìn)行分析,成為人們所重視的重要話題。Python屬于功能完善、上手簡單、操作性高的工具,其被廣泛應(yīng)用到數(shù)據(jù)分析領(lǐng)域。在此背景下,本文基于Python自帶集成庫分析了不同類型數(shù)據(jù),并且實(shí)現(xiàn)數(shù)據(jù)可視化,證明了Python在數(shù)據(jù)分析中的可用性。
在人工智能技術(shù)不斷發(fā)展的過程中,數(shù)據(jù)需求量也在不斷增加。另外,信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展使人們生活習(xí)慣逐漸改變,大數(shù)據(jù)技術(shù)也被廣泛應(yīng)用到人們社會生產(chǎn)和生活中。人們在使用網(wǎng)絡(luò)越來越頻繁的背景下,產(chǎn)生了大量互聯(lián)網(wǎng)數(shù)據(jù)信息,這種龐大數(shù)據(jù)信息中存在大量虛假、無用的信息,降低了信息的整體質(zhì)量。為了從數(shù)據(jù)庫中提取有價(jià)值信息,在使用專業(yè)數(shù)據(jù)處理技術(shù)過程中,出現(xiàn)了數(shù)據(jù)分析計(jì)算。Python為目前使用較為廣泛的編程語言,其自身具有第三方數(shù)據(jù)庫,在數(shù)據(jù)分析過程中能夠提供幫助,應(yīng)用前景良好。為了使Python技術(shù)在數(shù)據(jù)分析中的使用效率得到提高,本文將數(shù)據(jù)分析和Python技術(shù)作為基礎(chǔ),對Python數(shù)據(jù)分析中數(shù)據(jù)整理進(jìn)行了探討。
Python屬于計(jì)算機(jī)程序設(shè)計(jì)語言,因?yàn)槠渚哂休^高的可讀性、集成方法全面、上手比較簡單、易于理解掌握,被廣泛應(yīng)用到計(jì)算機(jī)領(lǐng)域和非計(jì)算機(jī)領(lǐng)域中。從廣義上來說,數(shù)據(jù)分析指的是對大規(guī)模數(shù)據(jù)進(jìn)行分析,比如數(shù)據(jù)讀取、計(jì)算、存儲、可視化等,通過數(shù)據(jù)分析發(fā)現(xiàn)隱含的并且對于系統(tǒng)決策有參考價(jià)值的關(guān)聯(lián)信息和發(fā)展趨勢。所以,數(shù)據(jù)分析是跨越多個(gè)計(jì)算機(jī)學(xué)科分支,也是挖掘數(shù)據(jù)隱含價(jià)值的主要手段。
Python是一種面向?qū)ο蠼换ナ?、解釋型語言,不僅有Java、C++的強(qiáng)大功能,還具有腳本語言簡易性,其主要優(yōu)勢包括:其一,簡易性。Python語法比較簡單,實(shí)現(xiàn)同樣的功能只需要C++和Java代碼量的三分之一。Python設(shè)計(jì)原則就是簡單,其各方面都將此原則為基礎(chǔ),從而體現(xiàn)更多優(yōu)勢。因?yàn)檎Z言自身簡單,所以學(xué)習(xí)Python也更加容易,并且其代碼比較容易維護(hù)、閱讀,能夠提高軟件的質(zhì)量。另外,代碼量比較少,能夠降低輸入,使開發(fā)效率得到提高。一條語句能夠?qū)崿F(xiàn)多條C++語句實(shí)現(xiàn)的功能,能夠提高硬件性能,保證開發(fā)效率;其二,開放性。Python能夠和現(xiàn)有環(huán)境、主流語言進(jìn)行交互,假如Python解釋型語言速度慢,其能夠通過Python調(diào)用C++編寫模塊的Python模塊,實(shí)現(xiàn).Net和COS的交互,還能夠使Python腳本在瀏覽器中調(diào)用;其三,可移植性。Python屬于解釋型語言,缺乏編譯連接過程,通過Python解釋器執(zhí)行,所以Python代碼能夠不經(jīng)修改就可執(zhí)行在不同的操作系統(tǒng);其四,資源豐富。通過www.Python.org可以得到大量資源,能夠有效解決應(yīng)用過程中遇到的問題。
以上是Python的特點(diǎn)和優(yōu)勢,本文將選擇Python作為編程語言。
基于Python的數(shù)據(jù)分析平臺在設(shè)計(jì)過程中,需要解決數(shù)據(jù)分析過程時(shí)數(shù)據(jù)收集、可視化、分析和導(dǎo)入等問題,以便實(shí)現(xiàn)數(shù)據(jù)分析處理。利用上述類庫設(shè)計(jì)平臺,使程序開發(fā)過程得到簡化,實(shí)際使用需求得到滿足。比如,在設(shè)計(jì)某產(chǎn)品客戶滿意度問卷分析工具過程中,可以通過本地獲取方式來實(shí)現(xiàn),調(diào)查問卷導(dǎo)入之后對數(shù)據(jù)開展預(yù)處理,根據(jù)問題的分類提取數(shù)據(jù)并且轉(zhuǎn)換格式。之后,通過預(yù)先創(chuàng)建的數(shù)據(jù)分析模型進(jìn)行分析,得到綜合性評價(jià)結(jié)果。除了展示目前數(shù)據(jù)圖形化之外,還要存儲數(shù)據(jù),改良產(chǎn)品,對客戶滿意度變化趨勢進(jìn)行分析,提供給產(chǎn)品設(shè)計(jì)參考依據(jù)。
獲取數(shù)據(jù)是數(shù)據(jù)分析的基礎(chǔ),指的是以需求分析的結(jié)果對數(shù)據(jù)進(jìn)行收集和提取,主要通過本地獲取和網(wǎng)絡(luò)爬蟲兩種方式獲取。網(wǎng)絡(luò)爬蟲指的是通過利用Python編寫爬蟲,合法得到互聯(lián)網(wǎng)中的語音、文字、視頻和圖片等信息;本地獲取是指利用計(jì)算機(jī)工具得到在本地?cái)?shù)據(jù)庫存儲的營銷、生產(chǎn)和財(cái)務(wù)等系統(tǒng)實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)。
數(shù)據(jù)預(yù)處理指的是實(shí)現(xiàn)數(shù)據(jù)合并、標(biāo)準(zhǔn)化、清洗和變換,并且可以直接在分析建模中使用的總稱。數(shù)據(jù)合并指的是使多張相互關(guān)聯(lián)的表格合成一張;數(shù)據(jù)清洗指的是將不一致、異常、缺失、重復(fù)的數(shù)據(jù)去掉;數(shù)據(jù)交換指的是利用啞變量、離散化等技術(shù)使后期分析和建模數(shù)據(jù)需求得到滿足;數(shù)據(jù)標(biāo)準(zhǔn)化是將特征之間量綱差異去除。在對數(shù)據(jù)分析時(shí),數(shù)據(jù)預(yù)處理的過程是相互交叉的,先后順序并不固定。
分析建模指的是利用分組分析、對比分析、回歸分析、交叉分析等方法和分類模型、聚類模型、智能推薦和關(guān)聯(lián)規(guī)則等模型,對數(shù)據(jù)中有價(jià)值的信息進(jìn)行挖掘,并且通過分析得到結(jié)論的過程。
模型評價(jià)指的是創(chuàng)建一個(gè)或者多個(gè)模型,針對模型類別利用不同指標(biāo)對其性能優(yōu)劣進(jìn)行綜合評價(jià)的過程。模型優(yōu)化指的是模型性能通過模型評價(jià)之后滿足要求,但是在實(shí)際生產(chǎn)過程中發(fā)現(xiàn)模型性能不太理想,從而實(shí)現(xiàn)模型重構(gòu)和優(yōu)化的過程。模型部署是指使數(shù)據(jù)分析結(jié)果在實(shí)際生產(chǎn)系統(tǒng)中使用的過程,以不同實(shí)際需求來部署,其包括針對現(xiàn)狀具體整改措施的數(shù)據(jù)分析報(bào)告、在生產(chǎn)系統(tǒng)中使用和部署的解決方案。在大部分項(xiàng)目中,數(shù)據(jù)分析員能夠提供一份解決方案和數(shù)據(jù)分析報(bào)告,需求方為實(shí)際部署和執(zhí)行方。
在設(shè)計(jì)基于Python語言數(shù)據(jù)分析平臺時(shí),要以軟件應(yīng)用的需求創(chuàng)建數(shù)據(jù)通道和數(shù)據(jù)庫,便于數(shù)據(jù)調(diào)取和使用。另外,還要實(shí)現(xiàn)可視化展示模型和操作界面的設(shè)計(jì),使用戶對數(shù)據(jù)設(shè)計(jì)結(jié)果進(jìn)行觀察。本文在設(shè)計(jì)時(shí),利用開源Python2.7進(jìn)行編程,全部的類庫、模塊包括codes、Json、os和Matplotlib等。開源python2.7能夠通過網(wǎng)絡(luò)下載,利用pip對模塊和類庫下載。調(diào)查問卷為數(shù)據(jù)處理對象,能夠使調(diào)查問卷數(shù)據(jù)結(jié)果在數(shù)據(jù)庫中存儲,并且通過函數(shù)調(diào)用錄入數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的分類存儲。其次,除了調(diào)查問卷中的信息,還會錄入調(diào)查對象信息,對調(diào)查問卷有效性進(jìn)行評價(jià),在處理數(shù)據(jù)時(shí)提出無效的問卷數(shù)據(jù)。在對數(shù)據(jù)結(jié)果展示過程中,可以利用圖表方式將問卷信息與調(diào)查對象的結(jié)果展示出來,從而方便觀看結(jié)論。
在此數(shù)據(jù)分析平臺功能模塊設(shè)計(jì)過程中,需要為用戶提供良好操作圖形界面。主界面操作包括調(diào)查問卷查詢、導(dǎo)入、結(jié)果展示、數(shù)據(jù)分析等功能,利用主界面對數(shù)據(jù)庫更新,根據(jù)操作限制條件處理結(jié)果。此平臺的數(shù)據(jù)分析能夠給設(shè)計(jì)人員提供參考,在分析基本數(shù)據(jù)后,結(jié)合設(shè)計(jì)的要求將結(jié)果展示出來。比如:以產(chǎn)品的外觀造型、產(chǎn)品功能、包裝等數(shù)據(jù)分析結(jié)果來展示。隨著產(chǎn)品銷售時(shí)間的增加,評估數(shù)據(jù)的總量會擴(kuò)大,在數(shù)據(jù)庫中利用SQL語言編譯,只需要以此創(chuàng)建就能夠重復(fù)調(diào)用,使數(shù)據(jù)執(zhí)行速度得到提高。在數(shù)據(jù)初始化時(shí),以不同分類結(jié)果進(jìn)行展示,實(shí)現(xiàn)數(shù)據(jù)表自動(dòng)生成,對可視化模型調(diào)用,展示數(shù)據(jù)結(jié)果。用戶在使用數(shù)據(jù)結(jié)果時(shí),可以利用編輯、刪除、查詢、選擇等功能得到自己需要的數(shù)據(jù)分析結(jié)果,并將其存儲在結(jié)果數(shù)據(jù)庫中。
結(jié)語:對比一般計(jì)算機(jī)編程語言,Python語言的主要特點(diǎn)就是免費(fèi)、上手容易、語法簡單,從而使Python的使用更加廣泛。在數(shù)據(jù)分析中使用Python的時(shí)候,要結(jié)合數(shù)據(jù)的具體類型選擇合適Python數(shù)據(jù)分析技術(shù),可以提高數(shù)據(jù)分析的速度和質(zhì)量,以此對未來發(fā)展趨勢的科學(xué)預(yù)估提供數(shù)據(jù)支持。