黃艷梅
摘要:互聯(lián)網(wǎng)進(jìn)入了DT時代,對于數(shù)據(jù)研究不斷深入。信息化時代,通過對大數(shù)據(jù)的挖掘處理,提取有效數(shù)據(jù),能夠幫助企業(yè)不斷提升自身的發(fā)展。大數(shù)據(jù)的挖掘也推動了相關(guān)挖掘技術(shù)的提升,使得計算機(jī)技術(shù)進(jìn)一步提升。該文主要講述利用數(shù)理統(tǒng)計進(jìn)行信息提取的流程,并具體講述所用的步驟和數(shù)學(xué)公式,希望對數(shù)據(jù)的處理有所幫助。
關(guān)鍵詞:數(shù)理統(tǒng)計;數(shù)據(jù)挖掘;數(shù)學(xué)模型
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)27-0269-03
信息化時代的發(fā)展,使得互聯(lián)網(wǎng)中積沉了大量的數(shù)據(jù),但是由于這些數(shù)據(jù)存在的方式比較雜亂,數(shù)目巨大,導(dǎo)致其數(shù)據(jù)利用效率低、利用程序復(fù)雜。但是計算機(jī)人員已經(jīng)發(fā)現(xiàn)多種辦法能夠?qū)@些數(shù)據(jù)進(jìn)行處理,摘取出有效的數(shù)據(jù)信息,幫助推動企業(yè)自身的發(fā)展?,F(xiàn)在對于大數(shù)據(jù)的處理方式除了云計算外,利用數(shù)學(xué)法對其進(jìn)行處理也是常用的一種。利用數(shù)理統(tǒng)計對數(shù)據(jù)的處理,主要是為了找出數(shù)據(jù)之間存在的各種規(guī)律,然后提取出有效的數(shù)據(jù),提升數(shù)據(jù)的利用率和價值。
1 數(shù)據(jù)挖掘流程
利用統(tǒng)計方式對數(shù)據(jù)進(jìn)行處理,需要經(jīng)過一系列的處理過程。
圖1是數(shù)據(jù)分析篩選的幾個關(guān)鍵程序。而進(jìn)行數(shù)據(jù)分析的大致流程如下[1]:
1.1 取樣
由于數(shù)據(jù)整體量大,類目雜多,想要提取出精確的數(shù)據(jù)信息,必須按照數(shù)據(jù)的類目對其進(jìn)行篩選,選出所需的數(shù)據(jù)庫,從該數(shù)據(jù)庫中選出需要的樣本數(shù)據(jù),對其進(jìn)行下一步的分析。
1.2 分選
在樣本中的數(shù)據(jù),需要根據(jù)具體的需求進(jìn)行進(jìn)一步的分選,通過這樣的篩選工作,能盡可能地降低樣本數(shù)據(jù)中非關(guān)鍵數(shù)據(jù)的干擾,提升有效數(shù)據(jù)的所占比重。
1.3 調(diào)整
進(jìn)行初步分類的數(shù)據(jù),需要進(jìn)一步的整理。為了理清數(shù)據(jù)之間的各種關(guān)系,需要通過多種方式對數(shù)據(jù)進(jìn)行深入處理,保證其數(shù)據(jù)調(diào)整符合數(shù)據(jù)挖掘的原則與標(biāo)準(zhǔn)。使得調(diào)整過的數(shù)據(jù)之間的關(guān)系更加清晰。
1.4 分析
對于樣本中調(diào)整過的大量數(shù)據(jù),利用各種模型、分析方法對其進(jìn)行歸類存放。其中利用統(tǒng)計學(xué)、概率學(xué)等相關(guān)模型把數(shù)據(jù)帶入進(jìn)行分析,確保搜集的數(shù)據(jù)是有用的,符合挖掘目的,并得出數(shù)據(jù)之間清晰的脈絡(luò)圖。
1.5 評定
對于得到的數(shù)據(jù)模型,要進(jìn)行評定。對于數(shù)據(jù)整理的結(jié)果進(jìn)行評定標(biāo)準(zhǔn)就是查找缺漏。對于數(shù)據(jù)挖掘的每一個流程的效率都要進(jìn)行評價,保證其不會出現(xiàn)各種弊端。
2 建立模型
2.1 喬里斯基分解法
2.3 雅克比方法
2.3.1 原理
對于實(shí)數(shù)的矩陣,一般都是利用雅克比法,而不是施密特正交法,去求出該矩陣的特值和對應(yīng)的向量,該種方法的具體內(nèi)容如下:
用公式[tan2θ]=[2apqapp-aqq]去計算角度[θ],利用變換矩陣對B進(jìn)行轉(zhuǎn)換后,非主線元素的二次方和降低[2a2pq],相應(yīng)的主線和增加[2a2pq],整體的和沒有發(fā)生變化。通過這個數(shù)據(jù),可以看出,經(jīng)過轉(zhuǎn)換,非主線和越來越趨近于0,只要再進(jìn)行多次轉(zhuǎn)換,必定能實(shí)現(xiàn)非主線元素的化0計算。慢慢的,就實(shí)現(xiàn)了B矩陣的轉(zhuǎn)化,該矩陣中的主線數(shù)值就成為了所求的特征值,然后可以求出其相對應(yīng)的特征向量[4]。
2.3.2 類型
雅克比方法一般分為三類,其一是,經(jīng)典法。就是在原矩陣選取正值最大的元素,并把其設(shè)定為0,進(jìn)行數(shù)據(jù)篩選時,排出主線元素。通過數(shù)據(jù)證明,所有的數(shù)據(jù)的平方的總和其數(shù)值接近與0,我們在進(jìn)行篩選時,每一個數(shù)值都要與非主線的數(shù)值相互比值,如此才能保證選出的數(shù)值是最大的,當(dāng)數(shù)據(jù)特別多時,利用這樣的方式,進(jìn)行數(shù)據(jù)分析,顯然需要花費(fèi)很多的時間。其二,循環(huán)法。利用這種方法進(jìn)行數(shù)據(jù)篩選時,就是從某一個數(shù)值開始,順時針或者逆時針,對矩陣的數(shù)值進(jìn)行調(diào)整,能經(jīng)過運(yùn)算化為0的,利用經(jīng)典法化0,無法進(jìn)行化0計算的,就忽略,經(jīng)過多次的循環(huán)、計算,實(shí)現(xiàn)目的,這種方式相對第一種方法來說次數(shù)是有限的,可控制的。其三,限值循環(huán)的方式。這種方式跟循環(huán)法有部分計算流程是相通的,但是其進(jìn)行比較時,是固定了一個數(shù)值進(jìn)行比較,通過更換有限的固定值進(jìn)行掃除。當(dāng)矩陣中的數(shù)值小于第一個固定值時,就忽略,但是大于第一個固定值就通過運(yùn)算化0,通過不斷利用固定值,進(jìn)行計算、清除,這樣的方式是通過把矩陣中的非主線元素與設(shè)定的多個固定值進(jìn)行比較、處理,一直得到我們想要的數(shù)據(jù)結(jié)果,然后停止循環(huán)。
2.3.3 步驟
2.3.4 主成分
想要分析出主要成分,需要對線性矩陣的特征值進(jìn)行分析,根據(jù)特征值所代表的意義,得出其數(shù)值越大,在數(shù)據(jù)挖掘中所起到的作用越大,當(dāng)其作用達(dá)到百分之七十時,起到的作用就是主要作用,那些矩陣數(shù)值就是關(guān)鍵成分。
2.4 貝葉斯模型
2.4.1 網(wǎng)絡(luò)模型
該種模型是概率推算的一種方式[5]。該種模式主要利用網(wǎng)絡(luò)結(jié)構(gòu)去清晰的羅列出該系統(tǒng)中每一個數(shù)值之間的數(shù)學(xué)關(guān)系。而且貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)圖是有方向的,主要由數(shù)據(jù)之間的節(jié)點(diǎn)連接構(gòu)成。兩個數(shù)據(jù)之間的連接線是數(shù)據(jù)之間存在的數(shù)理關(guān)系對此我們對經(jīng)典的貝葉斯模型進(jìn)行介紹:
2.4.2 結(jié)構(gòu)算法
貝葉斯的結(jié)構(gòu)算法一般有三種:其一,都是由數(shù)學(xué)家對該網(wǎng)絡(luò)模型中自變量進(jìn)行安置,然后利用相關(guān)的理論基礎(chǔ)去推定出該模型的網(wǎng)狀圖,制定數(shù)據(jù)的分布。這種方式完全是以數(shù)學(xué)家的理論基礎(chǔ)為指導(dǎo),進(jìn)行該模型的計算與推導(dǎo),可能由于自身的局限性,導(dǎo)致其計算結(jié)果差距較大。其二,數(shù)據(jù)工程師安置完模型的節(jié)點(diǎn),然后利用原有數(shù)據(jù)和該模型進(jìn)行配比,經(jīng)過多次的嘗試,得到該模型的構(gòu)造與數(shù)據(jù)值。這種計算方式以數(shù)據(jù)為中心,實(shí)用性比較強(qiáng),隨著現(xiàn)代技術(shù)的進(jìn)步,為該種方式的實(shí)現(xiàn)提供了很大的可能性依據(jù)。其三,把以上兩種計算方式的優(yōu)勢進(jìn)行融合的計算模式,就是第三種方式。這三種方式都需要專業(yè)知識豐富的數(shù)據(jù)專家進(jìn)行指導(dǎo),才能保證計算的真實(shí)性與有效性。
3 實(shí)例分析
瓷器生產(chǎn)商為了提升瓷器整體的質(zhì)量,必須找出降低產(chǎn)品質(zhì)量的原料。通過大數(shù)據(jù)知識,找出其中幾種關(guān)鍵可能造成產(chǎn)品質(zhì)量下降的原料進(jìn)行分析。對其中每一種材料,抽取30個數(shù)據(jù)進(jìn)行分析。先利用第一種方式對數(shù)據(jù)帶入線性方程進(jìn)行求解,得出系數(shù),得到相應(yīng)的函數(shù)方程。然后再利用雅克比與矩陣,算出特征值與特征向量,得出影響的主要成本,進(jìn)一步確定降低瓷器質(zhì)量的原料種類。為了保證可能出現(xiàn)誤差,對得到的結(jié)果數(shù)據(jù)進(jìn)行判定,判定其有效性與合理性,進(jìn)行多次判定,保證其數(shù)據(jù)結(jié)果與實(shí)際情況相符合[6]。
4 結(jié)束語
數(shù)據(jù)挖掘在實(shí)際生產(chǎn)中的運(yùn)用范圍比較廣。該種方式的出現(xiàn),解決了生產(chǎn)中查找問題沒有依據(jù)的情況,而且利用該種方式能夠找出生產(chǎn)中存在的主要問題,以及每個主要因素其在生產(chǎn)中影響的作用大小。數(shù)理概率在數(shù)據(jù)分析中的運(yùn)用,是數(shù)據(jù)處理能力不斷發(fā)展的基礎(chǔ)和依據(jù)。數(shù)據(jù)挖掘技術(shù)的不斷提升,提升了企業(yè)在數(shù)據(jù)處理方面的效率,進(jìn)一步推動了社會科技的發(fā)展。
參考文獻(xiàn):
[1] 馬世龍,烏尼日其其格,李小平.大數(shù)據(jù)與深度學(xué)習(xí)綜述[J].智能系統(tǒng)學(xué)報,2016,11(6):728-742.
[2] 謝榭.基于數(shù)據(jù)挖掘的上海電信分公司客戶流失問題實(shí)證研究[D].重慶大學(xué),2015:47-50.
[3] 肖明偉.基于數(shù)據(jù)挖掘與數(shù)理統(tǒng)計的電信集團(tuán)客戶價值評估研究與應(yīng)用[D].成都理工大學(xué),2013:17-20.
[4] 孔翔宇.量化交易中的統(tǒng)計方法:基于回歸與文本挖掘的兩個實(shí)證研究[D].中國科學(xué)技術(shù)大學(xué),2014,29(3):11-12.
[5] 孫安恂.基于數(shù)據(jù)挖掘的廣電網(wǎng)絡(luò)運(yùn)營商客戶價值評估研究—以J市廣電網(wǎng)絡(luò)有限公司為例[D].南京郵電大學(xué),2016.
[6] 李潮.對廣電網(wǎng)絡(luò)公司用戶數(shù)據(jù)挖掘的探討[J].衛(wèi)星電視與寬帶多媒體,2010(16):34-37.endprint