何宗順
摘要:智能信息處理技術作為一項可以處理大量數(shù)據(jù)的技術得到了廣泛的應用,其中,粗糙集技術作為其中一項具有廣闊的發(fā)展前景的技術引起了人們的注意。它可以幫助企業(yè)解決多方面問題,對企業(yè)的發(fā)展起到了非常良好的作用。本文介紹了粗糙集技術在企業(yè)中包括內(nèi)部運營和外部評估等各方面的應用。
關鍵詞:智能信息處理;粗糙集;聚類;應用企業(yè)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)22-0001-03
1概述
隨著當前互聯(lián)網(wǎng)技術的發(fā)展,企業(yè)各部門、各流程中產(chǎn)生的各種數(shù)據(jù)越來越多,迫切需要一種技術來對這些數(shù)據(jù)進行處理。智能信息處理技術作為一種涵蓋多個學科的技術,對各領域企業(yè)的數(shù)據(jù)處理過程產(chǎn)生了巨大的推動作用。例如在金融和市場分析中,人們可以利用數(shù)據(jù)挖掘技術,分析股票、市場的走向,而在企業(yè)中,智能信息處理技術可以幫助企業(yè)進行決策,提高企業(yè)決策科學、合理性,為企業(yè)發(fā)展做出貢獻;在某些處理數(shù)據(jù)量較大的環(huán)境中,傳統(tǒng)數(shù)據(jù)處理技術并不能很好的利用大規(guī)模數(shù)據(jù),但智能信息處理技術不僅能夠對股市情況作出準確判斷并預測金融趨勢;在企業(yè)生產(chǎn)和運營過程中,利用智能信息處理技術能夠對企業(yè)生產(chǎn)進行科學規(guī)劃和管理,提高效率與產(chǎn)值,提高運營管理效率。粗糙集是一種處理缺失和非精確的數(shù)據(jù)有效工具,基于粗糙集及其擴展模型的聚類算法研究是智能信息處理領域的核心問題之一。將該技術引入信息量爆炸的現(xiàn)代企業(yè),不僅可以為企業(yè)的經(jīng)營提供有效支持,而且能夠發(fā)現(xiàn)某些為人忽略的問題。因此本文對粗糙集方法以及粗糙集方法在企業(yè)中的應用前景做了概述。本文首先介紹了多種粗糙集理論,然后對基于粗糙集理論所衍生的聚類方法進行了概述,最后則是對粗糙集聚類方法在企業(yè)中的應用進行了綜述。
2粗糙集理論基礎
2.1經(jīng)典粗糙集
粗糙集(Rough Set)理論是由波蘭教授Pawlak于1982年提出的一種能夠定量分析處理不精確、不一致、不完整信息與知識的數(shù)學工具。粗糙集理論的主要思想是利用已有的知識分類來近似的逼近不精確的或是不完整的知識。它是一種建立在分類機制上的一種工具,通過等價關系來對空間進行劃分,使用上下近似集來逼近空間中的任意一個集合。粗糙集理論最大的特點就是它無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗信息,所以對問題的不確定性的描述或處理可以說是比較客觀的。
粗糙集理論中的“知識”實際上是人們通過自己的認知來對所有事物分類后得到的事物的狀態(tài)。知識必須與人類創(chuàng)造的各種分類模式聯(lián)系在一起,這些分類模式是人們在探索世界和對世界進行抽象的過程中得到的。所有我們可以分類的對象就是粗糙集理論所要研究的對象,稱為全域或者論域。
定義2.1設S=(U,A,V,f)為一個信息系統(tǒng),也稱為知識表示系統(tǒng)。其中U={U1,U2,…,U|U|}是所有要討論的個體的集合,它是有限非空集合,稱為全域或論域(umverse);u的任何子集Ui稱為u的一個分類;A={A1,A2,…,A|A|}為屬性的有限非空集合;V=∪Va,其中a∈A,Va是屬性a的值域,集合V是屬性
由以上粗糙集的基本概念可知,集合的不確定性存在于邊界上,集合的邊界越大,就越可能存在不確定性,同時粗糙集理論認為邊界的不確定性主要是由于基礎屬性的分類不精確所以導致無法精確的表示某一個集合。因此粗糙集不需要精確的數(shù)值來表述不精確的知識,而是采用分類(包括上近似集和下近似集)來逼近模糊的邊界。這也是粗糙集最大的特點之一。
2.2粗糙集擴展模型
2.2.1鄰域粗糙集模型
由于經(jīng)典粗糙集理論是基于不可分辨關系實現(xiàn)的,所以只能處理名詞型數(shù)據(jù),但現(xiàn)實中更多的存在的是名詞和數(shù)值屬性都包含的混合型數(shù)據(jù)。為了解決這一問題,Lint31等利用鄰域關系替代等價關系,提出了鄰域粗糙集模型,該模型利用鄰域關系來對知識進行劃分,從而直接處理混合型數(shù)據(jù)。
2.2.2多粒度粗糙集模型
經(jīng)典粗糙集模型和鄰域粗糙集模型,都是基于單個不可關系或單個鄰域關系來對論域進行分類,進而逼近未知概念,都是從唯一的角度對問題進行分析。但實際生活中,我們經(jīng)常需要多角度對問題分析和處理。因此錢宇華和梁吉業(yè)等提出,采用多個屬性來對論域進行分類,構造多粒度的論域空間,進而在多粒度論域空間上進行目標概念的近似逼近。他們分別定義了兩種具體的多粒度模型:樂觀多粒度粗糖集模型和悲觀多粒度粗糖集模型。
2.2.3變精度模型
現(xiàn)實生活中一直存在著一對多或是一對多的關系,因此經(jīng)典粗糙集中的一對一的關系就不能完全適用了。因此采取可變精度粗糙集模型,允許某一對象可以錯誤分配到其他類中,以此來加強粗糙集的抗干擾能力??勺兙却植诩P屯ㄟ^定義一個精度,來調節(jié)誤分類的概率,從而增大粗糙集模型的容錯性。
3基于粗糙集的聚類方法
Lingras和West于2004年首次將粗糙集理論引入到了k-means聚類算法中,用于處理邊界問題。提出了基于粗糙集的聚類算法有三條必須符合的條件:
(1)如果一個對象屬于一個類簇的下近似集那么它就不可能再屬于其他類簇了。
(2)一個類簇的下近似集一定是該類簇上近似集的子集。
(3)如果一個對象不屬于任何一個下近似集,那么它至少屬于兩個上近似集。
Petersm在Lingras和West的基礎上對粗糙k-means算法進行了進一步的改進,步驟如下:
(1)首先確定將要輸出的類簇數(shù)目K。
(3)確定大于0的閾值∈,以此來判斷某對象是屬于下近似集還是邊界集。首先將某個對象離各個中心點之間的距離ti(1≤i≤K)按從小到大排列,若存在ti-t1≤E,則將該對象分配到ti所代表的中心點的上近似集中,若不存在,則將該對象分配至最近的中心點(即t1所代表的中心點)的下近似集中。endprint
Viswanath和Suresh在2009年提出了一種可以應用于混合大數(shù)據(jù)集的基于粗糙集的DBSCAN算法(Rough DBSCAN)。
原始DBSCAN算法由以下三步構成:
(1)初始狀態(tài),給出一個數(shù)據(jù)集D,并設置半徑和MinDs,將D中的所有對象標記為“unvisited”(未被訪問)。
(2)隨機從D中選取一個未被訪問的對象p,并標記為“vis-ited”(已被訪問),檢查p的一鄰域內(nèi)是否至少包含MinPts個對象(即p是否是核心對象),若不是,則將p標記為噪聲點,否則,為p創(chuàng)建一個新的簇C,把p的一鄰域中所有標記為“unvisited”的對象放入候選集合N中,并迭代的將N中的"unvisited"的對象q標記為“visited”,若q的—鄰域至少包含MinPts個對象,則將q的一鄰域中所有的對象加入到C中,直到C不再擴大,N為空的時候,此時簇C完成聚類,并輸出。
(3)繼續(xù)從D中隨機選取未被訪問的對象s,同樣使用(2)中的聚類方法,直到對象集D中所有對象都被訪問。
由于原始DBSCAN算法需要計算每個點的鄰域內(nèi)對象的個數(shù),這就造成在該算法應用于大數(shù)據(jù)集消耗時間過多,不適用于大數(shù)據(jù)集。但是Rough DBSCAN算法改進了這一點,能夠適用于超大規(guī)模數(shù)據(jù)集,該算法使用了領導點的概念,即從第一個點開始,找到所有在該點的T(T《∈)鄰域內(nèi)的點并標記,然后在剩下的未標記過的點中繼續(xù)這一流程,結果如圖1所示,我們將所有的點都分為了多個小塊。接下來我們使用這些對象塊來代替原始DBSCAN算法中每個對象點,如圖2所示。若Ii在,的鄰域內(nèi),則,的∈鄰域內(nèi)的個數(shù)card(1)設定為∑count(Ii)。然后再按照DBSCAN算法的流程進行聚類。
Parmar和Wu與2007年提出了一種使用粗糙集的對名詞型屬性數(shù)據(jù)進行聚類的方法,首先對每個屬性進行分類,計算平均粗糙度,通過最小平均粗糙度得到最小粗糙度MR,通過最小MR得到MMR,以MMR最小的屬性為起始,迭代的對每個屬性進行二分,最后就可以得到基于粗糙集的分類了,該種分類方法的粗糙度也是較低的。
4聚類方法在企業(yè)中的應用
涂袁志等于2012年提出了一種基于粗糙聚類的針對航空制造企業(yè)零件生產(chǎn)周期分析的方法,通過對工序加工周期進行粗糙聚類,分析后得到合理的工序周期范圍,然后通過工序的離散度計算零件周期粗糙聚類的閾值,然后對零件加工周期進行粗糙聚類,這樣就可以得到合適的零件周期范圍,這樣我們通過周期類上、下近似方法刻畫企業(yè)實際生產(chǎn)周期樣本的歸屬,并將不同類別的周期表達為一種覆蓋關系。
鮑新中等于2013年提出一種基于聚類-粗糙集-神經(jīng)網(wǎng)絡的企業(yè)財務危機預警方法,首先利用粗糙集方法對財務預警的對象進行約簡,然后再使用層次聚類方法對約簡后的數(shù)據(jù)集進行聚類并分析。
2008年吳曉彬提出了一種基于金融時間序列的粗糙聚類分析方法。首先通過小波多尺度變換,改善時間相似性度量。通過隔點采樣將原序列分解成低頻系數(shù)列跟高頻系數(shù)列,由于低頻系數(shù)列保留了原序列的大致形狀信息,且長度較短。因此我們繼續(xù)對上一次得到的低頻系數(shù)列進行分解,得到下一層低頻系數(shù)列與下一層高頻系數(shù)列。在研究了時序相似性度量的基礎上,選取幾十只股票將粗糙集聚類方法應用于金融分析中,根據(jù)聚類結果進行分析,得出股票變化的信息。
徐煒等于2013年提出一種基于二階聚類與粗糙集的模型,該模型二階聚類模型對歷史水文數(shù)據(jù)進行聚類,然后分析各種因素對洪水分類的影響程度。再使用遺傳算法來確定相應的模型參數(shù),同時通過粗糙集挖掘影響因素與洪水類型間的隱含關系,驗證后發(fā)現(xiàn)可以在實際應用中,根據(jù)當前獲得的洪水的參數(shù)來辨別出所發(fā)生洪水的類型同時對有關部門進行洪水預警。并將相應的模型應用于實例當中。
彭楊可將基于因子分析和粗糙集的聚類分析模型應用于城市發(fā)展狀況評估中。首先對樣本數(shù)據(jù)做出因子分析,得到降維后的數(shù)據(jù)結果,然后對得到的結果進行基于粗糙集思想的K均值聚類分析,得到包括上下近似集的聚類分析結果,然后對聚類結果進行分析。同樣的,該方法也可以用于居民生活水平評估,企業(yè)也可以通過這一手段來判別哪一城市更具有投資價值。
徐節(jié)龍也提出了一種基于收益風險優(yōu)化屬性約簡的聚類分析方法,首先利用面粗糙聚類算法進行聚類得到一個小粒度的聚類結果;然后使用基于收益風險優(yōu)化屬性約簡的聚類算法,用收益風險優(yōu)化的函數(shù)來指導合并過程,減少不必要的粒,然后采用層次聚類的形式得到一個合適的聚類結果,并對聚類過程進行評估,直到滿足聚類算法的終止條件。
5總結
綜合上文所述,我們雖然粗糙集理論從提出至今只有二十幾年的發(fā)展歷史,但在粗糙集研究上取得的成果還是引人矚目的。尤其基于粗糙集所提出的各種聚類和約簡算法,如粗糙k-means,粗糙DBSCAN算法,以及各種約簡算法,這些方法在企業(yè)的應用中極為廣泛。對于企業(yè)來說,基于粗糙集的各種方法的應用無疑是一座巨大的金礦,可以使用這些方法進行多方面的分析。同時由于粗糙集可以與模糊集等數(shù)學工具結合。這就更擴大了企業(yè)應用粗糙集的范圍。endprint