奚曉曄 嚴(yán)利民 殷曉文
摘 要:針對現(xiàn)今的社會調(diào)查數(shù)據(jù)處理與分析中存在的問題,該文通過三維矩陣建立了社會調(diào)查數(shù)據(jù)的數(shù)學(xué)模型。將每一題表示為空間中的一個維度,每一張問卷表示成一個矩陣,將多個矩陣疊加即可得到社會調(diào)查數(shù)據(jù)的三維矩陣模型。在建立三維矩陣模型的基礎(chǔ)上,可以利用三維矩陣的性質(zhì)對其進行多種數(shù)學(xué)處理,也可以采用超圖理論對數(shù)據(jù)進行進一步的分析,大大豐富了調(diào)查數(shù)據(jù)的處理方法。
關(guān)鍵詞:社會調(diào)查數(shù)據(jù) 三維矩陣 超圖
中圖分類號:P208 文獻標(biāo)識碼:A 文章編號:1672-3791(2016)02(a)-0003-04
Abstract:In view of the problems of the social survey data processing and analysis, this paper establishes the mathematical model of three dimensional matrix which is based on the three dimensional matrix.On the basis of the established three dimensional matrix model,we can use the properties of three dimensional matrix to deal it with a variety of mathematical methods, and use the hypergraph theory for further analysis. This enriches the method of the survey data processing greatly.
Key Words:Social survey data;Three-dimension matrix;Hypergraph
社會調(diào)查是了解各方面信息的重要途徑之一,社會調(diào)查數(shù)據(jù)主要是通過調(diào)查問卷的方法得到的。由于社會調(diào)查數(shù)據(jù)的維數(shù)較高,加上人為主觀因素,數(shù)據(jù)類型主要為二元變量、離散變量、序數(shù)變量等為主,所以對于社會調(diào)查數(shù)據(jù)的分析和處理大都基于統(tǒng)計學(xué),只對單一題目進行統(tǒng)計學(xué)分析,其分析方法主要是基于題型進行處理的,對于題目和題目之間的關(guān)系很少關(guān)心[1]。許多數(shù)據(jù)挖掘算法因為種種限制無法在社會調(diào)查的數(shù)據(jù)分析中得到應(yīng)用。因為方法的限制,所以現(xiàn)在很多社會調(diào)查只能驗證事先想好的內(nèi)容和假設(shè),很少可以對高維數(shù)據(jù)進行相對復(fù)雜的回歸分析處理。
根據(jù)以上存在的問題,該文建立了基于三維矩陣的數(shù)學(xué)模型,將單選題、多選題和排序題用向量形式進行表示,每一題定義為空間中的一個維度,從而所有的題目就可以構(gòu)成一個N維空間。每份問卷的信息用一個M×N矩陣表示。這樣表示可以將所有問卷內(nèi)容當(dāng)作一個整體,作為后續(xù)算法的基礎(chǔ)。
1 社會調(diào)查數(shù)據(jù)的特點
通常情況下,社會調(diào)查數(shù)據(jù)特點如下。
(1)相關(guān)性。對于一個樣本個體而言,它具有本身的多個特征,這些特征之間就具有一定的相關(guān)性。對于多個樣本而言,個體與個體的特征之間具有相關(guān)性。如果樣本隨時間而變化,那么該樣本在不同時刻的特征之間又具有相關(guān)性。因此,由于上述多個原因使得社會調(diào)查數(shù)據(jù)具有了復(fù)雜的相關(guān)性,傳統(tǒng)的統(tǒng)計學(xué)調(diào)查難以解決這樣的問題。
(2)離散性。因為社會調(diào)查數(shù)據(jù)是通過自填式問卷、網(wǎng)絡(luò)調(diào)查數(shù)據(jù)庫等方法得到,所以社會調(diào)查數(shù)據(jù)一般以離散變量為主,且這些數(shù)據(jù)之間只有標(biāo)示作用,并沒有嚴(yán)格的邏輯關(guān)系。
(3)模糊性。社會調(diào)查數(shù)據(jù)當(dāng)中不可避免的會接觸到各種表達方式和概念,因此,它具有模糊性。
因為由自填式問卷或結(jié)構(gòu)式訪問的方法得到的社會調(diào)查數(shù)據(jù)具有以上特點,所以在實際應(yīng)用中基于統(tǒng)計學(xué)的處理方法只能籠統(tǒng)的顯示數(shù)據(jù)的部分特性,如頻數(shù)、離散程度等[2]。對于數(shù)據(jù)之間的關(guān)系只能分析出維數(shù)極少的大致的關(guān)系。
而且利用軟件進行數(shù)據(jù)挖掘時,因為現(xiàn)有的軟件中的數(shù)據(jù)挖掘算法對于數(shù)據(jù)類型和格式要求較高,所以能應(yīng)用到的數(shù)據(jù)挖掘算法很少。就算是數(shù)據(jù)要求較低的關(guān)聯(lián)分析,其結(jié)果也存在大量的冗余。因此,我們需要建立一個合適的社會調(diào)查數(shù)據(jù)的數(shù)學(xué)模型來完善原先的方法并使跟多的數(shù)據(jù)挖掘方法可以運用到其中,使得結(jié)果更準(zhǔn)確。
2 社會調(diào)查數(shù)據(jù)的建模
研究中我們發(fā)現(xiàn),三維矩陣可適用于社會調(diào)查數(shù)據(jù)的建模。
2.1 三維矩陣的定義
三維矩陣的定義:由n個p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。
2.2 三維矩陣模型的建立
調(diào)查問卷的題目一般有三種類型:單選題、多選題和排序題。這三類題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個向量,排序題可以表示成多個向量組成的矩陣。對于單選題和多選題,可以按選項的順序可以表示成一個向量,其中選中的項用“1”表示,未選中的項用“0”表示。對于排序題,可以表示成一個n×n的方陣,其中n表示該排序題的選項個數(shù),。這樣,每一題就可以定義為空間中的一個維度,從而所有的題目就可以構(gòu)成一個N維空間。每份調(diào)查問卷的信息用一個M×N矩陣表示(M為題目的最大選項數(shù)),其在每一維上的選擇稱之為一個元素,這樣每份問卷的信息就包括了N個元素。以第1,2,3題數(shù)據(jù)為例,其中第1題為單選題選擇“B”,用向量表示為一個元素,第2題為多選題選擇“ACE”,用向量表示為一個元素,第3題為排序題順序為CBADEFIHG,用矩陣表示,每一個列向量是一個元素,如圖1所示。
那么,假設(shè)有一問卷信息用一個大小為M×N的矩陣表示。K份的問卷信息就可以用K個大小為M×N的矩陣表示。將這K個矩陣疊加,形成一個三維矩陣。這個三維矩陣就是我們建立的三維矩陣數(shù)學(xué)模型,如圖2所示。
在圖2中我們看到,該三維矩陣數(shù)學(xué)模型有三個坐標(biāo)軸,它們分別是題目,人數(shù),選項。題目軸以每一道題為一個單位;人數(shù)軸以每一份問卷為一個單位;選項軸的刻度為A,B,C,D,E,F(xiàn)等題目選項,其個數(shù)為該調(diào)查問卷中選項最多的題目的選項個數(shù)。
在此基礎(chǔ)之上,這樣的三維矩陣具有以下性質(zhì)。
(1)在題目軸中選取對應(yīng)的題目,將三維矩陣面向豎切得到截面1(如圖2中01所示),截面2表示每一道題所有人選擇的信息。
(2)在人數(shù)軸中選取對應(yīng)的人,將三維矩陣橫切得到橫截面1(如圖2中02所示),橫截面1表示對應(yīng)的人選擇所有題目的信息。
在得到三維矩陣后,可對它進行像素化處理,置1的元素用黑點代替,置0元素的則空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著人數(shù)維度上向下投影,這樣就可以得到一個具有濃黑不一的點的平面。通過這些點的濃度,可以知道每一選項選擇的人數(shù)。接下來我們可用灰度級表示點的濃度,篩選出濃度大于一定程度的點,在此基礎(chǔ)上進行后續(xù)算法處理。
上述三維矩陣數(shù)學(xué)模型具有數(shù)學(xué)三維矩陣的所有性質(zhì),可依據(jù)調(diào)查問卷的需求進行轉(zhuǎn)置,加權(quán)、相乘、篩選等數(shù)學(xué)處理,另外在數(shù)學(xué)處理的基礎(chǔ)上,采用超圖理論可以大大豐富了調(diào)查問卷的處理方法。
3 基于超圖算法的調(diào)查問卷分析技術(shù)
超圖是離散數(shù)學(xué)中重要的內(nèi)容,是對圖論的推廣[3]。超圖是有限集合的子系統(tǒng),它是一個由頂點的集合V和超邊集合E組成的二元對,超圖的一條邊可以有多個頂點的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向后得到的有向二元對就是有向超圖。超圖在許多領(lǐng)域有廣泛的應(yīng)用。
大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個選項設(shè)成一個節(jié)點,然后將三維矩陣從上向下投影,如果某一題的若干個選項同時被一個人選擇,就用一條超邊包圍這些節(jié)點,那么選這些選項的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進行聚類處理。
利用有向超圖,可以將關(guān)聯(lián)規(guī)則表示成有向超圖的形式,在得到了關(guān)聯(lián)規(guī)則后,設(shè)實際中得到的關(guān)聯(lián)規(guī)則的形式為:,前項和后項都是由多個項組成的集合。該文定義一條關(guān)聯(lián)規(guī)則由一條有向超邊表示,有向超邊的頭節(jié)點表示關(guān)聯(lián)規(guī)則的前項,有向超邊的尾節(jié)點表示關(guān)聯(lián)規(guī)則的后項。每條有向超邊的頭節(jié)點和尾節(jié)點均可以為多個,如此便成功表示了復(fù)合規(guī)則,從而可以使用相關(guān)算法進行冗余規(guī)則檢測。
通過基于有向超圖的冗余規(guī)則檢測就可以將關(guān)聯(lián)規(guī)則之間存在著的大量冗余檢測出,減少挖掘資源的浪費,從而增加了挖掘結(jié)果的有效性。
傳統(tǒng)的聚類方法都對原始數(shù)據(jù)計算它們之間的距離來得到相似度,然后通過相似度進行聚類,這樣的方法對于低維數(shù)據(jù)有良好的效果,但是對于高維數(shù)據(jù)卻不能產(chǎn)生很好的聚類效果,因為高維數(shù)據(jù)的分布有其特殊性。通過超圖模型的分割實現(xiàn)對高維數(shù)據(jù)的聚類卻能產(chǎn)生較好的效果。它先將原始數(shù)據(jù)之間關(guān)系轉(zhuǎn)化成超圖,數(shù)據(jù)點表示成超圖的節(jié)點,數(shù)據(jù)點間的關(guān)系用超邊的權(quán)重來表示。然后對超圖進行分割,除去相應(yīng)的超邊使得權(quán)重大的超邊中的點聚于一個類中,同時使被除去的超邊權(quán)重之和最小。這樣就通過對超圖的分割實現(xiàn)了對數(shù)據(jù)的聚類。具體的算法流程如下。
首先,將數(shù)據(jù)點之間的關(guān)系轉(zhuǎn)化為超圖,數(shù)據(jù)點表示為超圖節(jié)點。如果某幾個數(shù)據(jù)點的支持度大于一定閾值,則它們能構(gòu)成一個頻繁集,就將它們用一條超邊連接,超邊的權(quán)重就是這一頻繁集的置信度,重復(fù)同樣的方法就可以得超邊和權(quán)重。
然后,在基礎(chǔ)此上,通過超圖分割實現(xiàn)數(shù)據(jù)的聚類。若設(shè)將數(shù)據(jù)分成k類,則就是對超圖的k類分割,不斷除去相應(yīng)的超邊,直到將數(shù)據(jù)分為k類,且每個分割中數(shù)據(jù)都密切相關(guān)為止,同時保持每次被除去的超邊權(quán)重和最小,最終得到的分割就是聚類的結(jié)果。
如圖3所示是基于超圖算法的選題型調(diào)查問卷的分析技術(shù)的流程圖,主要包括4個主要部分,一是用向量表示調(diào)查問卷結(jié)果,二是將向量表示的調(diào)查問卷轉(zhuǎn)化為三維矩陣數(shù)學(xué)模型表示調(diào)查問卷結(jié)果,三是使用超圖算法進行優(yōu)化,四是根據(jù)要求顯示調(diào)查問卷結(jié)果。
4 結(jié)語
該文針對社會調(diào)查數(shù)據(jù)處理與分析中存在的問題,建立了基于三維矩陣的數(shù)學(xué)模型,將單選題和多選題表示成向量,將排序題表示成多個列向量,從而每一題可以表示成空間的一個維度,每一個向量就是一個元素,這樣每一張問卷就可以表示成一個矩陣,通過將多個矩陣疊加就可以得到三維矩陣。該數(shù)學(xué)模型可以利用三維矩陣的性質(zhì)對其進行多種數(shù)學(xué)處理,如豎切、橫切、像素化后投影等。在數(shù)學(xué)處理的基礎(chǔ)上,該文又提出超圖理論對數(shù)據(jù)進行聚類和檢測冗余規(guī)則的分析。
參考文獻
[1] 陳慧萍,王煜,王建東.高維數(shù)據(jù)挖掘算法的研究與進展[J].計算機工程與應(yīng)用,2006(24):170-173.
[2] 張東.基于VFP的調(diào)查問卷通用統(tǒng)計匯總生成系統(tǒng)的設(shè)計與實現(xiàn)[J].科技資訊,2006(10):183.
[3] 奚維吉.用戶滿意度調(diào)查的數(shù)據(jù)處理[J].科技資訊,2007(8):253-254.
[4] 崔陽,楊炳儒.超圖在數(shù)據(jù)挖掘領(lǐng)域中的幾個應(yīng)用[J].計算機科學(xué),2010,37(6):220-222.
[5] 朱玉全,楊鶴標(biāo),孫蕾.數(shù)據(jù)挖掘技術(shù)[M].南京:東南大學(xué)出版社,2006.
[6] 王志平,王眾托.超網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:科學(xué)出版社,2008.
[7] Jong Soo Park,Ming-Syan Chen,Philip S.Yu.Using a hash-based method with transaction trimming for mining associationrules [J].IEEE Transactions on knowledge and engineering,1997,9(5):813-825.
[8] 王海英,黃強,李傳濤,等.圖論算法及其 MATLAB實現(xiàn)[M].北京航空航天大學(xué)出版社,2010.
[9] H.Toivonen. Sampling large databases for association rules [C]// Proc. 1996 Int. Conf. Very Large Data Bases (VLDB'96).1996.
[10] Marco Dorigo, Vittorio Maniezzo, Alberto Colorni. The ant system: optimization by a colony of cooperative agents [J].Physical Review Letters,1995,75(14):2686-2689.
[11] S. Brin, R. Motwani, J. D.Ullman,et al.Dynamic itemset counting and implication rules for market basket data [J].ACMSIGMOD Record,1997,26(2):255-264.
[12]金欣磊,馬龍華,吳鐵軍,等.基于隨機過程的 PSO 收斂性分析[J].自動化學(xué)報,2007,33(12):1263-1268.
[13]Van de Bergh F, A P Engelbrecht. A study of particle swarm optimization trajectories [J].Information Sciences, 2006,17(6):937-971.