劉睿智, 趙守香
( 北京工商大學 計算機與信息工程學院,北京 100048)
中國是最大的服裝生產國、銷售國和出口國,世界上每3件服裝就有1件來自中國。服裝是人們生活中的必需品,關系到其生活質量。服裝號型對于服裝銷售至關重要,服裝號型對消費者各種身材和體型覆蓋率越大則越有利于產品的銷售。雖然我國出臺了相關的號型標準,但都是推薦性標準,生產企業(yè)在此基礎上建立了自己的號型結構體系,并且不同地區(qū)、不同年齡的消費者身材體型不盡相同,需要生產企業(yè)深入調研設計號型標準。SPSS軟件是一款強大的數據分析軟件,利用它可以簡明、快速、準確地確定號型分類及設置。文中以陜西地區(qū)男式上衣為研究對象,具體討論如何利用SPSS進行大數據分析,精確設計服裝號型。
樣本量的確定是數據統(tǒng)計的基礎。采集數據量過大會費時費力,數據量過小容易產生較大誤差,科學合理的樣本量對統(tǒng)計分析預測至關重要。采用簡單隨機抽樣方法,按下面公式進行計算:
式中:N為樣本容量;Z為置信水平下的統(tǒng)計量;S為總體標準差;d為允許誤差。成年人體各控制部位尺寸可接受的誤差和標準差見表1[1]。95%置信水平下Z統(tǒng)計量為1.96,選取最大的S/d值6.70,經計算N為172。隨機抽取了172名成年男子并測量獲取到了他們的體型信息。
表1 人體各控制部位的數值
在數據采集過程中難免會出現偏差,造成數據的失真,因此需要對這些數據進行奇異值的檢查和處理,剔除一些異常數據以保證結果準確。在進行統(tǒng)計分析時,許多分析方法要求數據符合某種概率分布,大多數方法要求符合正態(tài)分布,因此還需要進行正態(tài)分布檢驗。
檢查是否存在奇異值主要有兩種方法,分別是莖葉圖和箱圖,具體如圖1所示。莖葉圖可以看出奇異值的數量,箱圖可以找到奇異值的位置,文中將兩種方法組合運用,以增強數據的準確性。在莖葉圖中,顯示了整體身高變量的頻數、莖和葉[2]。莖表示數值的整體部分,葉表示數值的小數部分,“≥186”表示身高變量數據中存在一個奇異值。從箱圖中可以看出,107號是奇異值,該奇異值是由于身高過高導致的,因此將107號樣本數據剔除。按照該方法對其他變量進行檢驗,將樣本中4個奇異值剔除,最終樣本數量為168個。
圖1 檢查奇異值的兩種方法Fig.1 Two ways to cheek singular values
正態(tài)分布檢驗常用的方法是P-P概率圖和Q-Q概率圖,其中P-P概率圖簡單直觀、便于判斷,因此文中采用該方法對身高變量進行正態(tài)分布檢驗,檢驗結果如圖2所示。由圖2可以看出,樣本數據大致聚集在一條直線上,可以認定身高變量基本符合正態(tài)分布,且各點是無規(guī)則的即樣本是隨機的。同理可得,其他變量也基本遵循正態(tài)分布。
圖2 身高及身高去趨勢的正態(tài)P-P分布 Fig.2 Height and height trending normal P-P diagrom
文中選取最大值、最小值、平均值及標準差等具有代表性的指標進行分析,分析結果見表2。
表2 變量統(tǒng)計性描述
由表2可以看出,陜西地區(qū)成年男子身高、體質量、胸圍方差較大,表示個體在這些變量上存在著很大差異,其他變量差異性較小。
相關性分析是研究變量之間關系密切程度常用的方法之一。變量間的相關程度可以用相關系數衡量。相關系數用r表示,正態(tài)分布的等間隔測度變量x與y間的相關系數采用Pearson 積矩相關公式計算:
表3為各變量間相關系數矩陣。由表3可以得出:所有變量均呈正相關關系。其中,身高與體質量、全臂長之間存在中度相關或高度相關;胸圍與肩寬、后背長、頸圍存在中度相關或高度相關;其他變量之間也存在中度相關及低度相關。相關性分析是進行回歸分析、建立回歸模型的重要依據,相關性越強,線性回歸模型效果越好。
表3 變量間相關系數矩陣
因子分析的目的是從眾多變量中挑選出一個或幾個具有代表性的變量[3],因此因子分析的前提條件是變量之間存在較強的相關關系。在因子分析前需要檢驗變量間是否滿足較強相關關系,常用的檢驗方法有KMO檢驗和Bartlett球形度檢驗。KMO檢驗統(tǒng)計量用于比較變量間簡單相關系數和偏相關系數的指標,計算公式為
式中:rij為變量xi和其他變量xj間的簡單相關系數;pij為變量xi和其他變量xj間在控制剩余變量下的偏相關系數。KMO取值范圍在0~1之間,當所有變量間簡單相關系數平方和大于偏相關系數平方和時,KMO接近于1,變量間的相關性強,適合進行因子分析。文中運用KMO和Bartlett球形度檢驗對樣本數據進行測試,具體結果見表4。Bartlett球形度檢驗的統(tǒng)計量根據相關系數矩陣的行列式計算得到,若變量觀測值較大且對應的p值小于給定的顯著性水平α,認為原有變量適合進行因子分析。由表4可以看出,KMO值為0.832,較接近于1,說明適合進行因子分析;同時,Bartlett球形度檢驗中顯著性接近于0,顯著性水平α為0.05,0小于顯著性水平α,適合進行因子分析。因此,兩種檢驗方法均證明變量間適合進行因子分析。
表4 KMO 和Bartlett檢驗結果
總方差解釋見表5。表5中初始特征值列反映了因子分析初始解的情況,第1個因子的特征值為4.531,解釋原有7個變量總方差的64.732%,累計方差貢獻率64.732%;第2個因子的特征值為1.509,解釋原有7個變量總方差的21.560%,累計方差貢獻率86.283%,其余數據含義類似,初始解中提取了7個因子,原有變量總方差均被解釋,累計方差貢獻率100%。提取載荷平方和列描述了因子解的情況,由于指定提取2個因子,它們共解釋了原有變量總方差的86.283%,整體上,原有變量信息丟失較少,因子分析效果較理想;旋轉載荷平方和列描述了最終因子解情況,因子旋轉后累計方差貢獻率沒有發(fā)生變化,但重新分配了各個因子解釋原有變量的方差,使得因子更易于解釋。
表5 總方差解釋
注:提取方法為主成分分析法。
圖3為因子分析碎石圖。
圖3 因子分析碎石圖Fig.3 Gravel map
由圖3可以看出,第1個因子的特征值很高,對解釋原有變量的貢獻最大;第3個因子以后的特征值都較小,對解釋原有變量的貢獻很小,因此提取兩個因子是合適的。
旋轉后的成分矩陣見表6。由表6可以看出,第1個因子主要解釋了總肩寬、胸圍、后背長和頸圍這幾個變量,身高、全臂長和體質量主要由第2個因子解釋。
聚類分析是將樣本數據按照一定的規(guī)則進行分類,同類樣本具有較大的相似度,不同類樣本之間存在著較大差異。K-means均值聚類方法具有思想簡單、易于理解、容易實現、處理速度快、占用內存少等優(yōu)點,適合大樣本聚類,分類效果較好[4],因此文中采用此方法對體型數據進行聚類分析。聚類分析的核心步驟是:確定聚類數目;確定初始類中心點;確定樣本點到中心點的歐氏距離,完成一次迭代過程;重新確定中心點并重復以上步驟,直至迭代終止。
表6 旋轉后的成分矩陣
注:提取方法為主成分分析法; 旋轉方法為凱撒正態(tài)化最大方差法;旋轉在 3 次迭代后已收斂。
通過體型的特征指標確定聚類變量,特征指標包括身體的不同部位,即身高、體質量、胸圍等[5]。通過因子分析可知,在兩個因子中都存在著具有代表性的變量,通過計算因子中相關指數,找出相關指數最大的變量作為控制變量即聚類變量,相關指數計算公式為
式中:i=1,2,…,m,m為所在類的指標個數;rij為相關系數,i≠j,j=1,2,…,m。計算結果見表7。
表7 因子相關指數
將身高和胸圍作為聚類變量,按照K-means均值聚類方法對樣本數據進行分類。考慮到服裝生產的實際,服裝號型設置不宜過多,因此3~5類最為合理。經過比較分析,發(fā)現聚類數為3時分類結果最清晰,效果最好,最終聚類中心見表8。由表8可以看出,不同類別個案數及所占比例中間多、兩邊較少,表明聚類結果合理。胸圍的聚類中心大致為86,93,99,身高為166,171,177,參考國家號型標準同時兼顧分析結果,將相鄰體型之間的胸圍差設置為4,身高差設置為5,結果清晰均勻。
表8 最終聚類中心
Tab.8 Final cluster center
項目聚類123胸圍85.992.698.8身高166.4170.6177.1個案數578922比例345313
將不同類別樣本數據分離出來,分別計算不同變量的平均值,作為中間體數值,具體結果見表9。中間體具有一定的代表性,反映了不同分類樣本的體型特點:M表示體型樣本身高較低,胸圍較?。籒表示體型樣本頻率最大,表明此體型人數最多,體型中等;P為體型樣本身高較高,身材健壯[6]。為便于表示體型,將表8中1體型用M表示,2體型用N表示,3體型用P表示。如果按照表9中的數值進行服裝號型的推算,必然會帶來許多不便,因此需要對其進行圓整,圓整后結果見表10。
表9 平均值
Tab.9 Average value
項目MNP身高166.417170.587177.064體質量59.06362.77369.573胸圍85.89592.55298.773頸圍38.07440.15341.586總肩寬43.97047.01349.586后背長41.50544.36846.341全臂長54.60255.84557.177
表10 圓整后平均值
Tab.10 Rounded average
項目MNP身高166171177體質量596369胸圍869399頸圍384042總肩寬444750后背長424446全臂長555657
檔差的設置是為了便于號型的制定。檔差設置時,不僅要考慮顧客的舒適性,還要便于企業(yè)生產,檔差設置太大不能滿足眾多的消費者需求,檔差設置太小則不利于生產者批量化生產。文中利用回歸方程設置各部位檔差。胸圍在第1個因子中具有代表性,因此其他變量用胸圍來描述,同理第2個因子用身高表示。在不同體型樣本中,分別建立身高與體質量、全臂長的線性關系,胸圍與頸圍、總肩寬、后背長之間的線性關系[7]。身高用H表示,胸圍用B表示,線性關系見表11。
表11 線性回歸方程
首先設置身高和胸圍的檔差分別是5和4,將其代入不同部位的線性回歸方程可以得到相應的檔差。為便于生產,將3類體型不同檔差進行統(tǒng)一化,得到了最終確定的檔差,具體結果見表12。由表12可以看出,頸圍和總肩寬檔差大于國家標準中規(guī)定的數值(頸圍檔差為1,總肩寬為1.2),這充分體現了陜西男子的體型特征,身材中等,肩寬頸粗的特點,這與陜西男子的體型特征相一致。
表12 檔差設置
注:括號外為計算值,括號內為采用值。
在計算不同號型具體數值時,首先要統(tǒng)計分析不同體型各部位的最大值和最小值,然后結合中間體、檔差、最大值、最小值和線性方程綜合考慮數值的設置。以體型N為例,首先統(tǒng)計各部位最大值和最小值,具體見表13;再按照中間體及檔差設置數值;最后根據最值和線性方程進行調整修正,最終號型劃分結果見表14[8]。同理,按照此步驟對M和P體型部位數值進行設置。
表13 N體型變量統(tǒng)計描述
表14 N體型下的號型設置
號型設置是否合理對于服裝生產和銷售至關重要。利用SPSS數據分析軟件并根據隨機樣本數據信息可以快速、準確地構建服裝號型體系,方便生產企業(yè)根據不同地域、不同年齡的目標客戶建立合理的號型標準[9]。利用陜西地區(qū)男子身材體型數據信息,結合SPSS數據分析工具,劃分了N,M,P 3種體型,并在每種體型下設置了相關號型及不同號型的數據特征,為服裝設計及生產提供參考與借鑒。