陳志豪 季晶敏
摘? 要:古代玻璃制品受環(huán)境影響而被風(fēng)化,對(duì)其進(jìn)行成分分析、類別鑒定是開展后續(xù)研究工作的前提。針對(duì)清洗后的數(shù)據(jù),利用Spearman相關(guān)系數(shù)和差異性卡方檢驗(yàn),分析表面風(fēng)化與其影響因素間的相關(guān)性和差異性。隨后,具體對(duì)14種不同化學(xué)成分進(jìn)行主成分分析,建立Logistic回歸模型對(duì)主成分分析之后的數(shù)據(jù)進(jìn)行回歸分析。最后,建立層次聚類模型對(duì)不同種類的玻璃制品進(jìn)行亞類劃分,并對(duì)分類標(biāo)準(zhǔn)進(jìn)行合理性和靈敏性檢驗(yàn)。
關(guān)鍵詞:Spearman相關(guān)系數(shù);主成分分析;Logistic回歸分析;層次聚類
中圖分類號(hào):TP39;TQ171.1+1 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)08-0122-04
Abstract: Ancient glass products have been weathered due to environmental impact, and component analysis and category identification are prerequisites for subsequent research work. Based on the cleaned data, the correlation and difference between surface weathering and its influencing factors are analyzed using Spearman correlation coefficient and difference chi-square test. Subsequently, principal component analysis is conducted on 14 different chemical components, and a Logistic regression model is established to perform regression analysis on the data that has undergone principal component analysis. Finally, a hierarchical clustering model is established to make sub classification of different types of glass products, and the rationality and sensitivity of the classification criteria are tested.
Keywords: Spearman correlation coefficient; principal component analysis; Logistic regression analysis; hierarchical clustering
0? 引? 言
經(jīng)過漫長(zhǎng)歷史歲月的洗禮,大多數(shù)古代流傳至今的玻璃制品都有著不同程度的風(fēng)化問題。在風(fēng)化過程中,外界環(huán)境元素與玻璃內(nèi)部元素進(jìn)行交換,使得其成分比例發(fā)生變化,這為辨別玻璃的類型提供了難題。現(xiàn)有的技術(shù)和模型難以對(duì)玻璃文物表面風(fēng)化的影響因素和風(fēng)化前后各成分的含量的變化關(guān)系做出精準(zhǔn)的分析。因此,建立有效的數(shù)學(xué)模型以準(zhǔn)確的分析和鑒別古代玻璃制品的成分尤為重要。
依據(jù)現(xiàn)有技術(shù)對(duì)玻璃文物的化學(xué)成分進(jìn)行分析建模,一是分析玻璃文物的表面風(fēng)化與其類型、紋飾和顏色的關(guān)系。二是根據(jù)相關(guān)數(shù)據(jù)分析鉛鋇玻璃、高鉀玻璃的分類規(guī)律,并對(duì)每個(gè)類別進(jìn)行亞類細(xì)分,并對(duì)分類結(jié)果作合理性和靈敏性檢驗(yàn)。
1? 模型的建立與求解
1.1? 數(shù)據(jù)預(yù)處理
首先進(jìn)行數(shù)據(jù)量化。對(duì)于數(shù)據(jù)指標(biāo)類型全為定性變量(分類變量),在后續(xù)的分析和計(jì)算中不便處理,所以要對(duì)其進(jìn)行量化。量化標(biāo)準(zhǔn)是根據(jù)各指標(biāo)對(duì)表面風(fēng)化數(shù)量的統(tǒng)計(jì)規(guī)律,按升序的順序排列,對(duì)各指標(biāo)從1開始編號(hào)。
其次進(jìn)行數(shù)據(jù)清洗。將原始數(shù)據(jù)中的所有缺失值填充為0,認(rèn)為不存在該成分;對(duì)缺失值數(shù)據(jù)填充完成之后,對(duì)各行累加求和,各成分累計(jì)比例之和介于85%~105%之間為有效數(shù)據(jù),不在該范圍的數(shù)據(jù)為異常數(shù)據(jù),在后續(xù)分析中不做考慮。
1.2? 相關(guān)性分析
由于給定數(shù)據(jù)均為定性變量,所以選擇Spearman相關(guān)系數(shù)[1,2]來對(duì)玻璃文物表面風(fēng)化與其類型、顏色和紋飾間的相關(guān)性進(jìn)行分析。
假設(shè)Xi和Yi為兩組數(shù)據(jù),其Spearman相關(guān)系數(shù)為:
其中,di為Xi和Yi之間的等級(jí)差,n為樣本個(gè)數(shù)。對(duì)Spearman相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn),構(gòu)造統(tǒng)計(jì)量 ,并計(jì)算P值,當(dāng)P<0.05時(shí),認(rèn)為存在顯著性差異,即存在相關(guān)性。如表1所示。
由表1可知,經(jīng)過假設(shè)檢驗(yàn),當(dāng)顯著性水平為5%時(shí),類型與表面風(fēng)化的顯著性P值為0.008,Spearman系數(shù)為0.344,說明玻璃類型與表面風(fēng)化之間存在著中等程度的正相關(guān)性;而玻璃文物的顏色和紋飾未通過假設(shè)檢驗(yàn),說明玻璃文物的顏色和紋飾與表面風(fēng)化不存在顯著的相關(guān)性。
1.3? 差異性分析
本文用差異性分析來檢驗(yàn)玻璃表面風(fēng)化情況與其類型、顏色和紋飾間的差異性。由于所檢驗(yàn)數(shù)據(jù)均為定性變量,故選擇卡方分析。如表2所示。
根據(jù)表2的結(jié)果,在顯著性水平為1%的前提下,可以得出如下結(jié)論:
對(duì)于表面風(fēng)化和顏色,顯著性P值為0.307,水平上不呈現(xiàn)顯著性,所以表面風(fēng)化和顏色數(shù)據(jù)不存在顯著性差異。
對(duì)于表面風(fēng)化和類型,顯著性P值為0.009***,水平上呈現(xiàn)顯著性,所以表面風(fēng)化和類型數(shù)據(jù)存在顯著性差異。
對(duì)于表面風(fēng)化和紋飾,顯著性P值為0.084*,水平上不呈現(xiàn)顯著性,所以表面風(fēng)化和紋飾數(shù)據(jù)不存在顯著性差異。
1.4? 主成分分析模型
在數(shù)據(jù)分析過程中,由于自變量較多,會(huì)增加問題分析的難度和復(fù)雜性,也會(huì)降低模型的準(zhǔn)確率,所以本文首先對(duì)原始數(shù)據(jù)進(jìn)行主成分分析[3,4],將數(shù)據(jù)進(jìn)行降維處理。
首先假設(shè)原始數(shù)據(jù)有n個(gè)樣本,P個(gè)指標(biāo),可構(gòu)成大小為n×P的樣本矩陣x。計(jì)算樣本矩陣x的相關(guān)系數(shù)矩陣R:
隨后,計(jì)算R的特征值和特征向量,并利用特征值計(jì)算累計(jì)貢獻(xiàn)。在實(shí)際應(yīng)用中,一般取累計(jì)貢獻(xiàn)率超過80%的特征值所對(duì)應(yīng)的第1、第2、…、第m(m≤P)個(gè)主成分[3,4],則第i個(gè)主成分可以表示為:
Fi=a1i X1+a2i X2+…+aPi XP,(i=1, 2,…, m)? ? ?(3)
使用MATLAB處理相關(guān)數(shù)據(jù),進(jìn)行主成分分析操作,得到如圖1所示的累計(jì)貢獻(xiàn)率曲線,當(dāng)累計(jì)貢獻(xiàn)率大于80%時(shí),指標(biāo)數(shù)對(duì)應(yīng)的是6,所以取主成分的個(gè)數(shù)為6,即m=6。接著,將原始數(shù)據(jù)帶入主成分表達(dá)式,得到主成分分析結(jié)果。
1.5? Logistic回歸模型
邏輯回歸模型[5]是廣義的線性回歸模型,其因變量為定性變量,也就是分類變量,往往預(yù)測(cè)結(jié)果服從0~1分布,預(yù)測(cè)的因變量被看作是該事件發(fā)生的概率。
研究高鉀、鉛鋇兩種玻璃文物的分類規(guī)律,因變量為分類變量,一般的多元線性回歸模型并不適用于此情況,所以選擇邏輯回歸模型對(duì)玻璃文物的分類規(guī)律進(jìn)行分析。
主成分F3和F6具有較大的負(fù)回歸系數(shù),說明高鉀類玻璃文物的F3和F6的值相對(duì)較大,即F3和F6的主成分?jǐn)?shù)值較大時(shí),其為高鉀玻璃文物的概率較大,反之,為鉛鋇玻璃文物的概率較大。
1.6? 層次聚類模型
聚類模型是將樣本劃分為由類似的對(duì)象組成的多個(gè)類的過程,在不確定將不同類別的玻璃文物劃分為幾個(gè)子類的情況下,選擇層次聚類模型[7,8]來對(duì)不同類別的玻璃文物進(jìn)行亞類的劃分。該算法具體流程如圖2所示。
將樣本數(shù)據(jù)輸入之后,首先將每個(gè)樣本點(diǎn)看作為一類,計(jì)算兩兩樣本點(diǎn)之間的最小距離,此最小距離一般使用歐式距離[9,10]:
接著將距離最小的兩個(gè)類合并為一個(gè)新類,重新計(jì)算新類與所有類之間的距離,此處計(jì)算類與類之間的最小距離經(jīng)常使用的方法是組內(nèi)平均連接法,計(jì)算公式為:
不斷重復(fù)重復(fù)上述兩個(gè)過程,直到總類別為1,停止分類,輸出分類結(jié)果譜系圖。
使用SPSS進(jìn)行層次聚類分析,得到高鉀玻璃和鉛鋇玻璃聚類“肘部圖”,如圖3、圖4所示。
對(duì)于高鉀玻璃,從圖3中可以看出,K值為1到3時(shí),畸變程度變化最大,超過3以后,畸變程度變化顯著降低,因此肘部為K=3,故可將分類類別設(shè)置為3。
對(duì)于鉛鋇玻璃,從圖4中可以看出,K值為1到5時(shí),畸變程度變化最大,超過5以后,畸變程度變化顯著降低,因此肘部為K=5,故可將分類類別設(shè)置為5。
確定分類類別之后,分類結(jié)果如分類譜系圖如圖5、圖6所示:
具體分類結(jié)果如表3所示:
通過對(duì)高鉀玻璃文物分類結(jié)果編號(hào)相應(yīng)數(shù)據(jù)的分析論證,高鉀玻璃的亞類分類主要通過二氧化硅含量。類別A1中各玻璃文物的二氧化硅的含量在92.63%~96.77%之間,類別A2中各玻璃文物的二氧化硅含量在59.01%~69.33%之間,類別A3中各玻璃文物的二氧化硅含量在74.38%~79.46%之間。如表4所示。
通過對(duì)鉛鋇玻璃文物分類結(jié)果編號(hào)相應(yīng)數(shù)據(jù)的分析論證,鉛鋇玻璃的亞類分類主要通過氧化鉛和氧化鋇的含量。首先比較氧化鋇含量,類別B1、B2的氧化鋇含量明顯高于類別B3、B4、B5;再比較氧化鉛含量,類別B1的氧化鉛含量在28.68%~29.53%之間,類別B2的氧化鉛含量在9.3%~25.93%之間,二者可以通過氧化鉛含量進(jìn)行區(qū)分;類別B3的氧化鉛含量在61.03%~70.21%之間,類別B4的氧化鉛含量在34.18%~55.46%之間,類別B5的氧化鉛含量在12.31%~32.92%之間,因此可以明顯的區(qū)別三者。
最后進(jìn)行模型的靈敏度檢驗(yàn)及合理性分析,以高鉀玻璃文物的樣本數(shù)據(jù)作為測(cè)試集,將A1類別中的07號(hào)文物二氧化硅含量降低10%,A2類別中01號(hào)文物的二氧化硅含量增加10%,A3類別中03號(hào)文物二氧化硅含量降低10%,再次使用層級(jí)聚類模型對(duì)其亞類進(jìn)行劃分,得到如圖7所示的分類結(jié)果圖。
分類結(jié)果如下所示:A1'類別中所含文物編號(hào):09,10,12,22,27;A2'類別中所含文物編號(hào):03,04,05,06,13,14,16;A3'類別中所含文物編號(hào):01,07,18,21。
從上述結(jié)果可以看出,相較于表3,07號(hào)文物被分成A3'類,01號(hào)文物被分成A3'類,03號(hào)文物被分成A2'類,與上述分類標(biāo)準(zhǔn)相符,說明了該分類標(biāo)準(zhǔn)的有效性和模型的靈敏度較高。
2? 結(jié)? 論
關(guān)于古代玻璃文物表面風(fēng)化與玻璃類型、顏色和紋飾間的關(guān)系,相關(guān)性分析使用Spearman相關(guān)系數(shù),得到玻璃類型與表面風(fēng)化之間存在著中等程度的正相關(guān)性的結(jié)論;差異性分析使用卡方檢驗(yàn),得到表面風(fēng)化和類型數(shù)據(jù)存在顯著性差異,由此可見,玻璃文物的類型對(duì)其表面風(fēng)化起著至關(guān)重要的作用。對(duì)不同種類玻璃的各化學(xué)成分進(jìn)行分析,首先使用主成分分析法對(duì)數(shù)據(jù)進(jìn)行降維處理;其次建立邏輯回歸模型對(duì)高鉀和鉛鋇玻璃的分類規(guī)律進(jìn)行描述,結(jié)論為主成分F3和F6具有較大的負(fù)回歸系數(shù),說明F3和F6的主成分?jǐn)?shù)值較大時(shí),其為高鉀玻璃文物的概率較大,反之,為鉛鋇玻璃文物的概率較大;最后建立層次分類模型,分別對(duì)高鉀和鉛鋇兩種玻璃文物進(jìn)行亞類劃分,將高鉀玻璃文物再劃分為3個(gè)亞類,將鉛鋇玻璃文物在劃分為5個(gè)亞類。通過靈敏度分析可以驗(yàn)證該模型的有效性和分類的合理性。針對(duì)該領(lǐng)域問題的進(jìn)一步討論還需日后的不懈努力。
參考文獻(xiàn):
[1] CHEN X H,CHEN S C ,XUE H. Large correlation analysis [J].Applied Mathematics and Computation,2011,217(22):9041-9052.
[2] 王茜,劉書志.基于密度的局部離群數(shù)據(jù)挖掘方法的改進(jìn) [J].計(jì)算機(jī)應(yīng)用研究,2014,31(6):1693-1696+1701.
[3] 李瑾.面積主成分分析及應(yīng)用 [D].西安:西安電子科技大學(xué),2018.
[4] LIU R X,KUANG J,GONG Q,HOU X L. Principal component regression analysis with spss [J].Computer Methods and Programs in Biomedicine,2003,71(2):141-147.
[5] 尹建杰.Logistic回歸模型分析綜述及應(yīng)用研究 [D].哈爾濱:黑龍江大學(xué),2011.
[6] 周維柏,黃德波,李蓉.一種改進(jìn)的模糊層次聚類算法 [J].北京聯(lián)合大學(xué)學(xué)報(bào):自然科學(xué)版,2021,35(1):29-34.
[7] WU J J,XIONG H,CHEN J. Towards understanding hierarchical clustering:A data distribution perspective [J].Neurocomputing,2009,72(10-12):2319-2330.
[8] GAUTHIER T D. Detecting trends using spearman's rank correlation coefficient [J].Environmental Forensics,2001,2(4):359-362.
[9] 劉康明,艾鴿,張宇,等.基于層次聚類和劃分聚類算法的BTS聚類算法研究 [J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2022(5):45-46.
[10] 鄧楠,羅幼喜.函數(shù)型Logistic回歸模型研究與應(yīng)用 [J].湖北工業(yè)大學(xué)學(xué)報(bào),2022,37(1):115-120.
作者簡(jiǎn)介:陳志豪(2001.11—)男,漢族,山東濟(jì)寧人,本科在讀,研究方向:電子信息工程;季晶敏(2001.12—),女,漢族,浙江金華人,本科在讀,研究方向:電子信息工程。