毛 倩,周 捷,王 琪
(西安工程大學 服裝與藝術設計學院,陜西 西安 710048)
女性胸部形態(tài)的復雜性導致文胸號型與個體乳房之間的匹配性較差[1]。近年來,隨著網購文胸的盛行,提升文胸選購滿意度成為電商需要解決的一個問題[2]。為了提高文胸的合體性,相關學者主要就乳房形態(tài)分類[3-5]、文胸結構優(yōu)化[6-7]、文胸與人體特征的關系[8-10]等方面進行研究,但是關于乳房形態(tài)識別的研究相對較少。乳房識別能夠為文胸號型推薦提供參考,增加網購文胸與消費者乳房的匹配性,從而提高文胸的合體性與舒適性。
廣義回歸神經網絡(GRNN)和概率神經網絡(PNN)皆有較強的非線性映射能力及高度容錯性,對于非線性問題的研究具有高效性,故而廣泛應用于各種領域的分類問題[11-12]?;诖?本文采集西部地區(qū)108名青年女性的乳房信息,使用密度峰值聚類算法(CFSFDP)對乳房形態(tài)進行分類,再使用GRNN及PNN算法對10組乳房特征集樣本進行乳房形態(tài)識別,比較不同乳房特征集及神經網絡模型下,乳房形態(tài)的識別精確率和識別時間,從而確定最佳乳房識別模型。
基于馬丁人體測量儀,采用接觸式手工測量方法對西部地區(qū)108位年齡19~27歲,身高(160.07±5.89) cm,身體質量指數(body mass index, BMI)值17~25 kg/m2,乳房基本發(fā)育成熟的女性進行乳房特征數據采集。按照FZ/T 73012—2017《文胸》的型號分類方法對測量對象進行乳房信息統(tǒng)計,得到樣本分布,如圖1所示。
圖 1 樣本的乳房號型分布
由圖1可知,樣本的號型分布范圍較廣,共有22個,保證了實驗結果的普適性。其中,樣本主要集中于A、B杯型和75、70號,代表了青年女性群體的主要乳房形態(tài)。
在環(huán)境溫度(25±1) ℃,相對濕度65%±2%,安靜無風的室內,對被測者裸體狀態(tài)下的乳房進行數據采集。要求被測者足跟并攏,身體挺直站立在水平地面上,目視前方,雙臂自然下垂,由專業(yè)測量人員參照GB/T 5703—2010《用于技術設計的人體測量基礎項目》,采集被測者的乳房數據。
根據乳房形態(tài)分類的相關研究[13-15],最終選定乳平圍、乳間距、胸寬、胸厚、頸窩點至乳頭點長、胸圍至下胸圍高、乳間距/胸寬、胸厚/胸寬、頸窩點至乳頭點長/胸圍至下胸圍高等9個乳房測量項目,如圖2所示。其定義見表1,其中乳平圍與頸窩點至乳頭點長,取右側乳房測量數據。
(a) 乳房側視圖 (b) 胸圍切面圖
表 1 乳房測量項目
測量項目中, 乳間距/胸寬、胸厚/胸寬、 頸窩點至乳頭點長/胸圍至下胸圍高為派生變量。其中:乳間距/胸寬描述了乳房的外擴程度, 值越大乳房的外擴程度越大; 胸厚/胸寬反映了乳房的豐挺程度, 值越大乳房越豐滿; 頸窩點至乳頭點長/胸圍至下胸圍高是乳房下垂程度指標, 值越大乳房的下垂程度越大。
根據文獻[15-16],選取g、h、i等3個派生乳房特征為研究對象,這3個變量分別描述了乳房在人體坐標系3個軸向上的形狀,能夠較好地反映乳房的立體特征??紤]到乳平圍在文胸結構制作及乳房分類中的重要性[1],最終確定c、g、h、i等4個乳房特征為研究對象。
客觀準確的乳房分類是提高乳房識別精確率的關鍵因素,因此,先采用CFSFDP算法,根據c、g、h、i等4個乳房特征對乳房形態(tài)進行聚類分析。然后以c、c-g、c-g-h、c-g-h-i、g、g-h、g-h-i、h、h-i、i等10種排列組合作為特征集,分別建立GRNN及PNN模型(模型編號分別為1~10號),并對乳房形態(tài)進行識別。最后,通過式(1)計算GRNN及PNN模型對乳房形態(tài)的識別精確率R,對比2種神經網絡的乳房識別精確率及運行時間,獲取最優(yōu)乳房識別模型。
(1)
式中:P表示形態(tài)識別正確的樣本數;N表示測試集總樣本數。
由于乳房特征數據的形狀未知,而常用的K-means聚類算法對于非球面數據的檢測較弱。為了提高乳房形態(tài)聚類的可描述性及準確性,本文采用CFSFDP聚類算法對其進行分類。該算法適用于各種形狀的數據集且比K-means算法更加簡單[17],能夠自動識別噪音點,并直觀得到聚類中心數。
CFSFDP是一種基于密度的聚類算法,假設聚類中心的密度最大,同時聚類中心與其周圍的點之間的距離最近[18]?;诖思僭O的聚類中心在任何形狀及任意維度中都能被識別出來,算法流程為:
1) 計算數據點m及n之間的歐氏距離dmn,式中的i為乳房特征。
n=1, 2, … 108,m≠n
(2)
2) 計算數據點m的局部密度ρm。
(3)
3) 計算數據點m與其他密度高于ρm的數據點之間的距離最小值δm。
對于非局部密度最大點,δm的計算公式為
(4)
對于局部密度最大點,δm的計算公式為
δm=max(dmn)
(5)
4) 確定聚類中心:根據數據點的ρm及δm畫出決策圖,選取局部密度ρ、距離δ相對較大的點作為類簇中心。
5) 指派剩余數據點的類別并確定類別邊界。先將剩余的數據點歸屬到密度比它們高的最近鄰所屬類簇,得到聚類結果。再為每個類簇定義一個邊界區(qū)域,即該類簇中與其他類簇點的距離小于dc的點集,最后為每個類簇找到其邊界區(qū)域中密度最高的點,并以該點的密度作為閾值來篩選類簇中的噪音點。
采用Matlab 2017b對CFSFDP算法進行編程,并得到決策圖,如圖3所示。選取局部密度ρ與距離δ相對較大的數據點作為類簇中心,共得到4個類簇中心點。
圖 3 CFSFDP聚類決策圖
由圖3可知,類簇中心1的ρ與δ值均最大,說明該類簇中心的代表性最強。就類簇中心4而言,ρ與δ值相對較大,故該點的代表性相對較好。雖然類簇中心2和3的ρ值偏小,但δ值較大,因此也可以作為類簇中心點,其代表性可能有偏差。4類類簇中心的乳房特征信息見表2。將剩余的每個樣本點歸屬到密度比它高的最近鄰所屬類簇中,并將樣本數據映射到X-Y二維空間中,得到4類乳房形態(tài)的樣本數據集分布形狀,如圖4所示。
表 2 4類類簇中心的特征
由表2可知,對于g,類簇1和4的值最小,類簇2的值最大,類簇3偏小于類簇2,說明類簇1、4和2、3的乳房分別呈內斂和外擴狀態(tài)。就c及h而言,這2個特征共同描述了乳房的豐挺程度。4類類簇中心之間的c相差較大,其中類簇2的最大,類簇1次之,類簇3的最小;類簇1、3、4之間的h相差較小且數值均偏小,說明這3類類簇的乳房呈扁平狀,但類簇1相對豐滿,類簇3相對瘦小,類簇4則相對適中,類簇2的乳房既豐滿又高聳。關于i,類簇2的值最大,類簇1略小于類簇2,類簇4的值最小,類簇3的值則大約等于類簇2和4的均值,這表明類簇2的乳房下垂程度最大,類簇1其次,類簇4的乳房則偏高,類簇3的乳房相對適中。
基于以上分析,類簇1的類簇中心代表性最強,其乳房形態(tài)呈相對內斂、扁平、略豐滿、略下垂,即乳房底座大,但胸部隆起偏低,類似于一個突出的圓盤,中國女性大多屬于此類型,定義該類簇為標準型乳房(B′型)。類簇2的類簇中心代表性偏差,其乳房呈相對外擴、豐滿高聳、下垂形態(tài),由于乳房豐滿容易發(fā)生下垂,因此定義為豐滿型(D′型)。類簇3的類簇中心代表性也偏差,該類乳房呈相對外擴、扁平瘦小形態(tài),可將其定義為扁瘦型(A′型)。類簇4的類簇中心代表性較好,其乳房特征與類簇1相似,呈相對內斂、扁平適中、高挺形態(tài),故將其定義為高挺型(C′型),本文中的乳房形態(tài)代號為自定義,與FZ/T 73012—2017《文胸》標準無相關性。
由圖4可知,雖然4類乳房樣本數據集均存在離群點,但CFSFDP算法未檢測出噪音點,說明這些離群點均在可接受范圍內。標準型的乳房樣本數最多,高挺型次之,豐滿型最少,表明西部地區(qū)女性的乳房特征多為標準型和與標準型類似的高挺型,較少人擁有豐滿型乳房。豐滿型與扁瘦型的乳房樣本數據點離散程度較大,標準型樣本數據點相對較為集中,高挺型次之,這表明豐滿型、扁瘦型樣本數據集的乳房特征內在差異性較大,而標準型及高挺型的內在差異則較小。因此,為了提高文胸的合體性,其結構設計要注重細節(jié)尺寸的變化。
圖 4 樣本數據二維分布圖
GRNN與PNN均是有導前向傳播網絡,由于這2種神經網絡皆以徑向基神經網絡為基礎,因此拓撲結構較為相似,均為4層網絡結構,包括輸入層、模式層、求和層及輸出層[12,19],如圖5所示。基于10組排列組合特征集,分別建立GRNN及PNN神經網絡乳房識別模型,通過分析對比2種模型的運行時間和乳房識別精確率,得到最優(yōu)乳房識別模型。
圖 5 GRNN及PNN神經網絡拓撲結構
采用Matlab 2017b中的newgrnn函數建立GRNN神經網絡乳房識別模型,為了分析乳房特征對乳房識別精確率的影響,以每組乳房特征排列組合的特征集作為GRNN神經網絡的輸入層x,以CFSFDP乳房聚類結果作為GRNN神經網絡的輸出層y,分別建立10個GRNN網絡模型。同時,調用cputime函數獲取該模型的運行時間,具體流程分為以下4步:
1) 劃分GRNN神經網絡的訓練集及測試集。隨機選取90個乳房數據點作為該模型的訓練集,其余18個數據點(樣本編號分別為P1~P18號)則進入測試集。
2) 創(chuàng)建GRNN神經網絡乳房識別模型。先調用cputime函數,再將乳房特征集以90×i,i=1、2、3、4的形式送入網絡輸入層。以乳房聚類結果作為網絡輸出層神經元,調用newgrnn函數并設置網絡參數spread的值為1,訓練該模型。
3) 仿真測試。調用Matlab工具箱中的sim函數,基于訓練的GRNN神經網絡模型,對測試集樣本的類別進行仿真預測輸出。由于仿真預測值為小數,而乳房類別為整數,因此調用round函數對仿真值進行取整。
4) 仿真效果驗證。對比乳房形態(tài)分類真實值與仿真預測值,評價該模型的識別有效性。
分析不同神經網絡模型對乳房識別的影響,從而提高乳房識別精確率,為文胸號型的推薦提供依據。為減少樣本劃分對GRNN及PNN神經網絡模型的識別精確率影響,PNN神經網絡模型中訓練集、測試集的輸入層及輸出層與GRNN保持一致,但兩者的內部函數與建立流程有所不同。利用Matlab 2017b中newpnn函數建立PNN神經網絡乳房識別模型,過程如下:
1) 劃分該模型的訓練集及測試集。該步驟與GRNN中的第一步相同。
2) 創(chuàng)建PNN神經網絡乳房識別模型。先調用cputime函數計算模型運行時間,再調用ind2vec函數將訓練數據集轉化為稀疏矩陣形式,確定該模型中神經網絡的輸入值及輸出值,最后調用newpnn函數并設置網絡參數spread的值為1,訓練該模型。
3) 仿真測試。先調用ind2vec函數將測試集樣本轉化為稀疏矩陣形式,再調用sim函數對測試集樣本進行類別預測,最后調用vec2ind函數將仿真預測值還原。
4) 仿真效果驗證。該模型同樣采用乳房識別精確率作為模型仿真效果的評價指標。
運行GRNN和PNN神經網絡模型,得到10組排列組合特征集的乳房識別精確率與模型運行時間,如圖6、7所示。
圖 6 10組特征組合的乳房形態(tài)識別精確率
圖 7 GRNN及PNN模型運行時間
由圖6可知,對于GRNN神經網絡模型,當乳房特征集為乳平圍、乳間距/胸寬、胸厚/胸寬、頸窩點至乳頭點長/胸圍至下胸圍高時,其乳房識別精確率達到最高,即88.89%,單獨使用乳平圍作為神經網絡的輸入層時,其乳房識別精確率也相對較高,為83.33%。除此之外,包含乳平圍的其他特征集的乳房識別精確率均達到83.33%,當特征集中去除乳平圍后,該模型的乳房識別精確率急劇下降并達到穩(wěn)定狀態(tài),說明乳平圍對該模型的識別精確率影響較大,也從側面說明了乳平圍是乳房形態(tài)的代表性特征。就PNN神經網絡的乳房識別精確率而言,其規(guī)律與GRNN模型相似,皆是特征集中包含乳平圍時達到最高,為100%,其余特征組合的乳房識別精確率均偏低。再次驗證了乳平圍對乳房識別的重要性。建議在文胸號型分類中增加乳平圍作為參考指標,以提高文胸的合體性及推薦準確性。PNN模型的乳房識別精確率始終高于GRNN模型,這表明PNN模型比GRNN模型更加適合乳房識別,在以后的文胸號型推薦應用中,可以優(yōu)先考慮PNN神經網絡模型。
由圖7可知,由于第1次神經網絡模型運行時,Matlab需要讀取內存等占用資源較多,因此運行時間最長,在第4次后趨于穩(wěn)定;PNN模型的運行速度偏快。當特征排列集為乳平圍、乳間距/胸寬、胸厚/胸寬、頸窩點至乳頭點長/胸圍至下胸圍高時,2種算法的運行時間最快。
輸入乳房特征集為乳平圍、乳間距/胸寬、胸厚/胸寬、頸窩點至乳頭點長/胸圍至下胸圍高時,2種神經網絡的乳房形態(tài)仿真預測結果如圖8所示。
圖 8 測試集仿真預測
由圖8可知,該測試集樣本中包含了4類乳房形態(tài),樣本分布均勻,因此GRNN及PNN神經網絡模型對乳房形態(tài)的識別結果具有全面性。PNN模型的乳房分類仿真預測結果與真實類別一致,GRNN模型誤判2個乳房分類結果,將C′型、B′型分別誤判為A′型、D′型。這表明GRNN模型對乳房的識別精確率偏差,可能是因為該模型的仿真預測值為小數,取整影響了其識別精度。
1) 采用乳平圍、乳間距/胸寬、胸厚/胸寬、頸窩點至乳頭點長/胸圍至下胸圍高等4個乳房特征對乳房進行分類,共得到標準型、豐滿型、扁瘦型、高挺型4種乳房形態(tài)。
2) 乳平圍對乳房識別精確率的影響最大,當神經網絡的輸入層特征集為乳平圍、乳間距/胸寬、胸厚/胸寬、頸窩點至乳頭點長/胸圍至下胸圍高時,乳房識別精確率達到最高,同時模型運行速度最快。
3) GRNN及PNN神經網絡對乳房形態(tài)的識別精確率均較高,其中GRNN模型能夠達到88.89%,PNN模型能夠達到100%,PNN模型的識別精確率及運行速度皆優(yōu)于GRNN模型。