,
(安徽財(cái)經(jīng)大學(xué)金融學(xué)院, 安徽 蚌埠 233000)
睡眠質(zhì)量問(wèn)題危害著許多現(xiàn)代人的身體健康和心理健康,因此對(duì)睡眠質(zhì)量問(wèn)題的研究分析也引起了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注。目前對(duì)睡眠質(zhì)量影響因素的研究主要是以單個(gè)指標(biāo)為主,如索艷鳳對(duì)年齡影響睡眠質(zhì)量的研究等。單個(gè)因素研究只能提出改善方案,卻無(wú)法建立預(yù)測(cè)模型作為診斷依據(jù)。開(kāi)展對(duì)睡眠質(zhì)量的研究分析和探索睡眠質(zhì)量影響因素,研究各因子對(duì)睡眠質(zhì)量的影響大小,構(gòu)建預(yù)測(cè)模型,為制定科學(xué)的干預(yù)策略和治療方案提供了理論和研究依據(jù)。
數(shù)據(jù)來(lái)源自第七屆亞太地區(qū)大學(xué)生數(shù)學(xué)建模競(jìng)賽A題。為了方便構(gòu)建模型,特提出以下假設(shè):(假設(shè)數(shù)據(jù)來(lái)真實(shí)、可靠和準(zhǔn)確,既數(shù)據(jù)為實(shí)際人們的睡眠狀況的反映;(為了使模型簡(jiǎn)單有效,對(duì)部分異常值進(jìn)行了剔除,假設(shè)這樣的數(shù)據(jù)處理對(duì)結(jié)果產(chǎn)生較小的影響;(選取的睡眠質(zhì)量影響指標(biāo)具有代表性,不考慮未選取的指標(biāo)對(duì)實(shí)際情況的影響。
數(shù)據(jù)預(yù)處理:利用箱線圖對(duì)異常值進(jìn)行剔除,以及個(gè)別極端值,因?yàn)檫@些診斷結(jié)果可能受到其它因素的影響。
首先對(duì)根據(jù)實(shí)際情況對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化等措施進(jìn)行了預(yù)處理;其次使用Excel軟件對(duì)各睡眠指標(biāo)進(jìn)行了取整處理,并利用箱線圖分析其間線性關(guān)系;最后,運(yùn)用SPSS軟件進(jìn)行逐步回歸,得到最優(yōu)回歸方程。
圖1 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖
附件數(shù)據(jù)存在一定的異常值會(huì)對(duì)構(gòu)建模型產(chǎn)生一定的影響,為了使結(jié)果準(zhǔn)確,使用箱線圖刪除了73個(gè)極端異常值。此外,為了避免數(shù)據(jù)量綱對(duì)回歸產(chǎn)生影響,將樣本中六個(gè)睡眠影響指標(biāo)數(shù)據(jù)進(jìn)行歸一化處理。
(1)
式子中:xi為歸一化后的變量,yi為歸一化后的變量,minx為該項(xiàng)自變量中的最小值,maxx為該項(xiàng)自變量中的最大值。
以附件Ⅰ中給出的六個(gè)睡眠影響指標(biāo)Age, Character, Nervousness, Psychoticism, Reliability, Sex為自變量,將睡眠質(zhì)量作為因變量。進(jìn)行多元逐步回歸,入選變量標(biāo)準(zhǔn)為0.05,剔除變量標(biāo)準(zhǔn)為0.01.利用SPSS軟件進(jìn)行逐步回歸分析,得到如表1所示。
表1 睡眠質(zhì)量影響指標(biāo)逐步回歸多元線性回歸結(jié)果
由上表可知,對(duì)睡眠質(zhì)量有顯著影響的變量有年齡x1、焦慮度x3和性別x4,而性格x2、神經(jīng)質(zhì)x4和可靠性x5在回歸過(guò)程中被剔除;逐步回歸的擬合結(jié)果為0.63,擬合優(yōu)度表現(xiàn)不是很好;不過(guò)回歸方程的顯著性較高(F=87.364,對(duì)應(yīng)概率值p=0.000<α=0.05);各變量的回歸系數(shù)都比較顯著(各變量的t統(tǒng)計(jì)量概率值p<=0.05);并且各變量之間的多重共線性較弱(VIFi的值均接近于1),因此不存在因?yàn)樽宰兞恐g相關(guān)性較顯著被剔除的情況。由逐步回歸得到最終方程:
yi=0.686x1+0.614x3-0.092x3+1.575
從回歸結(jié)果可以看出,睡眠質(zhì)量主要與年齡、焦躁度和性別有關(guān),而性格,神經(jīng)質(zhì),可靠性和睡眠質(zhì)量則不相關(guān)。睡眠質(zhì)量與年齡和焦躁度呈正相關(guān),和性別呈負(fù)相關(guān),既年齡和焦躁度越大,睡眠質(zhì)量越差,女性的睡眠質(zhì)量普遍比男性要差;而睡眠質(zhì)量受性格、神經(jīng)質(zhì)和可靠性的影響較小。
利用神經(jīng)網(wǎng)絡(luò)函數(shù)進(jìn)行模式識(shí)別,五項(xiàng)睡眠影響因素作為輸入量,睡眠質(zhì)量作為輸出量,然后選取大量數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,選取少量數(shù)據(jù)對(duì)得到的神經(jīng)網(wǎng)絡(luò)模式識(shí)別模型進(jìn)行檢驗(yàn)和測(cè)試。然后對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行反復(fù)訓(xùn)練和改變隱含層數(shù)目,使得交叉熵(Cross-Entropy)和誤判率(Percent Error)達(dá)到理想的最低值,最后預(yù)測(cè)檢驗(yàn)?zāi)P褪欠裼行А?/p>
BP神經(jīng)網(wǎng)絡(luò)主要就是由工作信號(hào)正向傳遞子過(guò)程和誤差信號(hào)反向傳遞子過(guò)程這兩個(gè)過(guò)程組成。單個(gè)樣本有m個(gè)輸入,有n個(gè)輸出,且在輸入層和輸出層之間通常還有若干個(gè)隱含層。
由于診斷結(jié)果繁多,所以應(yīng)該先對(duì)不能進(jìn)行分類的診斷結(jié)果進(jìn)行數(shù)據(jù)剔除,然后保留主要的診斷結(jié)果,為保證數(shù)據(jù)統(tǒng)計(jì)口徑和方法的一致性,僅選取了數(shù)據(jù)來(lái)源是門診的樣本,另利用箱線圖剔除各組數(shù)據(jù)中的異常值,將問(wèn)題簡(jiǎn)化為5維4分類的模式識(shí)別問(wèn)題。然后采用利用BP神經(jīng)網(wǎng)絡(luò)模型對(duì)數(shù)據(jù)進(jìn)行模式識(shí)別,然后對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行反復(fù)訓(xùn)練,使得交叉熵和誤判率達(dá)到理想的最低值,得到最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型。
圖2 總樣本的混淆矩陣
附件二有六種睡眠影響因素影響睡眠質(zhì)量。將睡眠質(zhì)量影響因素作為輸入量,睡眠質(zhì)量作為輸出量,構(gòu)成了6個(gè)輸入4個(gè)輸出的網(wǎng)絡(luò)。選取附件二中90%的實(shí)際數(shù)據(jù)作為訓(xùn)練樣本集,5%的數(shù)據(jù)進(jìn)行預(yù)測(cè)檢驗(yàn)樣本,5%的數(shù)據(jù)作為測(cè)試樣本集。
選取的BP神經(jīng)網(wǎng)絡(luò)模型是由一個(gè)輸入層、五個(gè)隱含層和一個(gè)輸出層組成,由圖1所示。
對(duì)于給定的輸入,僅有小部分靠近的中心被激活。然后可以利用MATLAB中的神經(jīng)網(wǎng)絡(luò)工具箱實(shí)現(xiàn)我們的人工神經(jīng)網(wǎng)絡(luò)的功能,由于影響診斷結(jié)果的各項(xiàng)睡眠質(zhì)量影響因素自變量有5個(gè),睡眠質(zhì)量作為因變量被分為4個(gè)等級(jí)。所以輸入神經(jīng)元的個(gè)數(shù)取為5,輸出神經(jīng)元的個(gè)數(shù)取為4,取90%的樣本數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,5%用于檢驗(yàn),5%用于測(cè)試。 隱含層在調(diào)試過(guò)后得到交叉熵和誤判率最小時(shí)應(yīng)該取10個(gè)隱含層。最后在隱含層確定為10層和訓(xùn)練、檢驗(yàn)、測(cè)試比率分別為90%、5%和5%時(shí)。經(jīng)過(guò)多次再訓(xùn)練后得到最低的交叉熵和誤判率的神經(jīng)網(wǎng)絡(luò)模型。
最后在反復(fù)訓(xùn)練過(guò)后得到一組Cross-Entropy和Percent Error較低的神經(jīng)網(wǎng)絡(luò)如表2所示:
表2 各個(gè)樣本量訓(xùn)練效果表
最后的訓(xùn)練樣本的誤判率控制在12.70%。
圖2顯示了三種數(shù)據(jù)組合的混淆矩陣。網(wǎng)絡(luò)輸出是非常準(zhǔn)確的,正如我們可以看到在正確的綠色方格所顯示正確反應(yīng)以及錯(cuò)誤的紅色方格所顯示的錯(cuò)誤判斷反應(yīng)。右下藍(lán)色正方形顯示了整體精度。如圖2所示
其中綠色的方框顯示其對(duì)正確數(shù)據(jù)的影響率最高達(dá)97.5%, 而紅色的方框顯示了其對(duì)數(shù)據(jù)錯(cuò)誤的影響率低至16.7%,最后一個(gè)混淆矩陣的藍(lán)色方框顯示了最后的整體的精度高達(dá)83.3%。所以經(jīng)過(guò)分析后,該神經(jīng)網(wǎng)絡(luò)模型已被訓(xùn)練到理想狀態(tài),其所得到的函數(shù)模型可以被用于患者精神疾病的診斷。
得到在不同的繪圖區(qū)間取值下對(duì)應(yīng)的交叉熵取值,如圖3所示:
圖3 網(wǎng)絡(luò)訓(xùn)練過(guò)程梯度等參數(shù)變化
圖4 20倉(cāng)誤差直方圖
因?yàn)榻徊骒卦降驮胶?,所以從圖中可以得出當(dāng)繪圖間隔取為23 Epochs時(shí)交叉熵最低。點(diǎn)擊神經(jīng)網(wǎng)絡(luò)模式識(shí)別工具中的訓(xùn)練狀得到訓(xùn)練狀態(tài)記錄圖。從圖3可以得到不同繪圖間隔下的訓(xùn)練狀態(tài)值,可以得到梯度和VAL失敗分別23Epochs時(shí)得到最高值6。
最后在每次訓(xùn)練后對(duì)各項(xiàng)指標(biāo)進(jìn)行分析后得到最優(yōu)理想值和神經(jīng)網(wǎng)絡(luò)模型,最后通過(guò)MATLAB將訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò)保存為一個(gè)神經(jīng)網(wǎng)絡(luò)模型,可作為后續(xù)研究預(yù)測(cè)的工具。
為了對(duì)比二者回歸預(yù)測(cè)的效果,隨機(jī)抽選了100個(gè)樣本數(shù)據(jù),分別利用逐步回歸函數(shù)和神經(jīng)網(wǎng)絡(luò)模式識(shí)別函數(shù)進(jìn)行回歸預(yù)測(cè),對(duì)比二者的預(yù)測(cè)效果。利用箱線圖將實(shí)際目標(biāo)值和兩種模型的預(yù)測(cè)值的散點(diǎn)圖畫(huà)出來(lái),如圖5所示。
圖5 回歸預(yù)測(cè)效果散點(diǎn)圖
由圖像能夠明顯看出逐步回歸預(yù)測(cè)偏離實(shí)際值的點(diǎn)更多,神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果更好。而從實(shí)際的結(jié)果也是這100個(gè)樣本量中,逐步回歸模型僅達(dá)到了63%的準(zhǔn)確率,而神經(jīng)網(wǎng)絡(luò)模式識(shí)別模型達(dá)到了89%的準(zhǔn)確率。這也得出了神經(jīng)網(wǎng)絡(luò)模型在回歸預(yù)測(cè)上面占有絕對(duì)的優(yōu)勢(shì),但是卻不能剔除無(wú)關(guān)或是影響因素極小以及重復(fù)的因變量。正如逐步回歸模型得出睡眠質(zhì)量和性格、神經(jīng)質(zhì)、可靠性這三個(gè)因素相關(guān)性較小,所以不納入回歸方程,神經(jīng)網(wǎng)絡(luò)模式識(shí)別模型卻不能做到這一點(diǎn)。
在睡眠質(zhì)量影響因素的分析上,逐步回歸模型的應(yīng)用空間非常大,但是回歸效果卻較差,原因可能是因?yàn)楦髯宰兞亢鸵蜃兞坎皇呛?jiǎn)單的多元一次模型,也可能是多元多次模型,后繼研究可以在此基礎(chǔ)上進(jìn)行改進(jìn)。而神經(jīng)網(wǎng)絡(luò)模式識(shí)別卻在回歸預(yù)測(cè)上占用絕對(duì)優(yōu)勢(shì),誤判率遠(yuǎn)遠(yuǎn)低于逐步回歸模型。但是二者的誤判率均高于10%,證明模型還有進(jìn)一步地改進(jìn)空間,也可能是自變量較少,影響因素未被完全發(fā)掘等原因。
從逐步回歸的結(jié)果可以看出睡眠質(zhì)量與年齡和焦躁度呈正相關(guān),和性別呈負(fù)相關(guān),既年齡和焦躁度越大,睡眠質(zhì)量越差,女性的睡眠質(zhì)量比男性要差;而睡眠質(zhì)量受性格、神經(jīng)質(zhì)和可靠性的影響較小。
因此對(duì)醫(yī)療工作者以及相關(guān)研究人員提出以下建議:
a. 針對(duì)不同年齡,性別的人群采取不同的治療方案。如在逐步回歸結(jié)果得知年齡對(duì)睡眠質(zhì)量影響最大,隨著年齡的增加睡眠質(zhì)量逐漸降低,性別也會(huì)影響睡眠質(zhì)量。年齡較大的人或是女性的睡眠質(zhì)量較差,可以針對(duì)這部分人采取專門的治療或是診斷方案。
b. 焦躁度過(guò)高不利于睡眠,需要研究降低焦躁度的方法。逐步回歸結(jié)果顯示焦躁度會(huì)很大程度影響睡眠質(zhì)量,研究降噪焦躁都的方法能從根源上解決睡眠質(zhì)量的問(wèn)題。
c. 進(jìn)行進(jìn)一步收集數(shù)據(jù)與臨床試驗(yàn),得出導(dǎo)致不同年齡與不同性別人群睡眠質(zhì)量存在差異的內(nèi)在原因。通過(guò)更多的數(shù)據(jù)和臨床試驗(yàn),完善影響睡眠質(zhì)量的指標(biāo)體系,提高神經(jīng)網(wǎng)絡(luò)識(shí)別模型的預(yù)測(cè)精度,后繼可以進(jìn)一步改進(jìn)的神經(jīng)網(wǎng)絡(luò)模式識(shí)別模型應(yīng)用臨床診斷中去。