湯啟友 趙漾 胡意詩
摘 要:隨著生活節(jié)奏的加快,越來越多的人不同程度得有睡眠質(zhì)量問題。如何根據(jù)匹茲堡睡眠質(zhì)量指數(shù)量表(PSQI)確定自己的大致問題對(duì)于普通人來說還比較困難。文章將基于4885條已確診病例進(jìn)行數(shù)據(jù)挖掘,采用樸素貝葉斯分類方法,對(duì)常見睡眠質(zhì)量進(jìn)行診斷,已驗(yàn)證其準(zhǔn)確性。
關(guān)鍵詞:樸素貝葉斯;數(shù)據(jù)挖掘;睡眠診斷;PSQI
每年3月21日被世界睡眠醫(yī)學(xué)協(xié)會(huì)定為世界睡眠日,這用來引起人們對(duì)睡眠的重要性以及睡眠質(zhì)量的關(guān)注。一天的精神狀態(tài)取決于前一晚的睡眠質(zhì)量,高睡眠質(zhì)量自然保證了人們第二天精力充沛。但據(jù)統(tǒng)計(jì),中國成年人失眠率高達(dá)38.2%,青少年失眠率也在上升。總的來說,如果入睡時(shí)間超過30分鐘,就屬于失眠的范疇。長期失眠會(huì)使人整天感到疲勞,精力不足、注意力不集中、工作學(xué)習(xí)效率低下。嚴(yán)重的失眠甚至?xí)?dǎo)致神經(jīng)功能紊亂、體內(nèi)各種系統(tǒng)的不平衡等各種問題。
貝葉斯分類方法是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘研究領(lǐng)域的重要數(shù)據(jù)處理方法之一。樸素貝葉斯分類方法具有簡(jiǎn)單、高效、分類效果穩(wěn)定的優(yōu)點(diǎn),同時(shí)還具有堅(jiān)實(shí)的理論基礎(chǔ),因此在實(shí)際應(yīng)用中得到廣泛的重視[1]。樸素貝葉斯分類器采用了“屬性條件獨(dú)立性假設(shè)”:對(duì)已知類別,假設(shè)所有屬性相互獨(dú)立。換言之,假設(shè)每個(gè)屬性獨(dú)立地對(duì)分類結(jié)果發(fā)生影響[2]。
PSQI檢測(cè)分為七個(gè)指標(biāo):睡眠質(zhì)量、入睡時(shí)間、睡眠時(shí)間、睡眠效率、睡眠障礙、催眠藥物、日間功能障礙。根據(jù)以上七個(gè)指標(biāo)可以對(duì)睡眠障礙患者、精神障礙患者、普通人等進(jìn)行睡眠質(zhì)量的評(píng)估。
1 數(shù)據(jù)來源以及說明
本文對(duì)某醫(yī)院原始數(shù)據(jù)進(jìn)行異常樣本的剔除以及樣本數(shù)量不足病癥記錄的剔除,最終得到4885條確診為焦慮、抑郁、睡眠障礙的記錄。每一條記錄的指標(biāo)包括:編號(hào)、年齡、性別、來源、確診結(jié)果、睡眠質(zhì)量、入睡時(shí)間、睡眠時(shí)間、睡眠效率、睡眠障礙、催眠藥物、日間功能障礙。
本文將只對(duì)屬于PSQI的七個(gè)指標(biāo)進(jìn)行分析,由于這些指標(biāo)均為離散值,且每個(gè)指標(biāo)均只有0,1,2,3四種結(jié)果,因此比較利于樸素貝葉斯分類。
2 樸素貝葉斯分類原理介紹
基于貝葉斯定理,且符合屬性條件獨(dú)立性假設(shè):
P(c)是“類先驗(yàn)概率”,表示樣本空間中各類樣本所占的比例;d為屬性數(shù)目,xi為x在第i個(gè)屬性上的取值。
由于對(duì)所有類別來說P(x)相同,因此基于(2.1)的貝葉斯判定準(zhǔn)則有
令Dc表示訓(xùn)練集D中第c類樣本組成的集合,可以計(jì)算出類先驗(yàn)概率:
對(duì)于集散屬性而言,令Dc,xi表示Dc中在第i個(gè)屬性上取值為xi的樣本組成的集合,則條件概率P(xi|c)可估計(jì)為:
但若某個(gè)屬性在訓(xùn)練集中沒有與某個(gè)同類同時(shí)出現(xiàn)過,則會(huì)出現(xiàn)P(xi|c)=0的情況,由于式(2.2)的連乘計(jì)算,最后的概率值也為零,因此無論該樣本的其他屬性是什么,結(jié)果必然出錯(cuò)。為避免其他屬性攜帶的信息被訓(xùn)練集中未出現(xiàn)的屬性值“抹去”,在估計(jì)概率值時(shí)通常要進(jìn)行“平滑”。本文采用“拉普拉斯修正”,令Ni表示第i個(gè)屬性可能取值數(shù),則(2.4)可修正為
3 模型的驗(yàn)證
從4885條樣本數(shù)據(jù)中隨機(jī)選取100條記錄作為驗(yàn)證,剩下的4775條進(jìn)行樣本統(tǒng)計(jì)。通過MapReduce得到統(tǒng)計(jì)結(jié)果,再將統(tǒng)計(jì)模型結(jié)合樸素貝葉斯分類原理進(jìn)行編程得出預(yù)測(cè)結(jié)果,最后把預(yù)測(cè)結(jié)果與實(shí)際結(jié)果進(jìn)行比較。
4 結(jié)論
通過預(yù)測(cè)結(jié)果與實(shí)際結(jié)果的對(duì)比,可以發(fā)現(xiàn)該分類方法對(duì)于抑郁與睡眠障礙的成功預(yù)測(cè)率較高,而對(duì)于焦慮的預(yù)測(cè)結(jié)果偏低,合計(jì)正確率達(dá)到71%,屬于較高水平。造成焦慮預(yù)測(cè)成功率偏低的原因可能為原訓(xùn)練樣本中焦慮所占樣本數(shù)過少。隨著將訓(xùn)練樣本擴(kuò)大,該分類方法的成功預(yù)測(cè)率還將上升。
參考文獻(xiàn):
[1]阿曼.樸素貝葉斯分類算法的研究與應(yīng)用[D].大連理工大學(xué),2014.
[2]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:150.
作者簡(jiǎn)介:湯啟友(1996-),男,漢族,四川資陽人,本科,就讀于成都信息工程大學(xué)軟件工程學(xué)院。