• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于樸素貝葉斯分類的睡眠診斷

    2018-05-14 09:39:00湯啟友趙漾胡意詩
    科技風(fēng) 2018年15期
    關(guān)鍵詞:數(shù)據(jù)挖掘

    湯啟友 趙漾 胡意詩

    摘 要:隨著生活節(jié)奏的加快,越來越多的人不同程度得有睡眠質(zhì)量問題。如何根據(jù)匹茲堡睡眠質(zhì)量指數(shù)量表(PSQI)確定自己的大致問題對(duì)于普通人來說還比較困難。文章將基于4885條已確診病例進(jìn)行數(shù)據(jù)挖掘,采用樸素貝葉斯分類方法,對(duì)常見睡眠質(zhì)量進(jìn)行診斷,已驗(yàn)證其準(zhǔn)確性。

    關(guān)鍵詞:樸素貝葉斯;數(shù)據(jù)挖掘;睡眠診斷;PSQI

    每年3月21日被世界睡眠醫(yī)學(xué)協(xié)會(huì)定為世界睡眠日,這用來引起人們對(duì)睡眠的重要性以及睡眠質(zhì)量的關(guān)注。一天的精神狀態(tài)取決于前一晚的睡眠質(zhì)量,高睡眠質(zhì)量自然保證了人們第二天精力充沛。但據(jù)統(tǒng)計(jì),中國成年人失眠率高達(dá)38.2%,青少年失眠率也在上升。總的來說,如果入睡時(shí)間超過30分鐘,就屬于失眠的范疇。長期失眠會(huì)使人整天感到疲勞,精力不足、注意力不集中、工作學(xué)習(xí)效率低下。嚴(yán)重的失眠甚至?xí)?dǎo)致神經(jīng)功能紊亂、體內(nèi)各種系統(tǒng)的不平衡等各種問題。

    貝葉斯分類方法是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘研究領(lǐng)域的重要數(shù)據(jù)處理方法之一。樸素貝葉斯分類方法具有簡(jiǎn)單、高效、分類效果穩(wěn)定的優(yōu)點(diǎn),同時(shí)還具有堅(jiān)實(shí)的理論基礎(chǔ),因此在實(shí)際應(yīng)用中得到廣泛的重視[1]。樸素貝葉斯分類器采用了“屬性條件獨(dú)立性假設(shè)”:對(duì)已知類別,假設(shè)所有屬性相互獨(dú)立。換言之,假設(shè)每個(gè)屬性獨(dú)立地對(duì)分類結(jié)果發(fā)生影響[2]。

    PSQI檢測(cè)分為七個(gè)指標(biāo):睡眠質(zhì)量、入睡時(shí)間、睡眠時(shí)間、睡眠效率、睡眠障礙、催眠藥物、日間功能障礙。根據(jù)以上七個(gè)指標(biāo)可以對(duì)睡眠障礙患者、精神障礙患者、普通人等進(jìn)行睡眠質(zhì)量的評(píng)估。

    1 數(shù)據(jù)來源以及說明

    本文對(duì)某醫(yī)院原始數(shù)據(jù)進(jìn)行異常樣本的剔除以及樣本數(shù)量不足病癥記錄的剔除,最終得到4885條確診為焦慮、抑郁、睡眠障礙的記錄。每一條記錄的指標(biāo)包括:編號(hào)、年齡、性別、來源、確診結(jié)果、睡眠質(zhì)量、入睡時(shí)間、睡眠時(shí)間、睡眠效率、睡眠障礙、催眠藥物、日間功能障礙。

    本文將只對(duì)屬于PSQI的七個(gè)指標(biāo)進(jìn)行分析,由于這些指標(biāo)均為離散值,且每個(gè)指標(biāo)均只有0,1,2,3四種結(jié)果,因此比較利于樸素貝葉斯分類。

    2 樸素貝葉斯分類原理介紹

    基于貝葉斯定理,且符合屬性條件獨(dú)立性假設(shè):

    P(c)是“類先驗(yàn)概率”,表示樣本空間中各類樣本所占的比例;d為屬性數(shù)目,xi為x在第i個(gè)屬性上的取值。

    由于對(duì)所有類別來說P(x)相同,因此基于(2.1)的貝葉斯判定準(zhǔn)則有

    令Dc表示訓(xùn)練集D中第c類樣本組成的集合,可以計(jì)算出類先驗(yàn)概率:

    對(duì)于集散屬性而言,令Dc,xi表示Dc中在第i個(gè)屬性上取值為xi的樣本組成的集合,則條件概率P(xi|c)可估計(jì)為:

    但若某個(gè)屬性在訓(xùn)練集中沒有與某個(gè)同類同時(shí)出現(xiàn)過,則會(huì)出現(xiàn)P(xi|c)=0的情況,由于式(2.2)的連乘計(jì)算,最后的概率值也為零,因此無論該樣本的其他屬性是什么,結(jié)果必然出錯(cuò)。為避免其他屬性攜帶的信息被訓(xùn)練集中未出現(xiàn)的屬性值“抹去”,在估計(jì)概率值時(shí)通常要進(jìn)行“平滑”。本文采用“拉普拉斯修正”,令Ni表示第i個(gè)屬性可能取值數(shù),則(2.4)可修正為

    3 模型的驗(yàn)證

    從4885條樣本數(shù)據(jù)中隨機(jī)選取100條記錄作為驗(yàn)證,剩下的4775條進(jìn)行樣本統(tǒng)計(jì)。通過MapReduce得到統(tǒng)計(jì)結(jié)果,再將統(tǒng)計(jì)模型結(jié)合樸素貝葉斯分類原理進(jìn)行編程得出預(yù)測(cè)結(jié)果,最后把預(yù)測(cè)結(jié)果與實(shí)際結(jié)果進(jìn)行比較。

    4 結(jié)論

    通過預(yù)測(cè)結(jié)果與實(shí)際結(jié)果的對(duì)比,可以發(fā)現(xiàn)該分類方法對(duì)于抑郁與睡眠障礙的成功預(yù)測(cè)率較高,而對(duì)于焦慮的預(yù)測(cè)結(jié)果偏低,合計(jì)正確率達(dá)到71%,屬于較高水平。造成焦慮預(yù)測(cè)成功率偏低的原因可能為原訓(xùn)練樣本中焦慮所占樣本數(shù)過少。隨著將訓(xùn)練樣本擴(kuò)大,該分類方法的成功預(yù)測(cè)率還將上升。

    參考文獻(xiàn):

    [1]阿曼.樸素貝葉斯分類算法的研究與應(yīng)用[D].大連理工大學(xué),2014.

    [2]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:150.

    作者簡(jiǎn)介:湯啟友(1996-),男,漢族,四川資陽人,本科,就讀于成都信息工程大學(xué)軟件工程學(xué)院。

    猜你喜歡
    數(shù)據(jù)挖掘
    基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
    數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
    基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
    數(shù)據(jù)挖掘的分析與探索
    河南科技(2014年23期)2014-02-27 14:18:43
    基于GPGPU的離散數(shù)據(jù)挖掘研究
    利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
    临夏市| 庆安县| 天峨县| 壤塘县| 昭觉县| 青田县| 烟台市| 宜宾县| 黔西县| 罗甸县| 江川县| 富蕴县| 仁怀市| 县级市| 靖边县| 精河县| 双柏县| 云浮市| 固原市| 巴中市| 通许县| 连江县| 新巴尔虎右旗| 偏关县| 班玛县| 兴业县| 桐城市| 大城县| 琼海市| 岑溪市| 霍林郭勒市| 遵化市| 华宁县| 金塔县| 新晃| 浠水县| 湘西| 政和县| 德阳市| 固安县| 张北县|