• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向心血管疾病的自適應(yīng)模塊化神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型

    2019-01-24 09:36:50王振飛陳金磊鄭志蘊(yùn)
    關(guān)鍵詞:訓(xùn)練樣本權(quán)值聚類

    王振飛,陳金磊,鄭志蘊(yùn),劉 冰

    (鄭州大學(xué) 信息工程學(xué)院,鄭州 450001)

    1 引 言

    現(xiàn)代社會(huì)的日益發(fā)展使得人們的生活水平不斷提高,原本的衣、食、住、行等一些基礎(chǔ)性的需求已經(jīng)不能滿足人們對(duì)更高生活水平的追求.隨之而來的是“健康”方面的問題越來越受到人們的重視.由于人們飲食方式的變化以及生活環(huán)境的污染,引起人們各種各樣的健康問題,如罹患心腦血管等疾病的人群日益增多.心臟以及腦血管的疾病合稱為心腦血管疾病,其病因一般為三高(即高血壓、高血糖、高血脂)、動(dòng)脈硬化和血液粘稠等.目前,由心腦血管病造成的死亡率不斷上升,早發(fā)現(xiàn),并在早期進(jìn)行治療,能很好的提高和保證病人的存活率,起到很好的預(yù)防效果[1].為了更好的提高心腦血管病人的存活率,不僅做到患病時(shí)的及時(shí)就醫(yī)治療,最為關(guān)鍵的是在未發(fā)病時(shí)的疾病預(yù)測(cè)和預(yù)防.心腦血管疾病及早地發(fā)現(xiàn),是得到及早治療的前提.因此,疾病風(fēng)險(xiǎn)預(yù)測(cè)研究是非常有意義的課題.

    KL Chien等人利用臺(tái)灣的一組中風(fēng)病人數(shù)據(jù),構(gòu)建了一個(gè)預(yù)測(cè)中國成年人中風(fēng)發(fā)病率的模型[2],林倍倍等人通過探索上海社區(qū)群眾的糖尿病發(fā)病狀況,為在社區(qū)進(jìn)行糖尿病防治工作提供依據(jù)[3].在機(jī)器學(xué)習(xí)領(lǐng)域,袁鶯楹等人通過時(shí)間序列、神經(jīng)網(wǎng)絡(luò)等算法在進(jìn)行疾病的預(yù)測(cè)[4].龐顯濤等人使用了將多種機(jī)器學(xué)習(xí)模型相結(jié)合的方法來對(duì)疾病的發(fā)生進(jìn)行預(yù)測(cè),其將神經(jīng)網(wǎng)絡(luò)與遺傳算法相結(jié)合提高了預(yù)測(cè)準(zhǔn)確率[5].崔霞等人提出了SRGM模型組合算法,可以提升預(yù)測(cè)準(zhǔn)確度[10].RBF神經(jīng)網(wǎng)絡(luò)具有很好的全局最優(yōu)特性,不容易陷入局部極小值以及容錯(cuò)性高的特點(diǎn)[11],但是針對(duì)心腦血管疾病預(yù)測(cè),數(shù)據(jù)維數(shù)高和數(shù)據(jù)之間關(guān)系復(fù)雜的問題,RBF神經(jīng)網(wǎng)絡(luò)還存在著訓(xùn)練耗時(shí)長,訓(xùn)練結(jié)果達(dá)不到預(yù)期等一些問題.為了克服單一前饋神經(jīng)網(wǎng)絡(luò)的局限性,研究人員提出模擬人的大腦在分析處理問題時(shí)功能分區(qū)的模型,將一種模塊化的方法融入其中,把一個(gè)相對(duì)較為復(fù)雜的問題,轉(zhuǎn)化為多個(gè)較為簡單的問題,運(yùn)用“分而治之”的思想,單獨(dú)的子模塊能夠處理接收到的較為簡單的問題[6],這種學(xué)習(xí)方式的優(yōu)點(diǎn)是可以因問題特點(diǎn)實(shí)施不同網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)復(fù)雜問題[7].本文針對(duì)心腦血管疾病這種復(fù)雜問題提出一種自適應(yīng)模塊化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型(Adaptive Modular Neural Network,AMNN).首先采用密度峰值聚類方法,找出數(shù)據(jù)集的聚類中心,以此確定每個(gè)子模塊的訓(xùn)練樣本集,然后每個(gè)模塊采用BP神經(jīng)網(wǎng)絡(luò)算法,該算法能根據(jù)分配來的訓(xùn)練樣本自適應(yīng)構(gòu)建模塊結(jié)構(gòu),模塊的網(wǎng)絡(luò)結(jié)構(gòu)由本身的學(xué)習(xí)任務(wù)自適應(yīng)確定.最后以河南某地6000余名農(nóng)村居民常見心血管代謝性疾病及健康影響因素體檢問診單為數(shù)據(jù)集,實(shí)驗(yàn)驗(yàn)證AMNN的性能.

    2 自適應(yīng)模塊化神經(jīng)網(wǎng)絡(luò)(AMNN)

    2.1 AMNN結(jié)構(gòu)原理

    AMNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖1,其與一般的BP神經(jīng)網(wǎng)絡(luò)有所不同,AMNN先對(duì)數(shù)據(jù)進(jìn)行處理,利用模塊化的思想將復(fù)雜問題分類研究.AMNN含有多個(gè)模塊,其工作方式是,首先在數(shù)據(jù)處理階段對(duì)不同的訓(xùn)練樣本進(jìn)行聚類分析,將數(shù)據(jù)樣本分為多個(gè)類,根據(jù)聚類分析的結(jié)果,選擇AMNN 中相應(yīng)的模塊進(jìn)行學(xué)習(xí).每個(gè)模塊單元中為BP神經(jīng)網(wǎng)絡(luò)模型,其各層參數(shù)及學(xué)習(xí)率由樣本數(shù)據(jù)聚類后分配來的不同的訓(xùn)練樣本進(jìn)行自適應(yīng)構(gòu)建,其任務(wù)是學(xué)習(xí)分配來的訓(xùn)練樣本.

    AMNN的工作流程和功能模塊設(shè)計(jì)是將數(shù)據(jù)集進(jìn)行聚類分析確定聚類中心、根據(jù)聚類結(jié)果將子數(shù)據(jù)集選擇相應(yīng)的子網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)、子網(wǎng)絡(luò)由匹配來的子數(shù)據(jù)集自適應(yīng)的確定自己的訓(xùn)練參數(shù).

    2.2 任務(wù)分解

    在數(shù)據(jù)輸入后,任務(wù)分解的目的就是將整個(gè)數(shù)據(jù)樣本空間通過聚類的方法歸為若干個(gè)子數(shù)據(jù)樣本空間.新的子數(shù)據(jù)樣本空間中的數(shù)據(jù)被送入相應(yīng)的子網(wǎng)絡(luò)中.子樣本空間的數(shù)目與子網(wǎng)絡(luò)的數(shù)目一致.

    本文借鑒Alex Rodriguez等人提出的點(diǎn)密度峰值聚類算法[8],該算法可以確定訓(xùn)練樣本聚類中心的數(shù)目,從而確定子網(wǎng)絡(luò)的數(shù)目.該算法在如何確定聚類中心上有十分經(jīng)典的研究,確定聚類中心的理論依據(jù)是,確定數(shù)據(jù)集聚類中心需要同時(shí)滿足兩個(gè)約束:第一,訓(xùn)練樣本聚類中心的局部密度需要足夠大,即聚類中心的“鄰居”的局部密度都不超過其局部密度;第二,某個(gè)聚類中心與另外的局部密度相對(duì)較大的數(shù)據(jù)點(diǎn)的距離足夠遠(yuǎn).點(diǎn)密度峰值聚類算法的原理可以使用兩個(gè)參量來描述,ρi和δi,其中數(shù)據(jù)點(diǎn)i的局部概率密度用ρi表示,δi表示數(shù)據(jù)點(diǎn)i與另外具有更高局部密度數(shù)據(jù)點(diǎn)之間的最小距離.

    由此,設(shè)輸入的訓(xùn)練樣本集為S={(xk,yk),k=1,2,…,N},對(duì)于S中的任意數(shù)據(jù)樣本,ρi和δi的定義為:

    (1)

    (2)

    式(1)(2)中,dij=dist(xi,xj)代表兩個(gè)樣本點(diǎn)xi和xj之間的距離,此距離為歐式距離,dc為截?cái)嗑嚯x,其值大于0.dc的選取對(duì)算法的結(jié)果有較大的影響,如果取值過大,會(huì)造成ρi的值很大,區(qū)分度不高,極端情況下的取值所有數(shù)據(jù)點(diǎn)都?xì)w于一類;如果取值太小,會(huì)使一個(gè)類被分為兩個(gè)類或多個(gè)類,因此dc的選值就十分重要,本文將所有兩點(diǎn)間的距離dij進(jìn)行升序排序,取前2%的值,四舍五入作為dc值,從某種程度上,降低了參數(shù)對(duì)具體問題的依懶性.

    本文所用的點(diǎn)概率密度峰值聚類算法具體算法描述如下.

    算法1.確定數(shù)據(jù)集的聚類中心

    1.對(duì)數(shù)據(jù)集的預(yù)處理工作

    2.計(jì)算ρi,(i=1,2,…,N),令ρi由大到小排列;

    3.計(jì)算δi,(i=1,2,…,N),令δi由大到小排列;

    4.令γi=ρiδi,由此生成決策圖得到聚類中心.

    由算法1得到的數(shù)據(jù)集聚類中心是{c1,c2,…,cF},共得到F個(gè)聚類中心,時(shí)間復(fù)雜度為O(n2).基于該算法得到的聚類中心,數(shù)據(jù)集中的所有樣本點(diǎn)針對(duì)各個(gè)聚類中心生成模糊集,生成模糊集依賴公式(3),共建立個(gè)F個(gè)模糊集:

    (3)

    其中,fik
    表示訓(xùn)練樣本xk隸屬于第i個(gè)模糊集的模糊隸屬度.指數(shù)部分分子表示樣本xk與聚類中心ci的距離,分母的選取是為了擴(kuò)大數(shù)值,從而提高模糊隸屬度的辨識(shí)率,分母過大會(huì)造成隸屬函數(shù)過于平緩,隸屬度區(qū)分度不大,分母過小會(huì)使隸屬函數(shù)過于“尖銳”和“陡峭”,會(huì)造成結(jié)果趨近于0的情況,從而無法分辨隸屬度,由實(shí)驗(yàn)得到,分母選取0.02較為合適.對(duì)于數(shù)據(jù)集中的每個(gè)樣本點(diǎn),如果xk距離聚類中心ci越近,那么xk對(duì)于ci的隸屬度就越高,并將xk歸入相應(yīng)的子樣本空間,輸入子網(wǎng)絡(luò)進(jìn)行學(xué)習(xí).

    2.3 子網(wǎng)絡(luò)訓(xùn)練參數(shù)的自適應(yīng)確定

    AMNN 中的子網(wǎng)絡(luò)為BP神經(jīng)網(wǎng)絡(luò),誤差反向傳播與正向傳播方向相反,其先從輸出層開始由隱層到達(dá)輸入層,依次層層返回,根據(jù)誤差值修改各層單元聯(lián)結(jié)權(quán)值,對(duì)以上過程描述如下.

    (4)

    聯(lián)結(jié)權(quán)值的修改按公式(4)計(jì)算.

    wjk(t+1)=wjk(t)+Δwjk

    (5)

    BP算法采用梯度下降方向修改聯(lián)結(jié)權(quán)值,權(quán)值變化量為

    (6)

    (7)

    對(duì)于隱層有

    (8)

    BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程是在正向與反向傳播作用下,不斷修改各層單元權(quán)值的一個(gè)反復(fù)過程,直到實(shí)際輸出達(dá)到要求精度或者達(dá)到最大訓(xùn)練次數(shù).

    算法2.模塊自適應(yīng)神經(jīng)網(wǎng)絡(luò)算法

    1.依據(jù)算法1聚類分析劃分的子樣本集,將樣本分配給對(duì)應(yīng)子模塊Qi;

    2.由子模塊Qi計(jì)算得出訓(xùn)練結(jié)果yk,并由誤差函數(shù)公式(4)計(jì)算出誤差E;

    3.由輸出層權(quán)值更新公式(7)與誤差E,計(jì)算出輸出層權(quán)值wjk;同理,由隱含層權(quán)值更新公式(8)與誤差E,計(jì)算出隱含層權(quán)值vij;

    4.重復(fù)步驟(1),計(jì)算出新的權(quán)值wjk與vij.

    利用上述算法1實(shí)現(xiàn)樣本分類以及算法2實(shí)現(xiàn)模塊的權(quán)值自適應(yīng)算法,計(jì)算出每層權(quán)值,從而實(shí)現(xiàn)權(quán)值自適應(yīng)調(diào)整,不需人工干預(yù).

    3 實(shí)驗(yàn)分析

    3.1 數(shù)據(jù)來源

    本文采用的數(shù)據(jù)來源于河南某地6000余名農(nóng)村居民心血管代謝性疾病及健康影響因素體檢問診單數(shù)據(jù)集.

    數(shù)據(jù)屬性包括:年齡,性別,血壓,飲酒狀況,吸煙狀況,睡眠狀況,家族遺傳史,心電圖監(jiān)測(cè),BMI指數(shù).實(shí)驗(yàn)通過對(duì)數(shù)據(jù)的預(yù)處理,將源數(shù)據(jù)進(jìn)行加工處理,剔除其中的不合理數(shù)據(jù),提高數(shù)據(jù)的準(zhǔn)確性,將經(jīng)過預(yù)處理之后的數(shù)據(jù)引入新的數(shù)據(jù)集中,為本論文所用的數(shù)據(jù).所用數(shù)據(jù)選取80%為學(xué)習(xí)數(shù)據(jù),20%為測(cè)試數(shù)據(jù).

    3.2 數(shù)據(jù)的歸一化處理

    由于數(shù)據(jù)集中每個(gè)屬性所表示的含義不同,數(shù)量級(jí)也不盡相同,因此需要對(duì)使用到的數(shù)據(jù)采用一定預(yù)處理方法,從而減少或消除不同數(shù)據(jù)屬性之間量級(jí)的差異而產(chǎn)生的影響,這種方法就是歸一化方法.經(jīng)過數(shù)據(jù)歸一化后,數(shù)據(jù)值的范圍在[0,1]之間.

    本文采用Z-score方法對(duì)所用數(shù)據(jù)集進(jìn)行歸一化處理,采用該方法得到的數(shù)據(jù)呈正態(tài)分布,其所用轉(zhuǎn)換原理是通過均值和標(biāo)準(zhǔn)差對(duì)數(shù)據(jù)樣本進(jìn)行處理,其原理如公式(9)所示.

    (9)

    其中μ是數(shù)據(jù)樣本的平均值,σ是數(shù)據(jù)樣本的標(biāo)準(zhǔn)差,首先計(jì)算出數(shù)據(jù)樣本的均值,再根據(jù)公式(10)得出數(shù)據(jù)樣本的標(biāo)準(zhǔn)差.

    (10)

    其中N為數(shù)據(jù)樣本的個(gè)數(shù),μ是平均值.最后進(jìn)行數(shù)據(jù)的歸一化處理,得出新的數(shù)據(jù).

    3.3 實(shí)驗(yàn)結(jié)果與分析

    實(shí)驗(yàn)所用數(shù)據(jù)的屬性如表1所示,其中年齡,血壓,睡眠狀況,BMI指數(shù)數(shù)據(jù)需要進(jìn)行歸一化處理.

    表1 信息屬性表Table 1 Information attributeTable

    提取測(cè)試數(shù)據(jù)庫中已經(jīng)處理好的數(shù)據(jù),利用已經(jīng)訓(xùn)練好的預(yù)測(cè)模型,對(duì)人員發(fā)病情況進(jìn)行預(yù)測(cè),并與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)(BPNN)和標(biāo)準(zhǔn)的隨機(jī)森林(RF)進(jìn)行對(duì)比.得到如圖2和圖3所示結(jié)果.

    圖2 三種模型不同年齡的識(shí)別率對(duì)比圖Fig.2 Comparison diagram of recognition rate of three models at different ages

    從圖2和圖3可以明顯看出模塊化神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)正確率要比RF和傳統(tǒng)的BPNN精確率有所提高,特別是在45-50年齡段,心血管代謝性疾病高發(fā)期,AMNN優(yōu)勢(shì)更明顯.

    圖3 三種模型關(guān)于BMI指數(shù)的識(shí)別率對(duì)比圖Fig.3 Comparison of recognition rates of three models with respect to the BMI index

    表2 混淆矩陣表Table 2 Confusion matrixTable

    實(shí)際上數(shù)據(jù)可能會(huì)存在一定的不平衡性,我們使用F-value和G-mean的方法來進(jìn)行預(yù)測(cè)結(jié)論的考察.

    (11)

    F-value能更好、更真實(shí)的對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,如公式(11),其中λ取值為正.如果λ≥1,那么說明查全率對(duì)評(píng)估帶來主要的作用;反之,如果λ<1,說明查準(zhǔn)率在評(píng)估過程中有主要影響,這里我們?nèi)?.

    (12)

    G-mean維持了數(shù)據(jù)在不平衡狀態(tài)下時(shí),預(yù)測(cè)結(jié)果的精度.

    表3 測(cè)試數(shù)據(jù)庫的混淆矩陣Table 3 Confusion matrix of test database

    表4 F-value值和G-mean值(%)Table 4 F-value values and G-mean values (%)

    表3表示對(duì)測(cè)試數(shù)據(jù)庫內(nèi)的人員信息進(jìn)行預(yù)測(cè)之后結(jié)果的混淆矩陣,從表中我們可以得出,預(yù)測(cè)未發(fā)病但實(shí)際發(fā)病的概率和預(yù)測(cè)發(fā)病但實(shí)際未發(fā)病的概率都很低,這說明了神經(jīng)網(wǎng)絡(luò)模型對(duì)心腦血管疾病預(yù)測(cè)的準(zhǔn)確度十分良好.表4表示的是心腦血管疾病發(fā)病的F-value和G-mean值.

    4 總結(jié)和展望

    為解決BP神經(jīng)網(wǎng)絡(luò)處理心腦血管疾病復(fù)雜問題的不足,提出一種自適應(yīng)模塊化神經(jīng)網(wǎng)絡(luò)模型,該模型采用點(diǎn)密度峰值聚類算法確定數(shù)據(jù)集的聚類中心個(gè)數(shù),從而確定子網(wǎng)絡(luò)的數(shù)目,每一個(gè)子網(wǎng)絡(luò)采用BP神經(jīng)網(wǎng)絡(luò)算法,該算法可以由子數(shù)據(jù)集自適應(yīng)確定訓(xùn)練參數(shù),不需要人工參與;最后利用農(nóng)村居民常見慢性病及健康影響因素體檢問診單數(shù)據(jù)集進(jìn)行性能驗(yàn)證,與標(biāo)準(zhǔn)的隨機(jī)森林和傳統(tǒng)單一神經(jīng)網(wǎng)絡(luò)分類方法相比有效的降低了計(jì)算復(fù)雜度,提高了預(yù)測(cè)精度.

    由于心腦血管疾病的種類繁多,病因復(fù)雜,因此進(jìn)一步的研究可以關(guān)注于增加心腦血管疾病的屬性個(gè)數(shù),提高聚類算法精度來提高預(yù)測(cè)準(zhǔn)確的概率.

    猜你喜歡
    訓(xùn)練樣本權(quán)值聚類
    一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
    CONTENTS
    人工智能
    基于DBSACN聚類算法的XML文檔聚類
    基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
    寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
    融合原始樣本和虛擬樣本的人臉識(shí)別算法
    基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
    基于改進(jìn)的遺傳算法的模糊聚類算法
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    来安县| 嘉兴市| 宜州市| 太康县| 九龙坡区| 台南县| 安溪县| 黑水县| 金沙县| 湾仔区| 广丰县| 进贤县| 高碑店市| 哈密市| 铜梁县| 内黄县| 大姚县| 定西市| 台东市| 荔波县| 栾川县| 长海县| 安达市| 景东| 孟津县| 犍为县| 辽宁省| 屏东县| 阿克苏市| 金乡县| 应用必备| 维西| 寿宁县| 常山县| 托克托县| 阿克苏市| 庄河市| 阿勒泰市| 湾仔区| 红桥区| 甘肃省|