• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于不同核函數(shù)構(gòu)建的退行性頸椎病支持向量機高危人群篩查模型的比較*

      2018-07-16 10:06:58呂艷偉李文桓陳大方段芳芳王立芳劉志科
      中國衛(wèi)生統(tǒng)計 2018年3期
      關(guān)鍵詞:退行性頸椎向量

      呂艷偉 李文桓 田 偉 陳大方 段芳芳 王立芳 劉志科

      【提 要】 目的 評價基于不同核函數(shù)構(gòu)建的退行性頸椎病支持向量機高危人群篩查模型的優(yōu)劣,為退行性頸椎疾病高危人群的篩查提供工具支持。方法 利用北京地區(qū)社區(qū)人群骨科退行性疾病研究數(shù)據(jù)庫,采用線性核、多項式核、Sigmoid核和高斯核函數(shù)構(gòu)建支持向量機模型,并根據(jù)十折交叉驗證率最大的標準確定核函數(shù)參數(shù)。根據(jù)約登指數(shù)最大化的標準選擇切點值,計算模型相應(yīng)的靈敏度、特異度和預(yù)測準確率。采用ROC曲線評價不同核函數(shù)構(gòu)建的模型的性能。結(jié)果 在四種核函數(shù)計算的支持向量機模型中,多項式核函數(shù)計算ROC曲線下面積最大,為0.6928(95%CI:0.6502~0.7355),但不同核函數(shù)的ROC曲線下面積的95%CI存在重疊,尚未發(fā)現(xiàn)不同核函數(shù)建立本模型的優(yōu)勢。結(jié)論 可利用該模型進行高危人群篩查,但未發(fā)現(xiàn)不同核函數(shù)構(gòu)建的支持向量機模型性能的差別。

      退行性頸椎病是頸椎間盤組織退行性改變及其繼發(fā)病理改變累及周圍組織結(jié)構(gòu)(神經(jīng)根、脊髓、頸動脈、交感神經(jīng)等),出現(xiàn)相應(yīng)的臨床表現(xiàn)[1]。退行性頸椎病患病率高[2-4]。頸痛是退行性頸椎病的常見癥狀,48.5%的人在一生中經(jīng)歷頸痛,使用屏幕等工作者的頸痛的年患病率高達55%[5-6]。退行性頸椎病的疼痛麻木等臨床癥狀與患者抑郁和失眠相關(guān),影響患者的生活質(zhì)量[7-9]。根據(jù)全球疾病負擔(dān)2013的研究報告,在全球188個國家301種疾病和損傷中,頸痛是十大影響疾病負擔(dān)的疾病之一,全球順位第四,在我國順位第二[10]。隨著老齡社會的到來,退行性頸椎疾病導(dǎo)致的疾病負擔(dān)可能進一步增加。由于頸椎重要的解剖位置,退行性頸椎病不但影響生活質(zhì)量,降低社會勞動力,甚至威脅生命。從患病率和疾病負擔(dān)兩個指標衡量,退行性頸椎病是需要干預(yù)的慢性非傳染性疾病之一。高危人群策略是一種節(jié)省成本,效率比較高的健康保護策略[11]。篩選高危人群是實施高危人群策略的關(guān)鍵。通過篩選疾病的危險因素,建立疾病的發(fā)病風(fēng)險預(yù)測模型,定量計算其發(fā)病風(fēng)險值,精確篩選高危人群是值得推薦的方法。目前尚無退行性頸椎疾病的高危人群篩查方法。支持向量機(support vector machine,SVM)是一種新型的機器學(xué)習(xí)算法[12-13]。SVM是一種新的模式識別方法,對解決非線性、小樣本及維度困擾等問題具有獨特的優(yōu)勢。但不同核函數(shù)影響到該模型的分類性能[14]。本研究旨在利用基于社區(qū)人群的數(shù)據(jù),比較基于不同核函數(shù)構(gòu)建的退行性頸椎病支持向量機高危人群篩查模型的優(yōu)劣,為退行性頸椎疾病高危人群的篩查提供工具支持。

      原理與方法

      1.SVM的原理

      其基本原理是將輸入向量通過核函數(shù)定義的非線性特征影射,將其映射到具有更高維特征的空間,從而實現(xiàn)線性可分,然后在新的高維特征空間中構(gòu)造最優(yōu)分類超平面。最優(yōu)分類平面不僅要保證將兩類樣本錯分個數(shù)最少,還要求分類間隔最大[15]。最終實現(xiàn)對樣本的分類決策。SVM的優(yōu)化準則為最大化類間邊際(margin,即圍繞決策面的區(qū)域,由訓(xùn)練集樣本與決策面間的最小距離確定)。通過最大化邊際可使支持向量個數(shù)最小化。由支持向量決定分類決策函數(shù)。理論和實驗結(jié)果表明SVM學(xué)習(xí)算法可以產(chǎn)生大邊際分類器并有較好的泛化性能。當(dāng)傳統(tǒng)統(tǒng)計方法效果不佳或不能達到目的時,應(yīng)用SVM建模分析往往能獲得良好效果。SVM 的分類決策函數(shù)為[16]:

      其中K(·)為核函數(shù),x為待分類樣本,訓(xùn)練樣本集為(xi,yi),i=1,…,n,n為訓(xùn)練樣本個數(shù),xi∈Rd為訓(xùn)練樣本,yi∈{+1,-1}是樣本xi的類標記,SV為支持向量集,是訓(xùn)練樣本集的一個子集。參數(shù)αi≥0通過訓(xùn)練(解優(yōu)化問題)得到。

      其中:C≥αi≥0

      類間交迭由懲罰權(quán)C>0控制,C=0則不允許交迭。C為某個指定的常數(shù),它實際上起控制對錯分樣本懲罰程度的作用,實現(xiàn)在錯分樣本的比例與算法復(fù)雜度的折中。b是分類的閾值,可由下式求得:

      yi(w·xi+b)-1≥0,i=1,…,n

      2.常用核函數(shù)的算法

      (1)線性核函數(shù):K(x,xi)=(x·xi)

      (2)多項式核函數(shù):K(x,xi)=[(x·xi)]q

      (3)Sigmoid核函數(shù):K(x,xi)=tanh(v(x·xi)+c)

      (4)高斯核函數(shù):K(x,xi)=exp{-(x-xi)2/σ2}

      3.十折交叉驗證法

      將訓(xùn)練數(shù)據(jù)集分成k份相等的子集,每次將其中k-1份數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),而將另外一份數(shù)據(jù)作為測試數(shù)據(jù)。這樣重復(fù)k次,根據(jù)k次迭代后得到的MSE平均值來估計期望泛化誤差,最后選擇一組最優(yōu)的參數(shù)。留一法是k-交叉驗證的特例,即每次用n-1個數(shù)據(jù)(n為訓(xùn)練數(shù)據(jù)集大小)訓(xùn)練,而用另一個數(shù)據(jù)測試。

      4.模型構(gòu)建與評價

      本研究的數(shù)據(jù)分為訓(xùn)練集和測試集兩個部分:設(shè)置種子數(shù),從總體數(shù)據(jù)中隨機抽取70%的數(shù)據(jù)形成訓(xùn)練集,用于模型的構(gòu)建;剩余的30%形成測試集,用于模型的評價。建模分析軟件選用的是R軟件,其中支持向量機算法采用的為R軟件中的e1071工具包。不同核函數(shù)的模型最優(yōu)參數(shù)根據(jù)十折交叉驗證率最大的標準進行確定?;跍y試集對建立的模型進行ROC評價,根據(jù)約登指數(shù)最大化的標準選擇切點值,計算模型相應(yīng)的靈敏度、特異度和預(yù)測準確率。

      對  象

      本研究的對象來源于2010年北京地區(qū)社區(qū)人群骨科退行性疾病研究數(shù)據(jù)庫,共包含3859例研究對象,其中,退行性頸椎疾病患者531例(13.76%)。退行性頸椎疾病的診斷采用文獻[1]中的診斷標準。本研究中的危險因素為經(jīng)logistic回歸模型篩選的因素,賦值參見表1。

      表1 變量賦值表

      結(jié)  果

      1.采用高斯核進行建模結(jié)果與評價

      采用高斯核函數(shù)構(gòu)建SVM時,不同參數(shù)對應(yīng)的十折交叉驗證率見表2。根據(jù)十折交叉驗證率的結(jié)果,采用高斯核函數(shù)構(gòu)建SVM的最優(yōu)參數(shù):gamma=1/50,懲罰系數(shù)C為50。

      表2 不同參數(shù)的高斯核SVM總體人群十折交叉結(jié)果

      2.采用線性核函數(shù)進行建模

      根據(jù)線性核函數(shù)的不同參數(shù)預(yù)測準確性的結(jié)果(表3),線性核SVM的最優(yōu)參數(shù)為懲罰系數(shù)C為0.1,據(jù)此建立線性核函數(shù)SVM模型。

      表3 線性核函數(shù)不同參數(shù)構(gòu)建SVM模型的預(yù)測準確性

      3.采用多項式核函數(shù)進行建模

      根據(jù)不同參數(shù)多項式核函數(shù)構(gòu)建的SVM模型的十折交叉準確率,另考慮到參數(shù)degree越大,C越大,越容易出現(xiàn)過擬合的情況,多項式核函數(shù)的最佳參數(shù)為gamma=1/30,d=2,C=5。

      4.采用Sigmoid核進行建模與評價

      根據(jù)不同參數(shù)Sigmoid核構(gòu)建的SVM模型十折交叉驗證率,Sigmoid核函數(shù)的最佳參數(shù)為gamma=1/100,C=5。

      5.不同核函數(shù)模型的比較

      從ROC曲線下面積AUC考慮,在四種核函數(shù)計算的SVM模型中,多項式核函數(shù)計算出的模型最優(yōu)(圖1),AUC為0.6928(95%CI:0.6502~0.7355),預(yù)測準確率為57.64%(表4)。但是不同核函數(shù)的ROC曲線下AUC 95%CI存在重疊,尚未發(fā)現(xiàn)不同核函數(shù)建立本模型的優(yōu)勢。

      圖1 4種核函數(shù)構(gòu)建的SVM模型ROC曲線

      指標AUCAUC 95%CI靈敏度(%)特異度(%)預(yù)測準確率(%)高斯核0.67460.6284~0.720867.1061.2462.12線性核0.69000.6473~0.732765.8167.0966.89多項式核0.69280.6502~0.735577.4254.1357.64Sigmoid核0.68780.6452~0.730564.5265.3765.23

      討  論

      基于隊列研究設(shè)計在區(qū)分危險因素與患病結(jié)局之間的因果先后順序的優(yōu)點,大部分的疾病風(fēng)險預(yù)測模型是基于隊列資料建立的。隊列研究設(shè)計可以有效地建立疾病的發(fā)病預(yù)測模型。諸如糖尿病模型、Framingham的心血管疾病預(yù)測模型等[17-18]。目前尚無關(guān)于退行性頸椎疾病的發(fā)病風(fēng)險預(yù)測模型。本研究的主要目的之一是篩選退行性頸椎疾病的高危人群,并能夠定量評估其風(fēng)險值。本研究建立的風(fēng)險預(yù)測模型不是判斷研究對象是否患有退行性頸椎疾病,而是主要用于退行性頸椎疾病高危人群的篩查。其首要目的是在大規(guī)模人群中簡便地找出未被診斷但高危的退行性頸椎疾病人群,建議其改變不良的生活行為特征,從而達到延緩或減少退行性頸椎疾病發(fā)生的目的。根據(jù)Kazemi-Naeini M等利用橫斷面研究設(shè)計,預(yù)測糖尿病患者周圍神經(jīng)病變的SVM模型,其預(yù)測準確率達到76%[19]。該研究結(jié)果表明,在目前尚無其他退行性頸椎疾病高危人群篩查模型的情況下,利用該模型進行高危人群篩查是可以接受的。

      SVM由Vapnik等在1992年推出后,受到了廣泛的關(guān)注并得到了全面深入的發(fā)展。SVM已成為機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的標準工具。SVM集成了最大間隔超平面、Mercer核、凸二次優(yōu)化、稀疏解和松弛變量等多項技術(shù),主要用于模式分類和回歸估計。SVM核心是結(jié)構(gòu)風(fēng)險最小化。它根據(jù)有限的樣本信息在機器的學(xué)習(xí)能力和復(fù)雜性之間尋求最佳折中。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法相比,SVM克服了局部極小和維數(shù)災(zāi)難等問題,泛化能力明顯提高[20]。SVM是一種在特征空間實施線性判決的學(xué)習(xí)算法,且其特征空間由核函數(shù)隱式定義。從理論層面考慮,核函數(shù)有很大的選擇空間。但在實際操作層面,如何選擇合適的核函數(shù)存在困難[21]。一般通用核函數(shù),諸如Gaussian核函數(shù)、線性核函數(shù)等可以解決一部分問題。對于SVM模型,核函數(shù)的構(gòu)造非常重要,而核函數(shù)中參數(shù)的確定亦非常關(guān)鍵。對于同一個核函數(shù),參數(shù)不同,其性能差別可能很大[22]。核函數(shù)參數(shù)選取方法主要有:經(jīng)驗選擇法、實驗試湊法、梯度下降法、交叉驗證法、Bayesian 法等[14]。在本研究中,采用的是交叉驗證技術(shù)。本技術(shù)的基本思想是通過測試非訓(xùn)練樣本在固定參數(shù)值上的分類錯誤率,通過持續(xù)地修正參數(shù),達到測試錯誤率最小的目的[23]。本方法在參數(shù)選擇上采用遍歷所有參數(shù)的方法,即在參數(shù)空間無窮盡搜索,測試每一組可能的參數(shù)組合,測試SVM模型,進而找到效果最好的參數(shù)組合[21]。采用交叉驗證法進行核函數(shù)參數(shù)的確定,其計算量非常大。另外,當(dāng)參數(shù)超過兩個時,將難于實現(xiàn)。此時可以考慮留一法進行參數(shù)的計算和確定[24-25]。

      在本研究中,陽性樣本退行性頸椎疾病患者為531例,占總樣本的13.76%;陰性樣本非退行性頸椎疾病例數(shù)為3328例,占84.24%。陽性樣本與陰性樣本的比例約1∶6,存在類間分配不平衡的問題。這可能是造成模型預(yù)測準確率較低、AUC較小的原因。在支持向量機建模中,可采用SMOTE算法處理此問題[19]。根據(jù)Sun T等一項隊列研究的結(jié)果,采用SMOTE進行數(shù)據(jù)構(gòu)建早期肺癌SVM預(yù)測模型,其ROC曲線下面積為0.949(P<0.001),預(yù)測性能良好[26]。SMOTE法按照一定的規(guī)則生成了新的樣本,引入了新的信息,同時結(jié)合欠抽樣,隨機減少多數(shù)類的樣本,避免了隨機過抽樣的局限性,在一定程度上避免了過學(xué)習(xí)的問題[27]。在后續(xù)的研究中將結(jié)合SMOTE算法進一步進行SVM模型的構(gòu)建。

      猜你喜歡
      退行性頸椎向量
      頸椎不能承受之重
      大自然探索(2024年1期)2024-02-29 09:11:26
      頸椎為什么易發(fā)病
      養(yǎng)護頸椎,守住健康
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      拿什么拯救你,我的頸椎
      衰老與神經(jīng)退行性疾病
      退行性肩袖撕裂修補特點
      向量垂直在解析幾何中的應(yīng)用
      關(guān)節(jié)置換治療老年膝關(guān)節(jié)退行性骨關(guān)節(jié)炎30例臨床報道
      台江县| 吴堡县| 江油市| 四川省| 繁峙县| 陆川县| 盐源县| 砀山县| 兴隆县| 永胜县| 龙口市| 鄄城县| 大田县| 娄烦县| 西安市| 蚌埠市| 淄博市| 吉木萨尔县| 化州市| 阿拉善左旗| 都兰县| 潜山县| 盐亭县| 漳州市| 兴安县| 苏尼特右旗| 东山县| 灵璧县| 永济市| 伊吾县| 广昌县| 万源市| 塔河县| 横山县| 赣榆县| SHOW| 剑川县| 峨眉山市| 丰台区| 商洛市| 红原县|