• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度置信網絡的多變量時間序列分類方法

    2022-01-22 02:16:44朱海浩祝永新
    計算機仿真 2021年12期
    關鍵詞:置信顯著性分類

    朱海浩,祝永新,汪 輝

    (1.中國科學院上海高等研究院,上海 201210;2.中國科學院大學,北京 100049;3.上海科技大學信息科學與技術學院,上海 201210)

    1 引言

    多變量時間序列(Multivariate Time Series,MTS)指的是在同一時間內,多個變量有序地記錄觀測數(shù)據(jù)[1]。它是一種復雜的結構化對象,MTS通常由傳感器獲取,其多個變量之間存在相關性,具有高維性和可變性等特點[2]。在各個領域中,更是得到了廣泛的應用,如語音識別、監(jiān)控視頻、氣象信息的獲取、醫(yī)療技術和金融技術等。對于多變量時間序列的分類,一直都是時間序列分析相關領域重點研究項目和熱點問題之一。

    文獻[3]提出基于BP和樸素貝葉斯的時間序列分類模型,采用BP神經網絡非線性映射能力,結合樸素貝葉斯分類器,標記數(shù)據(jù)分類能力,在樸素貝葉斯分類器中,設定BP神經網絡作為輸入特征,實現(xiàn)時間序列分類,該方法具有較高的分類準確度,但分類時間較長。文獻[4]提出基于shapelet的時間序列分類方法,通過分析優(yōu)化現(xiàn)有時間序列shapelet發(fā)現(xiàn)算法,將其劃分為兩類,分別為空間搜索發(fā)現(xiàn)shapelet和目標函數(shù)優(yōu)化學習shapelet并進行應用,采用shapelet的一元時間序列和多元時間序列分類算法,實現(xiàn)時間序列分類,該方法的分類時間較短,但存在分類精度較低的問題。

    針對上述問題,提出了基于深度置信網絡的多變量時間序列分類方法。利用深度置信網絡,基于受限玻爾茲曼機,提取特征信息,減少參數(shù)尋優(yōu)空間范圍,采用Isomap算法,附加約束構造半正定矩陣,實現(xiàn)降維處理,提高泛化能力,利用支持向量機實現(xiàn)對多變量時間序列的分類。提出方法具有較好的分類性能和泛化性能,能夠有效降低分類時間。

    2 深度置信網絡構建

    深度置信網絡由一層BP(Back Propagation)神經網絡和若干層受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)棧式疊加構成,在時間序列分類領域應用非常廣泛。

    2.1 深度置信網絡結構

    DBN的學習主要通過兩個過程來實現(xiàn):預訓練和微調[5-6]。通過這兩個過程的無監(jiān)督學習和有監(jiān)督學習后,可使模型達到理想的狀態(tài),并且在數(shù)據(jù)不足的情況下仍然可以表現(xiàn)出很好的效果。與此同時,這種訓練方法可以在一定程度上減少參數(shù)尋優(yōu)的空間范圍,由此減少有監(jiān)督的訓練時間。DBN模型結構如圖1所示。

    圖1 DBN模型結構

    2.2 受限玻爾茲曼機下特征信息提取

    受限玻爾茲曼機主要由隱藏單元和可見單元兩層神經網絡構成,連接單元與單元之間的線段為權值[7],RBM模型結構如圖2所示。

    圖2 RBM模型結構

    從圖2中可知,可見單元與可見變量v相互對應,隱藏單元與隱藏變量h相對應[8]。RBM是在能量函數(shù)的基礎上延伸而來的。假設已知一組狀態(tài)為(v,h),那么可見單元與隱藏單元之間的能量函數(shù)為

    (1)

    其中,θ=(w,a,b)表示模型參數(shù),ae、ve分別表示第e個可見單元的偏置信息和狀態(tài)信息;bq、hq分別表示第q個隱藏單元的偏置信息和狀態(tài)信息;weq表示連接兩個單元e、q之間的權值大小。在式(1)的基礎上,計算(v,h)的狀態(tài)概率如式(2)所示

    (2)

    (3)

    (4)

    給定一個訓練樣本集S=(v1,v2,…,vs),將其容量大小設置為s。計算RBM模型的對數(shù)似然函數(shù)L(θ),得到模型的參數(shù)θ,接下來進行擬合操作,將可見單元與隱藏單元的特征信息擬合在一起,則有

    (5)

    將RBM模型進行訓練,對L(θ)與θ進行對比散度計算。以weq為例,如式(6)所示

    (6)

    式中:(vehq)data表示數(shù)據(jù)分布期望值;(vehq)model為模型最初定義的期望值。具體的期望值,可根據(jù)吉布斯采樣算法得到。從理論上說,吉布斯采樣次數(shù)越多,得到的結果越精準,但是從實際應用中發(fā)現(xiàn),只通過一次吉布斯采樣就可得到理想效果[11]。因此,本文通過一次吉布斯采樣結果作為RBM模型定義的期望值。那么,即可根據(jù)式(7)對權重參數(shù)weq進行更新計算

    weq=?weq+η[(vehq)data-(vehq)model]

    (7)

    式中:?表示動量;η表示學習率。

    3 多變量時間序列降維處理

    多變量時間序列屬于高維數(shù)據(jù),需要對多變量時間序列進行降維處理。采用Isomap算法,結合深度置信網絡,通過優(yōu)先特征提取操作,不但有效降低噪聲,并且能夠將高維數(shù)據(jù)特征精準映射到對應空間內,具有較好的泛化能力和魯棒性。

    3.1 降維計算

    (8)

    (9)

    3.2 算法泛化特征分析

    (10)

    (11)

    4 低維空間上多變量時間序列分類

    (12)

    其中,αi為拉格朗日乘子,n(nN)為與αi對應且不等于零的訓練樣本數(shù),b為閾值。αi可通過計算式(13)得到

    (13)

    其中,γ(γ?0)表示正則化參數(shù),γ的值越大,對經驗誤差的懲罰也會相應增大。通過求解式(13),可得到αi的值,與αi對應且在αi?0的情況下得到的訓練樣本被稱為支持向量,數(shù)量為n個。b可通過式(14)計算得到

    (14)

    再通過高斯核函數(shù)計算,可得

    (15)

    式中,σ表示核參數(shù)。通過上述步驟,在低維特征空間內,通過支持向量機中分線性分類函數(shù),計算得到拉格朗日乘子,憑借正則化參數(shù)特性,通過高斯核函數(shù),計算得到最優(yōu)核函數(shù),完成多變量時間序列分類。

    5 仿真研究

    為了驗證基于深度置信網絡的多變量時間序列分類方法的有效性,仿真在Windows7系統(tǒng)上完成,利用eviews5.0軟件工具,采用MATLAB7.6搭建實驗平臺,并分別采用文獻[3]方法、文獻[4]方法與所提方法進行對比,驗證所提方法的有效性。

    5.1 實驗數(shù)據(jù)

    實驗數(shù)據(jù)集選用三組分別為ASL(Australian Sign Language)、JV(Japanese Vowels)和Wafer。根據(jù)三組數(shù)據(jù)集的序列長度,將其分為兩類:ASL和Wafer序列長度較長,可以表達出一個完整的MTS,而JV序列長度較短,可以準確表達出狀態(tài)點的MTS。接下來具體介紹三組數(shù)據(jù)集分別為:

    ASL數(shù)據(jù)集:通過多個傳感器獲取到澳大利亞本地手語者不同語意的序列集合,一種手語者所表達的一種語意用一個MTS表示,實驗中選擇了270個樣本作為數(shù)據(jù)集。

    JV數(shù)據(jù)集:通過采集9名志愿者產生的12個LPC(Linear Predictive Coding,線性預測編碼)同態(tài)譜數(shù)據(jù)描述的日本元音發(fā)音,每次發(fā)音記為一個MTS。每名志愿者發(fā)音次數(shù)均不同,采集到640個實驗樣本。

    Wafer數(shù)據(jù)集:由6個傳感器在硅晶體生產過程中采集到的半導體微電子序列,每個硅晶體用一個MTS來表示,并將其分為normal和abnormal兩類。實驗中選取的樣本總數(shù)為327個。設置的實驗數(shù)據(jù)如表1所示。

    表1 實驗數(shù)據(jù)

    5.2 實驗內容

    為了對比分析三種方法對于不同數(shù)據(jù)集的分類處理能力,首先需要對數(shù)據(jù)集進行統(tǒng)計檢驗。本文使用Friedman檢驗驗證作為顯著性水平標準值,通過泛化誤差來驗證方法的分類性能。

    Friedman檢驗可通過秩對若干個分布的總體是否存在顯著差異進行非參數(shù)檢測。在零假設的環(huán)境下,如果方法的泛化誤差小于Friedman檢驗統(tǒng)計量,則方法之間不存在明顯的差異性,均為等價關系,分類性能均為相同;如果方法的泛化誤差大于Friedman檢驗統(tǒng)計量,就可以拒絕原假設,認為方法分類性能存在明顯的差異性,并且泛化誤差越小,表明方法的分類期望風險越小,同時分類集內個體的特征越明顯,其分類值越靠近真實值,分類精度越高。

    Friedman檢驗統(tǒng)計量CD計算公式如式(16)所示

    (16)

    其中,g表示實驗中算法的個數(shù),A表示實驗中數(shù)據(jù)集的個數(shù),α表示算法的顯著性水平,dα則表示臨界差異。

    顯著性水平可體現(xiàn)多個分類器之間的性能差異,由于影響分類結果的因素有很多,顯著性水平可在進行假設檢驗時,先確定好一個作為評判標準的小概率標準,通常為0.05,此時臨界差異dα值如表2所示。

    表2 顯著性水平為0.05時dα的值

    由表2可知,當顯著性水平為0.05時,dα的5種分類器均值為2.3338,結合式(18)可得到標準Friedman檢驗統(tǒng)計量CD值為1.9051,其中g=3,A=3。泛化誤差計算公式

    (17)

    根據(jù)泛化誤差計算公式,得到不同方法的泛化誤差對比結果如表3所示。

    表3 不同方法的泛化誤差對比結果

    從表3中的數(shù)據(jù)可知,文獻[3]方法、文獻[4]方法和提出方法的泛化誤差均值分別為1.9797、2.0293和1.9087,由此可知,三種方法的泛化誤差均值均大于標準Friedman檢驗統(tǒng)計量,因此,三種方法的分類性能存在明顯差異性。并且通過對比三種方法的泛化誤差均值可以得出:2.0293文獻[4]方法>1.9797(文獻[3]方法)>1.9087(提出方法),提出方法的泛化誤差較小,在保持分類集內個體特征顯著性的基礎上,具有較小的分類期望風險,能夠有效提高分類精度,因為提出方法采用Isomap算法,在深度置信網絡內進行優(yōu)先特征提取操作,不但有效降低噪聲,并且能夠將高維數(shù)據(jù)特征精準映射到對應空間內,具有較好的泛化能力,從而提高了多變量時間序列分類精度。

    在此基礎上,進一步驗證提出方法的分類時間,分別采用文獻[3]方法、文獻[4]方法與所提方法進行對比,得到不同方法的多變量時間序列分類時間對比結果如圖3所示。

    圖3 不同方法的多變量時間序列分類時間對比結果

    根據(jù)圖3可知,隨著數(shù)據(jù)集樣本總數(shù)的增加,不同方法的多變量時間序列分類時間均隨之增大。當JV數(shù)據(jù)集樣本總數(shù)為640個時,文獻[3]方法和文獻[4]方法的多變量時間序列分類時間分別為20s和16s,而提出方法的多變量時間序列分類時間為11s。由此可知,提出方法的多變量時間序列分類時間較短,因為提出方法構建深度置信網絡模型結構,在一定程度上減少參數(shù)尋優(yōu)的空間范圍,由此降低監(jiān)督訓練時間,從而縮短多變量時間序列分類時間。

    6 結論

    針對當前多變量時間序列分類問題,提出基于深度置信網絡的多變量時間序列分類方法,在基于深度置信網絡的基礎上,對于高維數(shù)據(jù),采用Isomap算法進行降維處理,通過支持向量機實現(xiàn)對多變量時間序列的分類。該方法在保持分類集內個體特征顯著性的基礎上,具有較小的泛化誤差,能夠有效提高分類精度,縮短多變量時間序列分類時間。

    猜你喜歡
    置信顯著性分類
    急診住院醫(yī)師置信職業(yè)行為指標構建及應用初探
    基于置信職業(yè)行為的兒科住院醫(yī)師形成性評價體系的構建探索
    基于模糊深度置信網絡的陶瓷梭式窯PID優(yōu)化控制
    陶瓷學報(2021年2期)2021-07-21 08:34:58
    分類算一算
    分類討論求坐標
    基于顯著性權重融合的圖像拼接算法
    電子制作(2019年24期)2019-02-23 13:22:26
    基于視覺顯著性的視頻差錯掩蓋算法
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    一種基于顯著性邊緣的運動模糊圖像復原方法
    蒙阴县| 芒康县| 陵川县| 庄浪县| 武隆县| 铁岭县| 锦屏县| 米林县| 新竹市| 巴林右旗| 鄂托克前旗| 黄平县| 水城县| 南澳县| 光泽县| 宁国市| 昌吉市| 元谋县| 金平| 绥德县| 保德县| 鱼台县| 宁陕县| 绩溪县| 连云港市| 张家界市| 巴彦县| 金沙县| 柳江县| 溧阳市| 玉田县| 定日县| 同江市| 龙江县| 云安县| 江阴市| 怀仁县| 西畴县| 洛宁县| 凤城市| 乐平市|