• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進隨機森林模型的水質BOD快速預測研究*

      2022-01-17 09:19:06涌陸衛(wèi)左楚涵鮑明月
      傳感技術學報 2021年11期
      關鍵詞:降維決策樹森林

      王 涌陸 衛(wèi)左楚涵鮑明月

      (1.浙江工業(yè)大學計算機學院,浙江 杭州 310014;2.浙江工業(yè)大學奉化智慧經濟研究院,浙江 寧波 315500)

      BOD(Biochemical oxygen demand,生化需氧量)是水體中微生物分解所需消耗溶解氧的含量,它能夠直接體現(xiàn)水質的污染程度[1],是水質監(jiān)測等行業(yè)關注的重要污染指標。對于傳統(tǒng)BOD測量方法,主要存在設備昂貴易損壞難維修、需要離線采樣分析測量、測量耗時五天、需要專業(yè)人員操作等問題,這給污水監(jiān)測行業(yè)帶來困擾。為了解決以上問題,現(xiàn)今已有一種軟測量方法能夠測量BOD。軟測量方法[2-4]指通過數(shù)學理論分析處理數(shù)據(jù),建立數(shù)據(jù)集中簡單易測的輔助變量與復雜難測的目標BOD之間的機器學習模型,將包含輔助變量與BOD的數(shù)據(jù)集用來校正模型,最后可以通過將輔助變量數(shù)據(jù)輸入模型來預測BOD值[5]。

      近年來,由于機器學習的迅猛發(fā)展,BOD軟測量模型的精度已經能夠媲美BOD傳統(tǒng)測量法的精度,同時相比傳統(tǒng)BOD測量方法有效減少耗時,為監(jiān)測行業(yè)提供了更優(yōu)秀的選擇。Zhang[6]等人通過SOM網絡來預測BOD的濃度,通過分析選擇了氨氮、SRP、SS、COD作為模型的輔助變量,最終模型在樣本有大量缺失值仍有不錯的精度,且測量時間可以縮短到幾小時,但是仍不適合實時BOD的預測。Raheli[7]等人通過螢火蟲FFA算法來優(yōu)化多層感知機MLP,通過實驗有效表明了MLP-FFA能夠預測BOD值,但是由于模型的d因子導致模型不穩(wěn)定,從而造成模型精度不佳。許玉格[8]等人提出了一種Fast-SVM模型,有效提高了BOD模型的預測速度,但相較于基礎SVM模型,精度有所下降,同時文中將所有的輔助變量作為模型輸入,導致模型計算量過大。喬俊飛[9]等人通過PSO算法改進ESN神經網絡,且通過對水質BOD機理分析,選擇了pH、SS、DO、COD作為ESN的輔助變量,實驗證明了PSO算法能夠更有效找到ESN網絡的權重,使得ESN網絡的預測精度提高,但由于網絡的復雜性,仍不能滿足本文的實時BOD預測場景。以上對于BOD軟測量模型的研究,仍存在兩個問題:①對于大數(shù)據(jù)時代的今天,數(shù)據(jù)應保證精度同時也應保證時效性。因此模型預測速度也是重要的性能評判指標。上述研究中通過研究不斷加大模型復雜度來提高精度,而導致模型預測速度大幅下降,這顯然是不合理的。②輔助變量的選擇都是根據(jù)經驗選擇,沒有確切的選擇依據(jù)。

      根據(jù)這兩個問題,本文通過對隨機森林(Random Forest)模型的研究[10-11],提出了一種快速且精度高的改進隨機森林模型來預測BOD值,本文的主要研究如下:

      ①提出了一種基于特征重要性排序算法和LDA(Linear Discriminant Analysis,線性判別分析)的隨機森林模型來快速預測BOD值。隨機森林模型由于其隨機性是一種強大的回歸模型,非常適合BOD預測。特征排序能夠篩去對模型影響較小的輔助變量,LDA能夠對輔助變量降維,減少噪聲和冗余數(shù)據(jù)對模型精度的影響。改進后的模型在精度和預測速度上有明顯提升。

      ②將改進隨機森林模型與當前主流的BOD預測模型,支持向量機模型和全連接神經網絡模型進行橫、縱向對比實驗。通過縱向實驗,找到每個模型的最佳參數(shù)。通過橫向實驗對比三個模型性能,實驗結果有效表明了本文提出的改進模型在快速BOD預測場景下的優(yōu)勢。

      1 特征重要性排序算法

      1.1 決策樹

      決策樹主要用于表達選擇。決策樹分為三個部分,分別是根、內部、葉子節(jié)點[12]。根和內部結點都表示一種特征,葉子節(jié)點表示結果。決策樹從根結點開始,通過內部結點到葉子結束。因此根結點是較好的特征,需要有較好的分類能力。因此決策樹模型首先要選擇一個最好的特征作為根結點。選擇最好的特征時要以不同特征的信息增益作為準則,信息增益大的特征有更好的分類能力。

      1.2 信息增益

      熵用來表達隨機變量的不穩(wěn)定性,表示數(shù)據(jù)內部的混亂程度。在一組數(shù)據(jù)中隨機變量X為離散值時,即X的取值為x i,此時隨機變量X的概率分布為:

      式中:n為樣本量,則隨機變量X的熵為:

      熵值越大,系統(tǒng)越混亂,不確定性也就越大。當概率為0或1時都是確定的量,不會有不確定性,因此概率為0或1時不會影響熵值。

      條件熵表示為H(Y|X)為在隨機變量X條件下隨機變量Y的不確定性。

      信息增益能夠確定決策樹中的各個特征,哪一個特征對于模型學習最有用,即信息增益可以描述特征對各個子集分類效果的好壞。

      式中:g(D,A)表示特征A對數(shù)據(jù)集D的信息增益,用經驗熵H(D)與給定特征A條件下的數(shù)據(jù)集D的條件熵做差得到。信息增益不適用于特征類別較多的情況,因為此時會發(fā)生過擬合問題[13]。

      若根據(jù)特征A的取值可以將數(shù)據(jù)集D劃分為n個子集D1,D2,…,D n,其中n是特征A可能取值的種數(shù),則數(shù)據(jù)集D關于特征A的值的熵H A(D)為:

      此時信息增益比g R(D,A)為:

      1.3 特征重要性排序算法

      在決策樹生成時有兩種算法,ID3與C4.5,分別對應以上介紹的信息增益和信息增益比為基礎的兩種算法[14]。表1將ID3和C4.5算法生成的預剪枝決策樹過程表示出來。

      表1 預剪枝決策樹生成算法

      生成預剪枝決策樹后,這樣特征重要性就可以通過隨機森林中每一個決策樹的基尼指數(shù)得到。將基尼指數(shù)記為G,如果數(shù)據(jù)集D分類問題中有K個類,某個子集屬于第k類的概率為p k,則基尼指數(shù)為:

      在決策樹中某個內部結點剪枝前后基尼指數(shù)變化量記為V,設剪枝后出現(xiàn)兩個新的結點,記兩個新的結點的基尼指數(shù)為G p,G q,則有下式:

      設特征A在決策樹T i中出現(xiàn)的結點集合記為M,那么特征A在決策樹T i中的重要性記為:

      若隨機森林中有N棵決策樹,那么特征A在隨機森林算法中的基尼指數(shù)評分為:

      最后對不同的特征求得的基尼指數(shù)做歸一化之后進行排序得到的就是不同特征的重要性排序。在隨機森林模型中,通過重要性排序將其中重要性小于0.2的特征篩除。

      2 LDA算法

      LDA是一種監(jiān)督學習的降維算法,LDA算法的目的是通過將數(shù)據(jù)投影到新的坐標系中,令新的數(shù)據(jù)滿足同一類別的數(shù)據(jù)中方差最小,不同類別的數(shù)據(jù)方差最大。

      設數(shù)據(jù)集為D,數(shù)據(jù)集總共分為k類,則將數(shù)據(jù)集D分為D1,D2,…,D k,其中每一類數(shù)據(jù)集中數(shù)據(jù)的個數(shù)為N1,N2,…,N k,即:

      若假設uTu=a,則在D k中樣本方差為:

      將D1,D2,…,D k不同數(shù)據(jù)集之間的樣本方差求和得到:

      不同類別D i與D j之間的方差為:

      不同類別D之間的方差和為:

      因此最后要求解的問題為:

      LDA的目的是令uTS b u最大,同時令分子uTS w u最小,即求解優(yōu)化問題maxJ(u)。為了令問題簡化,由于uTu=a,因此可以通過改變a的值令uTS w u=1,那么優(yōu)化問題就變成了maxuTS b u。通過拉格朗日乘數(shù)法,將優(yōu)化問題轉化為拉格朗日函數(shù):

      通過求解偏導得到:

      通過S b u=λS w u得到S-1w S b u=λu,即求解特征向量。因此對S-1w S b進行奇異值分解,得到特征值λi對應的特征向量為u i,取前三個最大的特征值對應的特征向量組成投影矩陣W。通過求出數(shù)據(jù)在這三個特征向量上的投影,將輸入輔助變量數(shù)據(jù)降到3維。

      3 基于特征重要性排序和LDA降維改進的隨機森林模型

      3.1 隨機森林算法

      隨機森林算法采用CART決策樹[15-16]進行回歸,以最小二乘法作為CART決策樹的基準。隨機森林算法首先從原始數(shù)據(jù)集中有放回的選取m個數(shù)據(jù),重復n次,這樣就得到了n個新的數(shù)據(jù)集,這些數(shù)據(jù)集作為基學習器的訓練集得到了n個決策樹。

      每個數(shù)據(jù)集總特征中隨機選擇k個特征,并用這k個特征作為CART決策樹生成中所用的特征。在回歸問題中隨機森林通過對全部基學習器得到的預測值采用簡單平均法得到最終的預測值:

      3.2 基學習器的個數(shù)

      隨機森林的基學習器個數(shù)對模型有顯著的影響,因此確定基學習器的個數(shù)至關重要,當個數(shù)過少時會導致模型精度不夠,當個數(shù)過多時會造成過擬合。

      為了解決個數(shù)確定問題,本文采用了一種十折交叉驗證法來確定最優(yōu)子樹(基學習器)數(shù)目,以保證隨機森林算法模型在水質BOD預測時效果最好。

      首先設置基學習器個數(shù)為10,對于固定的基學習器個數(shù),對訓練數(shù)據(jù)隨機劃分為10份,記為K1,K2,…,K10,選擇其中9份數(shù)據(jù)作為訓練集,剩下的一份作為測試集,通過訓練數(shù)據(jù)來記錄測試集的R2_score(決定系數(shù))。遍歷每一份數(shù)據(jù),并記錄每一次得到的R2_score值,最后通過對得到的10個R2_score求平均值作為該基學習器數(shù)目下的平均R2_score。隨后增加基學習器的數(shù)目,基學習器數(shù)目450作為上限,在這個過程中選擇平均R2_score最大時的基學習器個數(shù)為最優(yōu)的基學習器個數(shù)。

      3.3 隨機森林算法模型的改進

      本文采用特征重要性排序和LDA算法對隨機森林模型的輸入模塊進行改進,其中特征重要性排序是由隨機森林算法得到的,因此基于特征篩選和PCA降維的隨機森林模型的效果將會明顯優(yōu)于其他傳統(tǒng)的機器學習模型。隨機森林能夠處理較為復雜的問題,模型的隨機性會降低錯誤數(shù)據(jù)在整體數(shù)據(jù)中的比重,而CART決策樹的生成方法也會進一步避免一些無效特征對隨機劃分得到的數(shù)據(jù)的影響,這樣的隨機性會讓隨機森林模型更好的適應本文水質BOD的快速預測問題?;谔卣骱Y選和PCA降維的隨機森林模型框架如圖1所示。

      圖1 基于特征篩選和LDA降維改進后的隨機森林模型

      4 基于改進隨機森林的水質BOD快速預測模型的應用

      4.1 數(shù)據(jù)分析處理與實驗方案

      本文數(shù)據(jù)來源于某水質監(jiān)測廠提供的300組數(shù)據(jù),數(shù)據(jù)包含的變量有:溫度Temp、pH、溶解氧DO、大腸桿菌E.coil、懸浮固體SS、濁度Turb、氧化還原電位ORP、電導率EC、硝酸鹽、化學需氧量COD、凱式氮、氨氮AN以及本文需要預測的生化需氧量BOD。

      由于數(shù)據(jù)樣本中存在較多空缺值,本文采用平均值插補法進行填補。填補之后,通過特征重要性排序算法篩除對模型影響較小的變量,本文以重要性為0.2為基準,其中重要性小于0.2的輔助變量為pH、電導率EC、濁度Turb和大腸桿菌E.coil,這些輔助變量需被篩除,因此通過特征篩選后剩下8維輔助變量。

      隨后對溫度Temp等8維輔助變量數(shù)據(jù)進行LDA算法降維,LDA根據(jù)數(shù)據(jù)類別降維,最后選擇了奇異值分解后模最大的三個特征向量作為向量u1,u2,u3,數(shù)據(jù)在這三個向量方向上的投影作為降維后的數(shù)據(jù)。

      為了保證實驗嚴謹性,本文對樣本數(shù)據(jù)按8∶2的比例隨機劃分訓練集和測試集,進行5次重復實驗得到五組訓練集和測試集并分別對未改進的隨機森林算法和改進后的隨機森林算法分別進行對比實驗。其中用于訓練的數(shù)據(jù)數(shù)目為240,用來訓練隨機森林模型以及校正隨機森林的參數(shù),驗證集的數(shù)據(jù)數(shù)目為60,用來測試評估隨機森林模型的性能,最后通過將驗證集數(shù)據(jù)中的輔助變量數(shù)據(jù)輸入隨機森林模型,模型輸出的預測結果將與驗證集中BOD的實際值進行比較,通過誤差評價指標和繪圖的方式來展示模型的優(yōu)劣。

      4.2 模型性能評估指標

      本文使用的模型性能評估指標如下:

      ①反映模型精度的指標:MSE、MAE。

      式中:y i為實際值,為預測值,n為測試集樣本數(shù)。

      ②反映模型擬合程度的指標:R2_score。

      式中:R2(y,)為R2_score,為BOD測試樣本數(shù)據(jù)的平均值。

      ③反應模型預測速度的指標:預測時間。

      4.3 對比實驗與分析

      對比實驗部分首先需要確定改進前后的隨機森林模型的最優(yōu)子樹(基學習器)個數(shù)。通過對訓練數(shù)據(jù)交叉驗證,從最優(yōu)子樹為1至450分別測得模型的R2_score值,其中最大的R2_score值就是最優(yōu)實驗結果。

      通過實驗得到沒有經過改進的隨機森林模型在其最優(yōu)子樹為83時R2_score最高,改進后的隨機森林模型在其最優(yōu)子樹為161時R2_score最高。

      確定兩個模型的最佳參數(shù)后,分別對其在最佳參數(shù)下進行五組隨機數(shù)據(jù)劃分實驗,隨機森林模型的預測如圖2,改進后的隨機森林模型的預測如圖3。

      圖2 原隨機森林模型在其最優(yōu)子樹為83時的五組隨機實驗預測圖

      圖3 改進后隨機森林模型在其最優(yōu)子樹為161時的五組隨機實驗預測圖

      通過兩圖也可發(fā)現(xiàn)改進后的隨機森林模型能夠更精準的預測BOD值,且改進后的五組預測值更為貼近實際值,且五組實驗結果重合度較高,表明了改進模型的穩(wěn)定性較好。

      根據(jù)兩個模型的五組隨機實驗可以計算得到表2的性能表。

      表2中可以得到兩種模型的具體性能指標。MSE、MAE反映了模型精度,改進后的隨機森林模型在平均MSE上降低了81.15%,在平均MAE上降低了66.86%。R2_score反映了模型擬合程度,改進后的隨機森林模型在平均R2_score上提升了18.36%。預測時間反映了模型的速度,改進后的隨機森林模型在平均預測時間上縮短了70.85%。

      表2 改進前后隨機森林模型的五組實驗性能指標

      對于改進前后的隨機森林模型,選取各自最佳的一組實驗進行對比,即原隨機森林模型的第二組實驗與改進后的隨機森林模型的第一組實驗,兩組預測如圖4。預測結果也體現(xiàn)了基于特征重要性排序算法和LDA降維算法改進后的隨機森林模型能夠有效降低噪聲以及誤差,減少預測時間,更適合快速水質BOD的預測。這是由于未經改進的輸入模塊包含很多噪聲,冗余的特征存在多重共線性,模型會學習到無效的信息,這對模型的精度會有很大影響,采用LDA降維后的數(shù)據(jù)包含了原數(shù)據(jù)的主要信息,篩去了不必要的噪聲和冗余信息,這使得模型能夠學習得更快更準確,因此改進后的隨機森林模型對于快速BOD預測能夠達到理想的預測結果。

      圖4 改進前后的隨機森林模型最佳實驗對比

      5 結語

      本文針對BOD傳統(tǒng)測量存在的問題,提出了一種基于特征重要性排序算法和LDA降維算法改進的隨機森林模型用于BOD的快速在線軟測量,有效解決了傳統(tǒng)測量的離線采樣分析耗時長、實驗操作復雜問題。對于隨機森林模型,經過本文的改進算法后,在MSE上降低了81.15%,在MAE上降低了66.86%,在R2_score上提升了18.36%,在預測時間上縮短了70.85%。改進后的模型不僅提升了預測精度,同時能夠在秒級完成預測任務,在BOD的在線快速測量中有著很大的優(yōu)勢。

      猜你喜歡
      降維決策樹森林
      混動成為降維打擊的實力 東風風神皓極
      車主之友(2022年4期)2022-08-27 00:57:12
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應用
      電子制作(2018年16期)2018-09-26 03:27:06
      哈Q森林
      哈Q森林
      哈Q森林
      基于決策樹的出租車乘客出行目的識別
      哈Q森林
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      鄯善县| 司法| 富源县| 长治市| 梧州市| 安宁市| 淳安县| 会昌县| 富民县| 保康县| 阿图什市| 宁津县| 渝中区| 博白县| 榆中县| 榆社县| 徐汇区| 岳阳县| 神木县| 陈巴尔虎旗| 益阳市| 泸水县| 水富县| 中宁县| 高淳县| 准格尔旗| 呼伦贝尔市| 贵港市| 潮安县| 偃师市| 星子县| 南平市| 灯塔市| 伊春市| 乌鲁木齐县| 芷江| 黄浦区| 红桥区| 武山县| 孙吴县| 蒲城县|