• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于動(dòng)態(tài)特征選擇和長(zhǎng)短期記憶模型的氣溫預(yù)報(bào)方法

      2023-10-23 02:58:48立,李
      計(jì)算機(jī)時(shí)代 2023年10期
      關(guān)鍵詞:氣象要素露點(diǎn)特征選擇

      韓 立,李 芳

      (1.大連東軟信息學(xué)院軟件與大數(shù)據(jù)技術(shù)系,遼寧 大連 116023;2.大連交通大學(xué)檔案館)

      0 引言

      氣溫作為氣象預(yù)報(bào)中最常見(jiàn)的要素,與人們的生活息息相關(guān),準(zhǔn)確的氣溫預(yù)報(bào)對(duì)于人們的生活、生產(chǎn)、交通和運(yùn)輸?shù)扔兄匾默F(xiàn)實(shí)意義。很多研究者使用決策樹(shù)[1]、支持向量機(jī)[2]和反向傳播神經(jīng)網(wǎng)絡(luò)[3]等方法分別建立了氣溫預(yù)測(cè)模型。這些傳統(tǒng)的機(jī)器學(xué)習(xí)方法在氣溫預(yù)測(cè)上雖然取得了良好的效果,但這些方法存在的主要問(wèn)題是無(wú)法表達(dá)氣象數(shù)據(jù)的時(shí)間相關(guān)性,這導(dǎo)致對(duì)氣象要素預(yù)報(bào)的準(zhǔn)確性很難得到提升。

      為了將氣象數(shù)據(jù)的時(shí)間相關(guān)性考慮在內(nèi),有很多學(xué)者將循環(huán)神經(jīng)網(wǎng)絡(luò)引入到氣象預(yù)報(bào)中[4-5]。長(zhǎng)短期記憶模型(Long Short-Term Memory Model,LSTM)能夠較為有效地編碼數(shù)據(jù)的時(shí)間特性[6],對(duì)于處理具有時(shí)間相關(guān)的氣象要素來(lái)說(shuō),具有很高的應(yīng)用價(jià)值。

      但是對(duì)于氣象要素(包括氣溫等)來(lái)說(shuō),對(duì)其產(chǎn)生影響的因素很多,海溫、近地面風(fēng)速、風(fēng)力,高空風(fēng)速、風(fēng)力,露點(diǎn)溫度、濕度、氣壓、相對(duì)濕度、云量、降水等要素都會(huì)對(duì)氣溫的變化造成影響。如此眾多的特征要素,在使用神經(jīng)網(wǎng)絡(luò)算法時(shí)容易造成維數(shù)災(zāi)難,進(jìn)而降低學(xué)習(xí)算法的性能。所以從原始特征中獲取少量與氣溫高度相關(guān)的特征,對(duì)于提高算法的學(xué)習(xí)效率和預(yù)測(cè)準(zhǔn)確度就具有重要的意義。陶曄等研究者[7]將傳統(tǒng)的基于決策樹(shù)和隨機(jī)森林的特征選擇算法引入到氣象預(yù)報(bào)領(lǐng)域特征選擇中,對(duì)于降低模型的復(fù)雜度起到了一定的作用,但是決策樹(shù)和隨機(jī)森林算法模型在特征選擇過(guò)程中無(wú)法評(píng)估變量之間的相關(guān)關(guān)系。

      基于動(dòng)態(tài)相關(guān)性的特征選擇(Dynamic Relevance based Feature Selection,DRFS)算法[8],是以基于信息熵的互信息理論為基礎(chǔ),可以有效地評(píng)估變量之間的相關(guān)關(guān)系,在特征選擇的過(guò)程中衡量了候選特征和已選特征類(lèi)別的交互相關(guān)性,可以有效提高特征選擇的準(zhǔn)確率。

      本文提出一種結(jié)合了DRFS 和LSTM 算法的預(yù)測(cè)模型,并選取了2018-2020 年大連地區(qū)的氣象數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)對(duì)大連地區(qū)的氣溫進(jìn)行預(yù)測(cè)。首先利用DRFS 算法從多個(gè)氣象要素中選擇出與氣溫高度相關(guān)的要素,然后以這些要素的數(shù)據(jù)作為輸入變量利用LSTM 網(wǎng)絡(luò)進(jìn)行時(shí)間相關(guān)要素的建模,最終得到DRFS-LSTM 算法模型。對(duì)實(shí)驗(yàn)結(jié)果的分析表明,與傳統(tǒng)氣溫預(yù)報(bào)方法相比,其能夠通過(guò)減少低相關(guān)性要素降低模型的復(fù)雜度,提高學(xué)習(xí)的效率。且能夠處理較大規(guī)模、多變量的時(shí)間序列數(shù)據(jù),進(jìn)一步提高了對(duì)氣溫預(yù)測(cè)的準(zhǔn)確率。

      1 模型設(shè)計(jì)

      1.1 動(dòng)態(tài)相關(guān)性的特征選擇

      特征選擇可以從高維數(shù)據(jù)中抽取相關(guān)特征,剔除無(wú)關(guān)和冗余特征,減小數(shù)據(jù)維度,縮短數(shù)據(jù)處理和模型訓(xùn)練的時(shí)間。決策樹(shù)和隨機(jī)森林算法通過(guò)持續(xù)尋找最優(yōu)特征,使用最優(yōu)特征將數(shù)據(jù)集進(jìn)行劃分,當(dāng)數(shù)據(jù)集不可再分或無(wú)法選擇最優(yōu)特征時(shí),算法結(jié)束并完成特征選擇。此類(lèi)方法避免每次添加新特征時(shí)對(duì)模型進(jìn)行訓(xùn)練,但較難構(gòu)建優(yōu)化模型,而且在特征的選擇過(guò)程中,對(duì)氣象要素之間的相關(guān)性考慮不足。而基于動(dòng)態(tài)相關(guān)性的特征選擇(Dynamic Relevance based Feature Selection,DRFS)算法以互信息為基礎(chǔ),互信息的理論基礎(chǔ)是信息熵,可以有效地評(píng)估變量之間的關(guān)系,在特征選擇過(guò)程中衡量了候選特征-已選特征-類(lèi)別的交互相關(guān)性,可以提高特征選擇的準(zhǔn)確率。

      基于動(dòng)態(tài)相關(guān)性的特征選擇(DRFS)算法[8],其評(píng)價(jià)函數(shù)如下:

      其中,F(xiàn)m表示候選特征,F(xiàn)j表示已選特征;C表示類(lèi)別;S表示最終選定的特征集合。

      1.2 LSTM模型

      長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)[9]是目前最為成功的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。整個(gè)LSTM的公式可以描述為:

      其中,σ(·)為L(zhǎng)ogistic 函數(shù),其輸出區(qū)間為(0,1),xt為當(dāng)前時(shí)刻的輸入,ht-1為上一時(shí)刻的外部狀態(tài)。

      圖1 給出了LSTM 網(wǎng)絡(luò)的循環(huán)單元結(jié)構(gòu),其計(jì)算過(guò)程為:

      圖1 LSTM網(wǎng)絡(luò)的循環(huán)單元結(jié)構(gòu)

      首先,利用上一時(shí)刻的外部狀態(tài)ht-1和當(dāng)前時(shí)刻的輸入xt,計(jì)算出三個(gè)門(mén),以及候選狀態(tài);

      其次,結(jié)合遺忘門(mén)ft和輸入門(mén)it來(lái)更新記憶單元ct;

      最后,結(jié)合輸出門(mén)ot,將內(nèi)部狀態(tài)的信息傳遞給外部狀態(tài)ht。

      LSTM模型可以建模時(shí)間序列數(shù)據(jù)之間的相關(guān)性,能十分有效地避免了梯度消失問(wèn)題。

      1.3 構(gòu)建DRFS-LSTM模型

      本文提出將DRFS和LSTM相結(jié)合的模型:

      首先,利用DRFS 算法從原始的氣象要素特征集合(包括:溫度,濕度,露點(diǎn),近地面風(fēng)速、風(fēng)向,920Hpa高空風(fēng)速、風(fēng)向,氣壓)中篩選出與氣溫高度相關(guān)的四種的特征。

      然后,將這四種特征數(shù)據(jù)按時(shí)序進(jìn)行劃分,并進(jìn)行歸一化處理之后輸入到LSTM 模型進(jìn)行運(yùn)算,以此進(jìn)行數(shù)據(jù)整合同時(shí)提高預(yù)測(cè)精度。

      本文采用兩層LSTM 進(jìn)行預(yù)測(cè)建模,如圖2 所示。在兩層LSTM 網(wǎng)絡(luò)中使用隨時(shí)間反向傳播(BP Through Time,BPTT)算法進(jìn)行訓(xùn)練,為了防止模型帶來(lái)的過(guò)擬合,我們?cè)诿恳粚覮STM 層之后加入Dropout正則化。

      圖2 DRFS-LSTM模型示意圖

      我們利用Pytorch2.0 完成模型構(gòu)建和數(shù)據(jù)注入,實(shí)現(xiàn)了時(shí)間序列和氣象特征數(shù)據(jù)的關(guān)聯(lián),我們利用過(guò)去1 小時(shí)的氣象數(shù)據(jù)來(lái)建立未來(lái)1 小時(shí)的短臨氣溫預(yù)報(bào)。

      ⑴DRFS特征選擇

      氣象預(yù)報(bào)屬于典型的大數(shù)據(jù)行業(yè),是目前數(shù)據(jù)積累最多,最完整的行業(yè)之一。氣象要素預(yù)報(bào)是一個(gè)典型的多因素、互影響的復(fù)雜業(yè)務(wù),某一氣象要素的預(yù)報(bào)通常會(huì)受到非常多因素的影響;而且這些因素也會(huì)相互影響。對(duì)預(yù)報(bào)要素來(lái)說(shuō),眾多的影響因素中有相關(guān)性高的重要因子,也有相關(guān)性很低的噪音。傳統(tǒng)的預(yù)報(bào)方法都是根據(jù)預(yù)報(bào)人員的經(jīng)驗(yàn)來(lái)確定影響因素,這樣費(fèi)時(shí)費(fèi)力,而且普適性很低,某一地區(qū)的經(jīng)驗(yàn),通常不符合另一地區(qū)的預(yù)報(bào)要求。一些研究者利用決策樹(shù)和隨機(jī)森林對(duì)樣本數(shù)據(jù)進(jìn)行特征選擇[7],但是由于隨機(jī)森林只能夠計(jì)算單個(gè)特征變量的重要性,無(wú)法描述變量之間的交互性和相互影響,本文使用DRFS算法來(lái)對(duì)影響氣溫的特征要素進(jìn)行選擇,陳永波等人的研究工作[8]給出了DRFS算法的詳細(xì)步驟:

      ①對(duì)需要篩選的特征變量進(jìn)行初始化;

      ②對(duì)每個(gè)候選特征與類(lèi)別的互信息進(jìn)行計(jì)算,選出具有最大互信息值的特征,并添加到已選特征集合中;

      ③計(jì)算原始集合和已選特征集合中所有特征的條件和交互相關(guān)性,將具有最大信息量的特征添加到已選特征集合中,同時(shí)將這個(gè)特征從原始集合中刪除。

      重復(fù)步驟②-③,直到滿足選擇特征數(shù)為止。

      ⑵LSTM模型訓(xùn)練

      LSTM 采用隨時(shí)間反向傳播算法,主要有三個(gè)步驟:

      首先,LSTM 訓(xùn)練過(guò)程前向計(jì)算每個(gè)神經(jīng)元的輸出值;

      其次,反向計(jì)算每個(gè)神經(jīng)元的誤差項(xiàng)δ,在t時(shí)刻LSTM 的輸出為ht,則t時(shí)刻的誤差為δt=,L 為損失函數(shù),目的是要計(jì)算出t-1時(shí)刻的誤差。根據(jù)公式⑵-公式⑷和全導(dǎo)數(shù)公式,可以將誤差項(xiàng)向前傳遞到任意k時(shí)刻:

      最后,假設(shè)LSTM 的當(dāng)前層是第l層,則將誤差傳遞到上一層的公式為:

      2 結(jié)果與分析

      為了驗(yàn)證本文提出的基于DRFS-LSTM 模型對(duì)大連地區(qū)氣溫預(yù)測(cè)的效果,將2018-2019 年的氣象數(shù)據(jù)作為訓(xùn)練和測(cè)試數(shù)據(jù)集,其中80%為訓(xùn)練集,20%為測(cè)試集。

      2.1 數(shù)據(jù)說(shuō)明

      數(shù)據(jù)采用2018~2019 年大連地區(qū)兩年觀測(cè)數(shù)據(jù)(要素包括:近地面的濕度、露點(diǎn)、氣壓、風(fēng)速、風(fēng)向;920hPa 的相對(duì)濕度、氣溫和露點(diǎn)),將2020 年3-4 月的數(shù)據(jù)作為檢驗(yàn)樣本,用來(lái)檢驗(yàn)?zāi)P偷念A(yù)報(bào)效果。

      2.2 數(shù)據(jù)治理

      數(shù)據(jù)質(zhì)量的高低,直接決定模型訓(xùn)練結(jié)果的準(zhǔn)確度。由于氣象數(shù)據(jù)觀測(cè)和整理過(guò)程中容易出現(xiàn)數(shù)據(jù)缺失和錯(cuò)誤值,為保證數(shù)據(jù)集的質(zhì)量,本研究所收集的海面探測(cè)數(shù)據(jù)、地面觀測(cè)數(shù)據(jù)和高空探測(cè)數(shù)據(jù),都經(jīng)過(guò)了時(shí)間一致性檢驗(yàn),內(nèi)部一致性檢驗(yàn)和界限值檢查[10-12]。從數(shù)據(jù)時(shí)間連續(xù)性、準(zhǔn)確性和一致性三個(gè)方面對(duì)所收集到的數(shù)據(jù)集進(jìn)行進(jìn)一步治理。具體方法見(jiàn)表1。

      表1 氣溫?cái)?shù)據(jù)治理策略描述

      2.3 歸一化計(jì)算

      我們利用DRFS 算法獲得與氣溫高度相關(guān)的因子之后,為了減少不同量綱對(duì)預(yù)測(cè)模型帶來(lái)的不穩(wěn)定影響,且為了加快梯度下降求最優(yōu)解的速度,我們利用歸一化算法來(lái)對(duì)計(jì)算樣本數(shù)據(jù)進(jìn)行歸一化。

      本文使用標(biāo)準(zhǔn)差來(lái)對(duì)樣本數(shù)據(jù)進(jìn)行歸一化,使得經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化函數(shù)為:

      其中,μ為所有樣本數(shù)據(jù)的均值,σ 為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。

      2.4 實(shí)驗(yàn)結(jié)果與分析

      利用DRFS 算法對(duì)因子進(jìn)行訓(xùn)練,設(shè)k=4,得到的因子為風(fēng)速、露點(diǎn)、濕度和925hPa 溫度。然后我們將風(fēng)速、露點(diǎn)、濕度、925hpa 氣溫和歷史氣溫這五個(gè)因子進(jìn)行歸一化處理之后輸入到LSTM 模型中。利用過(guò)去一小時(shí)的數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)一小時(shí)的短臨氣溫要素。

      從圖3 中可以看出,訓(xùn)練集與測(cè)試集的損失函數(shù)值很接近,且很快趨于穩(wěn)定收斂。

      圖3 訓(xùn)練與測(cè)試

      為了進(jìn)一步評(píng)價(jià)DRFS-LSTM 模型的效果,本文用2020 年3 月和4 月的數(shù)據(jù)對(duì)三個(gè)模型BP、LSTM 和DRFS-LSTM 的預(yù)測(cè)效果進(jìn)行評(píng)價(jià)。其中BP 模型的輸入要素與DRFS-LSTM 模型經(jīng)過(guò)DRFS 篩選后的要素相同,是歷史氣溫、露點(diǎn)、相對(duì)濕度、近地面風(fēng)速和920hPa 氣溫。LSTM 模型的結(jié)構(gòu)和參數(shù)與DRFSLSTM 中的LSTM 模型層相同,輸入的要素為未經(jīng)過(guò)DRFS 篩選的要素(近地面的溫度、濕度、露點(diǎn)、氣壓、風(fēng)速、風(fēng)向;920hPa 相對(duì)濕度、氣溫和露點(diǎn)),具體的結(jié)果見(jiàn)表2。

      表2 2020年3~4月氣溫預(yù)報(bào)結(jié)果評(píng)分

      從表2 可以看出,DRFS-LSTM 模型在三個(gè)評(píng)價(jià)指標(biāo):均方根誤差(RMSE),平均絕對(duì)誤差(MAE)和決定系數(shù)(R2)上都要優(yōu)于LSTM 和BP 模型,表明了DRFS-LSTM 模型預(yù)測(cè)的精度更高,預(yù)測(cè)出的氣溫值與實(shí)際氣溫值之間的誤差更小,模型對(duì)氣溫預(yù)測(cè)的擬合度更好。

      3 結(jié)束語(yǔ)

      動(dòng)態(tài)相關(guān)性的特征選擇算法在對(duì)氣溫高相關(guān)性特征進(jìn)行選擇的同時(shí),考慮了多要素之間的相關(guān)性。與傳統(tǒng)方法相比,帶有長(zhǎng)短期記憶單元的循環(huán)神經(jīng)網(wǎng)絡(luò)能很好地描述氣象要素之間的時(shí)間相關(guān)性。我們利用動(dòng)態(tài)相關(guān)性的特征選擇算法對(duì)多要素氣象時(shí)間序列數(shù)據(jù)進(jìn)行特征選擇,為L(zhǎng)STM 網(wǎng)絡(luò)模型的構(gòu)建提供了更準(zhǔn)確的特征數(shù)據(jù),進(jìn)一步降低了網(wǎng)絡(luò)的復(fù)雜度。本文構(gòu)建了基于DRFS-LSTM 的網(wǎng)絡(luò)模型,利用大連地區(qū)2018年~2019年的氣象數(shù)據(jù)作為訓(xùn)練集進(jìn)行訓(xùn)練,并利用該模型對(duì)大連區(qū)2020 年3 月~4 月的氣溫進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果顯示預(yù)報(bào)結(jié)果具有較好的效果,對(duì)氣溫短臨預(yù)報(bào)具有較好的指導(dǎo)意義。與BP、LSTM模型相比,DRFS-LSTM 模型在有效降低數(shù)據(jù)維度和網(wǎng)絡(luò)復(fù)雜度的前提下,具有更高的預(yù)測(cè)準(zhǔn)確率,由于氣象要素的特征選擇不再基于氣象預(yù)報(bào)人員的經(jīng)驗(yàn),所以模型具有更高的普適性。本文是利用歷史數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)一小時(shí)的短臨預(yù)報(bào),未來(lái)需要對(duì)中長(zhǎng)期預(yù)報(bào)方法做進(jìn)一步研究。

      猜你喜歡
      氣象要素露點(diǎn)特征選擇
      露點(diǎn)溫度是個(gè)什么東西
      成都電網(wǎng)夏季最大電力負(fù)荷變化特征及其與氣象要素的關(guān)系
      低溫風(fēng)洞極低露點(diǎn)快速測(cè)量裝置研制
      沈陽(yáng)市1951—2013年氣候變化特征及其區(qū)域蒸發(fā)的響應(yīng)分析
      北京市朝陽(yáng)區(qū)大氣污染物時(shí)空分布特征及與氣象要素的關(guān)系研究
      探測(cè)環(huán)境變化對(duì)臨沭站氣象要素的影響
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      新聞報(bào)道要當(dāng)心露點(diǎn)走光
      新聞傳播(2015年10期)2015-07-18 11:05:40
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      阿克| 乌拉特后旗| 千阳县| 民乐县| 竹北市| 开鲁县| 方山县| 万州区| 和龙市| 司法| 定安县| 辰溪县| 岑巩县| 弥勒县| 介休市| 延安市| 龙南县| 锡林郭勒盟| 芒康县| 青岛市| 兴化市| 东平县| 青神县| 耿马| 高碑店市| 马龙县| 闽清县| 林周县| 平阴县| 汉沽区| 毕节市| 祁连县| 广东省| 彭州市| 娄烦县| 共和县| 娱乐| 平和县| 都兰县| 广南县| 潍坊市|