• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      間歇性時間序列的可預測性評估及聯(lián)合預測方法

      2022-09-25 08:42:24郎祎平毛文濤羅鐵軍范黎林任穎瑩劉俠
      計算機應用 2022年9期
      關鍵詞:配件聚類預測

      郎祎平,毛文濤,2*,羅鐵軍,范黎林,任穎瑩,劉俠

      (1.河南師范大學計算機與信息工程學院,河南新鄉(xiāng) 453007;2.“智慧商務與物聯(lián)網(wǎng)技術”河南省工程實驗室(河南師范大學),河南新鄉(xiāng) 453007;3.株洲中車時代電氣股份有限公司,湖南株洲 412001;4.盾構及掘進技術國家重點實驗室,鄭州 450001)

      0 引言

      在重型車輛制造、盾構掘進、風電等復雜裝備制造企業(yè)中,配件的庫存價值通常在庫存總成本的占比中超過60%[1]。準確的配件需求預測是企業(yè)實現(xiàn)產(chǎn)能規(guī)劃和庫存優(yōu)化的決策依據(jù),也是企業(yè)為了提高后市場服務效能、實現(xiàn)全生命周期智能制造的關鍵環(huán)節(jié);然而,在實際業(yè)務中,配件計劃常與新上線項目掛鉤,或與維修現(xiàn)場配件缺失而產(chǎn)生的零星需求有關,導致需求數(shù)據(jù)的時間序列呈現(xiàn)出典型的間歇性和塊狀分布,缺乏明確的周期性特點,因而較難以從此類序列中提取充分的波動規(guī)律,影響預測效果。如何從間歇性時間序列中提取內(nèi)在的演化規(guī)律,實現(xiàn)準確的序列趨勢預測,是當前制造企業(yè)配件管理中的迫切需求,同時具有明確的理論研究價值。

      目前,間歇性時間序列預測主要基于時間序列預測模型。常用的時間序列預測方法有指數(shù)平滑[2]、移動平均[3]等統(tǒng)計學習方法和支持向量回歸(Support Vector Regression,SVR)[4]、極限梯度 提升算法XGBoost(Extreme Gradient Boosting)[5]、隨機森林[6]和人工神經(jīng)網(wǎng)絡[7]、長短時記憶(Long Short-Term Memory,LSTM)網(wǎng) 絡[8]、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[9]等淺層與深度機器學習模型。此類方法多適用于周期性和趨勢性較強的時間序列,對于隨機性較強、連續(xù)性較差,尤其是樣本數(shù)較小的間歇性序列,則無法有效提取序列中包含的演化規(guī)律,預測結果精度不高。為了實現(xiàn)對間歇性序列的準確預測,一些學者從分析間歇性序列分布特性入手,提出了平均需求間隔(Average Demand Interval,ADI)和變異系數(shù)(Coefficient of Variation,CV2)[10-11]等描述間歇性序列的指標,通過挖掘序列的統(tǒng)計特征,實現(xiàn)間歇性序列預測[12-13]。另一種典型做法是對序列進行層次聚類[14-15],將原有整體規(guī)律不明顯的序列分為多個具有較顯著規(guī)律的序列簇,再對各簇選擇合適的回歸預測算法進行預測。作為代表性工作之一,Shi 等[16]提出BHT-ARIMA(Block Hanker Tensor-AutoRegressive Integrated Moving Average)模型,通過張量分解提取和表示多維小樣本序列間的內(nèi)在相關性,進而使用張量化的ARIMA(AutoRegressive Integrated Moving Average)算法,提取多條小樣本序列的公共演化規(guī)律,以增加預測模型的信息含量,實現(xiàn)對多條電腦配件序列的聯(lián)合預測。整體來說,上述方法雖已取得一定結果,但仍存在一定局限:1)只考慮到間歇性序列的統(tǒng)計特征,未能挖掘序列中蘊含的稀疏度、趨勢性等其他數(shù)據(jù)特征;2)多建立在所有序列都具有預測價值的假設上,而忽略了對序列可預測性的細粒度分析。事實上,在企業(yè)實際業(yè)務中,部分配件一年中僅出現(xiàn)若干次需求,序列數(shù)據(jù)分布極為稀疏,基本不具有可預測價值,此時在建模中并不適合采用智能預測方法進行走勢評估,通常可由人工派單或進行保守備件。

      綜合上述分析可知,提高間歇性序列預測精度的關鍵在于:1)如何從不同角度挖掘序列的數(shù)據(jù)分布特性,定義一個綜合考慮多維度信息、具有較好實用性的可預測性度量指標;2)如何有效利用序列間的結構化關系,提高小樣本間歇性序列的預測精度。針對以上兩點,本文在進行間歇性序列可預測性的分析基礎上,提出了一種間歇性時間序列的可預測性評估及聯(lián)合預測方法。首先,通過統(tǒng)計序列中零需求的頻次和位置,并結合最大信息系數(shù)(Maximal Information Coefficient,MIC)和ADI,提出了一種新的間歇相似度指標(Intermittent-Similarity,InterSim);其次,在上述指標的基礎上,構建了一個間歇相似度層次聚類方法,進而引入多輸出支持向量回歸(Multi-output SVR,M-SVR)模型,構建多條序列的聯(lián)合預測模型,實現(xiàn)對序列間結構化信息的有效利用。本文方法在具有間歇性數(shù)據(jù)特點的兩個公開數(shù)據(jù)集(UCI 禮品零售數(shù)據(jù)集和華為電腦配件數(shù)據(jù)集)和某大型制造企業(yè)實際配件售后數(shù)據(jù)集上進行了對比實驗,實驗結果證明了本方法的有效性。

      本文的主要工作可概括如下:

      1)提出了一個面向間歇性序列的可預測性度量指標InterSim。與現(xiàn)有代表性的間歇性度量指標相比,該指標不僅考慮序列自身的稀疏性,同時可有效評估序列的趨勢信息和波動規(guī)律,從而實現(xiàn)對間歇性序列可預測性的準確量化,具有良好的實用性和普適性。

      2)構建了一個基于可預測性聚類的間歇性序列聯(lián)合預測模型。與現(xiàn)有間歇性序列預測方法相比,該模型可有效選擇相似性高、可預測性強的序列,實現(xiàn)對序列預測價值的細粒度分析,并利用序列間的結構化信息提高整體預測效果。根據(jù)作者文獻調(diào)研,目前尚未有基于可預測性的間歇性時間序列預測研究。

      1 相關理論

      1.1 間歇性特征

      ADI和CV2能夠很好地描述間歇性需求數(shù)據(jù)的特點,因此在實際企業(yè)業(yè)務中常用來對序列分類,依據(jù)[11]如下:

      1)平穩(wěn)需求(ADI≤1.32,CV2≤0.49),需求相對穩(wěn)定,零需求周期較少。

      2)不穩(wěn)定需求(ADI≤1.32,CV2>0.49),需求不穩(wěn)定,可變性較大,且需求的發(fā)生較為頻繁。

      3)間歇需求(ADI>1.32,CV2≤0.49),需求呈現(xiàn)不規(guī)則和零星分布,且需求相對較穩(wěn)定。

      4)塊狀需求(ADI>1.32,CV2>0.49),需求模式隨機出現(xiàn),大量時間段沒有需求且各個時期的需求之間差異較大,伴隨有大量零需求階段。

      1.2 層次聚類

      層次聚類是一類常用的聚類方法,主要采用自下而上的凝聚層次聚類或者自上向下的分裂層次聚類方法:最常用的方法為凝聚層次聚類[17],主要以所有樣本作為初始樣本簇,依據(jù)某種準則合并這些類簇,迭代進行直到將所有數(shù)據(jù)劃分到設定的類簇數(shù)目;分裂層次聚類方法[17]則將所有樣本初始化為一個類簇,然后依據(jù)某種準則逐漸地分裂,直到達到設定的類簇數(shù)目。這兩種方法的區(qū)別在于類間距離的定義不同。由于層次聚類算法存在矩陣計算,因此時間和空間復雜度較高,適用于較小的數(shù)據(jù)集。通過定義序列之間的相似度指標,層次聚類適合于實現(xiàn)時間序列聚類[17],同時聚類結果可直觀體現(xiàn)序列與序列之間的相關程度。

      1.3 多輸出回歸

      多輸出回歸又稱為多輸入-多輸出(Multiple-Input Multiple-Output,MIMO)問題[18],指同時對多個輸出維度進行回歸預測,通過挖掘多條序列之間的結構化關系,提高預測精度和穩(wěn)定性。多輸出回歸的核心在于利用輸出端之間的相關性信息,彌補小樣本回歸模型的信息量。人工神經(jīng)網(wǎng)絡具有天然的多輸出結構,但通常依賴一定數(shù)據(jù)量進行模型訓練,在小樣本回歸上容易產(chǎn)生過學習、初始值敏感等問題。而深度神經(jīng)網(wǎng)絡雖然可實現(xiàn)特征自適應提取、進行端到端建模,但同樣需要大量數(shù)據(jù)進行建模。由于實際應用中的間歇性序列通常數(shù)據(jù)量較小,且數(shù)據(jù)分布稀疏,小樣本特點明顯,因此傳統(tǒng)神經(jīng)網(wǎng)絡和LSTM 等深度神經(jīng)網(wǎng)絡并不適用于該類序列的趨勢預測。相比神經(jīng)網(wǎng)絡,M-SVR 在傳統(tǒng)SVR 基礎上,引入多個輸出維度的統(tǒng)一損失函數(shù),以此實現(xiàn)輸出端信息的共享和對序列之間結構化關系的利用,適合于小樣本回歸預測,因此,本文選擇M-SVR 構建多元間歇性序列的MIMO 預測模型,利用多條序列的演化信息,提升聯(lián)合預測效果。M-SVR 的詳細介紹請參考2.2 節(jié)。

      2 間歇性時間序列的可預測性評估及聯(lián)合預測方法

      本章提出了一種新的間歇性時間序列預測方法,主要包括可預測性評估和多序列聯(lián)合預測兩部分??深A測性評估中,綜合多個維度的序列演化規(guī)律信息,構建了一個新的間歇相似度指標和對應的層次聚類方法,其作用在于從原始時間序列中剔除極度稀疏、沒有預測價值的序列;多序列聯(lián)合預測旨在利用多條序列的結構化信息進行聯(lián)合預測,提高小樣本下間歇性序列預測效果。本文方法流程如圖1所示。

      圖1 本文方法流程Fig.1 Flowchart of the proposed method

      2.1 間歇相似度指標構建

      由1.1 節(jié)分析可知,現(xiàn)有序列間歇性特征ADI和CV2僅僅統(tǒng)計單條間歇性序列的演化信息,此類信息雖能反映序列的稀疏性,但主要反映的是序列中“0”元素出現(xiàn)的頻次,無法體現(xiàn)對應的位置關系,也不足以體現(xiàn)序列的演化趨勢,而后者對時間序列預測起到重要作用。為衡量兩條間歇性序列演化趨勢的相關性,本節(jié)引入MIC指標。MIC可有效衡量兩條序列的非線性相關性,探索序列間的非函數(shù)關系,因此可有效度量序列的演化趨勢,具體計算方法見文獻[19]。對于間歇性時間序列,MIC無法充分體現(xiàn)出兩條序列中關于“0”頻次和位置的相似度,換言之,“0”元素將導致MIC計算失真。

      此處給出一個算例予以說明。如圖2 所示,以序列b為基干序列,通過調(diào)整序列中“0”元素的數(shù)量、位置和出現(xiàn)頻次,得到序列a、c、d。這4 條序列的趨勢性和稀疏性各不相同。經(jīng)過計算序列間MIC可得:1)MIC(a,c)=0.311 2,與MIC(a,b)=1 相比降幅明顯,表明序列趨勢的變化對于MIC影響較大;2)MIC(a,d)=0.311 2,與MIC(a,c)相同,即“0”元素數(shù)量和位置有較大差別的兩條序列c和d與序列a的MIC值相同。這表明MIC對于序列中“0”的位置和頻次改變并不敏感,有必要在MIC度量基礎上進一步引入評價“0”元素出現(xiàn)位置的信息。

      圖2 間歇性序列MIC計算示意圖Fig.2 Schematic diagram of MIC calculation of intermittent sequences

      基于上述分析,本文首先設計了兩個指標Zero-Dist和ADI*,用來度量兩條間歇性序列中“0”元素位置和出現(xiàn)頻次的差異。Zero-Dist(Ti,Tj)實現(xiàn)如下:

      由式(1)可知,Zero-Dist可有效體現(xiàn)兩條序列中“0”元素位置的分布差異,若兩條序列中“0”元素的位置分布越相近,該值越小;反之,則說明兩條序列中“0”元素位置的分布相差越大。此外,考慮到ADI僅適合于統(tǒng)計單條序列中的“0”元素出現(xiàn)頻次,本節(jié)設計ADI*指標,用以表示兩條序列間歇度的差異(即“0”元素出現(xiàn)頻次的差異),如下:

      其中:ADI(Ti)表示序列Ti的間歇度,k為可變系數(shù)??梢钥闯?,兩條序列之間的ADI值相差越小,則這兩條序列的ADI*值越小。

      基于Zero-Dist和ADI*,并結合MIC,構建了一個新的間歇相似度指標(InterSim)。對于給定序列集合T={T1,T2,…,TM},M為序列個 數(shù),其中第i條序列Ti={xi(1),xi(2),…,xi(N)},N為序列中元素個數(shù),則InterSim如式(3)所示:

      其中:MIC(Ti,Tj)表示序列Ti和序列Tj之間的MIC值,⊙表示哈達瑪(Hadamard)積,即矩陣對應位置元素相乘,Zero-Dist(Ti,Tj)表示序列Ti和序列Tj中“0”元素位置的分布差異,ADI*(Ti,Tj)表示序列Ti和序列Tj中“0”元素出現(xiàn)頻次的差異。式(3)不僅考慮了兩條間歇性序列之間的趨勢信息,還兼顧了序列中“0”出現(xiàn)的位置和頻次,從而更好地度量序列中間歇度信息和波動規(guī)律的相似性。雖然現(xiàn)有ADI和CV2等指標也可表示單條序列的間歇度信息,但并未考慮序列之間的相關性信息,也就無法支撐序列的可預測性。本文提出的InterSim 指標既考慮到了序列間的相關性信息,也提高了方法挑選可預測性序列的能力。InterSim 指標值越小,意味著兩條序列之間的波動規(guī)律和序列趨勢越相似,包含的可預測信息越多。

      2.2 間歇性時間序列的可預測性評估及聯(lián)合預測方法

      考慮到間歇性序列的小樣本特點,若對單條序列進行預測分析,則模型得到的預測結果精度有限,且易產(chǎn)生波動。本節(jié)引入M-SVR,通過對具有可預測價值的序列進行相空間重構,實現(xiàn)對多條序列的聯(lián)合預測,提高間歇性序列的預測精度。這一思路基于如下假設:對于一個制造企業(yè)來說,相關配件序列之間的訂貨需求存在內(nèi)在相似性,例如,同一個工程的實施通常需要訂購整套的配件,而這些配件之間的序列趨勢彼此相關。因此,可同時對多條相關序列聯(lián)合預測,利用各序列的演化規(guī)律信息提升整體預測效果。

      首先,利用2.1 節(jié)得到的InterSim 指標,采用層次聚類方法,構建了一個間歇相似度層次聚類方法,將序列自適應聚為可預測類和不可預測類。步驟如下。

      步驟1 將已知各序列視為一類;

      步驟2 利用式(4)計算類簇之間的距離,將距離最近的兩類聚合成新類;

      其中:1 ≤i,j≤M(i≠j),A和B表示參與距離計算的類簇A和類簇B,|A|和|B|分別代表對應類簇中的序列數(shù)。

      步驟3 重復步驟2,直到達到設定的類簇數(shù)目。

      步驟4 計算步驟3 得到的類簇中每條序列的ADI,并計算每個類簇中的平均ADI值,ADI超過預設閾值的為不可預測類,其余的為可預測類。

      其次,對可預測類中的序列,引入M-SVR 構建聯(lián)合預測模型。由1.3 節(jié)中介紹可知,M-SVR 是一種適合做小樣本回歸的MIMO 建模算法[18]。該方法通過利用多條序列之間的結構化信息,同時提高多個變量序列的預測效果。優(yōu)化目標如式(5)所示。

      綜合上述步驟,本節(jié)構建了間歇性時間序列聯(lián)合預測方法如下所示。

      輸入間歇性序列T={T1,T2,…,TM},其中Ti={xi(1),xi(2),…,xi(N)},類簇數(shù)K,嵌入維度d,時延τ。

      步驟1 構建間歇相似度層次聚類方法,實現(xiàn)間歇性序列聚類。

      1)將Ti設定成一個類別classi,得到類簇:

      2)從類簇CLASS中尋找距離最短的兩個類別classi,classj。距離計算公式如下所示:

      3)將 類classi和classj合并成新 類classn,更新類簇CLASS。

      4)若|CLASS|=K,則轉入步驟5);否則轉入步驟2)。

      5)分別計算CLASS中每條序列的ADI,并計算各類中所有序列的平均ADI值。

      6)若平均ADI大于預設閾值,則對應類設為不可預測類CLASS_1,其余的為 可預測類 :CLASS_2={class1,class2,…,classp},p+1=K。

      步驟2 對于CLASS_2 中每一類序列集合構建M-SVR模型。

      1)對CLASS_2 中的序列進行相空間重構。對于第i類classi={Ti(1),Ti(2),…,Ti(Li)}(i=1,2,…,p),則第j條序列重構后的序列為:

      其中k=N-(d-1)τ。

      2)構建得到CLASS_2 的重構集合,其中第i類classi的重構序列

      3)對CLASS_2 中每一類依次構建單步預測模型。對第i類進行M-SVR 建模,以時間點1 到N的重構數(shù)據(jù)為輸入,以N+1 時間點為輸出,構建式(5)所示優(yōu)化目標,并采用連續(xù)迭代的加權最小二乘方法求解,依次得到classi中第j條序列在N+1 時間點的預測結果

      輸出CLASS_2 中序列第N+1 個時間點的預測值,其中第i類序列的預測結果為

      上述方法的復雜度主要集中在步驟1。該部分的復雜度分析主要包括兩部分:1)InterSim(Ti,Tj)的計算復雜度;2)基于該指標的層次聚類復雜度。InterSim(Ti,Tj)的計算如式(3)所示,其中1 -MIC(Ti,Tj)的復雜度為O(M2),Zero-Dist(Ti,Tj)的復雜度為O(M2),ADI*(Ti,Tj)的復雜度為O(M2),M為序列條數(shù)。在計算InterSim(Ti,Tj)時,將上述三部分的結果進行哈達瑪積計算,因此,InterSim(Ti,Tj)的復雜度為O(M2)。此外,由文獻[17]可知,基于InterSim(Ti,Tj)的層次聚類復雜度為O(M2)。綜上,序列聚類方法的時間復雜度為O(M2)。

      3 實驗分析

      由于本文的實驗數(shù)據(jù)為間歇性數(shù)據(jù),序列中包含的“0”元素較多,因此選擇均方誤差(Mean Squared Error,MSE),平均絕對誤差(Mean Absolute Error,MAE)評價方法的性能,計算公式如下:

      3.1 數(shù)據(jù)集介紹

      為了驗證本文方法的性能,在兩個公開數(shù)據(jù)集(UCI 禮品零售數(shù)據(jù)集[20]和華為電腦配件數(shù)據(jù)集[16])進行方法性能測試,并在某大型制造企業(yè)實際配件售后數(shù)據(jù)的需求預測中驗證應用效果。數(shù)據(jù)集詳細信息見表1,數(shù)據(jù)原始分布如圖3 所示,圖3 及下文各效果圖的上方數(shù)字均為對應的配件編號。

      表1 實驗數(shù)據(jù)集信息Tab.1 Experimental dataset information

      圖3 本文實驗數(shù)據(jù)走勢分布情況Fig.3 Trend distribution of experimental data in this paper

      為直觀展現(xiàn)表1 中序列的間歇性分布特點,本節(jié)隨機挑選出部分序列,并使用間歇性特征指標ADI和CV2展示序列分布特性,具體結果如圖4 所示。圖4 中兩條紅線依次表示ADI=1.32,CV2=0.49。根據(jù)文獻[11]得 到ADI>1.32,CV2>0.49,即表示數(shù)據(jù)呈塊狀分布特性,意味著序列中大量時間段沒有需求、且各個時期的需求差異過大,并伴隨有大量零需求階段。3 個數(shù)據(jù)集中的序列塊狀和間歇分布特點明顯。盡管如此,部分月份數(shù)據(jù)的變化趨勢仍然存在一定的相似性。

      圖4 本文實驗數(shù)據(jù)的ADI和CV2分布情況Fig.4 Distribution of ADI and CV2 in experimental data

      3.2 對比方法

      本文的對比方法既包括傳統(tǒng)的淺層機器學習模型,也包括LSTM 等深度模型,同時包括最新的多元時間序列預測方法BHT-ARIMA,如表2 所示。

      表2 對比方法Tab.2 Comparison methods

      實驗中,M-SVR 的核函數(shù) 為RBF 核函數(shù)K(Ti,Tj)=,其核參數(shù)為σ,在實驗時華為電腦數(shù)據(jù)集中設置σ=1,UCI 禮品零售數(shù)據(jù)集和某大型制造企業(yè)實際配件售后數(shù)據(jù)集中設置σ=2-2,正則化參數(shù)C為22,松弛變量ε為0.01;SVR 參數(shù)和ELM 參數(shù)都由網(wǎng)絡搜索得到最優(yōu);BP 神經(jīng)網(wǎng)絡訓練步數(shù)為1 000,訓練目標最小誤差為0.001,學習率為0.01;LSTM 網(wǎng)絡設置隱藏層數(shù)為100,使用單層網(wǎng)絡,學習率為0.01,時間步為5。為消除ELM 和BP 神經(jīng)網(wǎng)絡算法的隨機性,預測結果取重復10 次實驗的平均值。

      3.3 公開數(shù)據(jù)集的結果分析

      采用2.2 節(jié)中間歇相似度層次聚類方法對于華為電腦配件數(shù)據(jù)集和UCI 禮品零售數(shù)據(jù)集序列進行聚類,聚類結果如圖5 和圖6 所示。為了便于展示效果,此處僅將序列聚為兩類:可預測(A 類)與不可預測(B 類)??梢钥闯?,A 類序列中“0”元素樣本相對較少,各個時間點的數(shù)據(jù)較為密集,序列呈現(xiàn)較明顯的演化趨勢,因此預測價值較高;而B 類中數(shù)據(jù)分布更為稀疏,“0”元素時間段較多,數(shù)據(jù)隨機性較高,波動性較大,趨勢信息和波動規(guī)律表現(xiàn)不夠充分,因此將該類序列視為不可預測序列,在進行預測時將其舍棄。

      圖5 華為電腦配件數(shù)據(jù)集部分聚類結果示例Fig.5 Some clustering result examples of Huawei computer accessory dataset

      圖6 UCI禮品零售數(shù)據(jù)集部分聚類結果示例Fig.6 Some clustering result examples of UCI gift retail dataset

      在序列聚類基礎上,對得到的A 類序列進行聯(lián)合預測建模,不同方法的預測效果見圖7 和圖8,對應的MSE 和MAE誤差見圖9??紤]到數(shù)據(jù)集中的序列長度均較短,在本實驗中將華為電腦配件數(shù)據(jù)集前46 個時間點做訓練,預測第47個時間點的需求;將UCI 數(shù)據(jù)中前373 個時間點做訓練,預測第374 個時間點的需求。

      圖7 華為電腦配件數(shù)據(jù)集上不同方法預測結果對比Fig.7 Prediction results comparison by different methods on Huawei computer accessory dataset

      圖8 UCI禮品零售數(shù)據(jù)集上不同方法預測結果對比Fig.8 Prediction results comparison by different methods on UCI gift retail dataset

      由圖7 和圖8 可以看出,對比單條時間序列預測方法ARIMA 和SVR,本文方法預測得到的需求值和真實值更為接近,與多元時間序列預測方法ELM、BP 神經(jīng)網(wǎng)絡相比也取得了更低的誤差值,但在部分序列上(例如,圖7 中955 號和1794 號),預測誤差略高于BHT-ARIMA,圖9 同樣顯示在華為電腦配件數(shù)據(jù)集上本文方法的預測誤差高于BHTARIMA。這是因為BHT-ARIMA 算法適合處理間歇度較小、數(shù)據(jù)較連續(xù)的序列預測問題。此處為了直觀展示數(shù)據(jù)特點對算法的影響,圖10 給出了圖7 中4 條序列的數(shù)據(jù)分布,可以看出,圖10(a)中,BHT-ARIMA 誤差更低的序列更為連續(xù)、間歇度更低,而圖10(b)中本文方法誤差更低的序列的分布則明顯更為稀疏。這表明本文方法更適合于預測間歇性明顯的序列。

      圖9 公開數(shù)據(jù)集上不同預測方法的性能對比Fig.9 Performance comparison of different prediction methods on public datasets

      圖10 華為電腦配件數(shù)據(jù)集上結果異常的序列分析Fig.10 Analysis of sequences with abnormal results on Huawei computer accessory dataset

      同時,從圖7 和圖8 中可以看出,SVR 和ARIMA 不僅預測誤差較大,后者甚至出現(xiàn)了較多負值。這是因為該兩種方法并不適用于對序列長度較短、數(shù)據(jù)走勢波動較大的序列進行預測。而對于ELM 和BP 神經(jīng)網(wǎng)絡這類淺層網(wǎng)絡來說,其對數(shù)據(jù)規(guī)模的依賴性較強,但是對于間歇性序列預測,數(shù)據(jù)量普遍較小,因此,此類算法無法在模型訓練過程中學習到充足的數(shù)據(jù)演化趨勢規(guī)律,預測誤差較大。LSTM 同樣存在類似問題。為了進一步探究本文所提方法中參數(shù)σ、正則化參數(shù)C和松弛變量ε對于方法性能的影響,圖11 給出了不同參數(shù)取值所對應的MSE,可以看出上述3 個參數(shù)對于MSE 的影響在一定取值范圍內(nèi)可保持穩(wěn)定,但當參數(shù)值超過該范圍時,則會產(chǎn)生突變。這種變化是由于間歇性序列數(shù)據(jù)分布零散的特點所致。數(shù)據(jù)中較大的塊狀稀疏性使得預測結果只有在部分敏感的參數(shù)才會有大的變動,因此,本文所提方法的參數(shù)設置較為靈活。在本實驗中,在華為電腦配件數(shù)據(jù)集上設置σ=21,UCI 禮品零售數(shù)據(jù)集上設置σ=2-2;參數(shù)C的設置建議選擇C≤22,本文實驗中統(tǒng)一設置為C=22;松弛變量ε的設置建議選擇C≤2-2,在實驗中將ε統(tǒng)一設置為2-2。

      圖11 公開數(shù)據(jù)集上不同參數(shù)取值所對應的MSEFig.11 MSE corresponding to different parameter values on public datasets

      3.4 某大型制造企業(yè)實際配件售后數(shù)據(jù)集結果分析

      為了驗證本文方法在實際應用中的效果,本文采用某大型制造企業(yè)實際業(yè)務中配件的售后數(shù)據(jù)進行實驗。圖12 展示了聚類結果??梢钥闯觯珹 類序列相對于B 類序列來說分布更為密集,趨勢信息和波動規(guī)律明顯,具有較好的可預測性,而B 類中的序列分布極為稀疏。經(jīng)過與企業(yè)溝通,B 類中序列主要是造價昂貴、制作周期較長、需求量較小的配件,可預測價值不高,主要采用緊急派單的方式臨時發(fā)貨,不適用于智能需求預測。這也是本文研究思路的出發(fā)點。

      圖12 實際配件售后數(shù)據(jù)集上部分聚類結果示例Fig.12 Some clustering result examples on real-world spare parts after-sales dataset

      圖13 和圖14 展示了M-SVR 模型對于A 類中部分序列的預測結果??梢钥闯?,本方法整體預測效果較為理想。以125 號和1145 號配件序列為例,雖然預測值和真實值存在一定差異,但是由圖中預測值的數(shù)據(jù)走勢可以看出,在第24 個時間點的位置,可有效捕捉到序列的下降趨勢。此外,需要說明的是,與企業(yè)溝通得知,在實際進行備件決策的過程中,預測值和真實值的差異若在[-30%,+30%],即可視為有效預測。本文預測結果均位于這一區(qū)間,由此證明本文方法的有效性。

      圖13 本文方法在21號等配件序列的預測結果Fig.13 Prediction results of the proposed method on sequences such as No.21

      圖15 給出了對比算法在該企業(yè)數(shù)據(jù)上的預測結果,圖16 給出了不同算法的性能。對比單維時間序列預測方法和多元時間序列預測方法,本文方法預測誤差明顯降低??梢钥闯觯珹RIMA 多數(shù)預測結果為負值,這與圖7 和圖8 的結果一致,再次證明了ARIMA 并不適合于間歇性數(shù)據(jù)的預測。SVR 效果相對較優(yōu),這是因為該方法對于預測點附近的值較為敏感,若預測點附近數(shù)據(jù)分布相對密集(可參見圖13 和圖14),則SVR 得到的預測結果更為準確,但仍然有部分序列的預測值和實際值相差較大(如1145 號和21638 號)。這從另一方面證明了借助多條序列之間的結構化關系進行聯(lián)合預測的必要性。對比多元時間序列預測方法,無論是淺層的機器學習模型(ELM、BP 神經(jīng)網(wǎng)絡),還是深度學習模型(LSTM),在該數(shù)據(jù)上的預測效果都較差。這同樣是由于該數(shù)據(jù)集小樣本特點明顯所致,上述算法難以從較少的數(shù)據(jù)量中充分學習到序列的演化趨勢信息。雖然BHT-ARIMA 可利用張量分解提取來提取多維序列間的內(nèi)在相關性,但是由于序列存在較多零需求,最終導致預測誤差高于本文方法。

      圖14 本文方法在127號等配件序列上的預測結果Fig.14 Prediction results of the proposed method on sequences such as No.127

      圖15 實際配件售后數(shù)據(jù)集上不同方法預測結果對比Fig.15 Comparison of prediction results by different methods on real-world spare parts after-sales dataset

      圖16 實際配件售后數(shù)據(jù)集上不同預測方法性能對比Fig.16 Performance comparison of different prediction methods on real-world spare parts after-sales dataset

      4 結語

      從間歇性序列可預測分析出發(fā),本文提出了一種間歇性時間序列的可預測性評估及聯(lián)合預測方法。該方法可有效地從間歇性序列的間歇度差異和演化趨勢信息等方面對序列的可預測性進行評估,同時利用序列間的結構化信息進行聯(lián)合建模,提高小樣本下間歇性序列的預測精度。實驗結果表明,“0”元素的頻次和位置信息對于間歇性序列預測的影響較大,在評估序列可預測性時需要綜合考慮序列的稀疏性和趨勢性;同時,本文方法能有效預測不同間歇性分布特點的序列趨勢,具有良好的實用性,可以滿足實際企業(yè)的備件要求。

      在下一步工作中,我們計劃圍繞間歇性序列可預測性分析展開進一步研究,通過引入張量,尋找非“0”元素間的低階演化規(guī)律,為可預測性度量提供抽象信息支撐。此外,現(xiàn)實業(yè)務中間歇性序列數(shù)據(jù)量通常較小,因此,采用數(shù)據(jù)增強技術、擴充有代表性的序列數(shù)據(jù)同樣是我們的關注重點。

      猜你喜歡
      配件聚類預測
      無可預測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      原材配件
      選修2-2期中考試預測卷(A卷)
      選修2-2期中考試預測卷(B卷)
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      不必預測未來,只需把握現(xiàn)在
      基于改進的遺傳算法的模糊聚類算法
      妝發(fā)與配件缺一不可
      Coco薇(2015年11期)2015-11-09 00:52:20
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      原材配件商情
      黔东| 安塞县| 岳阳市| 镶黄旗| 马尔康县| 深水埗区| 阜南县| 平远县| 台湾省| 屏边| 九江市| 射洪县| 肥乡县| 当阳市| 遵化市| 五大连池市| 华坪县| 曲周县| 克山县| 阜南县| 大同市| 海盐县| 南昌县| 保康县| 潜江市| 安岳县| 蓬安县| 宝兴县| 滁州市| 牡丹江市| 虎林市| 抚顺市| 台中市| 阿合奇县| 石泉县| 临澧县| 靖江市| 无锡市| 呼图壁县| 太湖县| 鄂温|