張志博,康達(dá)周,3
1(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院/人工智能學(xué)院,南京 211106)
2(南京航空航天大學(xué) 高安全系統(tǒng)的軟件開發(fā)與驗證技術(shù)工信部重點實驗室,南京 211106)
3(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,南京 210023)
復(fù)雜系統(tǒng)[1]是一種包含很多相互作用子系統(tǒng)的系統(tǒng).它具有非線性、高不確定性、高維度、多層次以及高相關(guān)性的特點.空氣動力系統(tǒng)[2]、股票市場系統(tǒng)[3]、暴雨洪澇人口風(fēng)險系統(tǒng)[4]就是一些的復(fù)雜系統(tǒng)例子.為研究自然、工程和社會科學(xué)中的現(xiàn)象與原理,探究這些復(fù)雜系統(tǒng)的內(nèi)在性質(zhì),人們對復(fù)雜系統(tǒng)建模并利用計算機對它們進行仿真與實驗,并讓實驗?zāi)軌虮M可能地接近真實世界,不斷向著復(fù)雜化發(fā)展.比如,在武器裝備領(lǐng)域,為了測定直航魚雷[5]在不同復(fù)雜想定下的打擊范圍和命中能力,需要做大量的仿真實驗.為了讓實驗?zāi)茉谳^小的代價下執(zhí)行,需要進行高效實驗設(shè)計.但復(fù)雜系統(tǒng)的特點會給復(fù)雜系統(tǒng)實驗設(shè)計帶來非線性、相關(guān)性、不確定性和規(guī)模性等問題[6],傳統(tǒng)的實驗設(shè)計方法只能部分解決這些問題,例如:完全析因設(shè)計[7]適用于非線性系統(tǒng),但需要的實驗樣本和實驗次數(shù)非常多;響應(yīng)面設(shè)計[8]用于分析系統(tǒng)中因子間的相互作用,但當(dāng)因子數(shù)量增多時,計算量會急劇增加;為了降低實驗中的不確定性,可以通過大量的隨機重復(fù)抽樣設(shè)計,但這同樣的會極大地增加實驗規(guī)模.以上問題都會使得復(fù)雜系統(tǒng)實驗設(shè)計最終走向規(guī)模性,即產(chǎn)生維度災(zāi)難[9].正交設(shè)計[10]、均勻設(shè)計[11]、拉丁超立方設(shè)計[12]這類遵循“充滿空間”性質(zhì)的實驗設(shè)計方法雖然可以通過優(yōu)化實驗取樣來縮減實驗規(guī)模,但僅在均勻空間中最有效,對復(fù)雜系統(tǒng)實驗設(shè)計效率的提升有限.因此,迫切需要一種適用于復(fù)雜系統(tǒng)、可以大幅提高實驗效率的實驗設(shè)計方法.
變分自編碼器(variational auto-encoder,VAE)[13]是一種借鑒變分推斷原理的深度神經(jīng)網(wǎng)絡(luò),憑借其優(yōu)秀的性能,近年來在圖像處理[14]、語音識別[15]、文本生成[16]等應(yīng)用領(lǐng)域取得了巨大的成功.變分自編碼器作為一種生成模型,含有多個隱藏層,包括了編碼器、解碼器和隱變量空間.編碼器可以將復(fù)雜分布的樣本數(shù)據(jù)投影到簡單的隱變量空間,實現(xiàn)對樣本數(shù)據(jù)的特征提取.而解碼器可以通過還原在隱變量空間里取樣的數(shù)據(jù),生成新的樣本.和一般生成模型只考慮重構(gòu)損失函數(shù)不同的是,變分自編碼器同時考慮了重構(gòu)損失函數(shù)和KL 損失函數(shù),使得生成的樣本具有更強的泛化能力,可以提高樣本空間取點的覆蓋率,這給復(fù)雜系統(tǒng)實驗設(shè)計帶來了新的思路:一方面,如圖1所示,將復(fù)雜系統(tǒng)實驗的輸入樣本和輸出響應(yīng)結(jié)果一同作為實驗歷史記錄數(shù)據(jù)訓(xùn)練變分自編碼器,通過生成新的實驗樣本,綜合考慮復(fù)雜系統(tǒng)實驗輸入樣本xi的分布、輸出結(jié)果yi的分布和它們之間的對應(yīng)關(guān)系yi=f(xi)的分布,使得3 個分布都盡可能地“充滿空間”,實現(xiàn)更加高效的實驗設(shè)計.另一方面,VAE 將復(fù)雜分布的輸入實驗樣本投影到的隱變量空間會盡可能滿足標(biāo)準(zhǔn)正態(tài)分布,而在符合標(biāo)準(zhǔn)正態(tài)分布的空間里進行實驗設(shè)計有3 個好處.
圖1 提高實驗設(shè)計效率的思路是使這3 個分布盡可能充滿空間
(1)通過適應(yīng)隨機采樣,防止出現(xiàn)過擬合;
(2)隱變量空間具有良好的分布性質(zhì),易于抽樣處理;
(3)生成的樣本點是在隱變量空間采樣得到,可以通過調(diào)整采樣來進行優(yōu)化.
基于上述分析,本文提出一種基于VAE的實驗設(shè)計方法,將復(fù)雜系統(tǒng)實驗歷史記錄數(shù)據(jù)投影到一個滿足正態(tài)分布的隱變量空間,并通過對隱變量空間采樣生成新的實驗設(shè)計方案.實驗結(jié)果表明,本文實驗設(shè)計方法系統(tǒng)性地解決了復(fù)雜系統(tǒng)自身特性導(dǎo)致的實驗設(shè)計規(guī)模性問題.
本文接下來的內(nèi)容安排如下:第1 節(jié)詳細(xì)闡述了本文的方法;第2 節(jié)介紹了實驗有效性的評價方法;第3 節(jié)通過一個直航魚雷命中模型的案例對本文方法進行了驗證并展示與分析了實驗結(jié)果;第4 節(jié)總結(jié)了全文并得出了結(jié)論.
本節(jié)首先形式化定義了待解決問題,然后詳細(xì)介紹了本文方法的總體架構(gòu)和各模塊內(nèi)容.
復(fù)雜系統(tǒng)的特性可以表示為其輸入到輸出的一個函數(shù):y=f(x)=f(x1,x2,···,xd),其中,x=(x1,x2,···,xd)是輸入變量的向量,d是因子的數(shù)目,y=(y1,y2,···,ydy)為該復(fù)雜系統(tǒng)對輸入x的響應(yīng),dy是響應(yīng)的數(shù)目.
實驗設(shè)計目的之一是提高實驗設(shè)計取樣的有效性,即在相同實驗樣本數(shù)量的情況下,提高選取樣本的準(zhǔn)確性.對于待比較的不同實驗設(shè)計方法,令每種實驗設(shè)計方法產(chǎn)生k個實驗樣本,可以通過這k個樣本所擬合出的模擬系統(tǒng)y′=f′(x)與真實系統(tǒng)f(x)的吻合程度來評價它們的實驗準(zhǔn)確性.f′(x)與f(x)的吻合程度可以用均方根誤差(RMS E)、最大殘差(MRE)、平均絕對誤差(MAE)、R2決定系數(shù)表征:
在式(4)中,是復(fù)雜系統(tǒng)k個真實響應(yīng)yi的平均值.RMSE、MRE、MAE越小,R2決定系數(shù)越接近1,意味著f′(x)與f(x)的吻合程度越高、越相關(guān),即實驗取點越有效.因此,待解決的問題可以表示成:找到一種實驗設(shè)計方法E,用該方法生成的k個實驗樣本擬合復(fù)雜系統(tǒng)f(x)的模擬系統(tǒng)f′(x),并可以使得f′(x)與f(x)之間盡可能地吻合.
基于變分自編碼器的實驗設(shè)計方法的總體架構(gòu)如圖2所示,它包含了3 個模塊.
圖2 總體架構(gòu)
實驗需求確定了實驗的背景、對象、參數(shù)以及屬性的取值范圍和概率分布,為本實驗設(shè)計方法的輸入.實驗設(shè)計方案即實驗樣本集Og為本實驗設(shè)計方法的輸出.實驗歷史記錄集Oh用于訓(xùn)練本實驗設(shè)計方法的變分自編碼器.
基于變分自編碼器的實驗設(shè)計方法各個模塊的作用和總體步驟如下.
(1)依據(jù)實驗需求,設(shè)計并實施實驗,得到初次的實驗歷史記錄集.
(2)數(shù)據(jù)預(yù)處理模塊將實驗歷史記錄集轉(zhuǎn)化成變分自編碼器可以使用的實驗歷史記錄向量集.
(3)網(wǎng)絡(luò)學(xué)習(xí)模塊將此實驗歷史記錄向量集用作訓(xùn)練集,訓(xùn)練變分自編碼器.
(4)實驗設(shè)計模塊在訓(xùn)練好的變分自編碼器的隱變量空間里采樣,利用解碼器還原采樣點生成實驗樣本,輸出復(fù)雜系統(tǒng)實驗設(shè)計方案.
(5)對輸出的復(fù)雜系統(tǒng)實驗設(shè)計方案實施實驗,并將得到的實驗歷史記錄加入原先的實驗歷史記錄集,得到新的實驗歷史記錄集,然后回到步驟(2)進行下一輪的實驗設(shè)計,使得實驗設(shè)計取樣得到進一步的優(yōu)化.
變分自編碼器的訓(xùn)練集需要向量化或數(shù)值化的樣本,但是實驗歷史記錄并不一定都滿足這個條件.在訓(xùn)練變分自編碼器的過程中,為了能讓損失函數(shù)更容易收斂到最佳結(jié)果,需要防止樣本中有因子取值范圍過大或存在極端值的情況.為此需要對實驗歷史記錄進行數(shù)據(jù)預(yù)處理.
對于實驗歷史記錄中無序離散值的屬性來說,需要對它進行獨熱編碼.對于有序離散值的屬性需要對它進行標(biāo)簽編碼.
而對于實驗歷史記錄中連續(xù)數(shù)值,防止取值范圍過大或有極端值情況的策略是使用Minmax 歸一化:
其中,O是實驗歷史記錄集,實驗歷史記錄記錄Xi∈O,Xmax是實驗歷史記錄最大值,Xmin是實驗歷史記錄最小值.
因此,在數(shù)據(jù)預(yù)處理模塊,對于復(fù)雜系統(tǒng)實驗歷史記錄集Oh=((x1,y1),(x2,y2),···,(xn,yn))的每一個樣本(xi,yi)對它進行如下步驟:
(1)判斷實驗歷史記錄每個因子的類型.
1) 對實驗歷史記錄中的有序離散取值的屬性進行標(biāo)簽編碼;
2) 對實驗歷史記錄中的無序離散取值的屬性進行獨熱編碼;
3) 對實驗歷史記錄中的連續(xù)數(shù)值的屬性進行歸一化.
(2)對步驟(1)中得到的結(jié)果進行向量組裝,得到數(shù)據(jù)預(yù)處理后的實驗歷史記錄.
數(shù)據(jù)預(yù)處理后的實驗歷史記錄記為ei=(e1,e2,···,ed′)∈Oe,Oe為數(shù)據(jù)預(yù)處理后的實驗歷史記錄集.通常數(shù)據(jù)預(yù)處理后樣本的維度不會低于數(shù)據(jù)預(yù)處理前實驗歷史記錄的維度,即d′≥d+dy.
本文方法用Python 庫SciKit-Learn[17]的preprocessing 模塊的OneHotEncoder 方法、LabelEncoder 方法和MinMaxScaler 方法實現(xiàn)數(shù)據(jù)的獨熱編碼、標(biāo)簽編碼和歸一化.
網(wǎng)絡(luò)學(xué)習(xí)模塊的主體部分是變分自編碼器.
變分自編碼器由編碼器q?(z|x)、解碼器pθ(z)pθ(x?|z)和一組隱變量z組成,x是輸入的樣本,x?是重構(gòu)或生成的樣本.而編碼器由均值編碼器和方差編碼器組成.均值編碼器產(chǎn)生每個樣本專屬的在隱變量空間中的均值μi,方差編碼器產(chǎn)生每個樣本專屬的在隱變量空間中的方差 σ2i.從εi~N(0,1) 中 采樣,并通過zi=μi+σi·εi的重參數(shù)技巧,即可完成對隱變量z的采樣,經(jīng)過此法采樣的z,滿足pθ(z)~N(0,1).
編碼器和真實后驗概率分布pθ(z|x)之間的相似度用KL散度衡量:
整個變分自編碼器訓(xùn)練就是要去優(yōu)化編碼器模型的參數(shù) ?和解碼器模型的參數(shù)θ,使得學(xué)習(xí)的后驗概率分布和真實后驗概率分布盡可能地相似,即最小化它們之間的KL散度:
定義生成模型pθ(|z)服從伯努利分布,由文獻[18]的數(shù)學(xué)推導(dǎo),得到變分自編碼器的損失函數(shù)為:
其中,第一項是變分自編碼器的KL損失函數(shù),第二項是變分自編碼器的重構(gòu)損失函數(shù).
當(dāng)完成對變分自編碼器的訓(xùn)練后,就可使用解碼器生成新的樣本.網(wǎng)絡(luò)學(xué)習(xí)模塊的結(jié)構(gòu)如圖3所示.
圖3 網(wǎng)絡(luò)學(xué)習(xí)模塊結(jié)構(gòu)
由于當(dāng)輸入樣本的維度不高時,使用深度生成模型變分自編碼器不一定能很好地學(xué)習(xí)出樣本的內(nèi)在性質(zhì),為了獲得更精確的學(xué)習(xí)效果,需要酌情增加輸入樣本的維度.網(wǎng)絡(luò)學(xué)習(xí)模塊在常規(guī)變分自編碼器結(jié)構(gòu)中增加了輸入層和輸出層.輸入層的作用是將輸入樣本的維度擴大m倍,與輸入層相對應(yīng)的輸出層的作用是將維度擴大m倍的樣本再還原成原本維度的樣本.
網(wǎng)絡(luò)學(xué)習(xí)模塊的輸入是經(jīng)過數(shù)據(jù)預(yù)處理的實驗歷史記錄集Oe中的樣本ei,ai=(a1,a2,···,ad′m)是ei經(jīng)過輸入層的樣本.l為隱變量空間的維度,通常情況下d′m?l.網(wǎng)絡(luò)學(xué)習(xí)模塊的輸出是編碼器的參數(shù)和解碼器的參數(shù).
實驗設(shè)計模塊在由網(wǎng)絡(luò)學(xué)習(xí)模塊求出的隱變量空間里做抽樣實驗設(shè)計,將原本分布不均的復(fù)雜系統(tǒng)實驗歷史記錄空間投影到低維的服從標(biāo)準(zhǔn)正態(tài)分布的隱變量空間.因為訓(xùn)練中引入了隨機的擾動,這個過程可以確保與原始實驗樣本編碼的潛在位置靠近的每個點都能被解碼為與原始實驗歷史記錄類似的實驗歷史記錄,從而迫使隱變量空間能夠連續(xù)地有意義.隱變量空間中任意兩個相鄰的點都會被解碼為高度相似的實驗歷史記錄.隱變量空間的連續(xù)性以及低維度,使得隱變量空間非常適合進行抽樣.實驗設(shè)計模塊結(jié)構(gòu)如圖4所示.
圖4 實驗設(shè)計模塊結(jié)構(gòu)
實驗設(shè)計模塊在隱變量空間里做實驗設(shè)計,相當(dāng)于對隱變量z采 樣,讓z按標(biāo)準(zhǔn)正態(tài)分布隨機抽樣.完成隱變量空間的采樣后,隱變量z通過解碼器生成了具有d′m維的向量再經(jīng)過輸出層的樣本維度還原生成了和網(wǎng)絡(luò)學(xué)習(xí)模塊輸入向量有相同維度d′的實驗歷史記錄向量
(1)判斷樣本向量中各個部分原先屬于哪個屬性并進行恢復(fù);
1) 對樣本向量中經(jīng)過歸一化的部分進行歸一化恢復(fù);
2) 對樣本向量中經(jīng)過獨熱編碼的部分進行獨熱編碼恢復(fù);
3) 對樣本向量中經(jīng)過標(biāo)簽編碼的部分進行標(biāo)簽編碼恢復(fù);
(2)對步驟(1)中得到的結(jié)果進行向量組裝,得到經(jīng)過恢復(fù)后的實驗樣本.
在Python 里,這些恢復(fù)函數(shù)可以用各自原函數(shù)的inverse_transform 方法實現(xiàn).經(jīng)過恢復(fù)后的實驗歷史記錄形如,但由于由變分自編碼器生成,并不是系統(tǒng)的真實響應(yīng),實驗歷史記錄中必須要去除這個.最終,由實驗設(shè)計模塊生成的樣本記為.
依據(jù)實驗設(shè)計需求,如果實驗需要做k次,則需要讓實驗設(shè)計模塊的流程進行k次,生成k個實驗樣本,這k個實驗樣本組成的集合即為本文方法生成的實驗設(shè)計方案.
為評價本文實驗設(shè)計方法的有效性,可用生成的實驗樣本和它們對應(yīng)的實驗響應(yīng)去擬合真實復(fù)雜系統(tǒng),并評估其誤差.由于支持向量回歸(support vector regression,SVR)模型[19]在表達(dá)式形式未知和小樣本的情況下具有良好的性能,這里選用SVR 來進行擬合.
SVR是支持向量機[20]在回歸問題上的應(yīng)用,將輸入映射到高維空間,并用一個或一組超平面來對樣本點進行回歸.假定在高維空間中,樣本點是可以通過如下的線性函數(shù)擬合的:
其中,w和b是該線性函數(shù)的參數(shù),SVR的損失函數(shù)可以表達(dá)成:
其中,C是可調(diào)的超參數(shù),N是輸入樣本的數(shù)量,ξi-和ξi+是松弛變量.SVR的優(yōu)化目標(biāo)是通過優(yōu)化參數(shù)w和b來最小化它的損失函數(shù),即:
SVR 雖然將輸入樣本映射到了高維空間,但向量內(nèi)積在原空間上更容易被計算出來,因此在高維空間上的向量內(nèi)積運算使用核函數(shù)技巧[21].常見的核函數(shù)包括:線性核、多項式核、徑向基核和Sigmoid 核.
利用SVR 對實驗設(shè)計評價方法如下:
首先,在原始樣本空間中采樣n個樣本點,對每一個樣本點xi實施實驗,得到真實響應(yīng)為:yi.將xi和yi組合得到真實樣本和真實響應(yīng)組合的集合Ot=((x1,y1),(x2,y2),···,(xn,yn)),用作測試SVR 擬合效果的測試集.
然后,對每一個待測實驗設(shè)計方法Ej,令其生成含有k個樣本的實驗設(shè)計方案OgEj,對OgEj中每一個樣本點實施實驗,得到真實響應(yīng).對每一個Ej,將對應(yīng)的和組合而成的集合用作SVR 擬合復(fù)雜系統(tǒng)的訓(xùn)練集.
對每一個OsEj用SVR 擬合,得到的模擬復(fù)雜系統(tǒng)的函數(shù)記為:
將測試集中每個xi帶入每個模擬的復(fù)雜系統(tǒng),得到每一個xi的預(yù)測響應(yīng)
最后比較每種模擬的復(fù)雜系統(tǒng)的對測試集中所有xi的預(yù)測響應(yīng)和真實響應(yīng)yi之間的RMS E、MRE、MAE、R2,RMSE、MRE、MAE越低,R2越接近于1,說明擬合出的模擬復(fù)雜系統(tǒng)更接近真實復(fù)雜系統(tǒng),即其對應(yīng)的實驗設(shè)計方法表現(xiàn)更好.
本節(jié)選取了幾種常用的實驗設(shè)計方法作為基線,然后介紹了所使用的復(fù)雜系統(tǒng)模型和實驗設(shè)置.最后通過實驗得出了結(jié)果并對其進行了分析.
基線實驗設(shè)計選擇拉丁超立方、K-means[22]和Maximin[23]實驗設(shè)計方法與本文方法相比較,因為它們是常用的實驗設(shè)計方法且支持在連續(xù)區(qū)間內(nèi)的實驗取點.上述的這些基線實驗設(shè)計方法可以通過Python實驗設(shè)計庫doepy (https://github.com/tirthajyoti/doepy)實現(xiàn).
直航魚雷在現(xiàn)代戰(zhàn)爭中是反制敵方艦船和潛水艇的有力武器,為了能提高直航魚雷的命中率和增加直航魚雷的打擊范圍,需要考慮多種影響直航魚雷發(fā)射的因素,建立直航魚雷的命中模型并通過大量的仿真實驗,得到清晰的影響直航魚雷的命中率和打擊范圍的關(guān)鍵因素和它們之間的關(guān)系,從而可以為實際作戰(zhàn)中直航魚雷的戰(zhàn)術(shù)運用提供指導(dǎo).
本文實驗選用文獻[24]中的直航魚雷命中模型作為本文實驗設(shè)計方法驗證的復(fù)雜系統(tǒng).直航魚雷命中模型的響應(yīng)yQ是魚雷命中位置與打擊目標(biāo)中心的相對距離(m).該響應(yīng)由以下的輸入變量決定:目標(biāo)速率(節(jié))V、魚雷速率(節(jié))VT、目標(biāo)距離(鏈)D、目標(biāo)舷角X、發(fā)射魚雷的提前角φ、目標(biāo)距離觀測誤差 ΔD、魚雷航向誤差角 Δφ、目標(biāo)方位角觀測誤差 Δβ、目標(biāo)速率的觀測誤差 ΔV、魚雷速率的觀測誤差ΔVT、目標(biāo)航向角的觀測誤差 ΔC.
在本文實驗中,V=15,VT=50,D=50,X∈[-180,180],ΔD∈[-15,15],Δ φ ∈[-3,3],Δ β ∈[-3,3],ΔV∈[-3,3],ΔVT∈[-3,3],ΔC∈[-3,3].N(μ,σ)是均值μ 標(biāo)準(zhǔn)差 σ的正態(tài)分布,其中,X服從N(70,5),ΔD服從N(0,5),Δφ 服從N(0,1),Δβ 服從N(0,1),ΔV服從N(0,1),ΔVT服從N(0,1),ΔC服從N(0,1).φ 由輸入變量V、VT、X決定:
整個直航魚雷命中模型的方程如式(13)所示:
在本次實驗中,變分自編碼器的隱變量空間的維度l設(shè)定為256,輸入層里維度擴大的倍數(shù)m設(shè)定為5 000,變分自編碼器訓(xùn)練集Oh的大小設(shè)定為1 000,用標(biāo)準(zhǔn)正態(tài)分布隨機抽樣對隱變量z采樣,SVR的測試集Ot的大小設(shè)定為100,SVR的核函數(shù)設(shè)為線性核函數(shù).
對每一種待測實驗設(shè)計方法,生成的實驗設(shè)計方案OgEj的樣本數(shù)大小k分別取5、10、15、20、25、30、35、40、45、50.限定k的最大值為50,即最多生成50 個樣本.
實驗結(jié)果如圖5所示.圖5是不同實驗設(shè)計方法在不同樣本數(shù)下分別按圖5(a)RMSE、圖5(b)MRE、圖5(c)MAE、圖5(d)R2決定系數(shù)這些指標(biāo)對直航魚雷命中模型擬合效果比較的折線圖.
圖5 不同實驗設(shè)計方法在不同指標(biāo)不同樣本數(shù)下對直航魚雷命中模型擬合效果的比較
從實驗結(jié)果可以看出,對直航魚雷命中模型的擬合,不論是在小樣本還是在一定樣本數(shù)下,本文方法均優(yōu)于K-means 實驗設(shè)計方法,Maximin 實驗設(shè)計方法與拉丁超立方實驗設(shè)計方法.只有當(dāng)樣本數(shù)k為15 時,Maximin 實驗設(shè)計方法的RMSE=28.96、MAE=23.55與本文方法在樣本數(shù)k為15 時的RMS E=27.49、MAE=22.71相差很小,擬合效果相近.隨著樣本數(shù)k的增加,本文方法的RMSE、MRE和MAE均能穩(wěn)步減少,當(dāng)樣本數(shù)k等于50 時,本文方法的RMSE=4.30、MRE=12.28、MAE=3.35均達(dá)到了各指標(biāo)里所有實驗驗證結(jié)果中的最低值.其他基線實驗設(shè)計方法隨著樣本數(shù)k的增加,雖然它們的RMSE、MRE和MAE總體也是呈下降的趨勢,但并不穩(wěn)定,有可能會在局部產(chǎn)生不降反升的情況,這也意味著本文方法不同于其他基線實驗設(shè)計方法,隨著樣本數(shù)k的增加并不會讓SVR 顯著的產(chǎn)生過擬合.從R2決定系數(shù)上看,在小樣本情況下,本文方法的R2決 定系數(shù)稍稍大于0,其他基線方法的R2決定系數(shù)均小于0,它們的預(yù)測響應(yīng)均和真實響應(yīng)的相關(guān)性很差,當(dāng)樣本數(shù)k增加時,本文方法和基線實驗設(shè)計方法均能提高它們的R2決定系數(shù)并使它們最終都可以大于0,但只有本文方法的R2決定系數(shù)最終可以達(dá)到0.7 以上,即預(yù)測響應(yīng)和真實響應(yīng)高度相關(guān),在樣本數(shù)k為50 時,本文方法的R2決定系數(shù)更是高達(dá)0.98.
表1是各個實驗設(shè)計方法的指標(biāo)在低于或高于特定值時最少所需的樣本數(shù)k.表1中的未達(dá)到表示在最多取50 個樣本的情況下,指標(biāo)仍然未低于或高于所要求的特定的數(shù)值.由表1可知,本文方法總能以最少的樣本量獲得最佳的實驗結(jié)果,即說明本文的方法和其他基線方法相比是最高效的.
表1 各個實驗設(shè)計方法的指標(biāo)在低于或高于特定值時最少所需的樣本數(shù)k
綜上所述,本文實驗設(shè)計方法可以提高在復(fù)雜系統(tǒng)中的實驗設(shè)計效率,在擬合復(fù)雜系統(tǒng)時,本文實驗設(shè)計方法隨著樣本數(shù)的增加也不會產(chǎn)生顯著的過擬合,即使在小樣本的情況下,本文方法也能得到比較優(yōu)秀的實驗設(shè)計方案.
本文為解決復(fù)雜系統(tǒng)實驗設(shè)計中非線性、不確定性、高相關(guān)性和規(guī)模性導(dǎo)致的維度災(zāi)難問題,提出了一種基于變分自編碼器的復(fù)雜系統(tǒng)實驗設(shè)計方法.首先,給出了基于變分自編碼器的復(fù)雜系統(tǒng)實驗設(shè)計方法的總體結(jié)構(gòu),詳細(xì)介紹了每個子模塊的目的和它們的功能,并給出了評價實驗設(shè)計優(yōu)劣的方法.然后,本文通過對實際的直航魚雷命中模型的擬合,對本文方法、拉丁超立方、K-means和Maximin 實驗設(shè)計方法進行了比較實驗.最后,得出了本文方法可以提高復(fù)雜系統(tǒng)實驗效率的結(jié)論.