袁順杰,程 輝,葉貞成,程培鑫
華東理工大學(xué) 信息科學(xué)與工程學(xué)院 自動(dòng)化系,上海200237
隨著機(jī)器學(xué)習(xí)的發(fā)展,越來越多的算法被用于金融市場的預(yù)測。由于金融市場存在諸多復(fù)雜的因素,比如國家政策、宏觀調(diào)控、國際環(huán)境、市場情緒等,這些因素使得金融市場是一個(gè)高度復(fù)雜、不確定、非線性的時(shí)變系統(tǒng)[1],而投資者更關(guān)注算法的可解釋性、處理不確定性因素的能力,以及在不同市場環(huán)境下的收益能力和抗風(fēng)險(xiǎn)能力。
BP神經(jīng)網(wǎng)絡(luò)、RNN、SVM和LR回歸[2-5]等算法是最先被用于股市預(yù)測的算法。近年來,算法的可解釋性越來越受到學(xué)者和機(jī)構(gòu)的重視。具備可解釋性意味著算法能清晰地解釋數(shù)據(jù)由輸入到輸出的整個(gè)過程,在金融市場應(yīng)用中具有實(shí)際意義。有學(xué)者將決策樹、隨機(jī)森林、關(guān)聯(lián)規(guī)則[6-9]等方法用于對金融市場的預(yù)測。在金融市場中,輸入特征會(huì)受到諸多因素的干擾而具有不確定性,而上述算法不能很好地描述這種不確定性因素。
為了增強(qiáng)算法處理不確定性因素的能力,有學(xué)者將模糊理論用于金融市場的預(yù)測中。在最近的研究中,Mehmanpazir[10]提出了DEFES(Data mining-based Evolutionary Fuzzy Expert System)算法用于預(yù)測股票未來走勢并取得了效果。Tryus[11]采用模糊神經(jīng)網(wǎng)絡(luò)(FNN)預(yù)測短期內(nèi)指數(shù)漲跌情況,并在S&P500、NASDAC 兩個(gè)指數(shù)上驗(yàn)證了算法的可行性。Bernardo[12]提出了一種用于金融的建模和預(yù)測的離散2 型模糊邏輯分類器(IT2 FLS),通過數(shù)據(jù)建模生成指定數(shù)量的規(guī)則,并選擇最優(yōu)的規(guī)則輸出作為模型的輸出。Antonelli[13]提出了基于多目標(biāo)優(yōu)化的2 型模糊邏輯分類器(IT2-PAESRCS),通過對模糊隸屬度函數(shù)參數(shù)的編碼優(yōu)化,得到更優(yōu)的模糊隸屬度函數(shù)??紤]到中國股市中常呈現(xiàn)出牛市和熊市兩種不同走勢,而現(xiàn)有的算法在不同行情下的性能具有明顯差異,這使得算法的性能不能進(jìn)一步提高。
針對以上問題,提出基于SOM和T2 FLS的分類算法(SOM-T2 FLS),其主要?jiǎng)?chuàng)新點(diǎn)在于:
(1)采用無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)相結(jié)合的學(xué)習(xí)方法,利用SOM自組織特性,將原始樣本集劃分成具有空間差異性的子集,再針對每個(gè)子集分別學(xué)習(xí)T2 FLS 分類器。
(2)模糊推理規(guī)則庫由C4.5 算法生成,通過生成的決策樹提取規(guī)則,由規(guī)則庫表示數(shù)據(jù)的非線性關(guān)系,增強(qiáng)算法的可解釋性。
(3)使用遺傳算法對模糊隸屬度函數(shù)的參數(shù)以及規(guī)則庫進(jìn)行優(yōu)化,提出將規(guī)則庫長度作為正則項(xiàng)加入到適應(yīng)度函數(shù)的計(jì)算中,提升模型的泛化性能。
自組織特征映射神經(jīng)網(wǎng)絡(luò)(Self-Organizing feature Map,SOM)由Kohonen[14]提出,是一種無監(jiān)督學(xué)習(xí)方式。在訓(xùn)練階段,對網(wǎng)絡(luò)輸入的樣本,輸出層會(huì)有某個(gè)神經(jīng)元產(chǎn)生最大響應(yīng)而獲勝,獲勝神經(jīng)元以及其優(yōu)勝鄰域內(nèi)的所有神經(jīng)元所連接的權(quán)向量均向輸入向量的方向做不同程度的調(diào)整。其中,對優(yōu)勝鄰域內(nèi)所有神經(jīng)元調(diào)整權(quán)值公式為:
η( t,N )為學(xué)習(xí)率,是訓(xùn)練時(shí)間t 和該神經(jīng)元與獲勝神經(jīng)元j*之間的拓?fù)渚嚯xN 的函數(shù)。SOM 網(wǎng)絡(luò)訓(xùn)練結(jié)束后,輸出層各神經(jīng)元與各輸入模式的映射關(guān)系就完全確定了。利用SOM 的自組織特性,采用無監(jiān)督學(xué)習(xí)的方法,將樣本集分成兩個(gè)子集,使兩個(gè)子集的樣本具有空間差異性。
2 型模糊邏輯系統(tǒng)(T2 FLS)[15]是傳統(tǒng)模糊系統(tǒng)的擴(kuò)展,其特征是隸屬度值本身為模糊集合,增強(qiáng)了模型描述不確定性因素的能力。設(shè){C1, C2,…,CK}是目標(biāo)類別組成的集合,令x={ x1, x2,…,xF} 是樣本空間的一個(gè)點(diǎn),Uf(f=1,2,…,F)是第f 維的向量的值域,是每一個(gè)特征的模糊子集。采用三角形隸屬度函數(shù)來定義模糊集合如圖1所示。圖中,藍(lán)色線部分是弱隸屬度函數(shù),紅色線部分是對應(yīng)的強(qiáng)隸屬度函數(shù)。其中,使用(a,b,c)定義一個(gè)三角隸屬度函數(shù)參數(shù),(a,0)和(c,0)分別定義為三角形的左端點(diǎn)和右端點(diǎn),(b,1)定義為三角形頂點(diǎn)。首先,通過定義強(qiáng)隸屬度函數(shù)然后,計(jì)算弱隸屬度函數(shù)參數(shù)。弱隸屬度函數(shù)參數(shù)計(jì)算規(guī)則如下:
圖1 2型模糊隸屬度函數(shù)
基于(2)、(3)、(4),可以得到:
因此,當(dāng)Tf=3 時(shí),只需確定這3 個(gè)參數(shù),即可確定整個(gè)2型模糊隸屬度函數(shù)。由于只需要確定,即可確定整個(gè)2型模糊隸屬度函數(shù)。
設(shè)規(guī)則庫有M 條規(guī)則,其中第m 條規(guī)則可描述為:
其中,Y 是分類器的輸出,Cjm是第m 條規(guī)則的輸出類別標(biāo)簽,jm,f是條件部分特征的模糊值,RWm用來描述規(guī)則對于當(dāng)前輸入模式的確信度。
圖2 分類器訓(xùn)練以及測試流程圖
利用SOM 網(wǎng)絡(luò)的自組織特性,將樣本集分為兩個(gè)不同子集,子集之間的樣本具有一定空間差異性,利用這種差異性提升算法在不同行情背景下的預(yù)測精度。子集劃分完成,即對子集分別學(xué)習(xí)分類器,采用改進(jìn)的T2 FLS算法對子集內(nèi)樣本進(jìn)行分類。提出將規(guī)則庫長度作為正則項(xiàng)加入到遺傳算法適應(yīng)度函數(shù)中,通過進(jìn)化算法得到泛化能力強(qiáng),收益高,抗風(fēng)險(xiǎn)能力強(qiáng)的模型。圖2展示了本文算法工作的流程圖。從圖中可以看出,提出的SOM-T2 FLS算法將分類分成了兩步,首先利用SOM 網(wǎng)絡(luò)進(jìn)行模式判斷,再根據(jù)模式選擇對應(yīng)子分類器進(jìn)行細(xì)粒度分類。
2.3.1 歸一化
為了防止不同變量之間因數(shù)量級(jí)差異產(chǎn)生“信息淹沒”,本文使用線性歸一化的方法,將變量范圍線性歸一化到[0,1],變換公式如下:
2.3.2 生成初始規(guī)則庫
在生成規(guī)則庫之前,進(jìn)行無監(jiān)督學(xué)習(xí),分析SOM網(wǎng)絡(luò)聚類結(jié)果并將樣本分成兩個(gè)子集,在各子集下,分別建立規(guī)則庫。通過模糊C 均值(FCM)算法[17]將特征模糊化,C4.5算法用于提取規(guī)則庫。決策樹上的一個(gè)根節(jié)點(diǎn)到葉節(jié)點(diǎn)整條路徑為一條規(guī)則,這條路徑經(jīng)過的所有屬性及其屬性值是規(guī)則的條件部分(IF部分),葉節(jié)點(diǎn)上的輸出標(biāo)簽是規(guī)則的輸出(THEN 部分)。取覆蓋樣本量多的規(guī)則并設(shè)置規(guī)則庫上限。圖3 是由C4.5 算法生成的一棵決策樹,其中,輸入特征Xf,f=1,2,3,4,每個(gè)變量分為3個(gè)模糊子集,輸出是( C1, C2)。根據(jù)圖3的決策樹,可以提取到的規(guī)則庫如圖4所示,一共生成7條規(guī)則。
圖3 C4.5決策樹實(shí)例
圖4 規(guī)則庫實(shí)例
2.3.3 編碼
模型編碼一共分兩個(gè)部分,第一部分是參數(shù)編碼,即2 型模糊隸屬度函數(shù)的參數(shù)編碼,染色體記為CDB;第二部分是規(guī)則編碼,染色體記為CRB。根據(jù)第2.2節(jié),模糊隸屬度函數(shù)參數(shù)的個(gè)數(shù)是由設(shè)置的模糊子集個(gè)數(shù)以及輸入樣本特征數(shù)決定,所以CDB采用實(shí)數(shù)編碼。CRB部分編碼規(guī)則如下,對于規(guī)則庫中的每一條規(guī)則由整數(shù)向量υm=[υm,1,…,υm,F,υm,F+1] 表示。其中,υm,f(f=1,2,…,F)是條件部分每一個(gè)特征的模糊子集,υm,f=0,1,2,3。υm,F+1=0,1 是輸出類別標(biāo)簽(本文討論二分類問題),則每條染色體的長度為( F+1)×Mmax,其中Mmax是規(guī)則數(shù)。
2.3.4 遺傳操作
在子代迭代過程中,交叉和變異算子根據(jù)編碼方式的不同,對CRB和CDB部分分別采用不同的算子。對CRB部分,采用單點(diǎn)交叉算子,對CDB部分,采用BLX-α 交叉算子(α=0.7),即兩個(gè)個(gè)體的線性組合產(chǎn)生兩個(gè)新的個(gè)體,則新個(gè)體計(jì)算如下:
適應(yīng)度函數(shù)計(jì)算如下:
其中,ACC 是模型的準(zhǔn)確率,ωi是各項(xiàng)指標(biāo)的權(quán)值,precision 是模型預(yù)測查準(zhǔn)率,查準(zhǔn)率是金融預(yù)測的重要指標(biāo)之一,代表預(yù)測為漲有多少實(shí)際也是漲,可以用交易的勝率來理解查準(zhǔn)率,是描述模型穩(wěn)健性的重要指標(biāo);return_ratio 是模型在訓(xùn)練區(qū)間內(nèi)年化平均收益,獲得更高的年化收益是最終的目標(biāo);rule_length 是規(guī)則庫總長度,nr 是規(guī)則數(shù),nf 是樣本特征數(shù),因此第四項(xiàng)的的范圍是[0,1],與前三項(xiàng)數(shù)量級(jí)保持一致。為了增強(qiáng)模型泛化能力,規(guī)則庫總長度應(yīng)該盡量的小,使模型更加簡單,所以此項(xiàng)為模型正則項(xiàng)用于控制模型復(fù)雜度。
本章使用中國A 股市場的歷史數(shù)據(jù)對SOM-T2 FLS算法進(jìn)行驗(yàn)證分析。首先介紹數(shù)據(jù)集、交易策略以及交易成本和滑點(diǎn)設(shè)置。作為對比實(shí)驗(yàn),將SOM-T2 FLS 算法與DEFES、FNN、IT2 FLS、IT2-PAES-RCS 算法以及量化交易策略買入并持有策略(BH)、均線策略(MA)、經(jīng)典技術(shù)指標(biāo)策略(TA)[18-20]相比較,證明提出的SOM-T2 FLS有更好的預(yù)測效果和抗風(fēng)險(xiǎn)能力。
采用的歷史數(shù)據(jù)來源于2011年1月1日到2018年8月1 日之間中國A 股市場。SOM-T2 FLS 算法用于預(yù)測漲停股票能否繼續(xù)上漲,篩選出每個(gè)交易日(T)收盤價(jià)達(dá)到漲停的股票,在T+1交易日開盤十分鐘記錄當(dāng)前價(jià)格為買入價(jià),再在T+2個(gè)交易日收盤時(shí)再記錄當(dāng)前價(jià)格為賣出價(jià),計(jì)算收益率(若收益為正及標(biāo)注為“漲”,若收益為負(fù)則標(biāo)記為“跌”)。在這期間,A 股市場單日收盤漲停一共29 987 次,考慮到買單應(yīng)該能夠及時(shí)成交,去除掉T+1交易日開盤漲停(買不進(jìn))的樣本,一共余下26 507個(gè)樣本。其中,取前70%(2011年11月1日—2017年2 月2 日)的樣本作為訓(xùn)練集,后30%(2017 年2 月12日—2018年8月1日)的數(shù)據(jù)作為測試集。此外,本文一共選取22 個(gè)與價(jià)格走勢相關(guān)的指標(biāo)作為樣本特征,如表1所示。
在實(shí)際交易中,必然要考慮交易成本,中國股票交易手續(xù)費(fèi)就是指投資者在委托買賣證券時(shí)應(yīng)支付的各種稅收和費(fèi)用的總和,由印花稅、傭金、過戶費(fèi)等組成。本文引入滑點(diǎn)的設(shè)置,該設(shè)置將在一定程度上使最后的成交價(jià)“惡化”,也就是買得更貴,賣得更便宜。本文使用成交額的0.3%作為每單交易的滑點(diǎn)損失。實(shí)證過程假設(shè)如下:
(1)每次掛單交易均可順利成交;
(2)初始投入資金100 萬元,每次買入資金不超過總資產(chǎn)的30%,每只個(gè)股的買入金額不超過10萬元;
(3)每個(gè)交易日對需要買入建倉的股票的資金分配是均勻分配。
3.3.1 算法的準(zhǔn)確率和復(fù)雜度分析
表2 展示了經(jīng)拓?fù)浣Y(jié)構(gòu)為2×2 的SOM 網(wǎng)絡(luò)將樣本集分成兩個(gè)子集的統(tǒng)計(jì)信息。表中,兩個(gè)子集的樣本數(shù)量相差不大,集合1的正負(fù)樣本比例要略高于集合2,表明集合1 中正樣本占比更大,而集合1 的平均收益是集合2 的平均收益率的13 倍,表明SOM 網(wǎng)絡(luò)將原始樣本集劃分成兩個(gè)具有差異性的子集。由平均收益率和正負(fù)樣本比率可以看出,集合1中的樣本具有更高的平均收益率,有更高的概率為“漲”,反之,集合2中的樣本有更高的概率為“跌”。表3列出在相同的數(shù)據(jù)集下,SOMT2 FLS 預(yù)測算法與DEFES、FNN、IT2 FLS、IT2-PAESRCS 預(yù)測結(jié)果的比較,表3 中9 項(xiàng)指標(biāo)分別是訓(xùn)練集精度ACCTr、查準(zhǔn)率precisionTr、召回率recallTr和測試集精度ACCTs、查準(zhǔn)率precisionTs、召回率recallTs和算法的F1分?jǐn)?shù)以及模型訓(xùn)練時(shí)間TT(Training Time)和計(jì)算復(fù)雜度O(t)。由表中數(shù)據(jù)不難看出,提出的SOM-T2 FLS算法在測試集的精度和查準(zhǔn)率高于其他算法,分別為63.57%和68.99%,模型的召回率低于IT2-PAES-RCS算法,F(xiàn)1 分?jǐn)?shù)也為最高的0.649 7,體現(xiàn)出更好的分類性能。數(shù)據(jù)表明模型可以將勝率提高,卻降低了召回率。主要原因在于,求解模型時(shí),并沒有僅僅考慮精度,而是將查準(zhǔn)率、模型收益、規(guī)則長度都加入到適應(yīng)度函數(shù)的計(jì)算中,查準(zhǔn)率的在股市預(yù)測中的含義是預(yù)測的勝率,更高勝率意味著更小的風(fēng)險(xiǎn)。因此,在股市預(yù)測中SOM-T2 FLS 算法有更好的抗風(fēng)險(xiǎn)能力。而SOM-T2 FLS 算法的預(yù)測性能與適應(yīng)度函數(shù)中各指標(biāo)的權(quán)重分配相關(guān),將在3.3.3小節(jié)中討論。從訓(xùn)練時(shí)間可以看出,提出的SOM-T2FLS 算法的訓(xùn)練時(shí)間達(dá)到了5.8 h,略好于IT2-PAES-RCS 算法,較其他算法沒有體現(xiàn)出訓(xùn)練時(shí)間上的優(yōu)勢。O(t)代表對單個(gè)樣本預(yù)測的計(jì)算復(fù)雜度,其中,R 指規(guī)則數(shù),M 指模糊集合的個(gè)數(shù),F(xiàn) 指樣本特征個(gè)數(shù),從表中可以看出,本文提出的SOM-T2 FLS 算法的O(t)要略大于其他算法。值得一提的是,本文的交易策略以日線為單位進(jìn)行預(yù)測,對于算法的實(shí)時(shí)性要求不高,額外的計(jì)算開銷可以忽略不計(jì)。因此,從計(jì)算復(fù)雜度來分析,雖然SOM-T2 FLS模型的訓(xùn)練需要大量的時(shí)間和計(jì)算資源,但是不影響實(shí)際的應(yīng)用效率。
表1 數(shù)據(jù)集樣本的特征
表2 SOM聚類結(jié)果統(tǒng)計(jì)
3.3.2 績效指標(biāo)評價(jià)結(jié)果
從算法的收益能力和抗風(fēng)險(xiǎn)能力角度來分析,本文將SOM-T2 FLS 分類算法與DEFES、FNN、IT2 FLS、IT2-PAES-RCS算法以及量化交易策略BH(買入并持有策略)、MA(均線策略)、TA策略(經(jīng)典技術(shù)指標(biāo)策略)進(jìn)行比較,圖5展示了各個(gè)算法在測試區(qū)間內(nèi)的資金走勢圖。由圖5可以看出,基于SOM-T2 FLS算法的交易策略能獲得最大的累計(jì)收益。圖中BH曲線由滬深300指數(shù)計(jì)算,滬深300 指數(shù)是反映中國A 股市場全貌的指數(shù)??梢钥闯觯跍y試區(qū)間分別經(jīng)歷了牛市和熊市兩種行情。值得注意的是,基于SOM-T2 FLS算法的交易策略在牛市中可以跟蹤趨勢獲取超額收益,而在熊市中可以最大程度減小指數(shù)下行的風(fēng)險(xiǎn)。根據(jù)資金走勢可以分別計(jì)算出年化平均收益ANR(Annual revenue Rate)、交易次數(shù)Transaction、勝率Win、最大回撤MD(Max-Drawdown)、夏普比率(Shape Ratio)以及索提諾比率(Sortino Ratio)指標(biāo)見表4。不難看出,基于SOM-T2 FLS 算法的交易策略的ANR 最大,說明模型收益能力優(yōu)于其他模型。同時(shí),從交易次數(shù)和勝率可以看出,基于SOM-T2 FLS 算法的交易策略具有更少的交易次數(shù)和更高的勝率,較其他策略具有更強(qiáng)的抵抗風(fēng)險(xiǎn)能力。最大回撤方面,基于SOM-T2 FLS 算法的交易策略可達(dá)到8.53%好于其他策略,體現(xiàn)出了更好的算法穩(wěn)健性和抗風(fēng)險(xiǎn)能力。在夏普比率和索提諾比率方面,基于SOM-T2 FLS 算法的交易策略分別達(dá)到2.217 4 和0.015 4。夏普比率說明在相同風(fēng)險(xiǎn)情況下,基于SOMT2 FLS算法的交易策略有更高的期望收益。索提諾比率表明在相同下行風(fēng)險(xiǎn)情況下,基于SOM-T2 FLS算法的交易策略有更高的回報(bào)率。綜上所述,基于SOMT2 FLS 算法的交易策略不僅有良好的收益能力,還具有更好的抗風(fēng)險(xiǎn)能力。
圖5 模型收益比較
表3 分類算法預(yù)測結(jié)果對比
表4 各交易策略收益情況對比
3.3.3 模型分析
上述實(shí)證結(jié)果表明,提出算法在學(xué)習(xí)過程中最重要的參數(shù)在于適應(yīng)度函數(shù)中各項(xiàng)式的權(quán)值比例關(guān)系,因?yàn)槠渲苯佑绊懽顑?yōu)模型的求解方向。圖6~9 展示了在權(quán)值分配為1∶1∶1∶1、1∶2∶1∶1、1∶1∶2∶1 和1∶1∶1∶2 時(shí),各項(xiàng)指標(biāo)隨迭代過程的變化情況。理論上,當(dāng)某一項(xiàng)權(quán)重增大權(quán)重的時(shí)候,模型會(huì)在該項(xiàng)指標(biāo)上表現(xiàn)出一定的提高。從圖中可以看出,結(jié)果與理論情況一致。圖6是權(quán)值分配為1∶1∶1∶1時(shí)各個(gè)指標(biāo)隨迭代次數(shù)的變化情況,從迭代次數(shù)變化情況圖中可以看出,在第2 500 次迭代時(shí),各項(xiàng)指標(biāo)收斂到最優(yōu)解。
圖7展示了權(quán)值比例為1∶2∶1∶1時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系圖,從圖中可以看出,在2 500 次迭代時(shí)指標(biāo)收斂。增加precision的權(quán)重,訓(xùn)練集中precision值提高了3%,同時(shí),ACC 和ANR 分別提高3%和1.12%,而規(guī)則長度增加到了440。在測試集中,各項(xiàng)指標(biāo)均發(fā)生了反向的變化,首先,precision 降低了2%,與此同時(shí),ACC和ANR都降低了2%。由此可以看出,算法在訓(xùn)練集上的性能表現(xiàn)更好,但是在測試集上的性能表現(xiàn)變差,所以只增加precision 的權(quán)重情況下,模型存在過擬合的風(fēng)險(xiǎn)。
圖8展示了權(quán)值比例為1∶1∶2∶1時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系圖,從圖中可以看出,在2 500 次迭代時(shí)指標(biāo)收斂。增加ANR 的權(quán)重,在訓(xùn)練集中ANR 增加了4.5%,同時(shí),ACC 和precision 分別降低了4%和1%,而規(guī)則長度提高到432。在測試集中,ANR提高了1%,但是ACC和precision分別下降了3%和6%。由此可以看出,增加ANR 權(quán)重可以提高模型的收益能力,但是分類算法的性能發(fā)生了一定程度的下降,與此同時(shí),規(guī)則長度增加使模型更加復(fù)雜。在最優(yōu)模型選取時(shí),不僅要考量模型的收益能力,也要考量模型防范風(fēng)險(xiǎn)能力。在增加ANR的情況,交易模型通過增大交易次數(shù)來增加收益,而模型的勝率卻減小了,造成交易風(fēng)險(xiǎn)更大。
圖6 權(quán)值比例為1∶1∶1∶1時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系
圖7 權(quán)值比例為1∶2∶1∶1時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系
圖8 權(quán)值比例為1∶1∶2∶1時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系
圖9 權(quán)值比例為1∶1∶1∶2時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系
圖9 展示了權(quán)值比例為1∶1∶1∶2時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系圖,從圖中可以看出,在2 500 次迭代時(shí)指標(biāo)收斂。增加規(guī)則長度權(quán)重,最優(yōu)解的規(guī)則長度下降到350,模型復(fù)雜程度降低。但是,從圖中可以看出,訓(xùn)練集中ACC、precision 和ANR 三項(xiàng)指標(biāo)分別下降了4%、3%和0.1%,而在測試集中這三項(xiàng)指標(biāo)也分別下降了5%、6%和0.15%。由此可以看出,雖然模型復(fù)雜度降低,但是性能也出現(xiàn)了下降,即模型存在欠擬合的風(fēng)險(xiǎn)。
通過以上的分析,可以得出結(jié)論:如果只增加其中一項(xiàng)指標(biāo)的權(quán)重,算法將會(huì)出現(xiàn)過擬合或者欠擬合的風(fēng)險(xiǎn),從而影響交易模型的勝率和抗風(fēng)險(xiǎn)能力。本文采用1∶1∶1∶1的等權(quán)值配比,相對其他模型表現(xiàn)出了更好的分類效果、收益能力以及抗風(fēng)險(xiǎn)能力。
本文提出了一種SOM-T2 FLS的股市預(yù)測算法,基于特定的交易策略建立樣本集,采用無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)相結(jié)合的方式建立預(yù)測模型。使用SOM網(wǎng)絡(luò)將樣本集分成了兩個(gè)子集,子集中樣本的統(tǒng)計(jì)特性呈現(xiàn)明顯差異,證明了無監(jiān)督學(xué)習(xí)的方法對樣本進(jìn)行了有效劃分。采用T2 FLS 方法對子集分別進(jìn)行有監(jiān)督學(xué)習(xí),其中,利用C4.5算法生成決策樹并提取規(guī)則庫,并利用遺傳算法對規(guī)則庫和模糊隸屬度函數(shù)的參數(shù)進(jìn)行了優(yōu)化,在適應(yīng)度函數(shù)中加入正則項(xiàng)提高了模型的泛化性能。通過歷史數(shù)據(jù)驗(yàn)證了本文提出的SOM-T2 FLS 預(yù)測模型在牛市行情下能跟隨趨勢獲得超額收益,而在熊市行情下能最大程度地減小損失,展現(xiàn)出了更好的抗風(fēng)險(xiǎn)能力。此外,在本文仿真實(shí)驗(yàn)過程中,遺傳算法的迭代耗費(fèi)了大量的時(shí)間和計(jì)算資源,有效降低訓(xùn)練時(shí)間將是未來研究的重點(diǎn)。