劉仁輝 李毓麗 劉淑敏 鄭菲
摘要:近年來(lái),雖然我國(guó)證券市場(chǎng)中的高送轉(zhuǎn)題材受到了中小投資者的追捧,同時(shí)也產(chǎn)生了一些市場(chǎng)的亂象,導(dǎo)致投資者容易去盲目的炒作高送轉(zhuǎn)。但是對(duì)高送轉(zhuǎn)股票的預(yù)測(cè)模型中,很多都會(huì)采用了主觀性比較強(qiáng)烈的打分排序法以及 Logistic 回歸分析的方法進(jìn)行構(gòu)建高送轉(zhuǎn)股票預(yù)測(cè)的模型。該文深入分析了對(duì)于高送轉(zhuǎn)股票影響程度比較大的影響因素,采用機(jī)器學(xué)習(xí)中特征工程的方法,分別用了 Filter 過(guò)濾法與 F 檢驗(yàn)法篩選出影響因素的因子,構(gòu)建出高送轉(zhuǎn)股票的預(yù)測(cè)模型是支持向量機(jī) SVC 模型,并采用了2020年第八屆泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽中提供的股票樣本數(shù)據(jù)對(duì)模型進(jìn)行了數(shù)據(jù)處理后的驗(yàn)證。實(shí)證后的結(jié)果顯示,模型正確率在84.26%以上,模型預(yù)測(cè)準(zhǔn)確度最高可達(dá)54%。
關(guān)鍵詞:高送轉(zhuǎn);特征工程;支持向量機(jī)模型
中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)17-0224-02
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1 背景
高送轉(zhuǎn)股票在近幾年的證券市場(chǎng)當(dāng)中是中小投資者比較熱捧的股票之一。高送轉(zhuǎn)股票一般是需要每10股送轉(zhuǎn)5股(包括5股)以上的股票才能稱為高送轉(zhuǎn),它是一種高比例送股或者高比例轉(zhuǎn)股,簡(jiǎn)稱高送轉(zhuǎn)[1]。從投資者的角度來(lái)看,實(shí)施高送轉(zhuǎn)的股票是會(huì)被看好的,如果在該股票實(shí)施高送轉(zhuǎn)之前提前介入市場(chǎng),并在公司公布當(dāng)年分紅政策后再賣出,可以獲利不菲[2]。所以,針對(duì)可以賺取更高的收益,這就需要針對(duì)公司預(yù)測(cè)哪些股票能夠?qū)嵤└咚娃D(zhuǎn),因此最關(guān)鍵技術(shù)是預(yù)測(cè)高送轉(zhuǎn)公司的成功概率。
本文嘗試用特征工程中的Filter過(guò)濾法以及F檢驗(yàn)法來(lái)篩選對(duì)高送轉(zhuǎn)股票影響較大的影響因素,通過(guò)構(gòu)建支持向量機(jī)預(yù)測(cè)高送轉(zhuǎn)的模型。此方法相對(duì)于市場(chǎng)上比較常用的打分排序法,對(duì)指標(biāo)選取以及權(quán)重分配的主觀性,能夠通過(guò)特征本身的方差來(lái)篩選特征的類,去除方差很小的特征,尋找兩組數(shù)據(jù)之間的線性關(guān)系;并通過(guò)檢驗(yàn)值去除特征沒(méi)有顯著線性關(guān)系的因子,而對(duì)于影響因素較大的因子,通過(guò)構(gòu)建支持向量機(jī)模型進(jìn)行預(yù)測(cè),能夠比較各個(gè)特征因子對(duì)于高送轉(zhuǎn)行為的影響程度,從而篩選出影響比,并對(duì)未來(lái)實(shí)施高送轉(zhuǎn)的股票概率進(jìn)行統(tǒng)計(jì)。
2 研究設(shè)計(jì)
2.1 Filter 方法與 F 檢驗(yàn)法
Filter方法是通過(guò)特征本身的方差來(lái)過(guò)濾篩選特征的類。Filter特征選擇是制定一個(gè)準(zhǔn)則,衡量每個(gè)特征對(duì)目標(biāo)特征屬性的重要程度,以此來(lái)對(duì)所有特征進(jìn)行排序,剔除方差為零的特征,舍棄所有方差小于threshold的特征。
F檢驗(yàn)法是由英國(guó)統(tǒng)計(jì)學(xué)家費(fèi)雪提出的,通過(guò)雙檢驗(yàn),對(duì)兩個(gè)樣本的總體方差進(jìn)行比較,尋找兩個(gè)樣本之間的線性關(guān)系,假設(shè)“數(shù)據(jù)不存在顯著的線性關(guān)系”,通過(guò) F 值與P 值統(tǒng)計(jì)量來(lái)比較特征與標(biāo)簽之間的線性關(guān)系,保存P值小于0.05或者大于0.01的特征,刪除P值大于0.05或者小于0.01的特征。
2.2 影響實(shí)施高送轉(zhuǎn)的因素
首先對(duì)高送轉(zhuǎn)行為進(jìn)行一個(gè)量化,變量名為gsz,如果上市公司實(shí)施了高送轉(zhuǎn),gsz=1,否則,gsz=0。影響上市公司高送轉(zhuǎn)的因素很多,包括市場(chǎng)的環(huán)境、財(cái)務(wù)的狀況,股票價(jià)格和監(jiān)督政策等。通過(guò)Filter過(guò)濾法以及F檢驗(yàn)法的特征篩選以及數(shù)據(jù)處理后,我們可以得出對(duì)高送轉(zhuǎn)有較大影響的因子有16個(gè),分別是:平均股價(jià)、每股未分配利潤(rùn)、每股凈資產(chǎn)、每股現(xiàn)金流量?jī)纛~、個(gè)股120日beta值、個(gè)股120日還手率、帶息流動(dòng)負(fù)債、凈債務(wù)、營(yíng)運(yùn)資本、凈利息費(fèi)用、息前稅后利潤(rùn)、企業(yè)自有現(xiàn)金流量、固定資本、實(shí)收資本、成交量和帶息債務(wù)。并將16個(gè)因子作為因變量進(jìn)行模型建立,分析與預(yù)測(cè)。
2.3 高送轉(zhuǎn)預(yù)測(cè)模型的構(gòu)建
支持向量機(jī)是一種分類算法,也是一種二類分類模型,可以做回歸[3]。根據(jù)輸入的數(shù)據(jù)不同可做不同的模型,本模型通過(guò)輸入標(biāo)簽為分類值做分類,樣本的數(shù)據(jù)給了7年的數(shù)據(jù),通過(guò)對(duì)這7年的數(shù)據(jù)進(jìn)行一個(gè)劃分,將前6年的數(shù)據(jù)作為訓(xùn)練集,第7年的數(shù)據(jù)當(dāng)作測(cè)試集,支持向量機(jī)借助訓(xùn)練集以及測(cè)試集進(jìn)行訓(xùn)練,訓(xùn)練過(guò)后會(huì)得到模型的一個(gè)準(zhǔn)確率。然后引入算法來(lái)建立支持向量機(jī)的模型,并選取 SVC模型中的 rbf 方法,選擇rbf方式下的調(diào)參優(yōu)化模型,提高學(xué)習(xí)機(jī)泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,獲得良好統(tǒng)計(jì)規(guī)律的目的。rbf 核函數(shù):
[K(xi,xj)=exp (-(γ(i)-γ(j))22σ2])
當(dāng)γ(指本式中的[σ])比較小時(shí),單個(gè)樣本對(duì)整個(gè)分類超平面的影響比較小,不容易被選擇為支持向量,反之,當(dāng)γ比較大時(shí),單個(gè)樣本對(duì)整個(gè)分類超平面的影響比較大[4],更容易被選擇為支持向量,或者說(shuō)整個(gè)模型的支持向量也會(huì)多。
3 數(shù)據(jù)來(lái)源與處理
3.1 數(shù)據(jù)來(lái)源與選取
樣本數(shù)據(jù)選取了2020 年第八屆泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽中提供的股票數(shù)據(jù)作為樣本。該樣本數(shù)據(jù)中提供每家公司七年數(shù)據(jù)(包括日數(shù)據(jù)和年數(shù)據(jù)),預(yù)測(cè)第八年會(huì)實(shí)施高送轉(zhuǎn)的股票,將選取第七年作為樣本測(cè)試集,前六年作為樣本訓(xùn)練集。
3.2 數(shù)據(jù)處理
由于數(shù)據(jù)并未進(jìn)行數(shù)據(jù)處理,避免影響模型預(yù)測(cè),首先對(duì)樣本數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的處理,將不規(guī)范的數(shù)據(jù)統(tǒng)一處理為規(guī)范的數(shù)據(jù),刪除或者補(bǔ)全基于給出數(shù)據(jù)當(dāng)中的缺失值,在缺失值和異常值處理之后,為了消除計(jì)量單位和數(shù)量級(jí)不同的原因,對(duì)變量進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化[5]的去量綱處理。
4 實(shí)證分析
4.1 影響因素的篩選
4.1.1 Filter方法的篩選
在模型建立之前,特征工程要做的是優(yōu)先消除方差為0的特征。利用此方法的特性,對(duì)于選取的第七年的數(shù)據(jù)整合日數(shù)據(jù)和年數(shù)據(jù),利用Anaconda 3.7進(jìn)行數(shù)據(jù)的分析,在分析之前,整合表中的因子字段數(shù)據(jù)剩余的156個(gè)因子,通過(guò)Filter過(guò)濾法的分析后,經(jīng)過(guò)特征的篩選,將一些很相近的以及沒(méi)有什么用的因子進(jìn)行剔除,最后得到的數(shù)據(jù)集當(dāng)中還剩余82個(gè)因子字段,并以此作為數(shù)據(jù)集,如圖1,為之后進(jìn)一步篩選做準(zhǔn)備。
4.1.2 F檢驗(yàn)的篩選
F 檢驗(yàn)會(huì)返回F 值和 P 值兩個(gè)統(tǒng)計(jì)量,p 值小于 0.05 或大于 0.01 的特征,這些特征與標(biāo)簽是顯著線性相關(guān)的,而 p 值大于 0.05 或小于0.01 的特征則被我們認(rèn)為是和標(biāo)簽沒(méi)有顯著線性關(guān)系的特征,應(yīng)該被刪除。通過(guò) Anaconda3.7 進(jìn)行F 檢驗(yàn)由 82 個(gè)特征篩選剩下16個(gè)因素,如圖2所示。
4.2 影響因素的因子
基于對(duì)樣本測(cè)試數(shù)據(jù)的Filter方法和F檢驗(yàn)的篩選剩下16個(gè)因子,分析結(jié)果有:平均股價(jià)、每股未分配利潤(rùn)、每股現(xiàn)金流量?jī)纛~、個(gè)股120日beta 值、個(gè)股120日還手率、帶息流動(dòng)負(fù)債、凈債務(wù)、營(yíng)運(yùn)資本、凈利息費(fèi)用、息前稅后利潤(rùn)、企業(yè)自由現(xiàn)金流量、固定資本、實(shí)收資本、成交量、帶息債務(wù)、每股凈資產(chǎn)這16個(gè)因子。
4.3 模型建立與結(jié)果
首先把gsz 當(dāng)成自變量,將上述篩選出的16個(gè)因子作為因變量進(jìn)行支持向量機(jī)SVC模型預(yù)測(cè)。首先將7年的樣本數(shù)據(jù)進(jìn)行劃分,將前6年的數(shù)據(jù)作為訓(xùn)練集,第7年的數(shù)據(jù)當(dāng)作測(cè)試集進(jìn)行訓(xùn)練,訓(xùn)練過(guò)后我們會(huì)得到模型的一個(gè)準(zhǔn)確率。然后對(duì)此來(lái)引入算法建立支持向量機(jī)的模型,算法模型代碼如圖3所示。
訓(xùn)練集通過(guò)rbf訓(xùn)練,通過(guò)調(diào)參后引入算法模型,最終得出模型的準(zhǔn)確率為84.26%,模型準(zhǔn)確度提升了15.74%,如表1所示。
根據(jù)定義好每10股送5股(包括5股)作為特征指標(biāo)進(jìn)行預(yù)測(cè),得出了第八年預(yù)測(cè)上市公司會(huì)實(shí)施高送轉(zhuǎn)的股票534支,對(duì)比第八年的高送轉(zhuǎn)實(shí)施公司數(shù)據(jù),成功實(shí)施高送轉(zhuǎn)有288支,準(zhǔn)確率達(dá) 54%左右。
5 結(jié)束語(yǔ)
本文基于Filter過(guò)濾法和F檢驗(yàn)法做數(shù)據(jù)處理,同時(shí)對(duì)比所篩選的因子對(duì)支持向量機(jī)模型準(zhǔn)確度的影響程度,得出顯著的影響因子有平均股價(jià)、每股未分配利潤(rùn)、每股凈資產(chǎn)、每股現(xiàn)金流量?jī)纛~、個(gè)股120日beta值,個(gè)股120日還手率,帶息流動(dòng)負(fù)債、凈債務(wù)、營(yíng)運(yùn)資本、成交量等16個(gè)影響較大的因子,最后根據(jù)前七年數(shù)據(jù),進(jìn)行第八年上市公司實(shí)施高送轉(zhuǎn)的行為預(yù)測(cè),并列舉出了前三十名股票編號(hào)。通過(guò)該模型對(duì)高送轉(zhuǎn)構(gòu)建預(yù)測(cè)模型,得出合理的預(yù)測(cè),降低對(duì)投資者盲目投資,能夠進(jìn)一步地降低投資的風(fēng)險(xiǎn)。
參考文獻(xiàn):
[1] 胡宸.基于集成學(xué)習(xí)的上市公司高送轉(zhuǎn)預(yù)測(cè)模型及投資策略設(shè)計(jì)[D].上海:上海師范大學(xué),2019.
[2] 陳欣.上市公司高送轉(zhuǎn)如何預(yù)測(cè)[EB/OL].[2020-09-20].https://xueqiu.com/8635721061/32627533.
[3] OraYang.支持向量機(jī)(SVM)的分析及python實(shí)現(xiàn)[EB/OL].[2020-09-20].https://blog.csdn.net/u010665216/article/details/78382984.
[4] svm核函數(shù)gamma參數(shù)_RBF SVM 參數(shù)解讀 | gamma 和 C 如何對(duì)應(yīng)模型表現(xiàn)[EB/OL].[2020-12-30].https://blog.csdn.net/weixin_39943220/article/details/112364241.
[5] 李思銘,林志杰,陳文,等.基于數(shù)據(jù)挖掘的上市公司高送轉(zhuǎn)預(yù)測(cè)[J].北方經(jīng)貿(mào),2020(12):131-134.
【通聯(lián)編輯:謝媛媛】