郜燕群
摘要:隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術正日益滲透到各行各業(yè)?;跀?shù)據(jù)挖掘技術挖掘出掌柜錢包的基本面數(shù)據(jù),其目的是為了獲取投資的標量信息。隨后建立支持向量機的指數(shù)回歸預測模型,通過模型回測判斷預測效果良好。為了更好的判斷未來價量信息的走向,因此采用基于模糊信息化的支持向量機指數(shù)預測模型,以每周信息為一個信息點,所得到結果準確。
關鍵詞:大數(shù)據(jù);信息?;?支持向量機;指數(shù)預測
中圖分類號:F23文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.16.046
1引言
“掌柜錢包”是興業(yè)全球基金與興業(yè)銀行聯(lián)合推出的互聯(lián)網(wǎng)的理財存取業(yè)務,該業(yè)務于2014年3月10日上線運行,自上線以來在同類104只貨幣基金多次排前兩名,截至2018年12月,資金規(guī)模達460億元,在貨幣基金市場排名第五。在掌柜錢包廣受歡迎的同時,我們也要對其進行預警研究,而本文使用的技術分析就是一種比較有效的方式。
技術分析注重對金融市場歷史數(shù)據(jù)的研究,通過圖表展現(xiàn)預測價格走勢和投資策略分析。在理論上,技術分析只考慮市場或金融工具的實際價格行為,并認為價格會通過其他渠道反映所有投資者的相關因素。技術分析是一種證券交易的基本分析方法,也是實際操作是最大的分析方法。關于技術分析的運用和市場交易的有效性,學術界和實務界一直存在爭議。但從實踐角度,為了更好地理解和運用技術分析,實現(xiàn)投資收益,減少被動風險其研究也是非常有意義的。一個衡量風險的指標是MSE,而本文運用的SVM能夠有效性的檢驗誤差。
2文獻綜述
隨著金融市場的擴張、金融風險預警的發(fā)展,技術分析較傳統(tǒng)投資優(yōu)勢逐漸顯現(xiàn)。Markowitz在1952年發(fā)表的《投資組合選擇理論》中提出了均值-方差模型,開創(chuàng)了現(xiàn)代投資組合理論。緊接著William Sharpe 1964年對資產(chǎn)組合模型進行了簡化,提出了資本資產(chǎn)定價CAPM模型,闡釋了單一投資回報率與標準投資組合的投資回報率之間的相關性。隨后Stephen Ross在1976年提出了套利定價APT模型,認為如果市場未達到均衡狀態(tài)并且不考慮交易成本等中間因素,就會存在無風險套利機會。從而將資本資產(chǎn)定價理論推向了一個新的研究階段。
近些年,機器學習技術在技術投資領域得到了快速發(fā)展,SVM作為一個常用的技術有了大量的研究。MAH Farquad 提出在解決財務問題的銀行信用卡客戶的流失預測和保險中的欺詐檢測,SVM能夠敏感性的判斷,實證結果表明,所提出的改進的基于主動學習的SVM方法產(chǎn)生了最佳靈敏度,并且減少了規(guī)則的長度和數(shù)量,從而提高了可理解性。 L.Zhang提出SVM在供應鏈金融管理供應商和客戶管理之間的需求,建立一個認證管理系統(tǒng),從而提高了中小企業(yè)融資過程的信用評級狀況。胡海清等提出了供應鏈金融模式下的信用風險管理,利用SVM建立風險評估體系,證實了風險評估的有效性。Hsu, Ming-Wei等提出將機器學習方法應用到金融時間序列預測上,金融市場的可預測性和基于模型的盈利交易的可行性受到市場成熟度、所采用的預測方法、預測產(chǎn)生的時間范圍以及評估模型和模擬模型交易的方法的顯著影響,且SVM預測所得到的效果顯著。Shom Prasad Das等提出SVM-TLBO模型避免了用戶指定的控制參數(shù),通過預測COMDEX商品期貨指數(shù)的每日收盤價來評估該混合模型的可行性和效率。實驗結果表明,該模型是有效的,并且比粒子群優(yōu)化(PSO)+ SVM混合和標準SVM模型表現(xiàn)更好。例如,與標準SVM回歸相比,該模型將平均絕對誤差提高了65.87%(提前1天預測),55.83%(提前3天預測)和67.03%(提前5天預測)。更多的,Johana等人分析了59篇關于SVM和金融時間序列的分析進展,結論表明SVM比傳統(tǒng)的時間序列方法更準確。
3?;С窒蛄繖C理論介紹
3.1相關理論
20世紀90年代初Vapnik等人根據(jù)統(tǒng)計學習理論提出了一種新的機器學習方法,即SVM方法。該方法以結構風險最小化原則為理論基礎,通過適當?shù)剡x擇函數(shù)子集及該子集中的判別函數(shù),使學習機器的實際風險達到最小,保證了通過有限訓練樣本得到的小誤差分類器,對獨立測試集的測試誤差仍然較小。在支持向量和輸入空間抽取的向量之間的內(nèi)積核是構造支持向量機學習算法的關鍵。其中支持向量機是由算法從訓練數(shù)據(jù)中抽取的小子集構成。其種類主要有:
線性核函數(shù):K(x,xi)=xTxi ;
多項式核函數(shù):K(x,xi)=(γxTxi+r)p,γ>0;
徑向基核函數(shù):K(x,xi)=exp(-γ||x-xi||2),γ>0;
兩層感知器核函數(shù):K(x,xi)=tanh(γxTxi+r)
通過對比發(fā)現(xiàn),雖然對掌柜錢包進行了回歸預測,但是大多數(shù)時候無法對指數(shù)進行精確預測,如果能夠?qū)﹂_盤指數(shù)和變化空間進行預測就顯得很重要。利用SVM對進行模糊信息?;蟮拿咳臻_盤指數(shù)進行變化趨勢和變化空間的預測。
信息?;擅绹鴶?shù)學家Lotfi A.Zahdeh 教授提出,是?;嬎愫驮~語計算的主要方面,研究信息?;男纬伞⒈硎?、粗細、語義解釋等。從本質(zhì)上講,信息?;峭ㄟ^不可區(qū)分性、相似性、功能相近性、函數(shù)性等來劃分對象的集合。是將一個整體分解為一個個相似的元素部分進行研究,每個部分為一個信息粒。這種信息粒命題表達方式為:
gΔ-xisGisλ 或者gΔ-xisG
其中x是論域U中取值的變量,G是U的模糊子集,由隸屬函數(shù)μG來刻畫。λ表示可能性概率。一般假設U為實數(shù)集合RR'',G是U的凸模糊子集,λ是單位區(qū)間的模糊子集。
3.2“掌柜錢包”技術分析模型構建
選取數(shù)據(jù):每一行表示每一個交易日的掌柜錢包指數(shù)各種指標,6列分別表示當天指數(shù)的開盤指數(shù),指數(shù)最高,指數(shù)最低值,收盤指數(shù),當日交易量,當日交易額。
模型目的:利用SVM建立的回歸模型對指數(shù)每日的開盤數(shù)進行回歸擬合
模型假設:指數(shù)每日的開盤數(shù)與前一日的開盤指數(shù),指數(shù)最高值,指數(shù)最低價,收盤指數(shù),交易量和交易額相關,即把前一日的開盤指數(shù),指數(shù)最高值,指數(shù)最低價,收盤指數(shù),交易量和交易額作為當日開盤指數(shù)的自變量,當日的開盤指數(shù)為因變量。
在給定的訓練樣本x1,y1,...,xn,yn,i=1,2,...,n,采用不敏感損失函數(shù)算法,尋找回歸函數(shù)f(x,α)=wx+b中的參數(shù)w,b,將問題轉化為:
min12w2+C∑ni=1ξi+ξ*i
s.t.(wxi+b)-yiSymbolcB@
ε+ξiyi-(wTxi+b)SymbolcB@
ε+ξ*iξi,ξ*i0,i=1,2...n
引入拉格朗日函數(shù)可以得到對偶規(guī)劃
min12∑ni,j=1α*i-αiα*j-αjxixj+ε∑ni=1α*i+αi∑nj=1yiα*j-αj
s.t.∑ni=1(α*i-αi)=00SymbolcB@
αi,α*iSymbolcB@
C,i=1,2...n
對于非線性回歸類似,可以通過核函數(shù)來實現(xiàn)。
目前比較常用的核函數(shù)類型有:
線性核函數(shù):K(x,xi)=xTxi ;
多項式核函數(shù):K(x,xi)=(gxTxi+r)d;
高斯核函數(shù):K(x,xi)=exp(-g‖x-xi‖2) ;
Sigmoid核函數(shù):K(x,xi)=tanh(gxTxi+r)
支持向量機的核函數(shù)以及參數(shù)的選取對其目標的預測性能有很大的影響,從現(xiàn)有的研究成果來看,大多數(shù)情況下最常用的核函數(shù)-高斯核函數(shù)都獲得了較好的預測效果,因此本文借鑒已有的研究成果采用高斯核函數(shù)進行研究。此時的支持向量機存在兩個需要調(diào)節(jié)的參數(shù):懲罰參數(shù)c和高斯核函數(shù)參數(shù)g。上述算法流程如圖1所示。
對于掌柜錢包的有效預測可以從整體上觀測股市的變化提供強有力的信息,所有對掌柜錢包的預測很有意義,通過對掌柜錢包的開盤至今的每日開盤數(shù)據(jù)進行回歸分析。
4結果分析
通過使用核函數(shù)-高斯核函數(shù)的研究網(wǎng)絡搜索法來對高斯核函數(shù)g和懲罰參數(shù)c進行優(yōu)化選擇實現(xiàn)。選擇回歸預測分析最佳的SVM參數(shù)c&g。
利用上面得到的最佳參數(shù)c和g對SVM進行訓練,然后再對原始數(shù)據(jù)進行回歸預測,得出圖1、圖2。利用回歸預測分析最佳的參數(shù)進行SVM網(wǎng)絡訓練。
利用網(wǎng)格搜索法最終得到的擬合結果為:均方誤差MSE=0.000362,相關系數(shù)R = 98.56%,在95%的置信區(qū)間下,預測的準確率為93.98%,預測效果良好。利用高斯核函數(shù)的強大回歸,得到的效果良好。
對上一個模型進行改良的上面是對一個指標進行回歸預測,而這里進行的是對3個指標(最低價,平均價,最高價)進行回歸預測,得到的是一個區(qū)間進行說明,其準確性更高。
利用SVM對模糊粒子Low進行回歸預測。基于上面尋得的參數(shù),利用支持向量機回歸預測。
對于Low的擬合結果分析,利用上面得到的最佳參數(shù)訓練和預測,最終Low模型得到的擬合效果為:
均方誤差MSE=0.0045
相關系數(shù)R =85.90%
接下來5個交易日的平均模糊粒子參數(shù):
predict_low =1.3321
再次利用SVM對R、Low進行回歸預測。最終結果如下,求得的模糊粒子參數(shù)最低值Low,平均值r,最高值Up的預測值分別是:
[Low,R,Up]=[1.3321, 13652, 1.4022]
通過與接下來的幾天進行實證分析其結果確實是在里面,證明回測成功。通過截取2019年1月2-4日的K線圖,可以證明擬合效果良好。
5結論及未來工作
在?;疭VM建模回測過程中沒有考慮手續(xù)費和沖擊成本等因素,僅僅是一個大概的測試結果,其目的是為了說明使用SVM交易策略建模的思想和過程。本節(jié)提出的模型也可以擴展到小時級別,分鐘級別等其他頻率交易數(shù)據(jù)模型的構建。
雖然技術投資分析在我國尚處于發(fā)展起步階段,但2010年以來發(fā)展態(tài)勢快速,未來發(fā)展前景廣闊。近些年來機器學習的大力發(fā)展也為金融技術投資分析提供了理論基礎,也讓技術投資不失為一種非常高效的金融分析方法。值得注意的是,雖然技術投資是一種客觀、高效、無偏的投資方式,但投資者也不能過度依賴,畢竟市場的多變性和有效性都會給技術投資帶來諸多挑戰(zhàn),因而需要充分發(fā)揮金融工程師的創(chuàng)造力,不斷挖掘創(chuàng)新投資模型。相信隨著大數(shù)據(jù)技術、人工智能的快速發(fā)展,技術投資在國內(nèi)會有更好的發(fā)展勢頭。
參考文獻
[1]Kamla Ali Al-Busaidi.Aligning customer knowledge management tools with business strategy[J].International Journal of Electronic Customer Relationship Management, 2013,(7):2,117-134.
[2]Markowitz H.Portfolioselection[J].The journal of finance, 1952, 7(1):77-91.
[3]Sharp, W.F., Capital asset prices: A theory of market equilibrium under condition ofrisk[J].Journal of Financial Economics, 1964,19(3):425-442.
[4]Cox J C, Ross S A.The valuation of options for alternative stochasticprocesses[J].Journal of financial economics, 1976, 3(1-2): 145-166.
[5]Zhang L, Hu H, Zhang D.A credit risk assessment model based on SVM for small and medium enterprises in supply chainfinance[J].Financial Innovation, 2015, 1(1):14.
[6]胡海青,張瑯,張道宏,陳亮.基于支持向量機的供應鏈金融信用風險評估研究[J].軟科學,2011,25(05):26-30+36.
[7]Hsu M W,Lessmann S, Sung M C, et al.Bridging the divide in financial market forecasting: machine learners vs.financial economists[J].Expert Systems with Applications, 2016, (61): 215-234.
[8]Jaramillo J, Velasquez J D, Franco C J.Research in financial time series forecasting with SVM: Contributions from literature[J].IEEE Latin America Transactions, 2017, 15(1):145-153.
[9]Das S P,Padhy S.A novel hybrid model using teaching–learning-based optimization and a support vector machine for commodity futures index forecasting[J].International Journal of Machine Learning and Cybernetics, 2018, 9(1): 97-111.
[10]張衛(wèi)國,盧媛媛,劉勇軍.基于非均衡模糊近似支持向量機的P2P網(wǎng)貸借款人信用風險評估及應用[J].系統(tǒng)工程理論與實踐,2018,38(10):2466-2478.
[11]Schumakerrp,Chenh.Textual analysis of stock market prediction using breaking financial news[J].The Journal of Finance,2009:5-19.
[12]Chih-Chung Chang and Chih-Jen Lin.LIBSVM: A Library for Support Vector Machines[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf, 2013.
[13]Chao-Ton Su, Long-Sheng Chen,Yuehwern Yih.Knowledge acquisition through information granulation for imbalanced data[J].Expert Systems with Applications, 2006,(31):531-541.
[14]J.Bollen,H.Mao and X.Zeng.Twitter mood predicts the stock market[J].Journal of Computational Science, 2011,(2):1-8.