鄭雄輝 吳甜
摘 ?要:建立一個基于大數據的基金投資決策系統(tǒng),可以幫助投資者獲取樂觀穩(wěn)定的收益。對于投資者而言,知道基金接下來的走勢至關重要。而要預測基金將來的走勢,可以通過對基金的歷史數據構造多因子,對多因子進行因子分析,建立多元回歸模型,構建投資組合來實現(xiàn)。相對于選擇基金,擇時更為困難。震蕩市的存在很容易導致投資者虧損,因此選擇合適的時機至關重要。該系統(tǒng)有效地解決了數據提取、基金選擇和擇時交易的問題,并且可以程序化交易,極大地方便了投資者。
關鍵詞:基金投資;多元分析;擇時;程序化交易
中圖分類號:TP311.1 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)14-0020-04
Fund Investment Decision System Based on Big Data
ZHENG Xionghui,WU Tian
(School of Science,Tianjin University of Science & Technology,Tianjin ?300457,China)
Abstract:Establishing a fund investment decision-making system based on big data can help investors to obtain optimistic and stable returns. For investors,it is very important to know the future trend of the fund. To predict the future trend of the fund,we can construct multiple factors by constructing historical data of the fund,analyzing multiple factors,establishing multiple regression models and constructing investment portfolios. The timing is more difficult than choosing a fund. Due to the existence of a volatile market,it is easy to cause investors to lose,so it is very important to choose the right time. The system ?effectively solves the problems of data extraction,fund selection and timing trading,and can be programmed to trade,greatly facilitating investors.
Keywords:capital investment;multivariate analysis;timing;program trading
0 ?引 ?言
基金作為一種重要的投資工具,具有風險相對較小、購買便利、手續(xù)費較低等優(yōu)點,成為各機構和家庭理財的主要配置。但同時也存在品種多、收益良莠不齊等缺點,造成了投資者在基金選擇上存在困難。本文建立了一個基于大數據的基金投資決策系統(tǒng),在盡可能地在降低風險的前提下為投資者謀取高收益,系統(tǒng)主要包括三個部分:爬蟲部分獲取基金的各種基本面和行情數據、多因子模型分析和選擇基金、擇時策略的開發(fā)和回測獲取超額收益。
1 ?爬蟲程序獲取基金數據
1.1 ?獲取基金列表
網絡爬蟲(Web crawler),是一種按照一定的規(guī)則,自動地抓取萬維網信息的程序或者腳本,它們被廣泛應用于互聯(lián)網搜索引擎或其他類似網站,可以自動采集所有其能夠訪問到的頁面內容,以獲取或更新這些網站的內容和檢索方式。
本文以東方財富網為數據來源,運用MATLAB獲取所有基金列表,其中包括已經退市的基金,表1是獲得的各種基金的名稱和類型。
1.2 ?獲取基金信息
作為建立模型的第一步,確保使用數據的全面性和合理性是很重要的。首先需要歸納出不同風格的因子種類,再在各個風格大類下細分相關因子,并綜合經濟含義以及相關參數來確定因子的計算方法。
通過爬蟲技術編譯函數獲取混合型基金的信息,構造基本多因子,便于接下來對多因子進行分析和對基金進行選擇,表2是對基金構造的多因子。
1.3 ?獲取基金歷史凈值
基金歷史凈值是用來計算基金收益的重要指標,同時基金歷史凈值也是基金市場用來進行基金交易的依據。基金凈值不同于基金累計凈值不能作為評判該基金成長態(tài)勢和業(yè)績的參考,但是卻可以用來構造行情因子,在開發(fā)擇時策略時使用。表3是獲取的華安標普全球石油指數(160416)的部分基金歷史凈值,其中包括日期、凈值、累計凈值、漲跌幅(%)。
2 ?多因子選擇基金
多因子模型是目前應用比較普遍的一種選擇證券的模型,其基本原理是采用一系列的因子綜合評價后作為選擇證券標準,根據這些因子買入表現(xiàn)較好的證券。多因子模型的優(yōu)點在于,它能通過有限共同因子來有效地篩選數量龐大的個股,在大幅度降低問題難度的同時,也通過合理預測做出了判斷。
本文基于多因子模型選擇基金的方法是打分法、回歸法和機器學習與人工智能方法。
在構建多因子模型之前,首先要準備好待檢驗的原始因子池以及它們的數據;并根據要求進行初步的整理,建立基金池;最后對因子進行檢驗并建立多因子模型以選取基金。
2.1 ?打分法
打分法的基本步驟:(1)對每類因子賦予不同的權重;(2)對因子標準化打分并篩選;(3)添加約束、二次規(guī)劃求解權重。
2.2 ?回歸法
假設因變量Y(預期收益率)是自變量X1,X2,…,Xk(候選因子)的線性函數,用方程來表示就是:
Yi=β0+β1X1i+β2X2i+…+βkXxi+εi
其中Yi表示因變量的第i個觀測值,而Xki則是第k個自變量(解釋變量)的第i個觀測值,是自變量Xk的系數,εi是第i組觀測值的殘差項。
通過因子分析來去掉與被因變量相關性差的因子;然后采用主成分分析法來對因子進行降維,便于進行構造方程;而多元線性回歸通常采用普通最小二乘法(OLS)進行估計。
2.3 ?支持向量機分類與神經網絡
(1)支持向量機是一種經典的二分類模型,本身也可以轉化為一個凸二次規(guī)劃求解的問題。其基本思想是假設數據線性可分,希望找到一個合適的超平面將不同類別的樣本分開,類似二維平面使用ax+by+c=0來表示;(2)神經網絡是一種運算模型,由大量的神經元之間相互連接構成。神經網絡模型主要考慮神經元模型、學習算法、網絡拓撲結構。
2.4 ?機器學習多因子模型實例
實例主要運用支持向量機分類的方法對基金數據進行擇時回測,并且從下面的所得數據,可看出模型取得了較好的預測效果。
具體操作為:(1)獲取上市公司基本數據;(2)基金指標計算:各日漲幅、K線均值、乖離率、RSV、OBV量比等其他指標作為待分析的因子;(3)數據標準化:將訓練樣本和預測樣本歸一化(均值標準差法);(4)變量篩選:計算相關系數矩陣,選擇相關性較強的因子;(5)訓練分類器并分類變量(MATLAB內置的分類器);(6)訓練神經網絡模型并進行模型評估(如圖1所示)。
3 ?擇時回測
對于選擇基金,擇時比較困難,同時基金交易手續(xù)費高(持有不到7日征收1.5%的懲罰性贖回費),而且短期投機交易不符合基金長期價值投資理念,所以基金投資往往以中長期擇時為主。
3.1 ?傳統(tǒng)技術指標
3.1.1 ?雙均線(MA)指標擇時
通過比較市場價格與均線指標的大小來判斷市場所處的狀態(tài),可以構建一種簡單的擇時交易策略,如果采用較短的計算天數,則可用于市場的短線擇時交易。均線擇時也是趨勢投資方法的典型體現(xiàn)。雙均線顧名思義就是兩條天數不同的移動平均線,比如說,一條是5天的移動平均線,另一條是10天的移動平均線。
3.1.2 ?平滑移動平均線(MACD)指標的擇時
MACD是從雙指數移動平均線發(fā)展而來的,由快的指數移動平均線(EMA12)減去慢的指數移動平均線(EMA26)得到快線DIF,再用快線DIF-DEA得到MACD柱。MACD的意義和雙移動平均線相似,即由快、慢均線的離散、聚合來顯示當前的多空狀態(tài)和股價可能的發(fā)展變化趨勢并對買進、賣出時機做出研判。
MACD的計算:(1)EMA(12)=前一日EMA(12)×11/13+今日收盤價×2/13;(2)EMA(26)=前一日EMA(26)×25/27+今日收盤價×2/27;(3)DIFF=今日EMA(12)-今日EMA(26);(4)DEA(MACD)=前一日DEA×8/10+今日DIF×2/10;(5)BAR=2×(DIFF-DEA)。
MACD的擇時應用:(1)當MACD從負數轉向正數,即買入信號;(2)當MACD從正數轉向負數,即賣出信號;(3)當MACD以大角度變化,表示快的移動平均線和慢的移動平均線的差距非常迅速地拉開,代表了一個市場大趨勢的轉變。
3.2 ?幾何模型
如數學中的一階導數表征漲跌;二階導表征凹凸性,體現(xiàn)漲跌速率。模型策略的理論基礎是離散數據的多項式擬合。
對交易日內某段時間的價格序列{px}進行線性擬合(即一階多項式擬合),得到連續(xù)函數y1=a1x+b1,通過其一階導數判斷該段時間價格的趨勢,當>0時,價格為上漲趨勢;當<0時,為下跌趨勢;當=0時,無趨勢。
通過一階多項式擬合,可以對價格的基本趨勢做出判斷,但更重要的是還要對趨勢的變化情況做出界定,即需要研究由于金融市場的信息不平衡特性所帶來的趨勢加速或減速的情況,這點可以通過二階多項式擬合完成。同樣是對該段時間的價格序列{px}進行二次擬合,擬合的目標函數形式為y2=a2x2+b2x+c2,當 >0時,價格曲線為凹;反之當 <0時,價格曲線為凸;結合一階多項式擬合的結果。
在第1種和第3種情況出現(xiàn)時,對股指期貨進行順勢建倉,獲得趨勢性價差收益;當建倉后一段時間, 的正負號發(fā)生變化時,價格趨勢改變,在趨勢交易中,該種情況需要進行平倉。另一種情況是在建倉后 ?的正負號還沒有發(fā)生變化時, 的正負號已經發(fā)生了變化。這種情況對應于上漲或下跌趨勢由加速變?yōu)闇p速,此時趨勢有結束的跡象,應及時平倉出局。若正負號一直沒有發(fā)生改變,則表明趨勢持續(xù),最終將按收價平倉。利用幾何模型擇時所得到的結果如圖2、圖3所示。
4 ?結 ?論
本系統(tǒng)提供了完整的基金分析框架,包括爬蟲獲取基金數據、多因子模型評價和選擇基金、擇時策略的開發(fā)和回測,以及程序化交易。投資者可以在該系統(tǒng)中根據個人偏好選擇不同的策略進行交易,銀行和一些金融機構在投資和推薦基金時,可以通過該系統(tǒng)對基金進行多維度的評價,在風險和收益之間取得較好的均衡,以期獲得穩(wěn)定收益。
參考文獻:
[1] 羅軍.股指期貨專題系列報告 [R].廣州:廣發(fā)證券,2011:6-8.
[2] 李亞寧.基于多項式擬合法的空中目標實時位置預測研究 [J].計算機與數字工程,2015,43(3):404-407+411.
[3] 魏妹金.支持向量機多因子選股模型 [D].廈門:華僑大學,2015.
[4] Principe J C,Rathie A,Kuo J. Prediction of Chaotic Time Series with Neural Networks [J].International Journal of Bifurcation and Chaos,1992,2(4):1-9.
[5] 司曉彤.基于回歸法的多因子選股模型的投資組合分析 [D].青島:青島大學,2017.
[6] 肖晞暉.基于大數據和機器學習的量化選股模型研究 [D].武漢:華中師范大學,2018.
[7] 武福利.基于多因子模型的FOF基金產品設計 [D].武漢:華中科技大學,2017.
作者簡介:鄭雄輝(1998-),男,漢族,江西撫州人,本科在讀,研究方向:基金投資。