• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機器學習下量化選股的分析

      2018-05-31 02:49:24楊亞東
      商情 2018年14期
      關(guān)鍵詞:機器學習

      楊亞東

      【摘要】股票市場屬于非線性系統(tǒng),復(fù)雜性高而信噪比低。目前,多個領(lǐng)域中已經(jīng)證實,機器學習是一種能夠針對模糊非線性數(shù)據(jù)建模的工具,所以機器學習具有天然的應(yīng)用到量化投資領(lǐng)域的優(yōu)勢。從本質(zhì)上看,選股是排序問題,投資者希望在眾多的股票中選擇出具有更好未來表現(xiàn)的股票?;诖?,本文分析了利用機器學習量化選股的方法。

      【關(guān)鍵詞】機器學習 量化投資 選股

      相對于國外來說,我國屬于剛剛開始發(fā)展量化投資,存在的不足之處仍比較多,但從實際情況看,A股市場具有較短的發(fā)展歷程,與已經(jīng)發(fā)展的比較成熟的海外市場相比,市場有效程度比較弱,錯誤定價的股票數(shù)量比較多,普遍存在非理性人投資行為,也正是因為此種不成熟特征的存在,為我國量化投資的發(fā)展提供了巨大的空間。因此,在現(xiàn)階段A股市場中,更適合的量化投資方式為公正、理性、客觀的。由此看來,本文研究量化選股的方法具有十分重要的現(xiàn)實意義。

      一、短線選股策略

      本節(jié)構(gòu)建樣本集時,特征選擇為20個交易日內(nèi)個股的收盤價走勢,訓練樣本方法采用兩種,分別為機器學習算法GBDT、GBRank,模式識別有機器學習自動進行。

      (一)數(shù)據(jù)準備

      需準備的數(shù)據(jù)包含2部分,一部分為樣本內(nèi)數(shù)據(jù),屬于訓l練集,另一部分為樣本外數(shù)據(jù),屬于測試集。本文數(shù)據(jù)均來源于Wind資訊,時間段為2006年1月1日2016年11月30日,均為A股收盤價。之后分割該時問段的數(shù)據(jù),使其變?yōu)椴淮嬖诮患膬刹糠郑柧殬颖臼褂?006年1月1日2012年11月5日數(shù)據(jù),測試樣本使用剩余時間段的數(shù)據(jù)。訓l練樣本和測試樣本生產(chǎn)時,如果股票上市后的交易日未滿21個,做剔除處理,最后,生產(chǎn)約240萬訓練樣本。

      (二)提取特征

      構(gòu)建策略時,關(guān)鍵性的一步為特征提取,因本章短線選股策略是在模式識別基礎(chǔ)上進行的,因此,關(guān)注K線形態(tài)特,征過程中僅選擇20個交易日的。首先,通過指數(shù)移動平均線,過濾到收盤價的噪聲,隨后進行價格走勢形態(tài)特征向量的描述,描述序列為收益率序列,最后,完成特征提取。

      (三)模型訓練

      排序模型訓練時,利用兩種算法進行。第一種為GBDT,訓練中,股票問相對順序不做考慮,僅擬合其絕對得分,訓練樣本構(gòu)建過程中,3個交易日后,若樣本漲幅≥1%,則得分=1,否則樣本得分=O,根據(jù)此種方式,訓練樣本集即可獲得,接著以訓練樣本集作為GBDT的輸入樣本集,訓練排序模型,此過程中,由于GBDT存在較多的參數(shù),如果調(diào)參采用交叉驗證方式,將會耗費大量的時間,因此,本文按照知識和經(jīng)驗,調(diào)優(yōu)逐步的進行,完整訓練后,排出函數(shù)h輸出,通過h,即可開展打分操作,依據(jù)分數(shù)由高到低,排序未來3天內(nèi)漲幅會超過1%的股票,供投資者選擇。第二種為GBRank,這是一種pairwise方法,僅對同一時段內(nèi)股票的相對漲跌幅做出考慮,保證訓練樣本不會受到系統(tǒng)性風險的影響,訓練樣本集獲取后,輸入到GBRank中,訓練排序模型,參數(shù)直接選擇相同于GBDT的,最終,排除函數(shù)h獲得,排序未來3天內(nèi)股票的表現(xiàn)。

      二、長線選股策略

      因短線選股策略僅能排序3天以內(nèi)的,時間較短,本節(jié)提出的長線選股策略可排序未來20個交易日內(nèi)的股票。

      (一)數(shù)據(jù)準備

      本節(jié)中,數(shù)據(jù)來源、選取時間段、劃分訓練樣本和測試樣本的方法均相同于1.1,不過,訓練樣本和測試樣本生成時,要將股票上市時間不足3個月的剔除,以能與44維的要求相符合。最后,生成約160萬的訓練樣本。

      (二)特征提取

      因要構(gòu)建長線選股策略,因此要對個股在過去20個交易內(nèi)、2個月交易日內(nèi)、3個月交易日內(nèi)的動量因子做出關(guān)注。首先。動量、反轉(zhuǎn)效應(yīng)特征向量描述時,采用的序列為個股動量因子序列,z-score標準化處理每一維度的特征向量;其次,以元素所處維度為依據(jù),將每個元素的分位數(shù)計算出來;最后,組合上述兩步處理后的特征向量,使特征向量達到44維,此種特征向量能夠輸入到機器學習中。

      (三)模型訓練

      模型訓練時,同樣采用1.3中的兩種方法。利用GBDT訓練過程中,訓練方式采用pointwise,無需對股票問相對順序做出考慮,僅需擬合其絕對分數(shù),20個交易日后,與股票漲幅均值相比,樣本股價漲幅更大時,得分=1,樣本股價漲幅更小時,得分=O,此處劃分樣本參照的標準為漲幅均指,以能保證排序的客觀性、準確性,隨后,獲得訓練樣本集,并輸入到GBDT中,訓練排序模型,由于本節(jié)特征向量維度要顯著高于1.3節(jié)的,因此設(shè)置參數(shù)時會不同于1.3,要增加回歸樹最大深度、并增加葉子結(jié)點數(shù)上限,完成訓練后,排序函數(shù)h獲得,通過h,即可完成未來20個交易日內(nèi)的股票排序工作。利用GBRank訓練過程中,訓練方法相同于1.3此種方法,獲得訓練樣本集后,輸入到GBRank中,接著訓練排序模型,設(shè)定的參數(shù)完全相同于本節(jié)的GBDT方法,最終,排序函數(shù)h獲得,完成排序。

      三、結(jié)論

      機器學習基礎(chǔ)上,本文構(gòu)建了短線和長線量化選股策略,能夠排序未來3個交易日及未來20個交易日內(nèi)的股票,利于投資者實現(xiàn)量化選股,從而提高投資者投資的理性程度,促進我國A股市場的良好發(fā)展。不過,本文構(gòu)建選股策略后,并未進行實際的實驗,因而還需要進一步的開展驗證研究。

      參考文獻:

      [1]馮楠,陳有為.基于量化趨勢跟蹤的計算機自動化選股模型的設(shè)計與實現(xiàn)[J].自動化與儀器儀表,2016,(08).

      [2]李姝錦,胡曉旭,王聰.淺析基于大數(shù)據(jù)的多因子量化選股策略[J].經(jīng)濟研究導(dǎo)刊,2016,(17).

      猜你喜歡
      機器學習
      基于詞典與機器學習的中文微博情感分析
      基于機器學習的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
      活力(2016年8期)2016-11-12 17:30:08
      基于支持向量機的金融數(shù)據(jù)分析研究
      基于Spark的大數(shù)據(jù)計算模型
      基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
      基于圖的半監(jiān)督學習方法綜述
      機器學習理論在高中自主學習中的應(yīng)用
      毕节市| 睢宁县| 桃园县| 宜城市| 隆林| 泽库县| 大荔县| 来凤县| 阿巴嘎旗| 永州市| 布尔津县| 濉溪县| 蓬安县| 焉耆| 琼中| 磐安县| 东莞市| 化州市| 修武县| 长岛县| 呈贡县| 台南市| 南城县| 天等县| 宜阳县| 泰来县| 勃利县| 邛崃市| 年辖:市辖区| 东城区| 固阳县| 稷山县| 塘沽区| 寻甸| 西宁市| 梧州市| 德州市| 红河县| 竹溪县| 安西县| 庆云县|