• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      探究數(shù)據(jù)挖掘技術(shù)在量化選股中的應(yīng)用

      2014-09-25 02:45:18劉裕良
      卷宗 2014年8期
      關(guān)鍵詞:數(shù)據(jù)挖掘

      劉裕良

      摘 要:量化投資是當(dāng)前金融投資領(lǐng)域非常熱門方向之一,而數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域也有廣泛應(yīng)用。本文主要概述了數(shù)據(jù)挖掘的基本概念、主要步驟、常用模型和方法,和量化投資中的關(guān)于選股的量化選股模型,探討和研究數(shù)據(jù)挖掘技術(shù)中的分類模型、聚類模型、關(guān)聯(lián)規(guī)則和序列模式等模型,在基本面量化選股和技術(shù)面量化選股方面的一些應(yīng)用,如多因子選股、板塊輪動(dòng)選股和籌碼選股。

      關(guān)鍵詞:數(shù)據(jù)挖掘;量化投資;量化選股

      1 數(shù)據(jù)挖掘技術(shù)

      1.1 數(shù)據(jù)挖掘概述

      數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但是又潛在有用的信息和知識(shí)的過(guò)程。[1]數(shù)據(jù)挖掘是一門新的交叉學(xué)科,一般認(rèn)為是在統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、信息科學(xué)、可視化技術(shù)乃至經(jīng)濟(jì)學(xué)等多門學(xué)科充分發(fā)展的基礎(chǔ)上形成的。數(shù)據(jù)挖掘概念提出以后,金融業(yè)首先對(duì)其表現(xiàn)出了極大的興趣,并率先將其納入應(yīng)用。目前數(shù)據(jù)挖掘在國(guó)外金融領(lǐng)域,特別是銀行已得到了廣泛應(yīng)用。

      1.2 數(shù)據(jù)挖掘的主要步驟

      在實(shí)際進(jìn)行數(shù)據(jù)挖掘的過(guò)程中,根據(jù)CRISP-DM模型,一般可分為六個(gè)階段。

      (1)、業(yè)務(wù)理解:從業(yè)務(wù)角度來(lái)理解數(shù)據(jù)挖掘目標(biāo)和要求,并把業(yè)務(wù)理解的知識(shí)轉(zhuǎn)換成數(shù)據(jù)挖掘問(wèn)題的定義和實(shí)現(xiàn)挖掘目標(biāo)的最初規(guī)劃。

      (2)、數(shù)據(jù)理解:從數(shù)據(jù)收集開(kāi)始,通過(guò)一系列的數(shù)據(jù)探索和熟悉,識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題,發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性。

      (3)、數(shù)據(jù)預(yù)處理:是將各種不同來(lái)源的數(shù)據(jù)加以清洗、轉(zhuǎn)換和歸并,以適合數(shù)據(jù)挖掘技術(shù)的使用。一般包括數(shù)據(jù)類型轉(zhuǎn)換、計(jì)算缺省數(shù)據(jù)、消除噪聲、消除重復(fù)數(shù)據(jù)等。

      (4)、建立模型:此階段對(duì)預(yù)處理過(guò)的數(shù)據(jù)應(yīng)用各種數(shù)據(jù)挖掘技術(shù),建立分析模型。一般地,相同數(shù)據(jù)挖掘問(wèn)題類型會(huì)有幾種技術(shù)手段。某些技術(shù)對(duì)于數(shù)據(jù)形式有特殊規(guī)定,這時(shí)通常需要重新返回到數(shù)據(jù)預(yù)處理階段。

      (5)、評(píng)估模型:階段主要包括通過(guò)評(píng)估備選模型,挑選冠軍模型,評(píng)價(jià)模型的穩(wěn)定性,確保模型正確回答了第一階段的業(yè)務(wù)問(wèn)題。

      (6)、模型發(fā)布:即將發(fā)現(xiàn)的模型投入業(yè)務(wù)應(yīng)用,產(chǎn)生商業(yè)價(jià)值,并且應(yīng)用效果要及時(shí)跟蹤和反饋,以便后期的優(yōu)化和更新。

      1.3 數(shù)據(jù)挖掘的常用模型和方法

      數(shù)據(jù)挖掘是通過(guò)數(shù)據(jù)來(lái)建立一些模仿真實(shí)世界的模型,并應(yīng)用模型來(lái)描述數(shù)據(jù)中的規(guī)律、規(guī)則及相互關(guān)系。這些模型不僅能夠?yàn)槲覀兊耐顿Y行為或其他決策提供所需要的信息,而且還能幫助我們做些提前預(yù)測(cè)。常用模型有分類、聚類、關(guān)聯(lián)規(guī)則、序列模式等。

      (1)分類模型 分類的目的是利用已有觀測(cè)數(shù)據(jù)建立分類器,來(lái)預(yù)測(cè)未知對(duì)象屬于哪個(gè)預(yù)定義的目標(biāo)類。其任務(wù)是對(duì)數(shù)據(jù)集進(jìn)行學(xué)習(xí)并構(gòu)造一個(gè)擁有預(yù)測(cè)功能的分類模型,用于預(yù)測(cè)未知樣本的類標(biāo)號(hào),把類標(biāo)號(hào)未知的樣本映射到某個(gè)預(yù)先給定的類標(biāo)號(hào)中。[1]分類技術(shù)是數(shù)據(jù)挖掘技術(shù)中應(yīng)用最廣泛的技術(shù),分類模型學(xué)習(xí)方法主要有:基于決策樹(shù)的分類方法、貝葉斯分類方法、k-最鄰近分類(KNN)、神經(jīng)網(wǎng)絡(luò)方法(如SVM支持向量機(jī))等。

      (2)聚類模型 與分類不同,聚類是一種無(wú)指導(dǎo)的學(xué)習(xí),沒(méi)有預(yù)定義的類編號(hào)。聚類是一個(gè)把數(shù)據(jù)對(duì)象集劃分成多個(gè)組或簇的過(guò)程,使得簇內(nèi)的對(duì)象具有很高相似性,但與其他簇中的對(duì)象很不相似,即所謂"物以類聚"。相異性和相似性根據(jù)對(duì)象的屬性值評(píng)估,并且通常用距離度量。[2]主要聚類方法有:劃分方法(k-means算法)、層次的方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。

      (3)關(guān)聯(lián)規(guī)則 關(guān)聯(lián)分析是尋找數(shù)據(jù)項(xiàng)之間感興趣的關(guān)聯(lián)關(guān)系,用關(guān)聯(lián)規(guī)則的形式描述。關(guān)聯(lián)分析生成的規(guī)則帶有置信度和支持度,置信度級(jí)別度量了關(guān)聯(lián)規(guī)則的強(qiáng)度,支持度度量了關(guān)聯(lián)規(guī)則的重要性。關(guān)聯(lián)規(guī)則的挖掘過(guò)程分兩步,第一步先找出所有頻繁項(xiàng)集,第二步由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。[1]常用算法有Apriori算法和FP-growth算法。

      (4)序列模式 序列模式與關(guān)系規(guī)則聯(lián)系密切,所不同的是序列模式中相關(guān)的項(xiàng)目或序列之間在時(shí)間維度上存在聯(lián)系。序列模式挖掘就是找出所有的頻繁子序列,發(fā)現(xiàn)頻繁序列算法大體有:類Apriori方法、GSP算法、基于投影方法、SPADE方法。[1]

      2 量化投資和量化選股

      2.1 量化投資及其優(yōu)勢(shì)

      量化投資就是利用計(jì)算機(jī)技術(shù)并且采用一定的數(shù)學(xué)模型去踐行投資理念,實(shí)現(xiàn)投資策略的過(guò)程。量化投資主要是依靠數(shù)據(jù)和模型來(lái)尋找投資標(biāo)的和投資策略。[3]量化投資過(guò)程就是利用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、信息技術(shù)的量化投資方法來(lái)管理投資標(biāo)的和投資組合的過(guò)程。數(shù)量化投資的組合構(gòu)建注重的是對(duì)宏觀數(shù)據(jù)、市場(chǎng)行為、企業(yè)財(cái)務(wù)數(shù)據(jù)、交易數(shù)據(jù)進(jìn)行分析,利用數(shù)據(jù)挖掘技術(shù)、統(tǒng)計(jì)技術(shù)、計(jì)算方法等處理數(shù)據(jù),以得到最優(yōu)的投資組合和投資機(jī)會(huì)。量化投資主要內(nèi)容包括:量化選股、量化擇時(shí)、股指期貨套利、商品期貨套利、統(tǒng)計(jì)套利、期權(quán)套利、算法交易、高頻交易等。相比較傳統(tǒng)的定性投資,量化投資的主要優(yōu)勢(shì)在于紀(jì)律性、系統(tǒng)性、及時(shí)性、準(zhǔn)確性和分散性。紀(jì)律性可以克服人性的貪婪和恐懼等弱點(diǎn),容易嚴(yán)格做到止損止盈。系統(tǒng)性包括多層次的量化模型、多角度觀察和海量數(shù)據(jù)的處理。及時(shí)性體現(xiàn)在能及時(shí)快速跟蹤市場(chǎng)變化,不斷發(fā)現(xiàn)新的投資機(jī)會(huì)和新的策略模型。準(zhǔn)確性指能準(zhǔn)確客觀的評(píng)價(jià)交易機(jī)會(huì)。分散性指的量化投資能在控制風(fēng)險(xiǎn)的條件下,實(shí)現(xiàn)分散投資的目標(biāo)。

      2.2 量化選股

      量化選股就是利用數(shù)量化的方法選擇股票組合,期望該股票組合能夠獲得超越基準(zhǔn)收益率的投資行為。[3]即根據(jù)某種方法判斷一只股票是否滿足某些條件,如果滿足則放入股票池,不滿足則從股票池中剔除。傳統(tǒng)股票分析技術(shù)主要分為基本面分析和技術(shù)面分析,相應(yīng)的量化選股也可分為基本面量化選股和技術(shù)面量化選股兩大類。股票基本面因素包括宏觀經(jīng)濟(jì)指標(biāo)、行業(yè)背景、企業(yè)財(cái)務(wù)指標(biāo)、公司經(jīng)營(yíng)能力、公司估值等,常用基本面選股模型有多因子模型、風(fēng)格輪動(dòng)模型和行業(yè)輪動(dòng)模型。其中多因子選股的基本原理是采用一系列的因子作為選股標(biāo)準(zhǔn),滿足這些因子的股票則被買入,不滿足的則賣出。多因子模型相對(duì)來(lái)說(shuō)比較穩(wěn)定,因?yàn)樵诓煌袌?chǎng)條件下,總有一些因子會(huì)發(fā)揮作用。風(fēng)格輪動(dòng)模型是利用股票市場(chǎng)的大盤股和小盤股之間的二八行情特征變換進(jìn)行選股,當(dāng)市場(chǎng)偏重那二成大比重的權(quán)重股市,選擇大盤股,當(dāng)市場(chǎng)出現(xiàn)八成小盤股上漲時(shí),選擇小盤股,在風(fēng)格轉(zhuǎn)換初期及時(shí)介入,則可以獲得較高收益。行業(yè)輪動(dòng)選股模型是指在經(jīng)濟(jì)周期不同階段選擇表現(xiàn)好的行業(yè),選擇相應(yīng)板塊的股票。技術(shù)面量化選股主要是根據(jù)股票價(jià)格K線組合、形態(tài)、趨勢(shì)以及成交量等因素,有趨勢(shì)跟蹤、籌碼選股、資金流選股、動(dòng)量反轉(zhuǎn)選股等模型。

      3 數(shù)據(jù)挖掘技術(shù)在量化選股中的應(yīng)用

      3.1 在基本面量化選股方面的應(yīng)用

      (1)分類模型在多因子選股模型的應(yīng)用。例如對(duì)A股的部分上市公司,首先選擇一些重要公司屬性,如行業(yè)地位、產(chǎn)品競(jìng)爭(zhēng)力、盈利能力、負(fù)債情況等作為候選因子,對(duì)其公司等級(jí)進(jìn)行評(píng)估,根據(jù)候選因子綜合值的不同,將股票分為不同類型,如藍(lán)籌股、成長(zhǎng)型、垃圾股、題材型等,這過(guò)程在建立一個(gè)分類模型,同時(shí)也對(duì)一些候選因子進(jìn)行檢驗(yàn),剔除一些對(duì)模型無(wú)效的因子。分類模型建立后,再用A股其他上市公司的數(shù)據(jù),去訓(xùn)練已經(jīng)得到的分類模型。分類模型驗(yàn)證有效后,投資者就可直接根據(jù)一些公司屬性,選擇對(duì)應(yīng)股票進(jìn)行投資。如基于貝葉斯分類的選股方法[4],決策樹(shù)算法股票分析和預(yù)測(cè)中的應(yīng)用[5]。

      (2)聚類模型在多因子選股模型的應(yīng)用,例如基于SOM自組織映射網(wǎng)絡(luò)的股票聚類分析[3],選取A股一定數(shù)量股票的基本面指標(biāo),如每股收益、每股凈資產(chǎn)、每股經(jīng)營(yíng)性現(xiàn)金流、凈資產(chǎn)收益率、凈利潤(rùn)等作為主要研究對(duì)象。應(yīng)用SOM模型進(jìn)行模擬聚類實(shí)驗(yàn),通過(guò)聚類的方法分析股票,得到聚類結(jié)果。分析聚類結(jié)果,發(fā)現(xiàn)公司獲利能力和成長(zhǎng)性好的股票,每股收益、每股凈資產(chǎn)、凈資產(chǎn)收益率這個(gè)3個(gè)指標(biāo)的值都比較高。這樣投資者就可根據(jù)這3指標(biāo)選擇成長(zhǎng)性好的股票。

      (3)關(guān)聯(lián)規(guī)則在板塊輪動(dòng)選股模型的應(yīng)用,首先收集股票歷史數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,把每天板塊指數(shù)的漲跌情況轉(zhuǎn)化為二項(xiàng)數(shù)值,1代表上漲,0代表下跌。再根據(jù)板塊指數(shù)漲跌情況,采用二值型關(guān)聯(lián)規(guī)則算法進(jìn)行挖掘,采用Apriori算法實(shí)施關(guān)聯(lián)分析。設(shè)定支持度和置信度的閾值后,可以從模型中找到許多有意義的強(qiáng)關(guān)聯(lián)規(guī)則。通過(guò)這些強(qiáng)關(guān)聯(lián)規(guī)則,可以知道相關(guān)板塊間的聯(lián)動(dòng)強(qiáng)弱。這樣就能了解投資者在股市投資的輪動(dòng)行為。[3]如果分析得出石化板塊和煤炭板塊有強(qiáng)關(guān)聯(lián)規(guī)則,那么當(dāng)石化板塊出現(xiàn)上漲時(shí),煤炭板塊可能也會(huì)上漲,因?yàn)檫@兩個(gè)板塊同屬于能源行業(yè)。這樣在投資活動(dòng)中,如果發(fā)現(xiàn)石化板塊開(kāi)始上漲,就可以根據(jù)關(guān)聯(lián)模型,買入煤炭板塊的股票,等待該板塊的股票后續(xù)補(bǔ)漲。投資者就可以通過(guò)應(yīng)用關(guān)聯(lián)規(guī)則,預(yù)測(cè)不同板塊的輪動(dòng)變化,實(shí)現(xiàn)高額的投資回報(bào)。

      3.2 在技術(shù)面量化選股方面的應(yīng)用

      序列模式在籌碼選股模型的應(yīng)用,主要是通過(guò)分析與時(shí)間相關(guān)的股票數(shù)據(jù),發(fā)現(xiàn)某一時(shí)間段內(nèi)某只股票籌碼變化的模型。例如通過(guò)收集某只股票數(shù)據(jù),分析發(fā)現(xiàn)其籌碼在某一段時(shí)間內(nèi)持續(xù)集中的趨勢(shì),即股東戶數(shù)不斷減少,股票籌碼向一些主力集中的趨勢(shì),則在未來(lái)一段時(shí)間,該股可能出現(xiàn)上漲,或者有跑贏大盤的可能,那么就可以把這些股票加入股票池中,隨時(shí)跟蹤和監(jiān)控,及時(shí)進(jìn)行相應(yīng)的買入操作,以期在未來(lái)一段時(shí)間內(nèi)的股價(jià)上漲,獲得較高投資收益。

      4 結(jié)語(yǔ)

      隨著量化投資在中國(guó)的蓬勃發(fā)展,量化投資在整個(gè)金融投資市場(chǎng)的比重將不斷變大,聽(tīng)著量化投資大師詹姆斯.西蒙斯的傳奇故事,也將會(huì)涌現(xiàn)更多量化投資方面人才。關(guān)于數(shù)據(jù)挖掘技術(shù)在量化投資中應(yīng)用和實(shí)戰(zhàn)將會(huì)更多,相信數(shù)據(jù)挖掘模型和算法在量化選股方面也會(huì)有更多應(yīng)用。

      參考文獻(xiàn)

      [1]蔣盛益.李霞.鄭琪.數(shù)據(jù)挖掘原理與實(shí)踐[M].北京.電子工業(yè)出版社.2011.8.

      [2]著Jiawei Han Micheline Kamber Jian Pei譯范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)(原書第3版).北京.機(jī)械工業(yè)出版社 .2012.7

      [3]丁鵬.量化投資—策略與技術(shù)(修訂版)[M]. 北京.電子工業(yè)出版社.2012.4.

      [4]左輝,樓新遠(yuǎn).基于貝葉斯分類的選股方法[J].電腦知識(shí)與技術(shù)(學(xué)術(shù)交流).2008年10期

      [5]魏雄.決策樹(shù)算法在股票分析與預(yù)測(cè)中的應(yīng)用[J].電腦知識(shí)與技術(shù)(學(xué)術(shù)交流).2007年09期.

      猜你喜歡
      數(shù)據(jù)挖掘
      基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
      扎囊县| 贺州市| 永康市| 永德县| 武冈市| 章丘市| 呼和浩特市| 泾川县| 柳江县| 宾阳县| 定陶县| 新宁县| 水富县| 金川县| 台湾省| 安吉县| 巩留县| 巩义市| 错那县| 罗田县| 高密市| 泰和县| 敦煌市| 兖州市| 吴桥县| 扶沟县| 特克斯县| 汝南县| 湟源县| 东莞市| 聂荣县| 晴隆县| 桦甸市| 新宁县| 蓬溪县| 阿拉尔市| 犍为县| 新建县| 民乐县| 原阳县| 房产|