容梓豪
摘要:由于各種復(fù)雜的因素,股票價(jià)格預(yù)測與交易一直是難以有效處理的問題?,F(xiàn)實(shí)世界不確定的因素太多,很難設(shè)計(jì)出用于自動(dòng)股票交易的可靠算法。為了獲得可行的交易策略,文中使用深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)了一種方法,該方法在使用時(shí)間序列股票價(jià)格數(shù)據(jù)的基礎(chǔ)上,加入了新聞標(biāo)題進(jìn)行觀點(diǎn)挖掘,同時(shí)通過知識(shí)圖來利用有關(guān)隱性關(guān)系的新聞,最后給出總結(jié)。
關(guān)鍵詞:機(jī)器學(xué)習(xí);強(qiáng)化學(xué)習(xí);股價(jià)預(yù)測;新聞標(biāo)簽;知識(shí)圖
中圖分類號(hào):TP389.1? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)23-0075-02
1引言
機(jī)器學(xué)習(xí)主要涉及根據(jù)數(shù)據(jù)構(gòu)建預(yù)測模型,當(dāng)數(shù)據(jù)是時(shí)間序列時(shí),模型還可以預(yù)測序列和結(jié)果。預(yù)測股票市場的運(yùn)作是近年來機(jī)器學(xué)習(xí)的一種應(yīng)用,但是事實(shí)證明這項(xiàng)工作非常困難,因?yàn)閰⑴c預(yù)測的因素很多。以往機(jī)器學(xué)習(xí)在金融市場中使用主要試圖通過諸如人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī)甚至決策樹之類的監(jiān)督學(xué)習(xí)來預(yù)測金融資產(chǎn)的未來回報(bào)。但是到目前為止,很多方法的效果都不太好。這其中有多種原因,例如,在有監(jiān)督的機(jī)器學(xué)習(xí)中,通常使用帶有平衡類分布的標(biāo)記數(shù)據(jù)集。當(dāng)涉及股票市場時(shí),沒有關(guān)于某人何時(shí)應(yīng)該購買或出售其所持股票的此類標(biāo)記數(shù)據(jù),因此該問題適合強(qiáng)化學(xué)習(xí)框架,這是一種基于行為的學(xué)習(xí),依賴于反復(fù)試驗(yàn)并輔以獎(jiǎng)勵(lì)機(jī)制。一旦定義了適當(dāng)?shù)莫?jiǎng)勵(lì)信號(hào),強(qiáng)化學(xué)習(xí)便能夠生成這種缺失的標(biāo)簽。但是在這種情況下,還有其他一些股票市場特有的問題。股票交易市場的變化非常頻繁,不能僅從歷史趨勢中推斷出這些變化,它們受到現(xiàn)實(shí)世界因素的影響,例如政治,社會(huì)甚至環(huán)境因素。在這種情況下,信噪比非常高,這會(huì)導(dǎo)致很難學(xué)到有意義的東西??梢詫⒋祟惌h(huán)境建模為部分可觀察的馬爾可夫決策過程,在該過程中,智能體對(duì)所有環(huán)境條件的可見性均有限。對(duì)智能體決策過程進(jìn)行建模,在該過程中,假定系統(tǒng)是由離散時(shí)間隨機(jī)控制過程確定的,但是智能體無法直接觀察基礎(chǔ)狀態(tài)。該系統(tǒng)結(jié)合對(duì)交易公司及其相關(guān)新聞的觀點(diǎn)挖掘,并結(jié)合強(qiáng)化學(xué)習(xí)算法,學(xué)習(xí)適當(dāng)?shù)牟呗詠斫灰字付ü镜墓善薄榱苏业娇梢詰?yīng)用觀點(diǎn)挖掘的相關(guān)新聞標(biāo)題,使用知識(shí)圖進(jìn)行遍歷,設(shè)計(jì)出一套強(qiáng)化學(xué)習(xí)交易方案,最后做出總結(jié)。
2 系統(tǒng)設(shè)計(jì)
該系統(tǒng)結(jié)合了來自不同領(lǐng)域的概念,因此,將對(duì)它們中的每一個(gè)步驟進(jìn)行簡要概述,并解釋它們?cè)谙到y(tǒng)中的使用方式。
2.1 Q-learning
Q-learning是一種基于值的強(qiáng)化學(xué)習(xí)算法,利用Q函數(shù)尋找最優(yōu)的動(dòng)作選擇策略。它通過評(píng)估動(dòng)作值函數(shù)應(yīng)該選擇哪個(gè)動(dòng)作,這個(gè)函數(shù)決定了處于某一個(gè)特定狀態(tài)以及在該狀態(tài)下采取特定動(dòng)作的獎(jiǎng)勵(lì)期望值。目標(biāo)是最大化Q函數(shù)的值,即給定一個(gè)狀態(tài)和動(dòng)作時(shí)的未來獎(jiǎng)勵(lì)期望最大值,通過使用貝爾曼方程迭代地更新,不斷優(yōu)化策略。在給定環(huán)境的情況下,智能體會(huì)通過不斷試錯(cuò)訓(xùn)練來學(xué)習(xí)一種策略,該策略會(huì)在episode結(jié)束時(shí)最大限度地從環(huán)境中獲得總獎(jiǎng)勵(lì)。智能體試圖了解處于某種狀態(tài)并在該狀態(tài)下采取特定行動(dòng),然后遵循到目前為止所學(xué)的行為策略直到episode結(jié)束的效用。因此,Q學(xué)習(xí)嘗試學(xué)習(xí)每個(gè)狀態(tài)和動(dòng)作的動(dòng)作值,它是通過同時(shí)探索和利用來實(shí)現(xiàn)的。但如果它始終遵循它認(rèn)為可用的最佳選項(xiàng),那么它將無法了解在該狀態(tài)下采用其他可用選項(xiàng)的價(jià)值,這種困境被稱為勘探與開發(fā)。解決此問題的一種簡單但有效的方法是始終采用“貪婪”選項(xiàng),除了在很小的一部分時(shí)間內(nèi)隨機(jī)行動(dòng),其他時(shí)候按照最優(yōu)策略選擇行為。
2.2 函數(shù)逼近
上述Q-learning方法存在一定缺點(diǎn),它依賴于不同狀態(tài)。注意,這時(shí)的值函數(shù)其實(shí)是一個(gè)表格。對(duì)于狀態(tài)值函數(shù),其索引是狀態(tài),對(duì)于行為值函數(shù),其索引是狀態(tài)—行為對(duì)。值函數(shù)迭代更新的過程實(shí)際上就是對(duì)這張表進(jìn)行迭代更新。對(duì)于狀態(tài)值函數(shù),其表格的維數(shù)為狀態(tài)的個(gè)數(shù)。若狀態(tài)空間的維數(shù)很大,或者狀態(tài)空間為連續(xù)空間,此時(shí)值函數(shù)無法用一張表格來表示,這不能很好地泛化,對(duì)于現(xiàn)實(shí)世界的問題也不容易處理。例如,根據(jù)當(dāng)今世界的狀況,股票交易智能體可能會(huì)做出一些決定并從中吸取教訓(xùn),但是不太可能再次出現(xiàn)完全相同的狀態(tài)。這時(shí)需要利用函數(shù)逼近的方法對(duì)值函數(shù)進(jìn)行表示,該函數(shù)逼近當(dāng)前的環(huán)境觀測值,并且所選的動(dòng)作會(huì)將它們映射為一個(gè)動(dòng)作值。一旦觀察到實(shí)際獎(jiǎng)勵(lì),就可以類似于監(jiān)督學(xué)習(xí)來更新近似器的參數(shù)。在本系統(tǒng)中使用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)逼近,對(duì)于大的狀態(tài)空間,由于僅通過反向傳播來優(yōu)化人工神經(jīng)網(wǎng)絡(luò)變得不穩(wěn)定,因此加入一些改良網(wǎng)絡(luò)的技巧,修改適應(yīng)于深度Q網(wǎng)絡(luò),這些修改包括經(jīng)驗(yàn)重播,使用Q網(wǎng)絡(luò)按比例更新獨(dú)立目標(biāo)網(wǎng)絡(luò)的過程。
2.3 觀點(diǎn)挖掘
觀點(diǎn)挖掘用于注釋預(yù)計(jì)表達(dá)正面或負(fù)面觀點(diǎn)的文本,將文本分為正面和負(fù)面兩類,文本的極性常用于分析產(chǎn)品或服務(wù)評(píng)論,例如網(wǎng)購,電影等,還用于分析其他書面文本,例如博客文章,新聞等。觀點(diǎn)挖掘有兩種主要類型,即使用具有極性的詞匯詞典的詞匯分析方法;以及基于機(jī)器學(xué)習(xí)的,使用標(biāo)記的訓(xùn)練數(shù)據(jù)集構(gòu)建預(yù)測模型。通常,每個(gè)句子序列都具有正或負(fù)的含義,但有時(shí)是中立的。新聞標(biāo)題、新聞全文本身,都會(huì)在某種程度上表達(dá)意見。自然語言處理技術(shù)被用來以自動(dòng)化的方式提取這些觀點(diǎn)。因此一旦提取出觀點(diǎn),它就可以用作一些重要數(shù)據(jù)點(diǎn),以了解客戶的意見。在該系統(tǒng)中,使用觀點(diǎn)挖掘來評(píng)估新聞標(biāo)題對(duì)交易股票的公司是否有利。從考慮買賣股票的公司的角度來看,每個(gè)新聞標(biāo)題都被認(rèn)為是正面,負(fù)面或中立的。積極的觀點(diǎn)可以預(yù)測公司股價(jià)的總體上漲,而類似的消極觀點(diǎn)則可以表明股價(jià)下跌。
2.4 知識(shí)圖
詞匯庫和本體是與語義關(guān)系鏈接的術(shù)語數(shù)據(jù)庫,用帶有實(shí)體和關(guān)系的圖形表示。知識(shí)庫和知識(shí)圖相對(duì)更復(fù)雜,其中的實(shí)體不是單純的術(shù)語,而是知識(shí)的整合。一般來說Web搜索僅限于整個(gè)詞匯庫中在給定查詢的字符串時(shí)匹配關(guān)鍵字,但現(xiàn)實(shí)中的實(shí)體相互有關(guān)聯(lián),并可以用不同的方式鏈接,因此普通的字符串匹配不能很好地進(jìn)行智能搜索。這種互連以知識(shí)圖為特征,該知識(shí)圖表示類似圖的數(shù)據(jù)結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)是一個(gè)實(shí)體,節(jié)點(diǎn)之間的邊緣指示它們之間的關(guān)系。例如,僅使用簡單的字符串匹配來簡單地搜索“雷軍”就不會(huì)出現(xiàn)小米。但是,使用知識(shí)圖,由于“雷軍”是小米的主要?jiǎng)?chuàng)始人,因此他是知識(shí)圖中“小米”節(jié)點(diǎn)附近的一個(gè)緊密相關(guān)的節(jié)點(diǎn),“小米”將作為一個(gè)相關(guān)的搜索結(jié)果出現(xiàn),由此可將與公司相關(guān)但未在新聞標(biāo)題中明確提及的實(shí)體識(shí)別為影響股價(jià)的潛在因素。連接的實(shí)體的標(biāo)題將傳遞給觀點(diǎn)挖掘,并在學(xué)習(xí)算法中利用其極性。
3 實(shí)證評(píng)估
3.1 數(shù)據(jù)
將股票的交易信息用于訓(xùn)練環(huán)境,即訓(xùn)練智能體以交易股票獲取最大利益。對(duì)于新聞信息,從網(wǎng)站中爬取歷史新聞?lì)^條,新聞標(biāo)題的時(shí)間段與股票數(shù)據(jù)完全對(duì)應(yīng)。對(duì)于每個(gè)新聞標(biāo)題將其標(biāo)記化,然后在預(yù)先確定的距離內(nèi)的知識(shí)圖中檢查每個(gè)節(jié)點(diǎn)是否存在與所關(guān)注的特定公司之間的節(jié)點(diǎn)關(guān)系。選擇距離長于此的距離會(huì)導(dǎo)致過多的噪音,而較短的距離意味著幾乎找不到隱式關(guān)系,一旦發(fā)現(xiàn)標(biāo)題中的所有標(biāo)記都在預(yù)定距離之內(nèi)就可以認(rèn)為整個(gè)標(biāo)題與公司相關(guān)。例如,談?wù)摪俣鹊男侣剺?biāo)題不會(huì)被視為影響股票價(jià)格的新聞,但是通過使用知識(shí)圖,可以發(fā)現(xiàn)這種隱式關(guān)系。當(dāng)找到與公司相關(guān)的頭條新聞,就使用集成觀點(diǎn)挖掘器進(jìn)行觀點(diǎn)挖掘。將每個(gè)新聞標(biāo)題分為正面新聞和負(fù)面新聞,并使用上述分類中的分類,選擇置信度最高的一個(gè)。如果同一天的頭條新聞不止一個(gè),就取當(dāng)天所有頭條新聞中的大部分觀點(diǎn)得分。
3.2 MDP設(shè)計(jì)
智能體與股票交易環(huán)境進(jìn)行交互,隨著越來越多的事件用作訓(xùn)練,該智能體會(huì)探索不同的策略并改進(jìn)其現(xiàn)有策略。環(huán)境使用4個(gè)變量來描述每個(gè)狀態(tài):分別是智能體擁有的當(dāng)前金額,智能體現(xiàn)有的庫存數(shù)量,當(dāng)天的開盤價(jià),收盤價(jià)以及當(dāng)天對(duì)公司的平均觀點(diǎn),使用相關(guān)段落中表達(dá)的觀點(diǎn)并用知識(shí)圖來評(píng)估標(biāo)題的相關(guān)性。行動(dòng)空間:智能體每天與環(huán)境進(jìn)行交互,它每次的行動(dòng)可以有購買股票,賣出股票和不買不賣,即保持原狀。獎(jiǎng)勵(lì):交易期結(jié)束時(shí)投資組合的凈增加應(yīng)導(dǎo)致正回報(bào),而凈虧損將導(dǎo)致負(fù)獎(jiǎng)勵(lì),最后智能體進(jìn)行多個(gè)周期的訓(xùn)練。
4 結(jié)論
通過實(shí)驗(yàn),單純使用RNN進(jìn)行初始實(shí)驗(yàn)很難優(yōu)化網(wǎng)絡(luò),這可能是由于數(shù)據(jù)中的噪聲以及可能沒有正確的超參數(shù)所致。具有RNN的網(wǎng)絡(luò)花費(fèi)了特別長的時(shí)間來訓(xùn)練,并且難以分析,因?yàn)闊o法提取網(wǎng)絡(luò)隱藏狀態(tài)下發(fā)生的事情。另外,股票交易機(jī)器人僅限于每天買賣單只股票,這很可能限制了它可以賺到的利潤。在現(xiàn)實(shí)世界中,交易的頻率要比日內(nèi)交易的頻率高得多。在知識(shí)圖中,關(guān)系距離閾值保持有限,以便從新聞標(biāo)題的角度限制添加到數(shù)據(jù)中的噪聲。如果提供了一個(gè)帶有加權(quán)節(jié)點(diǎn)的知識(shí)圖,該節(jié)點(diǎn)可以判斷所討論的實(shí)體與正在交易的公司股票之間是否存在正向或負(fù)向關(guān)系,以更準(zhǔn)確的方式利用更長的距離關(guān)系。通過知識(shí)圖譜從新聞?lì)^條中提取實(shí)體之間的隱式關(guān)系,并利用這些相關(guān)新聞上的正面或負(fù)面觀點(diǎn)挖掘來訓(xùn)練強(qiáng)化學(xué)習(xí)智能體。經(jīng)過訓(xùn)練的強(qiáng)化學(xué)習(xí)智能體可以在產(chǎn)生的利潤方面取得更好的結(jié)果。這樣的整個(gè)流程是一種新穎的方法,并通過實(shí)驗(yàn)證明了其有效性。
參考文獻(xiàn):
[1] 高陽,陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動(dòng)化學(xué)報(bào),2004,30(1):86-100.
[2] 郭瀟逍,李程,梅俏竹.深度學(xué)習(xí)在游戲中的應(yīng)用[J].自動(dòng)化學(xué)報(bào),2016,42(5):676-684.
[3] 常亮,張偉濤,古天龍,等.知識(shí)圖譜的推薦系統(tǒng)綜述[J].智能系統(tǒng)學(xué)報(bào),2019,14(2):207-216.
[4] 文丹艷,馬超群,王琨.一種多源數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)交易系統(tǒng)決策模型[J].自動(dòng)化學(xué)報(bào),2018,44(8):1505-1517.
[5] 杜漫,徐學(xué)可,杜慧,等.面向情緒分類的情緒詞向量學(xué)習(xí)[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2017,52(7):52-58,65.
[6] 姜娜,孔浩.在線股票交易系統(tǒng)的分析與設(shè)計(jì)[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2013,16(13):274-275.
[7] Kaelbling L P,Littman M L,Moore A W.Reinforcement learning:a survey[J].Journal of Artificial Intelligence Research,1996,4(1):237-285.
[8] Hessel M,Modayil J,van Hasselt H,et al.Rainbow:combining improvements in deep reinforcement learning[EB/OL].[2019-12-20]. https://arxiv.org/abs/1710.02298.
[9] Mahmood A R,Korenkevych D,Vasan G,et al.Benchmarking reinforcement learning algorithms on real-world robots[EB/OL]. [2019-12-20].? https://arxiv.org/abs/1809.07731.
[10] Gers F A,Schmidhuber J,Cummins F.Learning to forget:continual prediction with LSTM[J].Neural Computation, 2000,12(10):2451-2471.
【通聯(lián)編輯:唐一東】