每個平臺的用戶都像是亞馬遜叢林里的“蝴蝶”,他們扇動翅膀,可能影響到股票走勢。
如今,這些沉淀的數(shù)據(jù)試圖預(yù)測股市“風(fēng)口”,不過,信息的傳播是否足夠自由是其最大挑戰(zhàn)。
南方周末記者 劉志毅 發(fā)自杭州
BAT再度碰頭,手中武器未變,背景換成了全民熱捧的大牛市?;ヂ?lián)網(wǎng)巨頭們祭出“大數(shù)據(jù)”這一殺器,試圖為變幻莫測的股市“風(fēng)口”提供路標(biāo)。
自2014年9月份以來,新浪財經(jīng)、百度以及阿里旗下的螞蟻金服陸續(xù)與基金公司、指數(shù)公司合作,發(fā)布相應(yīng)的大數(shù)據(jù)指數(shù)基金產(chǎn)品。據(jù)南方周末記者了解,騰訊也正在與某基金公司洽談合作,出品自己的大數(shù)據(jù)指數(shù)基金。
此刻A股瘋牛暫歇,走出了普天同漲的熱鬧局面之后,個股開始顯著分化。
資金卻不改饑渴。從機(jī)構(gòu)到散戶,每一筆資金都在急切地尋找著可能將爆發(fā)的領(lǐng)域、題材或者概念。但前往“風(fēng)口”的路并不好走,市場里的一個小噴嚏,都可能令投資人措手不及。
以上與互聯(lián)網(wǎng)公司合作的基金無一例外地宣稱,其利用各自互聯(lián)網(wǎng)平臺的大數(shù)據(jù)優(yōu)勢,能夠更及時地感應(yīng)到輿論、市場或者行業(yè)的情緒變化,并在一個更短的周期里迅速調(diào)整決策,以獲得更穩(wěn)定優(yōu)質(zhì)的回報。
眾神齊聚,剩下的問題只有一個,大數(shù)據(jù)真的能幫你避開風(fēng)險,并如愿找到“風(fēng)口”嗎?
用“衛(wèi)星”監(jiān)控行業(yè)
抓住社交平臺的總體情緒,似乎就抓住了許多事情的走向。
按照傳統(tǒng)投資理論,一只股票的價值事實(shí)上在于其公司未來的盈利能力,以及市場對該能力值的綜合預(yù)期?!盀榱吮M可能合理地做判斷,以前的投資人都要看財報,派專人去公司調(diào)研,或者跟他的上下游供應(yīng)商客戶去交流。但等到財報來了,數(shù)據(jù)至少已經(jīng)滯后一個季度了?!蔽浵伣鸱嚓P(guān)人士對南方周末記者說。在他眼里,大數(shù)據(jù)做的事情,就是實(shí)時監(jiān)控行業(yè)情況。
擁有數(shù)百年悠久歷史的金融行業(yè)對于各實(shí)體行業(yè)里公司的估值事實(shí)上已經(jīng)有了一套成熟的方法論,大數(shù)據(jù)并沒有改變這個方法論,而是為其帶來了最新鮮及時的數(shù)據(jù)。
“美國有一家投資機(jī)構(gòu)干了一件事兒,用衛(wèi)星拍各大商場的停車場的車的數(shù)量,推導(dǎo)進(jìn)超市買東西的人的頻次、密集度,來分析快消行業(yè)的景氣程度?!鄙鲜鋈耸繉δ戏街苣┯浾哒f,“但是成本太高,現(xiàn)在這么多的交易在網(wǎng)上進(jìn)行,電商數(shù)據(jù)就
可以起到這個衛(wèi)星的作用?!?/p>
在“中證淘金大數(shù)據(jù)100指數(shù)”中,螞蟻金服的貢獻(xiàn)是一個叫做“行業(yè)景氣指數(shù)”的因子。影響這個“行業(yè)景氣指數(shù)”的變量包括行業(yè)價格、行業(yè)活力、行業(yè)供需等,這些數(shù)據(jù)都能夠從電商平臺的數(shù)據(jù)沉淀中獲知,計算方法則根據(jù)行業(yè)不同各有差異。
每天,經(jīng)由阿里系平臺發(fā)生的上億筆支付都將匯總到相應(yīng)的“行業(yè)景氣指數(shù)”中,經(jīng)過脫敏后,對下個月的淘金100指數(shù)標(biāo)的組合產(chǎn)生影響。這似乎是“蝴蝶效應(yīng)”的一個微觀模型:每一個參與網(wǎng)購的用戶都像是亞馬遜叢林里的“蝴蝶”,他們扇動翅膀,可能影響到的是整個行業(yè)的股票走勢。螞蟻金服也在其內(nèi)部PPT上寫道,“收益源于你——沒有你的行為就沒有淘金100大數(shù)據(jù),作為聰明的消費(fèi)者,定會投資自己的行為,分享原本就屬于你的收益?!?/p>
從牛市中的表現(xiàn)來看,各只大數(shù)據(jù)指數(shù)基金都十分搶眼,多有超過大盤的表現(xiàn)。2015年第一季度,“中證淘金大數(shù)據(jù)100指數(shù)”收益率41.48%,同期的上證指數(shù)上漲15.01%。
這樣的嘗試在海外早有先例。2011年5月,對沖基金公司Derwent Capital Markets發(fā)布了世界上首只社交媒體對沖基金。它實(shí)時接收Twitter等社交媒體上的信息,將所有用戶產(chǎn)生的與目標(biāo)股票公司相關(guān)的文字編碼為積極、平穩(wěn)和消極三個情緒指標(biāo),再根據(jù)情緒指標(biāo)進(jìn)行投資決策。這只對沖基金在交易的首月就實(shí)現(xiàn)了遠(yuǎn)高于其他對沖基金平均數(shù)的收益率。
背后還不乏學(xué)術(shù)界的實(shí)證研究。
美國印第安納大學(xué)約翰·博倫(Johan Bollen)等人2011年3月發(fā)表的研究《Twitter mood predicts stock markets(推特情緒預(yù)測股票市場)》稱,Twitter上的發(fā)言所體現(xiàn)的情緒能夠?qū)善笔袌鲇蓄A(yù)測作用,如果合適地度量投資者情緒,進(jìn)而可指導(dǎo)投資。
如果按照更細(xì)的情緒狀態(tài)編碼推文,并與社會事件做對比,Twitter甚至?xí)褚粋€活生生的人一樣——在大選前一日開始緊張,在大選日當(dāng)天變得冷靜、活力、友善、幸福,在大選日后又回歸平常;在西方傳統(tǒng)的感恩節(jié)當(dāng)天,整個Twitter洋溢著濃濃的幸福味道,過后又恢復(fù)正常。
這些研究者還發(fā)現(xiàn),同樣的方法在預(yù)測電影票房、選舉結(jié)果等方面都有不俗表現(xiàn)。還有類似的論文對google的搜索日志進(jìn)行研究,發(fā)現(xiàn)對股票的搜索熱度同樣對股市有預(yù)測性。
廣發(fā)證券做過一個更簡單的研究。其統(tǒng)計了百度新聞下的滬深300指數(shù)成分股的新聞數(shù)量,上市公司的新聞突然增多就視為利好,反之視為利空。對2011年至2014年5月2日的歷史數(shù)據(jù)回測發(fā)現(xiàn),僅通過監(jiān)測新聞的多寡,就可實(shí)現(xiàn)37.03%的年化收益,而同期滬深300指數(shù)卻下跌了16.24%。
抓住社交平臺的總體情緒,似乎就抓住了許多事情的走向。但遺憾的是,研究者們也意識到,大數(shù)據(jù)對于會沖擊金融市場的突發(fā)事件仍舊無可奈何。
同一個世界,不同的入口
不同的數(shù)據(jù)來源特性也決定了大數(shù)據(jù)的不同擅長領(lǐng)域。
大數(shù)據(jù)在這一領(lǐng)域的應(yīng)用,使得每一個平臺的入口地位顯得更為珍貴。有入口才有數(shù)據(jù)沉淀,有了數(shù)據(jù)沉淀才有了一切可能。
不同的數(shù)據(jù)來源特性也決定了大數(shù)據(jù)的不同擅長領(lǐng)域。電商是阿里當(dāng)仁不讓的王牌,于是電商消費(fèi)數(shù)據(jù)就成了預(yù)測的依據(jù)之一。不過由于數(shù)據(jù)入口的性質(zhì)不一,每顆“衛(wèi)星”能監(jiān)測到的范圍也各有不同。
以阿里的淘金100指數(shù)為例,其官方資料稱,電商數(shù)據(jù)涉及三十余個行業(yè),覆蓋了70%的上市公司,但顯而易見的是,鋼鐵、保險、基礎(chǔ)設(shè)施建設(shè)等行業(yè)則成了電商數(shù)據(jù)難以覆蓋的領(lǐng)域。
涉獵面更廣的搜索引擎則在此有更大空間。上海交通大學(xué)互聯(lián)網(wǎng)學(xué)者魏武揮在鈦媒體的專欄文章中分析到,螞蟻金服基于交易流水的數(shù)據(jù),清洗工作量相對小,但覆蓋面對經(jīng)營者端(to B)的行業(yè)有點(diǎn)吃力,“百度百發(fā)基于搜索的指數(shù),能覆蓋到幾乎所有的行業(yè)。數(shù)據(jù)源強(qiáng)大但過于碎片,數(shù)據(jù)清洗工作量大。”
相應(yīng)地,騰訊在社交和娛樂方面的優(yōu)勢,也可能在后期展現(xiàn),但是同樣面臨數(shù)據(jù)結(jié)構(gòu)化的難題。盡管還沒有正式推出真正意義上的大數(shù)據(jù)指數(shù)產(chǎn)品,騰訊在炒股APP上早有布局,騰訊財經(jīng)中心金融產(chǎn)品組負(fù)責(zé)人張軍對南方周末記者表示,“騰訊自選股有五千萬以上的用戶,某一類人加入或者剔除了某一只自選股,也很能說明關(guān)注度的變化。大數(shù)據(jù)不僅僅是(財經(jīng)報道)文章,還有很多其他指標(biāo)?!?/p>
新浪財經(jīng)給南方周末記者的回復(fù)中顯示,他們提供大數(shù)據(jù)支持的南方大數(shù)據(jù)系列指數(shù)在決策時加入的參考因子包括海量的財經(jīng)資訊,以及日均過百萬條的財經(jīng)博文等。
在公共領(lǐng)域幾乎具有壟斷優(yōu)勢的新浪微博則是他們的另一個殺手锏,5億多注冊賬號以及與這些賬號直接相連的超過5萬個應(yīng)用,產(chǎn)生巨量的用戶行為數(shù)據(jù),反映市場情緒。“除了搜索量和關(guān)注度,我們還有文本分析與情感判斷,如果一個行業(yè)在新浪上的搜索和關(guān)注度特別高,我們會進(jìn)一步判斷與這個行情相關(guān)的資訊和用戶內(nèi)容,區(qū)分出是點(diǎn)贊,還是吐槽?!?/p>
易方達(dá)基金副總裁陳彤剛從硅谷考察歸來,考察的對象也是大數(shù)據(jù)。他的感受是,擁有數(shù)據(jù)源一方很容易變得更有影響力——當(dāng)數(shù)據(jù)的“烹調(diào)方法”被學(xué)會之后,占有絕對原材料的一方就理所當(dāng)然變得更強(qiáng)勢。魏武揮甚至“腦洞大開”地預(yù)測,下一個做大數(shù)據(jù)指數(shù)的是搜狗,因?yàn)槠漭斎敕ǖ臄?shù)據(jù)沉淀可以輕易獲知人們正在用的詞是哪些。
陳彤問美國的數(shù)據(jù)分析公司,如何保證擁有大數(shù)據(jù)的公司會愿意提供數(shù)據(jù)來合作?!耙粋€可能就是,讓那些大公司成為你的股東,但是這樣是不是又會影響到你分析東家的數(shù)據(jù)時的客觀性呢?”易方達(dá)的大數(shù)據(jù)產(chǎn)品也早在醞釀之中,不過在數(shù)據(jù)穩(wěn)定之前料不會示人。
博時基金對媒體稱,螞蟻金服行業(yè)景氣指數(shù)是其獨(dú)特的信息源,也是編制指數(shù)的三大因子之一,有獨(dú)特作用。根據(jù)博時基金測算,螞蟻金服行業(yè)景氣指數(shù)在整體所有因子中的權(quán)重大約是在1/4到1/3左右,這也是隨著不同年份和不同市場的情況變化的。
接近博時基金的人士透露,加入大數(shù)據(jù)因子,給指數(shù)多帶來了大約30%的超額收益。另兩個因子,是博時基金傳統(tǒng)的財務(wù)因子和市場驅(qū)動因子。
極其類似的是,新浪與南方基金等公司合作發(fā)布的南方i100大數(shù)據(jù)指數(shù)的三大因子也包括傳統(tǒng)的財務(wù)、市場驅(qū)動因子,與螞蟻金服僅有一點(diǎn)不一樣,新浪提供的是投資者情緒因子。與Twitter類似,新浪微博也可以很好地體現(xiàn)市場情緒。但是一個重要的前提是——信息的傳播足夠自由。
大數(shù)據(jù)是“長跑選手”
大數(shù)據(jù)投資,不僅需要長時間的實(shí)踐來檢驗(yàn)?zāi)P停哺鼉A向于做長期的理性投資。
大數(shù)據(jù)在投資策略上的應(yīng)用才剛剛上路。
“大數(shù)據(jù)處理需要一套較為復(fù)雜的系統(tǒng),通過回歸分析、因子分析等方法把重要的變量篩選出來。目前在中國,完全基于大數(shù)據(jù)的(策略)還沒有。更多時候,大數(shù)據(jù)是作為一個重要因子,給事物分析提供一種參考?!标愅f。張軍也持相同觀點(diǎn),“大數(shù)據(jù)因子只能占到整個選股策略中的部分權(quán)重,如果你的大數(shù)據(jù)是100%的權(quán)重,業(yè)績想必會很差。”
廣發(fā)基金大數(shù)據(jù)部副總經(jīng)理季峰對百度成功預(yù)測高考作文題印象深刻,通過大數(shù)據(jù)篩選出的高考作文主題和關(guān)鍵詞,在2014年命中了2/3的高考作文題。2014年的巴西世界杯期間,百度又成功預(yù)測了八強(qiáng)和四強(qiáng)球隊(duì)。
不過季峰發(fā)現(xiàn),即便能夠掌握到人們在一條新聞上停留的時間長短,選擇股票還是沒有這么簡單?!氨╋L(fēng)科技連拉37個漲停,可能當(dāng)時是市場關(guān)注度最高的,但是僅憑這個指標(biāo)把它選進(jìn)來,可能就剛好高位接盤了;工商銀行在搜索行為中的絕對存量排名靠前,但是也難以被選入投資組合,因?yàn)樗墓蓛r表現(xiàn)大家也都能看出來,我們并非單純依靠一兩個指標(biāo)去選股。你怎么去處理這個數(shù)據(jù),怎么翻譯,是一個核心的問題?!睂τ诠蓟鸲?,價格異動、風(fēng)險偏高都會成為股票進(jìn)入投資組合的障礙。
數(shù)據(jù)的波動過大,甚至可能會被作為數(shù)據(jù)噪點(diǎn)處理,這就要對算法進(jìn)行進(jìn)一步調(diào)整。在市場的檢驗(yàn)中,模式識別、機(jī)器學(xué)習(xí),乃至人工調(diào)整都將不斷優(yōu)化既有的模型?!爸辽僖?jīng)歷一個完整的股市周期,我們才能比較完整地看到這種策略的有效性?!睆堒娬f,巴菲特有一個著名的比喻是,只有在退潮時,你才能看到誰在裸泳。
從這個意義上說,大數(shù)據(jù)是一個“長跑選手”,不僅需要長時間的實(shí)踐來檢驗(yàn)?zāi)P停哺鼉A向于做長期的理性投資。
不過牛市之下,帶有“大數(shù)據(jù)”字樣的指數(shù)基金一銷售起來都是“超短跑選手”。常常等不到第二個申購日,基金公司就不得不因滿額而宣布提前結(jié)束申購。
4月22日,由新浪財經(jīng)與南方基金合作的南方大數(shù)據(jù)100指數(shù)基金于發(fā)售當(dāng)天一日售罄,配售比為27.88%。4月10日,廣發(fā)百度百發(fā)100E類份額第二次打開申購,僅在百度金融中心的渠道內(nèi),4分鐘的申購金額就過億。這次申購只有5億元的額度,每位投資者限額30萬元,卻有20.32億元的資金申購,最終配售比例是24.6%。
陳彤對大數(shù)據(jù)分析的另一個擔(dān)憂是隱私,企業(yè)可在個人無法控制或不知曉的情況下,收集、存儲、分析和利用個人數(shù)據(jù)。他曾在一家著名的數(shù)據(jù)公司看到,對某個產(chǎn)品的評論可以直接顯示到發(fā)言的具體個人?!澳憧梢韵胂筮@是多么恐怖”,后來這家公司在更新版本時就調(diào)整為只顯示評論的性質(zhì)、相應(yīng)的比例,而不會具體到個人。從其官方網(wǎng)站上的信息源logo來看,騰訊微博和新浪微博已是這家著名公司的數(shù)據(jù)來源。
出于對商戶數(shù)據(jù)安全的考慮,螞蟻金服表示,雖然完全有能力,但是他們不會做某一個具體企業(yè)的數(shù)據(jù)。“全部經(jīng)過脫敏后使用,開放給外部的一些金融機(jī)構(gòu),”螞蟻金服維他命平臺的孔令西對南方周末記者說,“我們擁有數(shù)據(jù),但我們想要搭建的還是一個生態(tài),讓機(jī)構(gòu)入駐進(jìn)來,然后利用這些開放的數(shù)據(jù)開發(fā)出更多產(chǎn)品。”
依靠這些巨量的平臺入口,每一個用戶在貢獻(xiàn)著自己的行為數(shù)據(jù)。每分每秒,機(jī)器在不斷整理、分析,并以此為人們做出決策參考,甚至直接代替人們瞬時作出重大的投資決定。
虎嗅網(wǎng)的一篇專欄文章?lián)俗隽艘粋€大膽的想象,當(dāng)人工智能通過深度學(xué)習(xí)等技術(shù)能夠控制媒體寫作與輿論的時候,基于輿論的自動決策系統(tǒng)進(jìn)而敏感快速地作出相應(yīng)交易,然后輿論被人工智能進(jìn)一步加強(qiáng),自動決策系統(tǒng)再次啟動……進(jìn)入一個循環(huán)中。
其調(diào)侃地寫道,“A股市場能不能上10000點(diǎn)和人類一點(diǎn)關(guān)系都沒有……那時,資本市場已經(jīng)和整個人類都沒有關(guān)系了?!?/p>