張穎瑩,李艷紅(1.上海財經(jīng)大學 信息管理與工程學院,上?!?00433;2.上海市金融信息技術(shù)研究重點實驗室(上海財經(jīng)大學),上海 200433)
基于Web挖掘的新股破發(fā)原因探究及預測*
張穎瑩1,2,李艷紅1,2
(1.上海財經(jīng)大學信息管理與工程學院,上海200433;2.上海市金融信息技術(shù)研究重點實驗室(上海財經(jīng)大學),上海200433)
近年來我國創(chuàng)業(yè)板股市頻繁出現(xiàn)新股破發(fā)現(xiàn)象,暴露出創(chuàng)業(yè)板市場存在的風險問題?;谛袨榻鹑趯W及有限注意力理論,運用Web挖掘手段和機器學習算法分析股票論壇投資者的文本評論和搜索行為,建立投資者情緒和投資者關(guān)注指數(shù),對創(chuàng)業(yè)板新股破發(fā)進行定量化實證研究。結(jié)果表明,除了市場指標、發(fā)行指標、機構(gòu)參與指標和財務指標,從股票論壇和搜索引擎獲取的投資者情緒和關(guān)注也是影響創(chuàng)業(yè)板股票破發(fā)的重要因素,據(jù)此建立的新股破發(fā)預測模型平均準確率達90%。
Web挖掘;新股破發(fā);機器學習;支持向量機;樸素貝葉斯
創(chuàng)業(yè)板市場是專門為創(chuàng)業(yè)型企業(yè)融資上市的市場,與主板市場相比,門檻低、風險高。近年來,創(chuàng)業(yè)板迎來大面積新股破發(fā)的窘境,即新股的上市首日收盤價低于其發(fā)行價。破發(fā)的損失全部由廣大的投資者承擔,打擊二級市場投資者的信心,不利于新股流通;降低保薦人和承銷商信譽度和業(yè)務量;影響發(fā)行公司信譽,不利于其再融資。探究創(chuàng)業(yè)板新股破發(fā)成因并對其進行預測具有重大意義。
以往對新股破發(fā)問題的研究主要從傳統(tǒng)的財務指標和上市公司基本信息出發(fā),未能全面地解釋這一現(xiàn)象。互聯(lián)網(wǎng)上關(guān)于上市公司和股民觀點的大數(shù)據(jù)為探究新股破發(fā)成因帶來了新的思路。本文基于行為金融學和有限注意力理論,利用Web挖掘技術(shù)和機器學習算法,從股票論壇和搜索引擎爬取數(shù)據(jù)進行文本挖掘和情感分析。將建立的投資者情緒和關(guān)注指標與傳統(tǒng)的金融學指標相結(jié)合,全面探究創(chuàng)業(yè)板股票破發(fā)成因,建立預測模型。本文研究框架如圖1所示。實證表明,預測模型準確率達到90%以上,可用于對創(chuàng)業(yè)板股票市場行情的早期研判,有助于監(jiān)管部門提早采取引導措施,避免新股破發(fā)帶來的危害,推動創(chuàng)業(yè)板以及整個證券市場的協(xié)調(diào)發(fā)展。
對新股破發(fā)的影響因素,蔡春華認為影響破發(fā)最主要的3個因素是每股收益、發(fā)行價格和日換手率[1]。肖奇定性地從發(fā)行公司、政府、承銷商和投資者4個維度去探究新股破發(fā)的原因[2]。
在文本挖掘技術(shù)興起之前,對于投資者情緒的度量主要是使用金融市場中其他數(shù)據(jù)計算得到的間接代表投資者情感的指標,魯訓法選用“每周新開交易賬戶數(shù)”作為反映投資者情緒變化的代理指標[3]。
圖1 本文研究框架
有限注意力理論認為存在注意力配置的問題,投資者關(guān)注確實會影響其對信息的反應,進而影響決策。WYSOCKI P D發(fā)現(xiàn)發(fā)帖量能夠預測第二天的交易量與異常收益率[4]。
本文把市場因素、上市指標、機構(gòu)參與情況以及公司財務狀況與投資者情緒和關(guān)注相結(jié)合,建立起表1所示的指標體系。
表1 指標體系
3.1投資者情緒指數(shù)計算
本文以東方財富股吧作為數(shù)據(jù)源,爬取45支作為樣本的創(chuàng)業(yè)板個股上市前后10天的帖子共61 921條,并從中抽取了2 000條進行“積極”、“消極”和“中性”的人工情感標注。用查全率和查準率的綜合值f1來比較樸素貝葉斯(NB)和線性支持向量機(LinearSVC)等分類算法的效率,結(jié)果如圖2所示。最終確定1 500的特征維度下的支持向量機法作為最佳分類器。
3.1.1樂觀情緒指數(shù)
樂觀情緒指數(shù)計算公式為:
圖3 分類器準確率
3.1.2意見分歧指數(shù)
情緒的方差計算公式如下:
意見分歧指標可表示為:
3.2投資者關(guān)注指標計算
股票論壇某日發(fā)帖量可作為投資者關(guān)注的衡量指標,而搜索引擎也是中小投資者獲取信息的主要網(wǎng)絡渠道。百度在中國平均市場份額遠超其他搜索引擎,故選擇百度指數(shù)作為數(shù)據(jù)源。對每支個股都將股票名稱和股票代碼搜索強度加總來描述該股的綜合搜索強度。
4.1樣本個股選取及時間范圍確定
本文按照與當年上市的創(chuàng)業(yè)板新股總量成比例的原則選取了2011年1月25到2014年1月23日之間上市的45支創(chuàng)業(yè)板個股。
以股票的首發(fā)抑價率作為因變量來衡量創(chuàng)業(yè)板新股上市當日的破發(fā)程度,抑價率越高,破發(fā)的程度越低,計算公式如下:
4.2多元線性回歸
4.2.1OLS多元線性回歸和多重共線性檢驗
根據(jù)指標體系建立多元逐步線性回歸模型,消除模型的共線性和異方差性后,結(jié)果如表2所示。
4.2.2多元線性回歸結(jié)論
創(chuàng)業(yè)板指數(shù)代表的市場行情與新股抑價率成正比,說明市場行情好的時候股票不容易破發(fā)。而在發(fā)行指標中,市盈率、首發(fā)募集資金以及超募資金均與抑價率成反比,這體現(xiàn)了創(chuàng)業(yè)板新股“三高”問題是導致創(chuàng)業(yè)板破發(fā)的重要原因。限售股的比例與首發(fā)抑價率成正比,說明較高的機構(gòu)參與度往往可以降低股票的破發(fā)概率且影響力較大。此外公司本身的盈利情況和資產(chǎn)構(gòu)成也會影響其是否破發(fā)??梢园l(fā)現(xiàn)網(wǎng)絡變量是影響創(chuàng)業(yè)板破發(fā)的重要因素,首發(fā)前5~10天投資者越樂觀和關(guān)注度越高,股票破發(fā)的概率越小。而首發(fā)之后的5~10天投資者的情緒和關(guān)注對破發(fā)的影響大大降低,可能是這段時間內(nèi)投資者并沒有獲得更多的新消息。直到上市當天,投資者情緒和關(guān)注又會對首發(fā)抑價率產(chǎn)生正向影響。當投資者意見存在分歧時,市場的投機氛圍弱,股票破發(fā)的風險也會降低。
表2 多元逐步回歸結(jié)果
線性回歸模型中的顯著變量作為特征,以45只個股作為訓練集,并以另外20只新股作為測試集,分別以支持向量機(SVM)和樸素貝葉斯(NB)模型建立分類預測模型。采用十折交叉檢驗的方法,用查全率和查準率的綜合值f1作為評價模型準確率的指標。將預測模型與只用傳統(tǒng)金融學指標作為特征建立的分類模型進行對比,結(jié)果如表3所示。
表3 破發(fā)預測模型準確率對比?。▎挝唬海ィ?/p>
實證研究中模型擬合優(yōu)度達到93%,很好地解釋了創(chuàng)業(yè)板股票破發(fā)的成因。市場指標、發(fā)行指標、機構(gòu)參與指標、財務指標、投資者情緒和關(guān)注都是創(chuàng)業(yè)板破發(fā)的重要影響因素。據(jù)此建立的新股破發(fā)預測模型較傳統(tǒng)預測模型準確率從60%提升到90%以上。投資者情緒和關(guān)注本身是多因素的綜合反映,從這兩點入手來研究創(chuàng)業(yè)板股票破發(fā)問題,開辟了這一問題研究的新視角。
考慮了網(wǎng)絡信息后模型擬合優(yōu)度從57%提升到了93%,說明從網(wǎng)絡信息中獲取的投資者情緒和關(guān)注是影響創(chuàng)業(yè)板股票破發(fā)的重要因素?;赪eb挖掘的預測模型準確率超過90%,可為投資者決策提供參考,減少損失。
根據(jù)實證結(jié)論給監(jiān)管部門的建議如下:(1)創(chuàng)業(yè)板新股“三高”問題是導致創(chuàng)業(yè)板破發(fā)的重要原因,要完善創(chuàng)業(yè)板股票的發(fā)行和定價機制,增加獨立中介機構(gòu)的詢價權(quán)限,防止機構(gòu)為了自身利益報價過高;(2)創(chuàng)業(yè)板公司需強化信息披露,防止惡意隱瞞其財務和重要信息;(3)網(wǎng)絡已經(jīng)成為股市輿情的重要發(fā)源地,有關(guān)部門應完善對論壇、搜索引擎等網(wǎng)絡平臺的監(jiān)管,加強投資者教育,引導情緒,促進其理性投資。
[1]蔡春華.中國創(chuàng)業(yè)板上市公司破發(fā)影響因素實證分析[J].現(xiàn)代商業(yè),2013(8):43-44.
[2]肖奇.我國創(chuàng)業(yè)板新股破發(fā)原因探究[D].成都:西南財經(jīng)大學,2012.
[3]魯訓法,黎建強.中國股市指數(shù)與投資者情緒指數(shù)的相互關(guān)系[J].系統(tǒng)工程理論與實踐,2012(3):621-629.
[4]WYSOCKI P D.Cheap talk on the Web:the determinants of postings on stock message boards[J].University of Michigan Business School Working Paper,1998(98025).
Study on the reason and prediction for IPO underpricing in Chinese GEM based on Web mining technique
Zhang Yingying1,2,Li Yanhong1,2
(1.Department of Information Management and Engineering,Shanghai University of Finance and Economics,Shanghai 200433,China;2.Shanghai Key Laboratory of Financial Information Technology,Shanghai 200433,China)
In recent years,lots of new shares in GEM break on the first trading day,which shows the inefficiency of the IPO pricing in GEM.Based on behavioral finance and limited attention theory,we analyze investors′online review and search queries with Web mining technique,then do empirical study on the determinants for IPO pricing in Chinese GEM from the perspective of investors′sentiment and attention.The result shows that apart from traditional financial factors,investors′sentiment and attention indexes are also important factors influencing IPO underpricing.The accuracy of the prediction model reaches 90%.
Web mining;IPO underpricing;machine learning;support vector machine(SVM);na?ve Bayes(NB)
TP399
A
1674-7720(2015)10-0058-03
2015-01-18)
張穎瑩(1993-),通信作者,女,碩士研究生,主要研究方向:數(shù)據(jù)挖掘。E-mail:fjzhzhyy@163.com。
李艷紅(1974-),女,博士,副教授,主要研究方向:軟件工程。