李燕
【摘要】近幾年,互聯(lián)網(wǎng)金融文本情緒極性及強(qiáng)度分析成為投資者輿情研究領(lǐng)域較新的研究點(diǎn)。但金融文本信息是非結(jié)構(gòu)化信息,挖掘其中的輿情傾向及強(qiáng)度需要金融情緒詞典的支撐,因此構(gòu)建金融輿情情緒詞典是進(jìn)行互聯(lián)網(wǎng)金融文本輿情分析的一項(xiàng)相當(dāng)基礎(chǔ)且重要的工作。將互聯(lián)網(wǎng)眾包這一分布式解決復(fù)雜問(wèn)題的新模式引入到金融輿情語(yǔ)料標(biāo)注及輿情詞典構(gòu)建當(dāng)中,在此基礎(chǔ)上構(gòu)建了基于隸屬度函數(shù)特征參數(shù)相似度的金融情緒詞情感強(qiáng)度模糊推理方法,構(gòu)建模糊規(guī)則,進(jìn)行模糊推理。對(duì)投資者群體行為意向預(yù)測(cè)、投資者輿情模糊計(jì)算及情感模糊推理等問(wèn)題的研究提供研究基礎(chǔ)。
【關(guān)鍵詞】投資者情緒? 金融情緒詞典? 模糊推理
一、研究背景
隨著互聯(lián)網(wǎng)步入Web 3.0 時(shí)代,多種新興社會(huì)化媒體(如:博客、微博、論壇)興起,投資者可以通過(guò)這些平臺(tái)表達(dá)及傳播觀點(diǎn),互聯(lián)網(wǎng)中充斥著海量具有鮮明情緒傾向性的文本信息。社會(huì)化媒體中的文本情緒量化分析為行為金融學(xué)領(lǐng)域很多關(guān)鍵性問(wèn)題提供了愈加重要的研究方式和內(nèi)容,成為投資者情緒研究領(lǐng)域中新的研究點(diǎn)(Graziano,2011;Rees,2012;Chen,2013;Loughran 2013;Huang,2013;C Fu,2015;D Perez-Liston,2016;A Frugier, 2016;D Bathia,2016;T Renault,2107;E Kele?,2018)。但金融文本是非結(jié)構(gòu)化信息,挖掘其中的情緒傾向及強(qiáng)度需要面向機(jī)器的情緒詞典的支持,因此構(gòu)建金融情緒詞典是進(jìn)行金融文本情緒分析的一項(xiàng)相當(dāng)基礎(chǔ)且重要的工作。近年來(lái),情緒詞典的構(gòu)建及擴(kuò)展研究受到國(guó)內(nèi)外大量研究機(jī)構(gòu)及學(xué)者的重視,而專(zhuān)業(yè)領(lǐng)域情緒詞典的構(gòu)建工作是當(dāng)前該領(lǐng)域較新的研究點(diǎn)。在構(gòu)建情緒詞典的工作中,情緒詞的情感極性判定相對(duì)容易,而其情感強(qiáng)度量化是最近幾年文本情感分析領(lǐng)域的一個(gè)熱點(diǎn)和難點(diǎn)問(wèn)題。
對(duì)巨量語(yǔ)料的標(biāo)注,這是一個(gè)難點(diǎn)問(wèn)題。自動(dòng)化標(biāo)注需要成熟語(yǔ)義知識(shí)庫(kù)及大規(guī)模語(yǔ)料庫(kù)的支持,而目前金融專(zhuān)業(yè)領(lǐng)域并沒(méi)有成熟公認(rèn)的語(yǔ)義知識(shí)庫(kù)及語(yǔ)料庫(kù)。近幾年,互聯(lián)網(wǎng)眾包這一分布式解決復(fù)雜問(wèn)題的新模式逐漸興起,眾包迅速改變了海量數(shù)據(jù)的收集與處理模式,在海量數(shù)據(jù)語(yǔ)義標(biāo)注領(lǐng)域得到日益廣泛的應(yīng)用(Kittur,2008;Russel,2008;Sayeed,2011;Muhammadi,2015;NR Asheghi,2016;J Hu,2016;R Meng,2017;S Bougrine,2017)。論文探討了將互聯(lián)網(wǎng)眾包這一分布式解決復(fù)雜問(wèn)題的新模式引入到大規(guī)模金融情緒情感強(qiáng)度量化標(biāo)注,以人類(lèi)群體智慧與計(jì)算機(jī)技術(shù)相結(jié)合的方式來(lái)解決大規(guī)模情緒詞情感強(qiáng)度標(biāo)注的難題。每個(gè)個(gè)體即使是領(lǐng)域?qū)<?,都?huì)在知識(shí)及認(rèn)知能力上存在不足,再加上情緒詞情感語(yǔ)義強(qiáng)度的模糊本質(zhì),給每個(gè)情緒詞給出精確的情感強(qiáng)度值既不可行也不科學(xué),會(huì)丟失情感強(qiáng)度本身的大量信息。引入眾包技術(shù)到金融情緒詞情感量化標(biāo)注的研究中工作中,進(jìn)行技術(shù)方法創(chuàng)新,通過(guò)眾包可以利用群體知識(shí)來(lái)解決情感強(qiáng)度量化,獲得大量金融情緒詞情感強(qiáng)度的標(biāo)注數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含著金融情緒詞情感強(qiáng)度的知識(shí)信息,這些數(shù)據(jù)信息對(duì)金融情緒詞情感強(qiáng)度量化研究具有重大價(jià)值。
二、文獻(xiàn)綜述
眾包是指公司或機(jī)構(gòu)把過(guò)去由員工或少數(shù)專(zhuān)家執(zhí)行的工作任務(wù),以自由自愿或有償服務(wù)的形式外包給非特定的大眾網(wǎng)絡(luò)的做法(JeffHowe,2006)。近年來(lái),在《MIS Quarterly》、《Decision Support Systems》等國(guó)際重要期刊上相繼有相關(guān)的論文發(fā)表。眾包數(shù)據(jù)管理成為國(guó)際數(shù)據(jù)庫(kù)與數(shù)據(jù)挖掘領(lǐng)域新近發(fā)展起來(lái)的一個(gè)研究熱點(diǎn)(Kazemi L,2012;To H,2016;童詠昕,2017).近年來(lái),已有一些研究人員在國(guó)際數(shù)據(jù)庫(kù)與數(shù)據(jù)挖掘的頂級(jí)期刊和會(huì)議上對(duì)眾包數(shù)據(jù)管理技術(shù)的相關(guān)研究進(jìn)行了總結(jié)(Doan A,2011;Chen L,2015;Li GL,2016;Garcia-Molina H,2016;Chittilappilly AI,2016)。伴隨著web3.0 技術(shù)的出現(xiàn),各類(lèi)網(wǎng)絡(luò)媒體產(chǎn)生的海量數(shù)據(jù)中蘊(yùn)含著巨大的經(jīng)濟(jì)和社會(huì)價(jià)值,海量數(shù)據(jù)的采集、分析和使用已成為信息服務(wù)與科學(xué)研究的主要領(lǐng)域,尤其是語(yǔ)料標(biāo)注作為海量數(shù)據(jù)分析與利用的基礎(chǔ)性工作。通過(guò)對(duì)原始數(shù)據(jù)作標(biāo)注(文字的或符號(hào)的),使其不僅可以使人理解,也可以使機(jī)器理解。常見(jiàn)的語(yǔ)料標(biāo)注主要涵蓋詞義區(qū)分、內(nèi)容分類(lèi)、情緒極性、含義注釋、相關(guān)性判斷和信息抽取、圖像標(biāo)注等工作(戚欣,2011;宋鴻彥,2010;張玉芳,2011;陳昊等,2015)。丁宇等(2013)采用眾包方法構(gòu)建漢語(yǔ)語(yǔ)義相關(guān)性詞典。趙江華等(2017),對(duì)于半結(jié)構(gòu)化或非結(jié)構(gòu)化的大規(guī)??茖W(xué)數(shù)據(jù),難以通過(guò)計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)化處理,眾包成為有效處理手段。See L(2013)在提供有更多訓(xùn)練或評(píng)價(jià)反饋的情況下,眾包得到的數(shù)據(jù)結(jié)果比專(zhuān)家結(jié)果更高。童詠昕等(2017)眾包為傳統(tǒng)數(shù)據(jù)管理提供了一種通過(guò)匯聚群體智慧求解問(wèn)題的新模式,并成為當(dāng)前數(shù)據(jù)庫(kù)領(lǐng)域的研究熱點(diǎn)之一。眾包方式迅速改變了海量數(shù)據(jù)的收集與處理方式,也為訓(xùn)練機(jī)器學(xué)習(xí)算法提供了更好的訓(xùn)練樣本,在海量數(shù)據(jù)語(yǔ)料標(biāo)注領(lǐng)域得到了日益廣泛的應(yīng)用(Sayeed,2011;Brew,2010;Kittur,2008; Russel,2008;Muhammadi,2015;NR Asheghi,2016;J Hu,2016;R Meng,2017;S Bougrine,2017)。
三、金融情緒詞情感強(qiáng)度模糊量化及模糊推理的一個(gè)分析框架
(1)金融領(lǐng)域情緒詞庫(kù)建設(shè)。以金融博客、財(cái)經(jīng)網(wǎng)站專(zhuān)欄評(píng)論文章,財(cái)經(jīng)新聞、上市公司信息披露的評(píng)論文章,中國(guó)證券報(bào)、上海證券報(bào)和證券時(shí)報(bào)等媒體的金融文本信息作為金融情緒語(yǔ)料的原始來(lái)源。采用互聯(lián)網(wǎng)文本抓爬軟件、開(kāi)發(fā)Python語(yǔ)言互聯(lián)網(wǎng)文本自動(dòng)獲取程序,在抓爬完成之后,對(duì)文本進(jìn)行建模,采取基于Lucene建模。中文分詞軟件采用中科院開(kāi)發(fā)的ICTCLAS、哈工大的自然語(yǔ)言處理平臺(tái)IRLAS及N-gram 分詞模型。股票的價(jià)格會(huì)影響到投資者情緒,從網(wǎng)上獲取股價(jià)數(shù)據(jù),對(duì)股票價(jià)格數(shù)據(jù)進(jìn)行符號(hào)化處理,將定量的股票價(jià)格數(shù)據(jù)轉(zhuǎn)換為不同市場(chǎng)行情的定性數(shù)據(jù),將不同市場(chǎng)行情與文本進(jìn)行匹配,進(jìn)行金融情緒詞情緒極性分類(lèi)。
(2)金融情緒詞情感強(qiáng)度模糊量化及情感強(qiáng)度模糊計(jì)算算法。當(dāng)前對(duì)文本情緒分析大多使用經(jīng)典數(shù)學(xué)(清晰數(shù)學(xué))的方法進(jìn)行量化計(jì)算,這種量化方法雖然計(jì)算方便,但忽視了自然語(yǔ)言的模糊本質(zhì),及更人類(lèi)情感和心理的模糊本質(zhì)屬性。依據(jù)模糊集合理論及模糊邏輯作為金融情緒詞情感強(qiáng)度眾包標(biāo)注的數(shù)學(xué)基礎(chǔ)。首先結(jié)合現(xiàn)有的金融情緒分類(lèi)和金融評(píng)論的情緒語(yǔ)義特點(diǎn),構(gòu)建投資者多情緒表達(dá)的分類(lèi)體系,并通過(guò)互聯(lián)網(wǎng)眾包獲得海量情緒詞情感強(qiáng)度標(biāo)注數(shù)據(jù),在此基礎(chǔ)上構(gòu)建金融情緒詞匯模糊本體庫(kù),對(duì)金融情緒詞情感強(qiáng)度采用模糊隸屬函數(shù)的度量方法。之后使用多情緒模糊計(jì)算算法,基于模糊集理論中的修飾詞含糊語(yǔ)言算子,構(gòu)建金融情緒詞多情感模糊計(jì)算算法。針對(duì)不同類(lèi)型的情緒詞,分類(lèi)設(shè)計(jì)相應(yīng)的情緒詞極性強(qiáng)度量化方法。把金融情緒詞分成:基礎(chǔ)金融情緒詞,即不含程度修飾詞、頻度修飾詞、否定詞且字?jǐn)?shù)不超過(guò)兩個(gè)的情緒詞。復(fù)合金融情緒詞,即包含修飾詞或否定詞的情緒詞或字?jǐn)?shù)超過(guò)兩個(gè)的情緒詞。引入高斯分布與隨機(jī)函數(shù),盡管每個(gè)眾包工作者標(biāo)注得出的情感強(qiáng)度值可能不同,但存在一個(gè)最可能的區(qū)間,修正了僅依賴(lài)統(tǒng)計(jì)方法得出精確情感強(qiáng)度值所產(chǎn)生的誤差及情感強(qiáng)度值信息的丟失,使金融情緒情感強(qiáng)度標(biāo)注結(jié)果值體現(xiàn)了情緒詞語(yǔ)義情感模糊性的本質(zhì)。復(fù)合金融情緒詞的結(jié)構(gòu)較復(fù)雜,一般由基礎(chǔ)金融情緒詞、程度或頻度修飾詞、否定詞等多類(lèi)詞匯組合而成。情感強(qiáng)度量化工作有一定難度,基本思想是利用Sigmoid 函數(shù)的反函數(shù),將基礎(chǔ)金融情緒詞的情感強(qiáng)度值映射為一個(gè)極大值,分析修飾詞或否定詞的對(duì)其情感強(qiáng)度的影響,使用極大值完成復(fù)合金融情緒詞的情感強(qiáng)度量化。最后再使用Sigmoid 函數(shù)將此極大值映射到原來(lái)的金融情緒詞情感強(qiáng)度值區(qū)間[-1,1]上。
(3)基于隸屬度函數(shù)特征參數(shù)相似度的金融情緒詞情感強(qiáng)度模糊推理方法。從隸屬函數(shù)特征參數(shù)相似性的視角出發(fā),使用一組離散的特征節(jié)點(diǎn)數(shù)據(jù)集刻畫(huà)各眾包標(biāo)注者所提供的金融情緒詞情感強(qiáng)度隸屬函數(shù)的主要圖形特征,構(gòu)建確定特征節(jié)數(shù)據(jù)的原則。依據(jù)各模糊集的隸屬度函數(shù)的特征數(shù)據(jù)節(jié)點(diǎn)和模糊推理理論構(gòu)造金融情緒詞情感強(qiáng)度模糊推理方法。推理規(guī)則是前件模糊隸屬函數(shù)與通過(guò)眾包標(biāo)注獲取的隸屬函數(shù)數(shù)據(jù)具有相同的特征節(jié)點(diǎn)數(shù)據(jù)集則所對(duì)應(yīng)分割點(diǎn)的隸屬函數(shù)具有相似的圖形。當(dāng)各眾包標(biāo)注者給出的金融情緒詞情感強(qiáng)度的模糊隸屬度函數(shù)為三角形隸屬度函數(shù),則可以取其左右端點(diǎn)及峰點(diǎn),用這三個(gè)節(jié)點(diǎn)信息刻畫(huà)其主要圖形特征。當(dāng)各眾包標(biāo)注者給出的金融情緒詞情感強(qiáng)度的模糊隸屬度函數(shù)為梯形隸屬度函數(shù)時(shí),可以取其左右端點(diǎn)及峰點(diǎn)的上、下確界,用這三個(gè)節(jié)點(diǎn)信息刻畫(huà)其主要特征。當(dāng)各眾包標(biāo)注者給出的金融情緒詞情感強(qiáng)度的模糊隸屬度函數(shù)不是同一類(lèi)型或者隸屬函數(shù)圖形沒(méi)有明顯特征時(shí),可以把隸屬度函數(shù)峰點(diǎn)的上、下確界及支集的上、下確界,分別進(jìn)行有限分割,把眾包標(biāo)注者所提供的金融情緒詞情感強(qiáng)度的模糊隸屬度函數(shù)在各自的兩個(gè)區(qū)間上具有相同的分割點(diǎn)個(gè)數(shù)。這些通過(guò)眾包標(biāo)注所獲得的承載著金融情緒詞情感強(qiáng)度值隸屬度函數(shù)關(guān)鍵信息的分割點(diǎn)構(gòu)成了最終金融情緒詞情感強(qiáng)度值隸屬函數(shù)的一組特征節(jié)點(diǎn)。在此基礎(chǔ)上便可以構(gòu)造出所求金融情緒詞情感強(qiáng)度的模糊隸屬度函數(shù)特征節(jié)點(diǎn)數(shù)據(jù)為未知數(shù)的方程組,便可以得出所求所求金融情緒詞情感強(qiáng)度的模糊隸屬度函數(shù)的一組特征數(shù)據(jù)點(diǎn)集。最后使用折線或者光滑曲線各特征數(shù)據(jù)點(diǎn)連接起來(lái),就可求出所求金融情緒詞情感強(qiáng)度的模糊隸屬度函數(shù)。
(4)金融情緒詞情感強(qiáng)度眾包標(biāo)注的質(zhì)量管理模型研究。參與金融情緒詞情感強(qiáng)度眾包標(biāo)注的工作者為數(shù)量巨大的非特定互聯(lián)網(wǎng)人員,受標(biāo)注者專(zhuān)業(yè)背景、工作能力、工作態(tài)度及工作動(dòng)機(jī)等因素影響,導(dǎo)致收集到的標(biāo)注結(jié)果可能存在噪聲甚至錯(cuò)誤,使用金融情緒詞情感強(qiáng)度模糊量化標(biāo)注方法,并不需要眾包標(biāo)注者給出精確的值,可以允許有一定標(biāo)注誤差,但標(biāo)注噪音還是需要控制,噪音會(huì)使金融情緒詞情感強(qiáng)度模糊推理出錯(cuò)誤結(jié)果,因此對(duì)標(biāo)注質(zhì)量的控制是一個(gè)關(guān)鍵問(wèn)題,構(gòu)建金融情緒詞情感強(qiáng)度眾包標(biāo)注的任務(wù)管理模型:①標(biāo)注工作者的動(dòng)態(tài)選擇方法;②標(biāo)注者可信度統(tǒng)計(jì)測(cè)量模型構(gòu)建。統(tǒng)計(jì)金融情緒詞情感強(qiáng)度眾包標(biāo)注工作者在眾包測(cè)試環(huán)節(jié)中的表現(xiàn),給出量化的可信度值,檢測(cè)標(biāo)注者是否具備金融領(lǐng)域情緒語(yǔ)料標(biāo)注的專(zhuān)業(yè)能力。③標(biāo)注質(zhì)量評(píng)估模型。構(gòu)建金融情緒詞情感強(qiáng)度眾包標(biāo)注者間情感強(qiáng)度標(biāo)注結(jié)果的一致性檢驗(yàn)?zāi)P停?jì)算不同類(lèi)型標(biāo)注者之間情感強(qiáng)度標(biāo)注結(jié)果的一致性,檢測(cè)出一致類(lèi)型惡意金融情緒詞情感強(qiáng)度眾包標(biāo)注者的標(biāo)注結(jié)果。
參考文獻(xiàn):
[1]伍燕然, 韓立巖.不完全理性、投資者情緒與封閉式基金之謎[J]. 經(jīng)濟(jì)研究,2007(03): 117-129.
[2]徐琳宏,林鴻飛,楊志豪. 基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007(1):96-100.
[3]陳其安, 朱敏,賴(lài)琴云. 基于投資者情緒的投資組合模型研究[J].中國(guó)管理科學(xué),2012(06):47-56.
[4]丁宇,車(chē)萬(wàn)翔,劉挺,張梅山. 基于眾包的詞匯聯(lián)想網(wǎng)絡(luò)的獲取和分析[J].中文信息學(xué)報(bào), 2013(05): 100-106.
[5]高大良, 劉志峰, 楊曉光. 投資者情緒、平均相關(guān)性與股市收益[J].中國(guó)管理科學(xué),2015,23(2): 10-20.
基金項(xiàng)目:教育部人文社會(huì)科學(xué)基金青年項(xiàng)目(16YJC790052)、湖南省哲學(xué)社會(huì)科學(xué)基金項(xiàng)目(14YBA306)資助。