• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于互聯(lián)網(wǎng)文本情感分析的消費情感指數(shù)構(gòu)建

      2018-08-15 12:44:12朱述政喻燕君
      統(tǒng)計與信息論壇 2018年8期
      關(guān)鍵詞:信心消費者文本

      劉 苗,李 蔚,朱述政,喻燕君,劉 揚,紀 宏

      (1.中央財經(jīng)大學 統(tǒng)計與數(shù)學學院,北京 100081;2.首都經(jīng)濟貿(mào)易大學 統(tǒng)計學院,北京 100081)

      一、引 言

      20世紀30年代,凱恩斯建立消費函數(shù)理論,奠定了消費者行為研究的理論基礎(chǔ),此后,消費者預期在消費總量等宏觀經(jīng)濟指標中的先行性被大量理論和實證研究證明。消費者信心指數(shù)(Consumer Confidence Index,簡稱 CCI)作為反映消費信心強弱的指標,綜合反映并量化消費者對當前經(jīng)濟形勢、就業(yè)狀況、物價水平、生活狀況、購房和投資等方面的看法和預期,是消費者預期的重要度量方法。20世紀40年代,美國密歇根大學首先提出消費者信心指數(shù)的概念,創(chuàng)立了密歇根消費者信心指數(shù)(MCSI),成為分析和預測美國宏觀經(jīng)濟的重要先行指標。隨后,歐美和亞洲的一些發(fā)達國家相繼編制了本國的消費者信心指數(shù),如英國、法國、日本等。1997年,中國國家統(tǒng)計局景氣監(jiān)測中心開始編制中國消費者信心指數(shù),該指數(shù)以計算機輔助電話訪問的方式進行調(diào)查,按月公布指數(shù),每季度發(fā)布一次《中國消費者信心監(jiān)測報告》。2009年,中央財經(jīng)大學、首都經(jīng)濟貿(mào)易大學、香港城市大學、澳門科技大學以及臺北輔仁大學5所高校聯(lián)合發(fā)起并編制兩岸暨港澳消費者信心指數(shù)①即原“兩岸四地消費者信心指數(shù)”。2017年第4季度起修訂了指數(shù)名稱。(China Consumer Confidence Index,簡稱CCCI),CCCI主要采用電話調(diào)查、網(wǎng)絡(luò)調(diào)查等方法展開。截止目前,CCCI累計發(fā)布30余次,受到了社會和媒體廣泛關(guān)注。隨著各機構(gòu)消費者信心指數(shù)的持續(xù)發(fā)布,消費者信心指數(shù)的作用和影響力不斷增強,成為國家宏觀經(jīng)濟決策和相關(guān)行業(yè)規(guī)范制定的重要依據(jù)。

      在兩岸暨港澳消費者信心指數(shù)調(diào)查研究的過程中,研究團隊發(fā)現(xiàn)一些問題。如:電話調(diào)查的樣本在年齡等分布上呈現(xiàn)明顯的左偏趨勢(中老年受訪者較多),網(wǎng)絡(luò)調(diào)查對象的回答質(zhì)量很難控制等。因此,研究團隊一方面加強了在調(diào)查方案設(shè)計、調(diào)查方案實施中的質(zhì)量控制,另一方面嘗試大數(shù)據(jù)挖掘方法對問題進行新的詮釋。本文從網(wǎng)絡(luò)文本數(shù)據(jù)角度出發(fā),嘗試找到網(wǎng)絡(luò)文本中反映的消費者態(tài)度和信心,并首次提出消費者情感指數(shù)概念,用以綜合衡量網(wǎng)絡(luò)文本中消費者的信心狀況。用該情感指數(shù)作為消費者信心指數(shù)的有力支撐,期望從多維度、多視角更全面地刻畫消費者信心。為了保證研究的連貫性和可比性,消費情感指數(shù)的構(gòu)建延續(xù)消費者信心指數(shù)構(gòu)建的6個維度。從經(jīng)濟發(fā)展、就業(yè)狀況、物價水平、生活狀況、購房和投資6方面出發(fā),收集自2011年至2017年每季度6個相關(guān)主題的互聯(lián)網(wǎng)新聞文本,訓練文本模型,標定新聞文本情感標簽,并用積極、中性或消極情感標簽數(shù)合成該季度消費情感指數(shù),將所得結(jié)果與傳統(tǒng)方式計算的消費者信心指數(shù)進行比較,探索消費情感指數(shù)與消費者信心指數(shù)之間的關(guān)系。

      二、文獻綜述

      (一)傳統(tǒng)消費者信心指數(shù)研究

      密歇根大學調(diào)查與研究中心首先提出了消費者信心指數(shù)概念。1978年以后,密歇根大學消費者信心指數(shù)改為月度調(diào)查并按月發(fā)布,采用電話調(diào)查的方式,每月對超過500名成年人進行訪問,收集有關(guān)消費者信心、當前個人財務(wù)狀況、國家經(jīng)濟狀況以及預期個人財務(wù)狀況、國家經(jīng)濟狀況的看法,通過對肯定及否定答案計數(shù),用所得數(shù)據(jù)計算消費者信心指數(shù)。信心指數(shù)取值范圍在0到200之間,0表示消費者最沒有信心,100表示中立,200表示最有信心。0~100和100~200兩個區(qū)間分別表示消費者信心的消極和積極狀態(tài)。分值越高表示消費者對當前及未來市場越樂觀。消費占美國國內(nèi)生產(chǎn)總值的三分之二,因此,消費信心指數(shù)研究對美國經(jīng)濟有重要影響。除了作為反映市場預期的先行指標,密歇根大學消費者信心指數(shù)能通過與市場預期的比較影響美元,進而影響市場。消費者信心指數(shù)的研究也隨之推廣開來,一些國家如英國、加拿大、日本等開始編制本國的消費者信心指數(shù)。

      國家統(tǒng)計局景氣監(jiān)測中心于1997年12月開始研究編制中國的消費者信心指數(shù)。該指數(shù)編制參考了國際上消費者信心指數(shù)的編制方式,主要分為現(xiàn)狀指數(shù)和預期指數(shù)兩個部分。但在具體編制方式以及預期時間的選擇上有所不同。在調(diào)查方式上采用問卷調(diào)查的方式,具體由派員面訪、郵寄訪問及電話訪問構(gòu)成。由于面訪難度和成本增加,這種訪問方式在收集數(shù)據(jù)的效率和數(shù)據(jù)的質(zhì)量上都難以保證,因此由計算機輔助電話訪問(CATI)的問卷調(diào)查方式逐步被推廣,成為獲取數(shù)據(jù)的主要途徑。

      兩岸暨港澳消費者信心指數(shù)在編制方法上,重點參考了密歇根大學和國家統(tǒng)計局的指數(shù)編制方法。團隊成員結(jié)合內(nèi)地及港澳臺情況對兩岸暨港澳消費者信心指數(shù)進行了分析,調(diào)查中采用電話調(diào)查與網(wǎng)絡(luò)問卷調(diào)查相結(jié)合的方式[1]。調(diào)查內(nèi)容涵蓋消費者對經(jīng)濟形勢、就業(yè)狀況、物價水平、生活狀況、購房和投資6個方面的現(xiàn)狀滿意程度及未來3個月預期情況,每個分指數(shù)分為現(xiàn)狀指數(shù)與預期指數(shù),6項分指數(shù)均由現(xiàn)狀指數(shù)和預期指數(shù)加權(quán)構(gòu)成,共同反映并合成總指數(shù)。調(diào)查方式為計算機輔助電話訪問(CATI)和網(wǎng)絡(luò)調(diào)查,每季度發(fā)布一次。

      表1 消費者信心指數(shù)研究對照表

      傳統(tǒng)的消費者信心指數(shù)構(gòu)建主要依賴于問卷調(diào)查的形式,調(diào)查內(nèi)容涵蓋反映消費者消費信心的6個方面。調(diào)查對象涵蓋不同年齡、不同職業(yè)、不同收入的人群,調(diào)查結(jié)果有重要參考意義,但調(diào)查方式仍存在一定局限。例如,電話調(diào)查和網(wǎng)絡(luò)調(diào)查的拒訪率逐年增高,調(diào)查人群有偏等。這都給信心指數(shù)的編制帶來了一定的困難。近年來,隨著互聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展,網(wǎng)絡(luò)媒體普及,人們利用新媒體獲取信息、發(fā)表觀點的意愿不斷增強,網(wǎng)絡(luò)新聞成為消費者觀點和市場趨勢的風向標,起到了一定的引導作用,因此,本文希望利用網(wǎng)絡(luò)新聞文本構(gòu)造消費情感指數(shù),綜合反映媒體和輿論對市場以及消費者消費信心的影響。

      (二)基于互聯(lián)網(wǎng)大數(shù)據(jù)的消費者信心指數(shù)研究

      相較于傳統(tǒng)消費者信心指數(shù)數(shù)據(jù)收集方法,互聯(lián)網(wǎng)搜算數(shù)據(jù)獲取更加快捷,數(shù)據(jù)量可觀,可以保證數(shù)據(jù)獲取效率及數(shù)據(jù)質(zhì)量。Nicola等采用Google搜索的熱度變化來構(gòu)造美國消費者信心指數(shù),該研究認為搜索量反映需求變化,而需求變化反映消費者的購買力,從而能替代消費者信心指數(shù)[2]。同時,本文發(fā)現(xiàn)該指數(shù)與密歇根大學消費者信心指數(shù)高度相關(guān),且趨勢領(lǐng)先了3個季度。Dees等用數(shù)據(jù)驗證了美國和歐洲一些國家利用消費者信心指數(shù)來預測消費支出的合理性[3]。Gurgur等在 2016年通過Google趨勢提供的網(wǎng)絡(luò)搜索數(shù)據(jù)構(gòu)造了土耳其消費者信心指數(shù),構(gòu)造的基于谷歌的指數(shù)(GBI)與官方發(fā)布的消費者信心指數(shù)高度相關(guān),且在短期和長期趨勢上均對消費者信心指數(shù)有預期作用[4];Rawley等在密歇根消費者信心指數(shù)研究的基礎(chǔ)上,通過“Recession”等詞的谷歌搜索量變化來代替?zhèn)鹘y(tǒng)問卷調(diào)查的方式,認為相關(guān)詞的搜索量代表了消費者對市場信心的反應(yīng)以及對未來經(jīng)濟的預期[5]。結(jié)果顯示這些詞的搜索量與失業(yè)率、股指等指數(shù)高度相關(guān)。孫毅等通過網(wǎng)絡(luò)搜索數(shù)據(jù)對消費者信心指數(shù)進行構(gòu)建,并發(fā)現(xiàn)基于互聯(lián)網(wǎng)搜索行為的消費者信心指數(shù)領(lǐng)先經(jīng)濟景氣指數(shù)6個月[6]。劉偉江等利用谷歌網(wǎng)絡(luò)搜索數(shù)據(jù),采用時差相關(guān)分析法確定與消費者信心有關(guān)的網(wǎng)絡(luò)搜索關(guān)鍵詞的相關(guān)系數(shù)和領(lǐng)先階數(shù),并合成了消費者預期搜索指數(shù)和消費者滿意搜索指數(shù),研究表明,網(wǎng)絡(luò)搜索數(shù)據(jù)與消費者信心指數(shù)之間具有顯著相關(guān)關(guān)系[7]。本文參考了該研究中搜索關(guān)鍵詞設(shè)計。

      袁銘利用購物網(wǎng)站用戶搜索量數(shù)據(jù)對CPI進行了分析和預測。在合理選擇關(guān)鍵詞以及對數(shù)據(jù)進行季節(jié)調(diào)整和假日處理的基礎(chǔ)上建立全國與城鎮(zhèn)CPI的及時預測模型[8]。實證研究表明,搜索變量與CPI具有顯著的因果關(guān)系。本文用文本挖掘方法從互聯(lián)網(wǎng)文本本身的情感傾向出發(fā),以文本的情感分析為計算基礎(chǔ),構(gòu)建消費情感指數(shù)。

      以上研究結(jié)果一致說明,基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的消費者信心指數(shù)預測,具備消費者行為理論的基礎(chǔ),此外基于搜索研究的方法可提高預測的效率,滿足更高的時效性要求。本文基于互聯(lián)網(wǎng)新聞文本本身的情感分析,能夠從互聯(lián)網(wǎng)新聞文本直接或間接獲得消費者的主觀感受,再通過文本情感分析將文本數(shù)據(jù)轉(zhuǎn)化為情感指標,對消費者信心指數(shù)進行預測。文本情感分析亦稱為意見挖掘,屬于自然語言處理的一個分支,是指對包含用戶的觀點、喜好、情感等的主觀性文本進行分析、處理、歸納和推理的過程。在商品和網(wǎng)絡(luò)新聞監(jiān)控、信息預測等領(lǐng)域有巨大的應(yīng)用價值。

      利用文本情感分析構(gòu)建消費情感指數(shù),目前主要采用基于機器學習的研究方法,其準確度受到文本表示、降維方法、文本分類方法等多方面的制約。Deerwester等提出了潛語義分析的方法,在文本降維及文本表示上提升了文本分類的效果[9]。Lee等提出了非負矩陣分解方法,在文本和圖像分類領(lǐng)域取得了較大的進展[10]。本文也利用了該方法進行文本的處理。Pang等最早使用樸素貝葉斯和支持向量機等機器學習模型對電影評論文本進行情感識別[11]。Kimitaka等提出一種集支持向量機、最大信息熵和score的多分類器分類方法,將3種方法單獨使用的輸出結(jié)果作為支持向量機新的特征變量進行分類,結(jié)果要優(yōu)于其他的方法[12]。梁軍和何炎祥等人基于多層神經(jīng)網(wǎng)絡(luò)架構(gòu)分析微博文本的情感傾向,利用遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等得到較高的分類和預測精度[13-14]。通過上述多項情感分類算法的比較研究,發(fā)現(xiàn)采用支持向量機和深度神經(jīng)網(wǎng)絡(luò)等算法對文本的情感極性分類表現(xiàn)很好。

      以上研究對本研究的開展起到了重要的啟示作用。在數(shù)據(jù)收集方面,本文首先獲得大量網(wǎng)頁新聞文本,保證了搜索數(shù)據(jù)的公正性、客觀性、高效性;在指數(shù)測算方面,同時考慮互聯(lián)網(wǎng)搜索量數(shù)據(jù)及互聯(lián)網(wǎng)新聞文本數(shù)據(jù),數(shù)據(jù)類型不但有定性數(shù)據(jù),還有數(shù)值變量輔助;在情感分析方面,本文首次采用情感分析法構(gòu)建指數(shù),并結(jié)合以往研究中表現(xiàn)較好的機器學習算法進行對比研究,并利用深度學習算法進行深入挖掘。本文在充分吸收前人研究成果的同時,在消費情感指數(shù)的構(gòu)建方面進行了大膽的探索。

      三、消費情感指數(shù)建立

      消費者信心指數(shù)主要體現(xiàn)消費者對于經(jīng)濟發(fā)展、就業(yè)狀況、物價水平、生活狀況、購房和投資6方面的信心情況。本文保留傳統(tǒng)消費者信心指數(shù)構(gòu)建的6個維度,搜集反映6個維度情感情況的互聯(lián)網(wǎng)新聞文本,利用文本情感分析方法對文本的情感傾向進行判斷,構(gòu)建基于深度學習框架的深度神經(jīng)網(wǎng)絡(luò)模型,得到互聯(lián)網(wǎng)新聞文本的情感標簽,進而得到6個分指數(shù)并合成總指數(shù),然后用該指數(shù)作為以網(wǎng)民為代表的消費者信心的衡量值。

      (一)互聯(lián)網(wǎng)新聞文本源數(shù)據(jù)的獲取

      互聯(lián)網(wǎng)新聞文本數(shù)量巨大,首先要篩選能夠反映消費者信心6個維度的新聞文本。在項目開展的幾年中,項目組嘗試抓取了不同網(wǎng)頁結(jié)構(gòu)的文本。2015年,團隊抓取國內(nèi)權(quán)威媒體機構(gòu)、權(quán)威學者的相關(guān)主題,例如新華網(wǎng)、人民日報等,但是發(fā)現(xiàn)這些文本中體現(xiàn)的消費傾向(用詞謹慎,態(tài)度很難用計算機有效評估)和消費觀點差異(中性、積極偏多,消極較少)并不明顯。尤其是像經(jīng)濟發(fā)展分指數(shù),得到的結(jié)果往往并不能很好地反映消費者個體間的態(tài)度差異。此外這種類型的文本獲取渠道,需要對6個主題的權(quán)威媒體發(fā)布、6個主題方面的專家進行分別統(tǒng)計,然后再逐一進行數(shù)據(jù)抓取方案的設(shè)計和實施。給研究的初期工作帶來很大的麻煩。2016年,抓取了知名論壇貼吧中的文本數(shù)據(jù),從文本情感分析的角度來看,計算機可以更加準確地估計和預測文本的態(tài)度傾向,而且從論壇和貼吧的數(shù)據(jù)來看,消極態(tài)度的文本類型更多,可以更加全面地反映消費者的主觀感受。但是這種方法更加適合特定的分指數(shù),如投資分指數(shù),在經(jīng)濟發(fā)展分指數(shù)上很難套用這種分析模式。最后,通過梳理相關(guān)文獻,結(jié)合專家經(jīng)驗和搜索量等信息確定最終的搜索關(guān)鍵詞。然后利用搜索引擎確定互聯(lián)網(wǎng)文本來源,通過Python編寫爬蟲程序,按照設(shè)定好的網(wǎng)頁規(guī)則,自動從網(wǎng)絡(luò)上獲取文本信息。

      本文中數(shù)據(jù)獲取分為搜索引擎確定、關(guān)鍵詞選取和文本爬取3個部分,具體過程如下:通過比較中國大陸地區(qū)各家搜索引擎的市場占比,本文選用占據(jù)市場份額79.58%①數(shù)據(jù)來源于《中國搜索引擎市場季度監(jiān)測分析2017年第1季度》。的百度作為研究中的搜索引擎。同時設(shè)立關(guān)鍵詞選取標準如下:

      (1)關(guān)鍵詞搜索得到的文本內(nèi)容與情感指數(shù)高度相關(guān)。

      (2)所得文本有較清晰的情感區(qū)分度。

      (3)搜索結(jié)果中的無關(guān)內(nèi)容如廣告和娛樂新聞,占比應(yīng)該在合理范圍內(nèi)。

      基于上述標準,經(jīng)過多次嘗試選取消費情感6個方面關(guān)鍵詞見表2。

      表2 關(guān)鍵詞表

      在關(guān)鍵詞選擇步驟,結(jié)合消費研究和專家經(jīng)驗,初步擬定6個分指數(shù)的關(guān)鍵詞表之后,我們在百度上進行測試,發(fā)現(xiàn)很多關(guān)鍵詞對應(yīng)的網(wǎng)頁搜索結(jié)果為商業(yè)廣告,如“購房”和“房地產(chǎn)”等詞,搜索結(jié)果多為樓盤或者房地產(chǎn)中介的租房或賣方鏈接。因此刪補了部分詞表,這里不一一列出。關(guān)鍵詞表確定后,按照搜索量對相關(guān)新聞進行排序,即可獲得文本數(shù)據(jù)②本文通過Python中的Beautiful Soup4模塊和re模塊進行數(shù)據(jù)抓取。抓取過程中根據(jù)時間限定不同設(shè)置不同URL,且要設(shè)置cookie記錄和相鄰兩次抓取的間隔時間,以模擬人的訪問,便于提高數(shù)據(jù)抓取效率。。當今社會網(wǎng)民閱讀習慣日漸趨于快餐式,新聞標題的關(guān)注度和輿論導向性遠高于新聞文本內(nèi)容本身,出現(xiàn)了“標題黨”等現(xiàn)象,因此,本研究在抓取過程中突出了對新聞標題的分析。另一方面,在后續(xù)技術(shù)分析中,新聞標題③在前期的測試研究中發(fā)現(xiàn),在分指數(shù)的情感標簽預測中,使用新聞全文和使用標題得到的結(jié)果差異非常小。出于其對吸引力和明確性的高要求,往往比正文內(nèi)容有更明確的情感傾向,可以增加研究中情感分類的準確性,有利于指數(shù)構(gòu)建。本研究中2011年至2017年情感指數(shù)6方面數(shù)據(jù)信息見表3。

      (二)互聯(lián)網(wǎng)新聞文本預處理

      由于抓取到的源數(shù)據(jù)是摻雜著標點、特殊符號、及對文本含義無意義的語助詞和語氣詞的完整中文語句,不能直接被計算機理解,在做分析前需進行文本預處理。文本預處理主要分為分詞、刪除停用詞和文本向量化處理。

      文本分詞目前常用算法主要分三類:一是基于詞典匹配的方法,如正向最大匹配法、逆向最大匹配法等。這些方法通過文本與詞典一一匹配來識別詞語;二是基于統(tǒng)計的分詞算法,常用算法有隱馬爾可夫(HMM)模型,即基于動態(tài)規(guī)劃去尋找最大概率的分詞路徑;三是基于理解的分詞方法,該方法要用到句法分析、語義分析的技術(shù),試圖通過讓機器理解語言含義來進行分詞,實現(xiàn)更為復雜。本研究中采用基于統(tǒng)計的分詞方法④通過Python中jieba分詞包處理。,通過隱馬爾可夫(HMM)模型的Viterbi算法得到分詞結(jié)果。

      刪除停用詞指過濾文本中的特殊字符和對文本含義無意義的詞語。例如“的”、“啊”一類的語氣語助詞,這些詞對文本情感傾向判定無意義,卻在文本向量表示時由于占據(jù)較大比重而對后續(xù)分析造成干擾,降低情感分類的準確性。另一方面,抓取的新聞標題除標題主體內(nèi)容外,還附帶發(fā)布網(wǎng)站的名稱,如“新浪財經(jīng)”等,這同樣會對標題內(nèi)容分析造成干擾,需要通過停詞表篩除。同時,根據(jù)分詞文本主題不同,停詞表需要進行針對性地修改來提高準確性。

      因此,研究中用到的停詞表在《哈工大停用詞表》的基礎(chǔ)上,根據(jù)6個不同方面文本的具體需求進行修改。文本分詞去除了常見的停用詞。本研究中文本向量化采用one-hot-representation,用稀疏方式儲存詞-文檔矩陣。矩陣維度為t×n,t代表文本個數(shù),n代表詞語個數(shù)。用詞-文檔稀疏矩陣直接進行分類是不可取的,由于維度過高及矩陣過于稀疏將導致分類精度低,因此向量需先降維。矩陣降維采用非負矩陣分解(NMF)的方法,分解后應(yīng)用于分類算法的文檔向量也非負,因此可以用非負矩陣分解(NMF)方法降維。經(jīng)過NMF分解,文檔矩陣作為原始詞-文檔向量的替代應(yīng)用到分類算法。

      (三)互聯(lián)網(wǎng)文本情感分類

      經(jīng)過降維處理后文本向量可用于后續(xù)分類處理。要計算每季度的消費情感指數(shù),我們需要將每季度6個方面的文本內(nèi)容先分類,給每條文本打上積極、中性或者消極的標簽,再分別統(tǒng)計標簽數(shù)進行指數(shù)計算。前面的比較研究中,發(fā)現(xiàn)支持向量機、隨機森林和深度神經(jīng)網(wǎng)絡(luò)的算法在情感標注過程中表現(xiàn)較好。因此本文中分類采用機器學習和深度學習的方法,機器學習方面采用建立隨機森林等模型,深度學習方面采用神經(jīng)網(wǎng)絡(luò)模型,學習已標記文本①每個主題下人工標記5 000條文本作為訓練學習樣本,之后均采用自適應(yīng)學習得到情感標簽。,得到模型后,再對未標記文本做預測,獲取最終標簽。標簽方法為,“1”表示積極,“-1”表示消極,“0”表示中性。另外,本研究抓取的文本按季度排列,為防止時間對文本樣本的影響,保證標記樣本有良好的代表性,在選取樣本文本時,采用系統(tǒng)抽樣的方法,保證每個季度都有文本入樣。模型建立過程中,共采用以下兩大類方法:

      第一大類選用機器學習中精度較高的分類算法。本文采用支持向量機(SVM)、隨機森林(Random Forest)和AdaBoost XGBoost算法②計算通過Python機器學習庫sklearn包中函數(shù)實現(xiàn)。,分別訓練6個方面數(shù)據(jù),通過交叉驗證得到平均準確度。支持向量機(SVM)算法平均準確度為0.846,隨機森林(n=50)算法平均準確度為0.872,隨機森林算法準確度較高。

      第二類模型基于深度學習框架,構(gòu)建多層神經(jīng)網(wǎng)絡(luò)預測情感標簽③深度學習網(wǎng)絡(luò)基于keras庫搭建。。將文本的詞向量(word2vec結(jié)果)作為總輸入,情感的3類標簽作為輸出,因為目標任務(wù)為文本的多分類任務(wù),激活函數(shù)方面主要選用 tanh、Sigmoid、Relu、SoftMax 函數(shù)進行激活,在搭建多層網(wǎng)絡(luò)過程中,主要基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 加 Max-Pooling,并結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network,RNN)&(Long Short-Term Memory)LSTM進行測試。訓練數(shù)據(jù)得到預測準確性高達95%。卷積層用了3層,并分別使用maxpooling進行降參,在卷積層使用的主要激活函數(shù)為 relu、tanh,Dropout為 0.2,最后利用了全連接形式,激活函數(shù)選擇了softmax。損失函數(shù)為 adam、Epoch=16、Batch_size為 128。

      (四)消費情感指數(shù)計算

      消費情感指數(shù)由“經(jīng)濟發(fā)展”、“就業(yè)狀況”、“物價水平”、“生活狀況”、“購房”和“投資”6項分指數(shù)合成。總指數(shù)取100為中值,分別加上6方面得分記為該季度消費情感指數(shù)。每方面得分計算方式如下:以“購房”2017年第1季度為例,該類別下文本總數(shù)為1 512條,其中被標記為“1”的文本共477條,標記為“-1”的文本共136條,其余文本標記為“0”,因此“購房”方面在 2017年第 1季度的得分為:

      即計算所有有正向、負向情感傾向文本的得分均值。這種計算方法忽略了被標記為0的大多數(shù)文本,有效排除廣告等無意義文本在情感指數(shù)計算中的影響。對于重復性文本,本研究中沒有剔除,因為重復性文本在一定程度上表明該觀點傳播范圍廣、大眾接受度高、有代表性。

      四、實證分析

      (一)消費情感指數(shù)分析

      消費者信心指數(shù)可分為經(jīng)濟發(fā)展指數(shù)、就業(yè)指數(shù)、物價指數(shù)、生活指數(shù)、購房指數(shù)和投資指數(shù)6個分指數(shù)。本文基于網(wǎng)絡(luò)新聞文本,通過對6個維度新聞標題的正負情感傾向判斷,得到互聯(lián)網(wǎng)新聞文本的情感標簽,進而得到6個分指數(shù)?;谏鲜鲇嬎惴椒?,每個分指數(shù)得分將在-1到1之間波動,把每個季度6方面得分算術(shù)相加,再加上100分的基礎(chǔ)分,得到每季度消費情感分數(shù)。按照上述方法,基于隨機森林算法和神經(jīng)網(wǎng)絡(luò)模型分別計算出2011年至2017年第1季度的消費情感指數(shù)。計算結(jié)果顯示,兩種方法計算得到的消費情感指數(shù)趨勢相似,且基于神經(jīng)網(wǎng)絡(luò)的消費情感指數(shù)略高,2013年至2017年第1季度指數(shù)在98至102間徘徊,在2016年第3季度起穩(wěn)定在100以上,表示當時消費者對當前及未來經(jīng)濟發(fā)展的樂觀心態(tài)。圖1以折線圖的形式展示消費情感指數(shù)。

      圖1 基于互聯(lián)網(wǎng)新聞文本的消費情感指數(shù)圖

      圖1中顯示的是由多層神經(jīng)網(wǎng)絡(luò)和隨機森林訓練得到的基于互聯(lián)網(wǎng)新聞文本的消費情感指數(shù)。從圖中可以看出,兩條曲線變化趨勢基本一致,指數(shù)取值區(qū)間為94至106,調(diào)查時間為2011年第1季度至2017年第1季度。分段來看,2011年至2012年第2季度,情感指數(shù)整體處于下降區(qū)間,反映民眾對經(jīng)濟發(fā)展向好信心不足。自2012年第3季度起,指數(shù)強勢反彈,在經(jīng)歷2013年初的小幅震動后,回升趨勢繼續(xù)延續(xù),指數(shù)波動上升至2015年第2季度,達到5年來最高值,體現(xiàn)消費者對經(jīng)濟發(fā)展抱有積極樂觀的心態(tài)。2015年第2季度,伴隨股市斷崖式下跌,多地房價超越歷史最高水平,經(jīng)濟下行壓力凸顯,消費者信心大幅下滑,指數(shù)再次進入下降通道。2016年隨著中國大陸經(jīng)濟平穩(wěn)運行,情感指數(shù)回暖上行,總體穩(wěn)定在較高水平。

      (二)與傳統(tǒng)消費者信心指數(shù)比較

      本文選用國家統(tǒng)計局景氣監(jiān)測中心的消費者信心指數(shù)(CCI)以及兩岸暨港澳消費者信心指數(shù)大陸消費者信心指數(shù)(CCCI)作為情感指數(shù)比較的指標。計算情感指數(shù)與傳統(tǒng)消費者信心指數(shù)間相關(guān)系數(shù)見表4。

      表4 情感指數(shù)與信心指數(shù)的相關(guān)系數(shù)表

      從結(jié)果來看,基于多層神經(jīng)網(wǎng)絡(luò)的情感指數(shù)與國家統(tǒng)計局信心指數(shù)相關(guān)性為0.653,與大陸消費者信心指數(shù)相關(guān)性為0.590,基于隨機森林算法的情感指數(shù)與國家統(tǒng)計局信心指數(shù)有較高相關(guān)性,為0.671,這說明情感指數(shù)具有一定的可靠性,且基于多層神經(jīng)網(wǎng)絡(luò)訓練得到的結(jié)果更穩(wěn)定,更接近傳統(tǒng)信心指數(shù)的走勢。通過折線圖觀察更為直觀,如下圖。

      圖2 情感指數(shù)與統(tǒng)計局消費者信心指數(shù)比較圖

      圖3 情感指數(shù)與大陸消費者信心指數(shù)比較圖

      圖2為兩類情感指數(shù)與國家統(tǒng)計局景氣中心消費者信心指數(shù)比較圖。由于計算方式不同,情感指數(shù)數(shù)值波動較小,為了更直觀地展現(xiàn)趨勢變化,將情感指數(shù)繪制在次坐標軸,景氣中心指數(shù)繪制在主坐標軸。從圖形來看,指數(shù)整體趨勢相近,基于隨機森林的情感指數(shù)在2011—2013年間趨勢貼合度更高,基于多層神經(jīng)網(wǎng)絡(luò)的情感指數(shù)在2015—2017年趨勢更接近。從細節(jié)來看,兩類情感指數(shù)都在2012年第2季度及2013年第2季度提前景氣中心信心指數(shù)一個季度企穩(wěn)并進入上升通道,體現(xiàn)情感指數(shù)的局部先行性。

      圖3表示兩類情感指數(shù)與兩岸暨港澳消費者信心指數(shù)中大陸地區(qū)消費者信心指數(shù)比較圖。根據(jù)圖3可以看出,伴隨2014—2015年房地產(chǎn)及股市投資市場的火熱,大陸地區(qū)消費者信心指數(shù)迎來大幅躍升,隨后保持在高位運行,體現(xiàn)消費者對經(jīng)濟發(fā)展樂觀積極的心態(tài)。與之相比,情感指數(shù)整體波動較平緩,其中基于多層神經(jīng)網(wǎng)絡(luò)得到的情感指數(shù)變化趨勢更接近大陸地區(qū)消費者信心指數(shù)。

      在相關(guān)性方面,消費情感指數(shù)與傳統(tǒng)指數(shù)編制方法在團隊近幾年的測試中均表現(xiàn)出較強的關(guān)系,在不同文本類型的測試中(特定門戶網(wǎng)站文本和論壇貼吧文本),這種相關(guān)系數(shù)都達到約0.7,結(jié)果比較一致。

      在先行性方面,此次計算的消費情感指數(shù)與傳統(tǒng)指數(shù)編制方法并未表現(xiàn)出明顯的先行性。在這里給出研究前期基于論壇和貼吧文本情感分析的結(jié)果,如圖4所示,其中實線給出的是消費情感指數(shù),虛線是國家統(tǒng)計局的CCI指數(shù),這個結(jié)果中的指數(shù)先行性有更明顯的體現(xiàn),領(lǐng)先趨勢在1~2個月??傮w來看,相較傳統(tǒng)指數(shù)編制方法來說,基于文本情感分析方法得到的結(jié)果先行性優(yōu)勢并不明顯。

      通過圖形分析可得,情感指數(shù)存在局部先導性,尤其在趨勢轉(zhuǎn)換的節(jié)點,情感指數(shù)往往在領(lǐng)先傳統(tǒng)消費者信心指數(shù)1個季度后企穩(wěn),提前進入上升趨勢。這種趨勢先行在一定程度上反映了媒體對公眾的導向作用,網(wǎng)絡(luò)媒體由于其受眾面廣,在集結(jié)民眾聲音和反映消費者情緒的同時逆向影響消費者對趨勢的判斷,兩者間相互作用解釋了情感指數(shù)與傳統(tǒng)消費者信心指數(shù)的趨勢相近性及趨勢先行性。

      圖4 基于論壇貼吧數(shù)據(jù)的消費情感指數(shù)與消費者信心指數(shù)比較圖

      五、結(jié)論及不足

      本文通過文本情感分析和深度學習的方法,運用互聯(lián)網(wǎng)新聞文本構(gòu)建了消費情感指數(shù)。該指數(shù)參考了兩岸暨港澳消費者信心指數(shù)(CCCI)的編制方式,由6個分指數(shù)構(gòu)成,每季度測算1次。與傳統(tǒng)方式得到的指數(shù)相比,情感指數(shù)數(shù)據(jù)獲取更靈活,計算更便捷,且利用了互聯(lián)網(wǎng)信息集中和時效性強的特點,減少傳統(tǒng)消費者信心指數(shù)調(diào)查工作量,可節(jié)約人力、物力成本。由于互聯(lián)網(wǎng)新聞的高度總結(jié)性及廣泛傳播性,指數(shù)短期趨勢變化更明顯,能靈敏捕捉消費者信心的變化。研究結(jié)果表明,基于互聯(lián)網(wǎng)文本情感分析得到的情感指數(shù)與傳統(tǒng)消費者信心指數(shù)高度相關(guān),說明了該指數(shù)計算方法的可靠性,在反映消費者對經(jīng)濟發(fā)展現(xiàn)狀及未來預期的看法時,體現(xiàn)了網(wǎng)絡(luò)媒體及輿論對消費者情緒的影響,不失成為消費者信心指數(shù)測算方法的良好補充。

      本研究存在一些局限性。數(shù)據(jù)獲取自2011年開始,整體尚不足一個經(jīng)濟周期,一定程度上使得指數(shù)說服力不足。同時隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們的上網(wǎng)習慣和互聯(lián)網(wǎng)使用人群的分布變革迅速,互聯(lián)網(wǎng)用語日新月異,針對時間維度的變化尚未出現(xiàn)更好的分析,這可能對數(shù)據(jù)穩(wěn)定性造成一定影響。因此,情感指數(shù)在發(fā)揮其可靠性和先導性等優(yōu)勢的同時,也需要進一步改進,后期可從適當增加搜索引擎、關(guān)鍵詞數(shù)量、探索互聯(lián)網(wǎng)文本用語習慣變化等維度繼續(xù)提高結(jié)果準確性。

      猜你喜歡
      信心消費者文本
      消費者網(wǎng)上購物六注意
      信心和山
      文苑(2020年10期)2020-11-22 03:28:43
      Study Of ShiJie Control Thought
      在808DA上文本顯示的改善
      恢復信心比給豬刷臉更重要
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      知識付費消費者
      悄悄偷走消費者的創(chuàng)意
      悄悄偷走消費者的創(chuàng)意
      KX5的耐心與信心
      汽車觀察(2016年3期)2016-02-28 13:16:38
      桐乡市| 通山县| 铜鼓县| 易门县| 永胜县| 香河县| 伽师县| 石城县| 栾川县| 达孜县| 无极县| 扎赉特旗| 林甸县| 丹东市| 铜陵市| 长岭县| 克山县| 突泉县| 静安区| 昔阳县| 延边| 措美县| 靖西县| 巨野县| 凌海市| 宜兰县| 筠连县| 桐柏县| 延吉市| 手机| 祁阳县| 无锡市| 亚东县| 都安| 建湖县| 永寿县| 滨海县| 晴隆县| 安图县| 河南省| 武陟县|