• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      互聯(lián)網(wǎng)證券輿情多空傾向性判別研究

      2015-03-15 11:09:04倩,趙威,苑
      通信電源技術(shù) 2015年1期
      關(guān)鍵詞:關(guān)聯(lián)分析提取

      莫 倩,趙 威,苑 崢

      (北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京100037)

      0 引 言

      由于近年來我國互聯(lián)網(wǎng)和證券市場高速蓬勃的發(fā)展,一些不法分子開始以一種新的手段牟取暴利,他們通過對網(wǎng)絡(luò)證券輿情的操控達(dá)到自己的目的。本課題所研究的證券輿情多空判別和傳統(tǒng)意義上的漲跌預(yù)測存在著本質(zhì)的差別。漲跌預(yù)測研究的目標(biāo)是分析證券漲跌的客觀規(guī)律,其數(shù)據(jù)來源包括公司業(yè)績、行業(yè)分析、來自傳統(tǒng)媒體以及網(wǎng)絡(luò)媒體的各類信息,以客觀數(shù)據(jù)為主。

      以國內(nèi)中科院計(jì)算所、北京大學(xué)[1]、北京理工大學(xué)[2]為代表的國內(nèi)高??蒲袡C(jī)構(gòu)在證券輿情分析、輿情監(jiān)測與預(yù)警方面進(jìn)行了大量的研發(fā)工作,他們的部分成果已經(jīng)形成了相應(yīng)的系統(tǒng)并投入使用。由人民網(wǎng)、證券時報(bào)和人民在線一起發(fā)起,建立了中國上市公司輿情中心[3],其目的就是希望通過提供專業(yè)高效的輿情監(jiān)測平臺,為上市公司服務(wù)、為證券市場服務(wù)。

      本文介紹了一種互聯(lián)網(wǎng)證券輿情多空傾向性判別方法,闡述了證券輿情系統(tǒng)的建立以及關(guān)鍵技術(shù);介紹了證券輿情相關(guān)語料庫的建立;描述了單篇文章的多空文章判別技術(shù)和多空綜合判別技術(shù)。

      1 輿情監(jiān)控系統(tǒng)

      本課題所設(shè)計(jì)的互聯(lián)網(wǎng)證券輿情監(jiān)測系統(tǒng)是一個針對證券領(lǐng)域的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),總體框架如圖1所示?;ヂ?lián)網(wǎng)證券輿情監(jiān)測系統(tǒng)可以分為主要的三個模塊:證券信息的收集模塊、證券信息清理分析模塊和證券信息服務(wù)模塊。該系統(tǒng)以互聯(lián)網(wǎng)信息抽取、信息的智能分析與處理等技術(shù)為基礎(chǔ),完成互聯(lián)網(wǎng)上證券輿情的自動采集、自然語言處理、排重去噪、自動分類、觀點(diǎn)傾向性分析等功能,實(shí)現(xiàn)對網(wǎng)絡(luò)證券輿情的監(jiān)測。

      (1)證券輿情采集模塊:系統(tǒng)設(shè)計(jì)采用Web信息抽取工具,對互聯(lián)網(wǎng)上各種交互式數(shù)據(jù)源中的證券輿情信息進(jìn)行數(shù)據(jù)的采集。

      (2)證券輿情的分析與處理模塊:此模塊利用各種自然語言處理技術(shù)與文本挖掘技術(shù)通過數(shù)據(jù)訪問接口對采集到的證券輿情信息進(jìn)行智能的分析與處理,包括語言分析、自動消重、自動摘要、關(guān)鍵詞提取、自動分類、關(guān)聯(lián)分析、話題跟蹤、傾向性分析等。

      (3)證券輿情的服務(wù)模塊:證券輿情的服務(wù)模塊是系統(tǒng)用戶和證券輿情系統(tǒng)的接口,該系統(tǒng)利用證券輿情信息清理和分析模塊的各項(xiàng)技術(shù)為用戶提供服務(wù),如輿情的預(yù)測預(yù)警、檢索、簡報(bào)制作等。

      圖1 互聯(lián)網(wǎng)證券輿情監(jiān)測的總體架構(gòu)圖

      本課題選用可視化Web信息抽?。╒isual Web In-for mation Extraction)[4-7]工具——VWIE 來進(jìn)行證券輿情的采集工作。該工具是本課題組自行研制開發(fā)的一種基于Wrapper的Web信息抽取工具,采用了基于DOM的Web信息抽取技術(shù)。該技術(shù)對網(wǎng)頁的DOM(Document Object Model)結(jié)構(gòu)進(jìn)行分析,將HTML格式看成XML格式來進(jìn)行處理,經(jīng)解析器Parser分析網(wǎng)頁,生成樹形圖。利用Xpath對樹形圖的節(jié)點(diǎn)進(jìn)行定位,用XSLT的抽取規(guī)則完成信息抽取[8]。

      在抽取web網(wǎng)頁之前,系統(tǒng)要對Web網(wǎng)頁的文本進(jìn)行清理分析。采用基于JAVA的HTML Parser對頁面進(jìn)行預(yù)處理,對標(biāo)簽進(jìn)行定位,構(gòu)建頁面的DOM樹。基于DOM的方法,能從較大的邏輯節(jié)點(diǎn)抽取信息,也能對小的單元節(jié)點(diǎn)進(jìn)行操作。而且,此DOM樹是可以進(jìn)行編輯的,經(jīng)過簡單的編輯可以很容易地生成一個全新的網(wǎng)頁。本系統(tǒng)采用XPath對DOM樹中的各個節(jié)點(diǎn)進(jìn)行定位處理。

      2 證券輿情相關(guān)語料庫

      證券輿情語料庫主要針對多空判別的需求,對證券輿情消息中常見的概念進(jìn)行分類,并建立不同類別直接的關(guān)聯(lián)關(guān)系。多空判別不同于傳統(tǒng)基于主題的分析,簡單的通過分類聚類的技術(shù),或者是采用傾向性判別技術(shù)往往很難達(dá)到理想效果。

      證券實(shí)體對象庫是多空判別的研究對象,主要包括在上交所、深交所、港交所等上市的公司企業(yè)信息、股票代碼信息、行業(yè)信息等數(shù)據(jù)。

      (1)首先從上交所、深交所、港交所、新浪財(cái)經(jīng)、和訊等網(wǎng)站抽取證券實(shí)體對象的名稱、股票代碼、行業(yè)等基本屬性信息;

      (2)從專業(yè)股票軟件如:大智慧、通達(dá)信等獲取證券實(shí)體對象的基本屬性信息;

      (3)將抽取的信息和從專業(yè)軟件獲取的信息進(jìn)行對比,校正并補(bǔ)齊缺失信息。

      證券輿情信息點(diǎn)庫主要包括證券市場多空的評價角度,根據(jù)金融專業(yè)的分類規(guī)則,描述如下:上市公司人員情況、財(cái)務(wù)狀況、股權(quán)變更、經(jīng)營狀況、股價異常等幾個方面。具體見表1。

      表1 證券輿情信息點(diǎn)庫

      創(chuàng)建證券輿情信息點(diǎn)庫的完整流程如下:

      (1)創(chuàng)建證券輿情信息點(diǎn)庫的第一層信息點(diǎn)。

      根據(jù)金融專業(yè)的領(lǐng)域?qū)<姨峁┑姆诸愐?guī)則,確定上市公司層次下的第一層信息點(diǎn),包括六個主要信息點(diǎn),如表1所示。

      (2)對第一層每個信息點(diǎn)進(jìn)行擴(kuò)展,生成第二層信息點(diǎn)。

      由于滬深300指數(shù)能夠反映中國證券市場股票價格變動的概貌和運(yùn)行狀況,并且可以作為投資業(yè)績的評價標(biāo)準(zhǔn)[9,10],因此我們選取滬深300中的100只股票作為候選代表。這里提出了一種基于搜索引擎的證券輿情信息點(diǎn)的抽取方法。將滬深300中的這100只股票的名稱與第一層信息點(diǎn)中的信息結(jié)合,形成一個詞對,描述為WP=<stockname,keyword>。將詞對WP輸入到搜索引擎中,得到返回結(jié)果的列表集RL。將列表集的前20條記錄作為候選結(jié)果進(jìn)行抽取,抽取的每一條記錄都是一個小文本。對每一個小文本進(jìn)行關(guān)鍵詞提取[11~13]的操作,得到相應(yīng)的關(guān)鍵詞集。

      (3)迭代計(jì)算。將股票名稱與第二層信息點(diǎn)組成新的詞對WP’=<stockname,key word’>,重復(fù)使用基于搜索引擎的證券輿情信息點(diǎn)抽取方法,迭代計(jì)算,得到第三層信息點(diǎn)集合。

      (4)根據(jù)經(jīng)驗(yàn)與金融行業(yè)規(guī)則,補(bǔ)充相應(yīng)的金融信息點(diǎn)。

      對初步得到的證券輿情信息點(diǎn)庫進(jìn)行完善,根據(jù)金融行業(yè)規(guī)則和日常生活經(jīng)驗(yàn),對結(jié)果集進(jìn)行補(bǔ)充,得到最終的證券輿情信息點(diǎn)庫。

      證券輿情多空屬性庫包含表示多空屬性的詞語及表示多空程度的詞語。

      (1)抽取300篇證券輿情信息作為初始證券輿情多空屬性詞庫的數(shù)據(jù)源。

      (2)對這300篇證券輿情信息進(jìn)行語料預(yù)處理,將文本進(jìn)行分句,然后進(jìn)行分詞和詞性標(biāo)注處理,并識別其中的名詞、動詞、形容詞等最可能表示多空屬性的詞性類別。

      (3)讀取x ml文件,將名詞、動詞、形容詞提取出來作為生成的候選詞集合,然后利用“哈工大信息檢索研究中心同義詞詞林?jǐn)U展版[14,15]”,以現(xiàn)有的候選詞集合為基礎(chǔ),查找其同義詞,補(bǔ)充到候選詞集合中。

      (4)候選特征詞過濾,對候選詞集進(jìn)行人工篩選,剔除不滿足條件的詞語,得到最終的證券輿情多空屬性庫。

      3 多空綜合判別技術(shù)

      多空綜合研判主要應(yīng)用行為金融學(xué)的模型框架,形式化表述如式(1):

      式中,m是單獨(dú)的消息、M是整個消息的集合、d是信息點(diǎn)、D是信息點(diǎn)的集合、bb_credit是多空計(jì)算的函數(shù)、BBCredit是多空判別函數(shù)、object是需要判別的證券實(shí)體對象。

      主要判別過程如下:

      (1)統(tǒng)計(jì)每條微觀消息的多空態(tài)度與權(quán)重。

      (2)消息的可信度計(jì)算:主要依據(jù)消息的媒介形式、信息來源、作者、轉(zhuǎn)載情況、回復(fù)數(shù)量等情況綜合計(jì)算。

      (3)消息的影響力分析,主要依據(jù)消息的點(diǎn)擊以及回復(fù)的數(shù)量,同時考慮消息的媒介形式、發(fā)表的媒體、消息作者。

      (4)按照每天微觀消息的信息點(diǎn)進(jìn)行分類整理;綜合計(jì)算每個信息點(diǎn)的多空對比數(shù)據(jù)。

      證券輿情存在“報(bào)喜不報(bào)憂”的傳統(tǒng)。因此,本課題要進(jìn)一步修改綜合判斷模型,具體想法為:引入歷史多空數(shù)據(jù)維度,也就是觀察一段時間的情況,看多消息總數(shù)量和比例的特征。因此,判別模型需要修正如下:

      式中,t為時間戳,α為調(diào)節(jié)因子,由歷史多空數(shù)據(jù)與當(dāng)前數(shù)據(jù)比對計(jì)算得出。結(jié)果如果是1.0不一定就是100%的看多,其結(jié)果更多的是一種比較意義。需要基于歷史數(shù)據(jù),進(jìn)行機(jī)器學(xué)習(xí),通過調(diào)節(jié)因子,得出更具準(zhǔn)確度的結(jié)果。

      4 結(jié)束語

      本文的研究目的是從互聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)源的證券信息中采集并分析出民眾對特定證券對象的觀點(diǎn)、意見和看法,依據(jù)微觀的傾向性數(shù)據(jù)綜合計(jì)算出輿情看空看多的走勢。

      在現(xiàn)有工作成果上,增加并改進(jìn)證券輿情系統(tǒng)的功能,將那個證券本體的理論引入證券信息分類中,在分類中加入機(jī)器學(xué)習(xí)的方法,提高證券信息分類準(zhǔn)確率,更精準(zhǔn)地構(gòu)建證券資訊與股票價格之間的關(guān)系,輔助證券監(jiān)管部門的決策支持,為廣大股民提供服務(wù)。

      [1] 李曉明,朱家稷,閻宏飛.互聯(lián)網(wǎng)上主題信息的一種收集與處理模型及其應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2003,40(12):1667-1671.

      [2] 仇 晶,廖樂健.網(wǎng)絡(luò)輿情與網(wǎng)絡(luò)文化安全預(yù)警技術(shù)研究[J].信息網(wǎng)絡(luò)安全,2008,6:59-61.

      [3] 佚 名.中國上市公司輿情中心啟動[J].青年記者,2011,19:33.

      [4] Turney P D,Litt man M L.Measuring praise and criticism:Inference of semantic orientation from association[J].ACM Trans.Inf.Syst.2003,21(4):315-346.

      [5] Cope J,Craswell N,Hawking D.Automated discovery of search interfaces on the Web[C].In:Proceedings of the 14th Australasian Database Conference(ADC2003).Adelaide.2003:181-189.

      [6] Chang K C,He B,Li C,Patel M,Zhang Z.Structured databases on the web.Observations and Implications[C].SIGMOD Record,2004,33(3):61-70.

      [7] Zhang Z,He B,Chang K C.Understanding Web query interfaces:best-effort parsing with hidden syntax[C].In:Proceedings of the 23th ACM SIGMODInternational Conference on Management of Data.Paris.2004:107-118.

      [8] 滕 偉.面向Web信息集成的Web信息抽取中若干關(guān)鍵問題的研究[D].上海:上海交通大學(xué),2007.

      [9] 林 瀟.滬深300指數(shù)套期保值效果的實(shí)證研究[D].成都:電子科技大學(xué),2007.

      [10]方 智.基于多技術(shù)指標(biāo)模型的滬深300指數(shù)走勢預(yù)測[D].南昌:江西財(cái)經(jīng)大學(xué),2012.

      [11]梁偉明.中文關(guān)鍵詞提取技術(shù)[D].上海:上海交通大學(xué),2010.

      [12]蔣昌金,彭 宏,陳建超,等.基于組合詞和同義詞集的關(guān)鍵詞提取算法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2853-2856.

      [13]方 俊,郭 雷,王曉東.基于語義的關(guān)鍵詞提取算法[J].計(jì)算機(jī)科學(xué),2008,(6):148-151.

      [14]程 濤,施水才,王 霞,等.基于同義詞詞林的中文文本主題詞提?。跩].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,(2):145-148.

      [15]田久樂,趙 蔚.基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,(6):602-608.

      猜你喜歡
      關(guān)聯(lián)分析提取
      玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
      玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
      基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動力學(xué)關(guān)聯(lián)分析模型
      關(guān)聯(lián)分析技術(shù)在學(xué)生成績分析中的應(yīng)用
      現(xiàn)場勘查中物證的提取及應(yīng)用
      土壤樣品中農(nóng)藥殘留前處理方法的研究進(jìn)展
      中學(xué)生開展DNA“細(xì)”提取的實(shí)踐初探
      淺析城市老街巷景觀本土設(shè)計(jì)元素的提取與置換
      蝦蛄殼中甲殼素的提取工藝探究
      科技視界(2016年22期)2016-10-18 17:02:00
      基于關(guān)聯(lián)分析的學(xué)生活動參與度與高校社團(tuán)管理實(shí)證研究
      科技視界(2016年15期)2016-06-30 12:43:00
      白河县| 仁寿县| 瓮安县| 丰宁| 汤阴县| 石嘴山市| 扎兰屯市| 沾化县| 香格里拉县| 竹溪县| 平利县| 绥芬河市| 昆明市| 榆林市| 永平县| 洛隆县| 清涧县| 惠安县| 抚顺县| 白沙| 德昌县| 秭归县| 资兴市| 平原县| 太和县| 屯门区| 肇庆市| 英德市| 津市市| 沂水县| 平湖市| 紫阳县| 昔阳县| 株洲市| 凤阳县| 永顺县| 麻城市| 土默特左旗| 化州市| 曲沃县| 嫩江县|