• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向網(wǎng)絡(luò)輿情數(shù)據(jù)的異常行為識(shí)別

      2016-04-27 10:31:38郝亞洲鄭慶華陳艷平閆彩霞
      關(guān)鍵詞:網(wǎng)絡(luò)輿情數(shù)據(jù)挖掘

      郝亞洲 鄭慶華 陳艷平 閆彩霞

      (陜西省天地網(wǎng)技術(shù)重點(diǎn)實(shí)驗(yàn)室(西安交通大學(xué)) 西安 710049)

      (西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 西安 710049)

      (hyzxjtu@qq.com)

      ?

      面向網(wǎng)絡(luò)輿情數(shù)據(jù)的異常行為識(shí)別

      郝亞洲鄭慶華陳艷平閆彩霞

      (陜西省天地網(wǎng)技術(shù)重點(diǎn)實(shí)驗(yàn)室(西安交通大學(xué))西安710049)

      (西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系西安710049)

      (hyzxjtu@qq.com)

      Recognition of Abnormal Behavior Based on Data of Public Opinion on the Web

      Hao Yazhou, Zheng Qinghua, Chen Yanping, and Yan Caixia

      (SPKLSTNLaboratory(Xi’anJiaotongUniversity),Xi’an710049)

      (DepartmentofComputerScienceandTechnology,Xi’anJiaotongUniversity,Xi’an710049)

      AbstractWith the increasing popularity of the social network, public awareness and participation to hot topics has been much improved, mobile terminal equipment and fast Internet access make the spread of public opinion quickly. Public opinion on the Web has freedom, interactivity, diversity, deviation and burstiness as characteristics, has become an important factor that affects social stability. Therefore, how to timely detect, control and guide the development of public opinion is of great significance to the social stability. This article focuses on the behaviors that spread on the Web and contain “destruction”, “dangerous” and “l(fā)oss” involves public security or judicial justice, and the behaviors is defined as abnormal behavior. We define the types of abnormal behavior that this article focuses on are aggression, injury, death, and arrests, four categories. From the point of view of information extraction, our method recognizes the abnormal behavior by identifying sentences that contain the abnormal behavior and constructs co-occurrence network of abnormal behavior, with provide the visualization analysis approach of public opinion on the Web.

      Key wordspublic opinion; event extraction; recognition of abnormal behavior; co-occurrence network; data mining

      摘要社交網(wǎng)絡(luò)的日益普及和移動(dòng)設(shè)備快捷的網(wǎng)絡(luò)接入,使得網(wǎng)絡(luò)輿情的傳播十分迅捷,民眾對(duì)熱點(diǎn)話(huà)題的關(guān)注度和參與度得到很大的提升.網(wǎng)絡(luò)輿情具有自由性、交互性、多元性、偏差性、突發(fā)性等特點(diǎn),能夠左右民眾的情感和判斷,能推動(dòng)和改變事件的發(fā)展和走向,容易被反對(duì)分子利用,已經(jīng)成為影響社會(huì)穩(wěn)定的重要因素.因此,及時(shí)檢測(cè)、控制并引導(dǎo)輿情的發(fā)展具有十分重要的意義.研究關(guān)注網(wǎng)絡(luò)中傳播的蘊(yùn)含有“破壞”、“危險(xiǎn)”、“損失”等涉及公共安全或涉及司法公正的行為.根據(jù)課題的需要,定義4種關(guān)注的異常行為類(lèi)型:攻擊行為、受傷行為、死亡行為、拘捕行為.從數(shù)據(jù)挖掘和信息抽取的角度研究識(shí)別異常行為的方法,首先通過(guò)分類(lèi)器和觸發(fā)詞從海量的數(shù)據(jù)中過(guò)濾出包含異常行為的句子,然后抽取異常行為句中包含的命名實(shí)體,最后利用抽取的實(shí)體構(gòu)建異常行為共現(xiàn)網(wǎng)絡(luò),為分析人員提供可視化的網(wǎng)絡(luò)輿情分析方法.

      關(guān)鍵詞網(wǎng)絡(luò)輿情;事件抽?。划惓P袨樽R(shí)別;共現(xiàn)網(wǎng);數(shù)據(jù)挖掘

      近年來(lái),我國(guó)網(wǎng)民規(guī)模一直呈現(xiàn)十分迅速的增長(zhǎng)趨勢(shì),在全球互聯(lián)網(wǎng)中占據(jù)越來(lái)越重要的位置.隨之而來(lái)的是網(wǎng)絡(luò)數(shù)據(jù)的急速增加,互聯(lián)網(wǎng)已經(jīng)成為我國(guó)最大的社交平臺(tái)和信息集散地.據(jù)中國(guó)互聯(lián)網(wǎng)信息中心(China Internet Network Information Center, CNNIC)于2015年1月發(fā)布的第35次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r調(diào)查統(tǒng)計(jì)報(bào)告顯示,我國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率較上年有明顯提升.伴隨著我國(guó)網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)媒體被越來(lái)越多的民眾認(rèn)可和使用,成為一種新的信息傳播方式,并且漸漸地超越了傳統(tǒng)媒體,為信息的發(fā)布、傳遞和獲取帶來(lái)了更方便和快捷的全新概念.

      與傳統(tǒng)的信息傳播媒體相比較而言,網(wǎng)絡(luò)媒體上的信息交流具有門(mén)檻低、規(guī)模大、傳播迅速、參與群體龐大、實(shí)時(shí)性強(qiáng)等特點(diǎn),再加上BBS論壇、微博、博客、新聞跟帖等社交媒體的虛擬隱蔽性等特點(diǎn),導(dǎo)致廣大網(wǎng)民積極地通過(guò)網(wǎng)絡(luò)參與熱點(diǎn)話(huà)題的討論與傳播,這些熱點(diǎn)話(huà)題大多屬于網(wǎng)絡(luò)新聞.在參與熱點(diǎn)話(huà)題的過(guò)程中,網(wǎng)民會(huì)對(duì)社會(huì)熱點(diǎn)表達(dá)自己的觀點(diǎn),如果這種觀點(diǎn)引起了較大范圍網(wǎng)民的關(guān)注和共鳴,并通過(guò)網(wǎng)上討論、跟帖、轉(zhuǎn)帖等逐步形成一種網(wǎng)絡(luò)輿論傾向,就形成了網(wǎng)絡(luò)輿情.

      網(wǎng)絡(luò)輿情中最引人關(guān)注的是現(xiàn)實(shí)中發(fā)生的,民眾熱切關(guān)注和議論并蘊(yùn)含有“ 破壞 ”、“ 危害 ”、“ 損失 ”等涉及公共安全或涉及司法公正的行為.本文將這些行為定義為異常行為.異常行為通常關(guān)系到廣大民眾的切身利益,影響到社會(huì)的安定和諧.而且部分網(wǎng)民通過(guò)網(wǎng)絡(luò)進(jìn)行個(gè)人情緒的發(fā)泄,從而發(fā)表一些過(guò)激片面的言論.部分反動(dòng)或恐怖組織也會(huì)利用網(wǎng)絡(luò)發(fā)布虛假反動(dòng)的信息,這類(lèi)信息通常就屬于異常行為.由于信息傳播的不對(duì)稱(chēng)性,大多數(shù)網(wǎng)民是無(wú)法辨別這些信息真?zhèn)蔚?,很多人?huì)盲目相信并傳播這些虛假言論,從而影響政府的形象和社會(huì)的安定.因此,及時(shí)地發(fā)現(xiàn)網(wǎng)絡(luò)中的異常行為并辨別其真實(shí)性至關(guān)重要.對(duì)于真實(shí)發(fā)生的異常行為,要調(diào)查核實(shí)并維護(hù)社會(huì)公平正義,對(duì)于虛假宣傳的異常行為,需要及時(shí)停止其在網(wǎng)絡(luò)上的傳播和擴(kuò)散,以免產(chǎn)生更大的危害.

      本文利用信息抽取的技術(shù)識(shí)別異常行為.信息抽取(information extraction, IE)是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理.抽取出的是結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,將抽取結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中,方便人們進(jìn)行相關(guān)的查詢(xún)和處理,從而在很大程度上提高人們的工作效率.本文根據(jù)事件抽取的相關(guān)概念,定義異常行為的識(shí)別對(duì)象和方法.事件抽取本質(zhì)上是信息抽取領(lǐng)域一個(gè)很重要并且應(yīng)用十分廣泛的研究方向,在信息檢索等諸多領(lǐng)域都有著廣泛的應(yīng)用.在事件抽取領(lǐng)域主要有2個(gè)權(quán)威的研究機(jī)構(gòu):信息理解研討會(huì)議(Message Understanding Conference, MUC)[1]和自動(dòng)內(nèi)容抽取(automatic content extraction, ACE)會(huì)議[2].

      MUC會(huì)議是ACE會(huì)議的前身,每2年舉辦一次,只從1987年維持召開(kāi)到1998年,總共舉行了7屆,但即使如此,它也為事件抽取的任務(wù)目標(biāo)與相關(guān)理論的制定做出了相當(dāng)大的貢獻(xiàn).在MUC會(huì)議停止召開(kāi)后的2000年開(kāi)始至今,美國(guó)NIST組織舉辦了ACE自動(dòng)內(nèi)容抽取會(huì)議,該會(huì)議召開(kāi)后,由于其與信息理解研討MUC會(huì)議研究?jī)?nèi)容和研究領(lǐng)域的相似性,人們就認(rèn)為該會(huì)議是MUC會(huì)議的擴(kuò)展和延伸,被越來(lái)越多的專(zhuān)業(yè)人士所認(rèn)可和關(guān)注,該會(huì)議所制定的抽取標(biāo)準(zhǔn)和目標(biāo)也就自然而然成為了該領(lǐng)域比較權(quán)威的標(biāo)準(zhǔn).

      ACE將事件抽取的任務(wù)進(jìn)行了更明確的規(guī)定,將其定義為事件的檢測(cè)與識(shí)別(event detection and recognition, VDR),即我們進(jìn)行事件抽取的目標(biāo)是從大量的文本數(shù)據(jù)中識(shí)別出所關(guān)注的某些特定類(lèi)型的事件描述句,并對(duì)這些事件描述句進(jìn)行相關(guān)信息的確定和抽取,例如事件的類(lèi)型和子類(lèi)型、事件的元素等.

      現(xiàn)階段進(jìn)行事件抽取有2種方法被廣泛應(yīng)用,即模式匹配和機(jī)器學(xué)習(xí),這2種方法各有利弊,針對(duì)不同領(lǐng)域的事件抽取任務(wù),可采用對(duì)應(yīng)的抽取方法.代表性的工作有1995年Riloff和Shoen[3]提出的基于無(wú)標(biāo)注語(yǔ)料的自動(dòng)事件抽取方法、 2001年Yangarber[4]提出的基于種子模式的自舉信息抽取模型學(xué)習(xí)系統(tǒng)ExDisco系統(tǒng),這個(gè)系統(tǒng)以人工構(gòu)造的質(zhì)量較高的種子模板為基礎(chǔ),多次迭代增量式地學(xué)習(xí)新的模板.2002年Chieu和Ng[5]在事件元素抽取問(wèn)題上首次引入了最大熵分類(lèi)器.2005年姜吉發(fā)[6]提出了基于領(lǐng)域無(wú)關(guān)概念知識(shí)庫(kù)的事件抽取模式學(xué)習(xí)方法GenPAM,它的優(yōu)點(diǎn)是完全無(wú)指導(dǎo),且對(duì)于標(biāo)注語(yǔ)料基本沒(méi)需求.需要人工參與的部分只是要給出事件抽取的事件類(lèi)型、事件元素及其所屬角色,最后人工對(duì)學(xué)習(xí)到的模式進(jìn)行評(píng)價(jià).如此,自動(dòng)學(xué)習(xí)事件抽取模板,大幅度地減少了需要人工參與的工作量.2006年Ahn[7]將MegaM和TiMBL這2種機(jī)器學(xué)習(xí)方法進(jìn)行結(jié)合并在ACE語(yǔ)料庫(kù)驗(yàn)證證明優(yōu)于單一算法的性能.2007年于江德等人[8]使用隱Markov模型(HMM)完成事件元素的抽取.2009年Chen和Ji[9]打破了事件抽取中分類(lèi)的思想,從序列標(biāo)注的角度來(lái)識(shí)別事件.同年付劍鋒等人[10]提出了基于依存分析的事件識(shí)別.2010年Llorens等人[11]使用CRF模型進(jìn)行TimeML事件抽取中的語(yǔ)義角色標(biāo)注,提升了系統(tǒng)的性能.同年許紅磊等人[12]提出自動(dòng)識(shí)別事件類(lèi)別的中文事件抽取技術(shù),取得較好的效果.由于基于機(jī)器學(xué)習(xí)的事件抽取方法客觀高效的優(yōu)點(diǎn),目前國(guó)內(nèi)外大多采用機(jī)器學(xué)習(xí)的方法進(jìn)行事件抽取,而本文只需要識(shí)別事件類(lèi)別,因此也采用該方法進(jìn)行事件類(lèi)型識(shí)別.

      本文提出異常行為識(shí)別,基于此構(gòu)建異常行為共現(xiàn)網(wǎng)的方法, 為蘊(yùn)含在網(wǎng)絡(luò)中的異常行為提供可視化的分析方法.

      1異常行為識(shí)別研究綜述

      1.1異常行為識(shí)別相關(guān)概念

      定義1. 事件.由觸發(fā)詞和描述時(shí)間結(jié)構(gòu)的元素組成,表示一個(gè)動(dòng)作的發(fā)生或狀態(tài)的變化.往往由動(dòng)詞驅(qū)動(dòng),也可以由能表示動(dòng)作的名詞等其他詞性的詞來(lái)觸發(fā),它包括參與該動(dòng)作行為的主要成份(如人物、地點(diǎn)、時(shí)間等).

      定義2. 觸發(fā)詞.觸發(fā)詞是最能表現(xiàn)事件發(fā)生的詞語(yǔ),通常是一個(gè)動(dòng)詞或者能夠代表動(dòng)作發(fā)生的名詞.

      定義3. 事件描述句.事件描述句是文本中描述事件信息的句子或片段,通常包含了一個(gè)觸發(fā)詞.

      定義4. 異常行為.現(xiàn)實(shí)中發(fā)生,民眾熱切關(guān)注和議論并蘊(yùn)含有“破壞”、“危害”、“損失”等涉及公共安全或涉及司法公正的行為.

      1.2異常行為識(shí)別研究目標(biāo)

      進(jìn)行異常行為識(shí)別首先要確定我們需要關(guān)注的行為類(lèi)型.本文中采用的是ACE中定義的事件類(lèi)型,包括 8個(gè)大類(lèi)和33個(gè)子類(lèi),如表1所示:

      Tabel 1 Type of Event Defined in ACE

      根據(jù)定義4,我們關(guān)注的是現(xiàn)實(shí)中發(fā)生,民眾熱切關(guān)注和議論并蘊(yùn)含有“破壞”、“危害”、“損失”等涉及公共安全或涉及司法公正的行為.這些行為類(lèi)型是ACE中定義的全部事件類(lèi)型的子集.根據(jù)研究的需要和項(xiàng)目的需求,我們定義本文關(guān)注的異常行為類(lèi)型是攻擊行為、受傷行為、死亡行為、拘捕行為4類(lèi),分別對(duì)應(yīng)ACE事件類(lèi)型中的Attack,Injure,Die,Arrest-Jail.

      一個(gè)典型的事件抽取通常會(huì)識(shí)別事件的6個(gè)要素,我們將其作為一個(gè)六元組,即trigger,type,subject,object,time,place,其中,trigger表示引發(fā)事件發(fā)生的觸發(fā)詞,每個(gè)觸發(fā)詞一般觸發(fā)一種異常行為,從一定程度上決定了行為的類(lèi)型;subject表示事件的行為主體,是動(dòng)作活動(dòng)的發(fā)起、狀態(tài)的主體,是有生命的人;object表示事件涉及的行為客體,是行為中的動(dòng)作活動(dòng)所涉及或者影響到的人或事物,是行為的被動(dòng)承受者;time表示事件發(fā)生的時(shí)間;place表示事件發(fā)生的地點(diǎn).六元組中的trigger和type不能為空,其他項(xiàng)為可選項(xiàng),可以為空.以下面的新聞報(bào)道為例:

      “2013年6月26日凌晨5時(shí)50分許,新疆吐魯番地區(qū)鄯善縣魯克沁鎮(zhèn)發(fā)生暴力恐怖襲擊案件,多名暴徒先后襲擊魯克沁鎮(zhèn)派出所.這是在新疆發(fā)生的民族分裂分子有預(yù)謀、有組織策劃制造的公然擾亂社會(huì)秩序、制造恐怖氣氛的惡性案件.”

      這段話(huà)中就包含一個(gè)典型的事件,其中,觸發(fā)詞“襲擊”觸發(fā)了一個(gè)攻擊行為,再進(jìn)一步分析句子中有關(guān)的主體、客體、時(shí)間、地點(diǎn)信息,可以得到完整的六元組“襲擊”,“攻擊行為”,“多名暴徒”,“魯克沁鎮(zhèn)派出所”,“2013年6月26日凌晨5時(shí)50分許”,“新疆吐魯番地區(qū)鄯善縣魯克沁鎮(zhèn)”.

      由于傳統(tǒng)的事件識(shí)別正確率低,根據(jù)ACE評(píng)價(jià)標(biāo)準(zhǔn),目前相關(guān)研究的性能在30%左右.其原因首先在于需要抽取觸發(fā)詞,行為主體、客體、時(shí)間、地點(diǎn)等事件要素,抽取性能較差;其次在開(kāi)放的大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的異質(zhì)性、噪音、碎片化等特點(diǎn),更加影響抽取性能.而本文提出的基于句子分類(lèi)的異常行為識(shí)別方法先將帶異常行為的句子識(shí)別出來(lái),再抽取異常行為句中的觸發(fā)詞、實(shí)體和實(shí)體的共現(xiàn)關(guān)系,相比ACE定義的事件抽取性能更好.同時(shí)識(shí)別出的句子加入人工干預(yù),可以輔助輿情分析人員,提高效率.

      本文的研究目標(biāo)是從實(shí)際爬取的大量網(wǎng)絡(luò)輿情文檔集中,識(shí)別出攻擊、受傷、死亡、拘捕4類(lèi)異常行為,并存儲(chǔ)在數(shù)據(jù)庫(kù)中,便于人們進(jìn)行查詢(xún),及時(shí)了解網(wǎng)絡(luò)輿情熱點(diǎn)信息,并且可以幫助政府更好地分析具有某種行為傾向的人和地點(diǎn)等信息,對(duì)決策做出一定的支持.

      本文進(jìn)行異常行為識(shí)別的具體目標(biāo)有3點(diǎn):

      1) 識(shí)別出異常行為句.即為該新聞片段的第1個(gè)句子.

      2) 判斷異常行為類(lèi)型.該異常行為屬于攻擊行為.

      3) 構(gòu)建異常行為共現(xiàn)網(wǎng).將異常行為句中的實(shí)體及其共現(xiàn)關(guān)系表示在異常行為共現(xiàn)網(wǎng)中并進(jìn)行相關(guān)分析.如新疆吐魯番地區(qū)鄯善縣魯克沁鎮(zhèn)、多名暴徒、魯克沁鎮(zhèn)派出所這3個(gè)實(shí)體出現(xiàn)在一個(gè)異常行為句中,它們都屬于共現(xiàn)網(wǎng)中的節(jié)點(diǎn),并且兩兩有共現(xiàn)關(guān)系.

      1.3研究框架和技術(shù)路線

      本文的研究框架如圖1所示:

      圖1研究框架共分為4個(gè)部分:事件識(shí)別、異常行為句識(shí)別、異常行為共現(xiàn)網(wǎng)構(gòu)建和共現(xiàn)網(wǎng)絡(luò)分析.其中,異常行為句識(shí)別和異常行為共現(xiàn)網(wǎng)構(gòu)建這2部分是整個(gè)系統(tǒng)的核心部分,事件識(shí)別是預(yù)處理階段,共現(xiàn)網(wǎng)絡(luò)分析屬于擴(kuò)展部分.

      識(shí)別過(guò)程可以概括為3個(gè)步驟:

      1) 預(yù)處理.采用LDA模型對(duì)網(wǎng)絡(luò)輿情文檔集進(jìn)行文檔事件識(shí)別,對(duì)識(shí)別出的每個(gè)文檔事件分別進(jìn)行后續(xù)操作.該階段可以識(shí)別出多個(gè)文檔事件,如釣魚(yú)島事件、占中事件等,為后續(xù)的操作提供輸入.通過(guò)對(duì)文檔事件單獨(dú)進(jìn)行操作,每次處理的數(shù)據(jù)量更小且更有針對(duì)性.

      2) 異常行為識(shí)別階段.首先根據(jù)觸發(fā)詞表,用觸發(fā)詞檢測(cè)的方法初步過(guò)濾掉非異常行為句,得到候選異常行為句的集合.然后用ACE的標(biāo)準(zhǔn)數(shù)據(jù)集訓(xùn)練SVM異常行為識(shí)別分類(lèi)器,選取句子的全詞特征[13]作為特征向量.最后用訓(xùn)練好的分類(lèi)器對(duì)候選異常行為句進(jìn)行異常行為識(shí)別,并判斷行為類(lèi)型.

      3) 構(gòu)建異常行為共現(xiàn)網(wǎng).利用中國(guó)科學(xué)院分詞工具進(jìn)行命名實(shí)體識(shí)別,將出現(xiàn)在同一個(gè)異常行為句中的實(shí)體定義為有共現(xiàn)關(guān)系.用igraph構(gòu)建出包含關(guān)鍵實(shí)體及其共現(xiàn)關(guān)系的異常行為共現(xiàn)網(wǎng),為異常行為提供可視化的分析方法.

      2異常行為識(shí)別流程

      2.1觸發(fā)詞檢測(cè)

      1) 問(wèn)題分析

      在開(kāi)放的網(wǎng)絡(luò)環(huán)境中爬取的網(wǎng)絡(luò)輿情數(shù)據(jù)具有數(shù)量大和異質(zhì)性等特點(diǎn).其中包含大量的無(wú)用和干擾數(shù)據(jù),如果對(duì)這些數(shù)據(jù)全都進(jìn)行處理,不僅浪費(fèi)時(shí)間,也會(huì)影響系統(tǒng)的處理結(jié)果和性能.觸發(fā)詞檢測(cè)可以去除噪音,過(guò)濾掉大量的無(wú)用數(shù)據(jù),提高系統(tǒng)的效率.

      異常行為是由具體的行為發(fā)生或狀態(tài)改變所引發(fā)的,描述句通常包含一個(gè)觸發(fā)詞.異常行為觸發(fā)詞可以直接引起異常行為的發(fā)生,是決定行為類(lèi)型的重要特征.對(duì)于不含異常行為觸發(fā)詞的句子,我們認(rèn)為該句子不含異常行為,直接將其過(guò)濾掉.因此,我們可以根據(jù)句子中觸發(fā)詞的有無(wú)進(jìn)行初步過(guò)濾.下面針對(duì)每種異常行為類(lèi)型分別給出了一個(gè)含有觸發(fā)詞的句子.

      ① 死亡(Die).警方一直緊隨其后,最終順利擊斃逃犯.觸發(fā)詞:擊斃.

      ② 攻擊(Attack).當(dāng)天在加沙地帶和約旦河西岸地區(qū)仍有零星的沖突發(fā)生.觸發(fā)詞:沖突.

      ③ 拘捕(Arrest-Jail).電焊工王呈泰等12名犯罪嫌疑人已被檢查機(jī)關(guān)批準(zhǔn)逮捕.觸發(fā)詞:逮捕.

      ④ 受傷(Injure).巴基斯坦方面說(shuō):最近在平泊爾地區(qū),有很多士兵被打傷.觸發(fā)詞:打傷.

      2) 實(shí)驗(yàn)數(shù)據(jù)集

      本文采用的實(shí)驗(yàn)數(shù)據(jù)分為2個(gè)部分:①ACE2005中文語(yǔ)料庫(kù)的682篇新聞報(bào)道;②人工標(biāo)注網(wǎng)絡(luò)爬蟲(chóng)爬取的真實(shí)網(wǎng)絡(luò)輿情數(shù)據(jù)318篇(條).其中ACE2005語(yǔ)料是由ACE評(píng)測(cè)會(huì)議發(fā)布,其中的中文語(yǔ)料分布如表2所示:

      Table 2    2005ACE System Training Corpus Statistics for

      Indication:1) Chinese Resources (1.5characters=1word);

      由2部分?jǐn)?shù)據(jù)構(gòu)成的實(shí)驗(yàn)數(shù)據(jù)總體分布如表3所示:

      Table 3 Distribution of Data

      Indication:Units of the numbers in the table is sheet or post.

      3) 問(wèn)題解決

      基于詞的觸發(fā)詞檢測(cè)的首要任務(wù)是建立初始的觸發(fā)詞表,實(shí)驗(yàn)數(shù)據(jù)所包含的1 000篇中文文檔進(jìn)行統(tǒng)計(jì),33個(gè)子類(lèi)別的觸發(fā)詞共計(jì)976個(gè).進(jìn)一步對(duì)這976個(gè)觸發(fā)詞篩選,選出其中的4個(gè)子類(lèi)別“Attack”,“Injure”,“Die”,“Arrest-Jail”的觸發(fā)詞來(lái)構(gòu)建初始的觸發(fā)詞表,所構(gòu)建的觸發(fā)詞表一共包含338個(gè)觸發(fā)詞,具體內(nèi)容如表4所示:

      Table 4 Trigger Words

      根據(jù)觸發(fā)詞表,采用基于關(guān)鍵詞匹配的方法,對(duì)于S中的每個(gè)句子進(jìn)行檢測(cè),過(guò)濾掉不含異常行為觸發(fā)詞的句子,得到候選異常行為句的集合S′.

      2.2異常行為識(shí)別分類(lèi)器

      1) 構(gòu)建分類(lèi)器的原因

      雖然“觸發(fā)詞”被定義為“最能表現(xiàn)事件發(fā)生的詞語(yǔ)”, 但并不意味著“觸發(fā)詞的出現(xiàn)一定代表了事件的發(fā)生”.例如“謀殺”這一觸發(fā)詞,在句子“根據(jù)加州法律,不管有意或無(wú)意殺害火車(chē)上的人,光是這一點(diǎn)就足以構(gòu)成謀殺罪”中,這只是謀殺罪的一種構(gòu)成方式,實(shí)際上并沒(méi)有謀殺行為的發(fā)生.本文關(guān)注的是例如“他被控于1989年同其他幾名成員一道將一名試圖脫離這個(gè)組織的21歲的成員謀殺”句子中“謀殺”所觸發(fā)的“Die”事件.因此,只通過(guò)句子有無(wú)觸發(fā)詞來(lái)判斷異常行為的發(fā)生是不一定正確的.

      為了驗(yàn)證觸發(fā)詞的出現(xiàn)是否代表著事件的發(fā)生,本文對(duì)觸發(fā)詞表中的每個(gè)觸發(fā)詞統(tǒng)計(jì)其在ACE語(yǔ)料中出現(xiàn)的總次數(shù)以及觸發(fā)事件的次數(shù),統(tǒng)計(jì)結(jié)果如表5所示:

      Table 5 Frequency of Triggers and Events

      對(duì)表5中的出現(xiàn)總次數(shù)和觸發(fā)事件次數(shù)的對(duì)應(yīng)關(guān)系分析,得到表6:

      Table 6 Ratio of Triggers and Events

      因此需要選擇合適的分類(lèi)器篩選出真正地代表了4類(lèi)事件發(fā)生的觸發(fā)詞所在的異常行為描述句,本文選擇支持向量機(jī)(support vector machine, SVM)分類(lèi)器,這是由于SVM能夠?qū)⒎蔷€性的問(wèn)題轉(zhuǎn)化為高維空間的線性問(wèn)題,從很大程度上降低了問(wèn)題的難度,并且依據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原則和核函數(shù)的思想,在解決有限樣本的非線性以及高維模型識(shí)別問(wèn)題中表現(xiàn)出優(yōu)于其他模型的性能.而本文就選用了高維特征,因此SVM能更好地用于解決本文的分類(lèi)問(wèn)題,下面對(duì)SVM的具體原理以及本文如何使用SVM進(jìn)行詳細(xì)介紹.

      2) SVM概述

      SVM 是對(duì)線性分類(lèi)器的一種最佳設(shè)計(jì)準(zhǔn)則,1965年由Vapnik和Cortes在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上提出之后就被人們廣泛應(yīng)用,SVM的主要思想概括為2點(diǎn):

      ① SVM本質(zhì)上只分析和處理線性可分的情況,對(duì)于線性不可分的樣本,它會(huì)通過(guò)非線性映射算法將低維空間的樣本映射到高維空間的方法使得線性不可分的樣本變得可分,從而就可以對(duì)這些高維空間的樣本進(jìn)行線性處理,降低處理的復(fù)雜度.

      ② SVM為使分類(lèi)的風(fēng)險(xiǎn)最小化,在特征空間中構(gòu)建分割平面的時(shí)候,會(huì)構(gòu)建使得學(xué)習(xí)器得到全局最優(yōu)化的分割平面,并且在分類(lèi)時(shí)的全局期望風(fēng)險(xiǎn)以某個(gè)概率滿(mǎn)足一定上界,從而可以達(dá)到較好的分類(lèi)效果.二元分類(lèi)問(wèn)題的最優(yōu)分割平面滿(mǎn)足:

      w·x+b=0,

      (1)

      其中,w·x為多維向量,表示向量與向量的內(nèi)積.最優(yōu)平面要求:如果訓(xùn)練樣本被平面正確切分,并且距離平面越近的訓(xùn)練樣本與平面的間距越大.最小化的約束條件為所有的數(shù)據(jù)點(diǎn)到最優(yōu)平面的距離大于1,并且保證訓(xùn)練樣本被正確切分.同時(shí),引入非松弛變量來(lái)解決部分樣本不能被正確地分類(lèi)的情況,因此平面最優(yōu)解問(wèn)題可以被表示為

      (2)

      其中,εi≥0,i=1,2,…,n.

      目前,SVM的開(kāi)源工具有很多,其中使用最多的是臺(tái)灣大學(xué)的林智仁教授等人開(kāi)發(fā)的一個(gè)用于支持向量機(jī)分類(lèi)的開(kāi)源庫(kù)LibLinear,它也可以用來(lái)解決多類(lèi)分類(lèi)問(wèn)題.LibLinear由于程序小、運(yùn)用靈活、輸入?yún)?shù)少、易于擴(kuò)展等優(yōu)點(diǎn)成為目前國(guó)內(nèi)應(yīng)用最多的SVM庫(kù).目前有C++,Python,Java,R,Matlab等多種語(yǔ)言的接口,可以方便地在Windows或Unix平臺(tái)下使用.另外,Windows平臺(tái)下還有可視化操作工具SVM-toy.

      3) 特征選擇

      本文訓(xùn)練分類(lèi)器所用的實(shí)驗(yàn)數(shù)據(jù)共有1 000篇標(biāo)注過(guò)的新聞文檔.要訓(xùn)練分類(lèi)器,首先要選擇合適的分類(lèi)特征,由于分類(lèi)器處理的是候選異常行為句這樣的短文本,信息量較少,為了充分利用句子的信息,我們選用全詞特征,逐字掃描句子,若匹配到在詞典中出現(xiàn)的詞,就把該詞放入特征向量中,這樣,句子中所有潛在的詞都被放入特征向量中,向量的維度就是詞典中詞的個(gè)數(shù).全詞特征解決了傳統(tǒng)的分詞導(dǎo)致的詞語(yǔ)邊界錯(cuò)誤問(wèn)題,最大限度地利用句子中的信息.要想取得較好的效果,詞典的選擇就十分重要,我們將2個(gè)詞典合并作為本文的詞典.第1個(gè)詞典是The Lexicon Common Words in Contemporary Chinese.第2個(gè)詞典由ICTCLAS分詞工具對(duì)實(shí)際的輿情文檔集分詞得到,加入這個(gè)詞典以提高性能.

      最后,抽取每個(gè)句子的全詞特征向量作為SVM分類(lèi)器的輸入,訓(xùn)練分類(lèi)器.

      2.3異常行為類(lèi)型識(shí)別

      第2.1節(jié)、第2.2節(jié)介紹了事件識(shí)別和觸發(fā)詞檢測(cè),得到了候選異常行為句的集合.因此,現(xiàn)在只需要調(diào)用異常行為識(shí)別分類(lèi)器對(duì)所有候選異常行為句進(jìn)行分類(lèi).設(shè)C={-1,1,2,3,4}為行為類(lèi)別的集合,-1代表非異常行為,1,2,3,4分別代表Attack,Injure,Die,Arrest-Jail這4種異常行為類(lèi)型.我們的目標(biāo)是識(shí)別每個(gè)句子對(duì)應(yīng)的行為類(lèi)別.

      2.4實(shí)驗(yàn)結(jié)果

      1) 觸發(fā)詞檢測(cè):The Peoples Daily的所有文檔中共檢測(cè)出579 113個(gè)候選異常行為句.

      Fig. 2 Abnormal behavior co-occurrence network 1.圖2  異常行為共現(xiàn)網(wǎng)1

      2) 異常行為識(shí)別分類(lèi)器:一般情況(分類(lèi)器的預(yù)測(cè)值大于0.5時(shí),輸出為正例)下的性能如表7所示:

      Table 7 Performance of Classifier

      改進(jìn)的方向是:在開(kāi)放的大數(shù)據(jù)條件下,異常行為的數(shù)量十分龐大,因此我們更加注重識(shí)別的準(zhǔn)確率而不是召回率.可以通過(guò)提高分類(lèi)器的預(yù)測(cè)值來(lái)使準(zhǔn)確率提高、召回率降低,符合我們的要求.

      3) 異常行為識(shí)別:在所有的候選異常行為句中,共檢測(cè)出41 830條異常行為.

      3異常行為共現(xiàn)網(wǎng)

      異常行為共現(xiàn)網(wǎng)本質(zhì)上來(lái)說(shuō)是一種異質(zhì)網(wǎng)絡(luò),網(wǎng)絡(luò)中的每個(gè)點(diǎn)是一個(gè)實(shí)體(人名、地名、組織名),將這些實(shí)體作為共現(xiàn)網(wǎng)中的節(jié)點(diǎn),對(duì)于共同出現(xiàn)在一個(gè)異常行為句中的實(shí)體,認(rèn)為它們有共現(xiàn)關(guān)系,在共現(xiàn)網(wǎng)中給出連線.這樣,將一個(gè)事件中的所有實(shí)體及它們的關(guān)系都表現(xiàn)在共現(xiàn)網(wǎng)中就構(gòu)成了異常行為共現(xiàn)網(wǎng).

      命名實(shí)體識(shí)別之后我們已經(jīng)得到了異常行為句中的實(shí)體及其關(guān)系,可以根據(jù)共現(xiàn)次數(shù)篩選出其中的關(guān)鍵實(shí)體,將這些實(shí)體作為節(jié)點(diǎn),實(shí)體關(guān)系作為邊,我們就得到了異常行為共現(xiàn)網(wǎng).

      我們還可以對(duì)共現(xiàn)網(wǎng)進(jìn)行相關(guān)分析,如網(wǎng)絡(luò)拓?fù)浞治?,焦點(diǎn)分析和異常路徑分析.具體來(lái)說(shuō),我們可以從節(jié)點(diǎn)的度,節(jié)點(diǎn)所經(jīng)過(guò)的最短路徑的條數(shù)以及節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的路徑長(zhǎng)度等角度來(lái)進(jìn)行分析,從而挖掘共現(xiàn)網(wǎng)中中心性高的節(jié)點(diǎn)或比較關(guān)鍵的節(jié)點(diǎn),并且衡量2個(gè)節(jié)點(diǎn)之間關(guān)系的密切程度.

      以香港占中事件為例,數(shù)據(jù)庫(kù)中共有757條記錄,記錄中包含異常行為句2 587個(gè)、實(shí)體數(shù)245個(gè)、共現(xiàn)關(guān)系249個(gè),我們分別采用2種策略構(gòu)建共現(xiàn)網(wǎng),根據(jù)共現(xiàn)次數(shù)多的方法構(gòu)建的網(wǎng)絡(luò)如圖2所示:

      從圖2可以看出,很多實(shí)體都與“香港”這個(gè)實(shí)體共現(xiàn)組成實(shí)體對(duì),“香港”處于網(wǎng)絡(luò)比較中心的位置,該網(wǎng)絡(luò)就顯示出了與“香港”這個(gè)中心節(jié)點(diǎn)共現(xiàn)次數(shù)最多的節(jié)點(diǎn),結(jié)合實(shí)際,網(wǎng)絡(luò)中表現(xiàn)的就是香港占中事件中,“香港”是中心節(jié)點(diǎn)以及與它共現(xiàn)次數(shù)最多的其他在該事件中比較關(guān)鍵的節(jié)點(diǎn),從而可以幫助輿情分析人員及時(shí)發(fā)現(xiàn)熱點(diǎn)事件中的關(guān)鍵實(shí)體(人名、地名、組織名),并及時(shí)采取相應(yīng)舉措控制和引導(dǎo)輿情向正常的方向發(fā)展.

      根據(jù)度數(shù)最大的方法構(gòu)建的網(wǎng)絡(luò)如圖3所示:

      Fig. 3 Abnormal behavior co-occurrence network 2.圖3 異常行為共現(xiàn)網(wǎng)2

      從圖3可以看出,在香港占中事件中,度數(shù)最大的一些節(jié)點(diǎn)分別是“香港”、“美國(guó)”、“中國(guó)”、“英國(guó)”、“九龍”、“旺角”等,這些都是該事件中比較重要的一些地點(diǎn),需要重點(diǎn)分析它們之間的聯(lián)系,網(wǎng)絡(luò)中還有與這些關(guān)鍵節(jié)點(diǎn)共現(xiàn)過(guò)的其他節(jié)點(diǎn),可以進(jìn)行輔助分析,通過(guò)分析可以掌握關(guān)鍵節(jié)點(diǎn)之間的隱含聯(lián)系,為輿情分析和決策做出一定的支持.

      Fig. 4 Analysis of abnormal path.圖4 異常路徑分析

      對(duì)于2種共現(xiàn)網(wǎng)絡(luò),我們都可以對(duì)其進(jìn)行異常路徑分析和焦點(diǎn)分析,對(duì)于網(wǎng)絡(luò)中的任意2個(gè)實(shí)體節(jié)點(diǎn),我們都可以找出它們之間的所有路徑和最短路徑,從而分析該實(shí)體對(duì)與路徑上的實(shí)體之間的關(guān)系以及是如何通過(guò)這些實(shí)體進(jìn)行連接的.例如在圖4中,“周永康”和“朱耀明”這2個(gè)支持占中的人名之間的最短路徑上就有“香港”和“梁振英”.擁有較高度數(shù)的節(jié)點(diǎn),與其他較多節(jié)點(diǎn)之間有最短路徑的節(jié)點(diǎn),其他節(jié)點(diǎn)對(duì)之間的最短路徑通過(guò)次數(shù)較多的節(jié)點(diǎn)等具有較高的“中心性”,把中心性高的節(jié)點(diǎn)作為網(wǎng)絡(luò)中的焦點(diǎn)進(jìn)行重點(diǎn)分析,也可以根據(jù)網(wǎng)絡(luò)的動(dòng)態(tài)變化來(lái)動(dòng)態(tài)跟蹤關(guān)鍵實(shí)體.這些分析都是現(xiàn)實(shí)可行的,可以挖掘出某些熱點(diǎn)事件中隱含的信息,對(duì)決策做出一定的支持,有很重要的理論和現(xiàn)實(shí)意義.

      4總結(jié)與展望

      4.1工作總結(jié)

      本文主要探索了對(duì)網(wǎng)絡(luò)輿情文本進(jìn)行事件抽取的研究,采用事件抽取的主流會(huì)議ACE中對(duì)事件和事件抽取子任務(wù)的定義,結(jié)合本文所依托的課題背景和網(wǎng)絡(luò)輿情分析的需求,對(duì)網(wǎng)絡(luò)輿情分析中關(guān)注的4類(lèi)異常行為進(jìn)行抽取.

      本文通過(guò)對(duì)真實(shí)數(shù)據(jù)的實(shí)驗(yàn)驗(yàn)證了該原型系統(tǒng)的有效性和可行性.論文的主要工作可以總結(jié)如下:

      1) 根據(jù)ACE中對(duì)事件的定義并結(jié)合本文的研究需求,明確本文中事件的定義.結(jié)合網(wǎng)絡(luò)輿情的研究現(xiàn)狀和本文的研究需求,確定本文的抽取目標(biāo).

      2) 對(duì)網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行事件識(shí)別和觸發(fā)詞檢測(cè),過(guò)濾干擾數(shù)據(jù).

      3) 使用合適的特征來(lái)訓(xùn)練異常行為識(shí)別分類(lèi)器,進(jìn)行行為類(lèi)別識(shí)別.

      4) 構(gòu)建異常行為共現(xiàn)網(wǎng),為輿情分析提供可視化的研究方法.

      5) 開(kāi)發(fā)基于本文工作的原型系統(tǒng),并在真實(shí)數(shù)據(jù)上進(jìn)行驗(yàn)證.

      4.2未來(lái)展望

      面向網(wǎng)絡(luò)輿情數(shù)據(jù)的異常行為識(shí)別是一個(gè)非常有意義的方向,可以從3個(gè)方面對(duì)本文的工作進(jìn)行擴(kuò)展和改進(jìn):

      1) 完善未知觸發(fā)詞識(shí)別.本文目前采用的觸發(fā)詞表是固定大小的,包含了大部分的觸發(fā)詞,必定也會(huì)有一些觸發(fā)詞的遺漏,這樣有一些異常行為句就在觸發(fā)詞檢測(cè)時(shí)被錯(cuò)誤過(guò)濾掉,影響了整體的性能.因此我們?cè)谙乱徊降墓ぷ髦行枰晟朴|發(fā)詞表,可以采用基于詞語(yǔ)構(gòu)詞結(jié)構(gòu)和語(yǔ)義相似度的方法來(lái)識(shí)別未知觸發(fā)詞,并將其加入原有觸發(fā)詞表中,或者在本文方法的基礎(chǔ)上使用基于監(jiān)督的方法來(lái)動(dòng)態(tài)擴(kuò)展觸發(fā)詞表.

      2) 完善對(duì)分類(lèi)特征的選擇.本文采用的分類(lèi)特征是全詞特征,更加注重的是句子在詞法方面的信息,而要對(duì)異常行為進(jìn)行分類(lèi),僅僅有詞法信息是不夠的,因此我們下一步需要在特征中加入更多的語(yǔ)法和語(yǔ)義信息,比如可以選擇句子中觸發(fā)詞左右的n個(gè)詞及其詞性作為分類(lèi)特征,完善異常行為識(shí)別分類(lèi)器的分類(lèi)效果.

      3) 完善對(duì)異常行為共現(xiàn)網(wǎng)的分析.本文構(gòu)建了異常行為共現(xiàn)網(wǎng),但并沒(méi)有進(jìn)行共現(xiàn)網(wǎng)的詳細(xì)分析.因此未來(lái)需要完善網(wǎng)絡(luò)的分析,更加明確地體現(xiàn)出異常行為共現(xiàn)網(wǎng)的應(yīng)用價(jià)值.

      參考文獻(xiàn)

      [1]Grishman R. Message Understanding Conf (MUC)[EBOL]. Philadelphia, PA: University of Pennsylvania1. (2002-07-01) [2013-07-21]. http:en.wikipedia.org-wikiMessage_Understanding_Conference

      [2]Garofolo J. Automatic Content Extraction (ACE)[EBOL]. Philadelphia, PA: University of Pennsylvania1. (2005-07-01) [2013-07-21]. http:www.itl.nist.goviadmig-testsace2005

      [3]Riloff E, Shoen J. Automatically acquiring conceptual answer patterns without an annotated corpus[C]Proc of the 3rd Workshop on Very Large Corpora. San Francisco: Morgan Kaufmann, 1995: 148-161

      [4]Yangarber R. Scenario customization for information extraction[D]. New York: New York University, 2001

      [5]Chieu H L, Ng H T. A maximum entropy approach to information extraction from semi-structured and free text[C]Proc of the 18th National Conf on Artificial Intelligence. Edmonton, Alberta: American Association for Artificial Intelligence, 2002: 786-791

      [6]Jiang Jifa. A method to do Chinese event ie from a multiple sentences’ event narration[J]. Computer Engineering, 2005, 31(2): 27-29 (in Chinese)(姜吉發(fā).一種跨語(yǔ)句漢語(yǔ)事件信息抽取方法[J]. 計(jì)算機(jī)工程, 2005, 31(2): 27-29)

      [7]Ahn D. The stages of event extraction[C]Proc of the Workshop on Annotations and Reasoning about Time and Events. Stroudsburg, PA: Association for Computational Linguistics, 2006: 1-8

      [8]Yu Jiangde, Xiao Xinfeng, Fan Xiaozhong. Event information extraction from Chinese text based on hidden Markov models[J]. Microelectronics & Computer, 2007, 24(10): 92-94 (in Chinese)(于江德, 肖新峰, 樊孝忠. 基于隱馬爾可夫模型的中文文本事件信息抽取[J]. 微電子學(xué)與計(jì)算機(jī), 2007, 24(10): 92-94)

      [9]Chen Z, Ji H. Language specific issue and feature exploration in Chinese event extraction[C]Proc of Human Language Technologies: The 2009 Annual Conf of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2009: 209-212

      [10]Fu Jianfeng, Liu Zongtian, Fu Xuefeng, et al. Dependency parsing based event recognition[J]. Computer Science, 2009, 36(11): 217-219 (in Chinese)(付劍鋒, 劉宗田, 付雪峰, 等. 基于依存分析的事件識(shí)別[J]. 計(jì)算機(jī)科學(xué), 2009, 36(11): 217-219)

      [11]Llorens H, Saquete E, Navarro-Colorado B. TimeML events recognition and classification learning CRF models with semantic roles[C]Proc of the 23rd Int Conf on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2010: 725-733

      [12]Xu Honglei, Chen Jinxiu, Zhou Changle, et al. Research on event type identification for Chinese event extraction[J]. Mind and Computation, 2010, 4(1): 34-44 (in Chinese)(許紅磊, 陳錦繡, 周昌樂(lè), 等. 自動(dòng)識(shí)別事件類(lèi)別的中文事件抽取技術(shù)研究[J]. 心智與計(jì)算, 2010, 4(1): 34-44)

      [13]Chen Yanping, Zheng Qinghua, Zhang Wei. Omni-word feature and soft constraint for Chinese relation extraction[C]Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2014: 572-581

      Hao Yazhou, born in 1989. PhD candidate in Xi’an Jiaotong University. Student member of China Computer Federation. His research interests include data mining, natural language processing and social media mining.

      Zheng Qinghua, born in 1969. Professor and PhD supervisor. His main research interests include multi-media e-learning, computer network security, intelligent e-learning theory and algorithm.

      Chen Yanping, born in 1980. PhD candidate in Xi’an Jiaotong University. His research interests include natural language processing, information extraction and data mining.

      Yan Caixia, born in 1992. Master candidate in Xi’an Jiaotong University. Her research interests include information extraction and data mining.

      中圖法分類(lèi)號(hào)TP391

      通信作者:鄭慶華(qhzheng@mail.xjtu.edu.cn)

      基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(91118005,91218301,91418205);國(guó)家“八六三”高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2012AA011003)

      收稿日期:2015-10-29;修回日期:2015-11-18

      This work was supported by the National Natural Science Foundation of China (91118005,91218301,91418205) and the National High Technology Research and Development Program of China (863 Program) (2012AA011003).

      猜你喜歡
      網(wǎng)絡(luò)輿情數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      網(wǎng)絡(luò)輿情事件的引導(dǎo)策略分析
      數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
      “互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
      淺析網(wǎng)絡(luò)輿情治理
      基于社會(huì)穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機(jī)制構(gòu)建的思考
      今傳媒(2016年9期)2016-10-15 22:02:52
      突發(fā)事件網(wǎng)絡(luò)輿情的演化規(guī)律與監(jiān)控
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      武平县| 宜川县| 霍林郭勒市| 开封市| 盖州市| 巴塘县| 浙江省| 麦盖提县| 天等县| 洪江市| 开平市| 茶陵县| 新泰市| 南投县| 绥江县| 华蓥市| 仲巴县| 沙洋县| 齐河县| 泾源县| 旺苍县| 青田县| 通许县| 金秀| 永兴县| 高阳县| 桃园县| 上栗县| 新干县| 岢岚县| 静海县| 岗巴县| 阜平县| 子长县| 福州市| 民丰县| 新民市| 错那县| 蒲江县| 桂东县| 辽宁省|