• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)環(huán)境下微博輿情熱點話題挖掘方法研究

    2015-02-03 12:15:08馬彥
    現(xiàn)代情報 2014年11期
    關(guān)鍵詞:熱點話題微博輿情

    馬彥

    [摘要]通過分析大數(shù)據(jù)環(huán)境下微博輿情的發(fā)展特點和輿情自動監(jiān)測的具體需求,設(shè)計了微博輿情熱點挖掘系統(tǒng)結(jié)構(gòu)模型,描述了各層的主要功能和實現(xiàn)方法。然后討論了熱點話題發(fā)現(xiàn)的方法,首先運用ICTCLAS和AntCone等工具提取熱點詞,其次描述規(guī)范化的數(shù)據(jù)表示形式,最后通過Chameleon聚類算法實現(xiàn)熱點博文的聚類和話題抽取。該方法將對及時發(fā)現(xiàn)敏感信息和掌握輿情熱點提供信息支持。

    [關(guān)鍵詞]微博;輿情;熱點話題;挖掘方法

    [中圖分類號)G250.73 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008-0821(2014)11-0029-05

    互聯(lián)網(wǎng)出現(xiàn)后,數(shù)據(jù)則不斷的以前所未有的速度增長。具有大量化(Volume)、多樣化(Variety)、快速化(Veloei-ty)和價值(Value)這“四v”特征的“大數(shù)據(jù)”正影響和改變著人們的生活。隨著對大數(shù)據(jù)分析能力的提高和技術(shù)的進(jìn)步,它必將對擁有良好的教育、醫(yī)療和交通的智慧城市的構(gòu)建產(chǎn)生決定性的推動作用;為更加理性、安全和完善的電子金融和電子商務(wù)業(yè)務(wù)提供技術(shù)保障;另外,實現(xiàn)實時的輿情監(jiān)測、控制和引導(dǎo),將促進(jìn)電子政務(wù)良性務(wù)實發(fā)展,從而保障國家的和諧穩(wěn)定環(huán)境。因此,實現(xiàn)對大數(shù)據(jù)中潛藏價值數(shù)據(jù)的挖掘和應(yīng)用成為了學(xué)術(shù)界、政界和商業(yè)界共同探索和關(guān)注的焦點問題。

    隨著政府部門和個人同時開啟微博和微信,我國迎來了一個新的“雙微時代”。2014年7月人民網(wǎng)輿情監(jiān)測室與騰訊微博聯(lián)合發(fā)布《2014上半年度騰訊政務(wù)微博發(fā)展研究報告》,該報告顯示,截至2014年6月15日,經(jīng)過騰訊微博平臺認(rèn)證的政務(wù)微博已達(dá)到181524個,其中黨政機構(gòu)微博111728個,公務(wù)人員微博69796個。政務(wù)微信認(rèn)證數(shù)超過5000個。與此同時,人民網(wǎng)輿情監(jiān)測室也與新浪微博聯(lián)合發(fā)布《2014年上半年新浪政務(wù)微博報告》,該報告指出截至2013年底,我國政務(wù)微博認(rèn)證賬號超過24萬,而在其2013年上半年報告中發(fā)布新浪微博注冊用戶總數(shù)已經(jīng)超過5億。另據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心2014年7月發(fā)布的《第34次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,微博用戶使用成熟度和內(nèi)容偏好度不斷加深。微博發(fā)展呈現(xiàn)如下幾個趨勢:第一,微博已經(jīng)成為個人、機構(gòu)以及其他媒體的信息交流發(fā)布平臺;第二,微博用戶由早期一二線城市為主逐步向三四線或更低級別地區(qū)發(fā)展;第三,隨著微博用戶、博文數(shù)量的裂變增長,以及微博中所蘊含的時間、地域、社會關(guān)系網(wǎng)絡(luò)相關(guān)數(shù)據(jù)的積累,微博將在輿情管理、行為預(yù)測中體現(xiàn)更大的價值。因此,研究如何利用Web信息挖掘技術(shù),解決微博輿情信息的提取、熱點話題及其受眾和時空分布特點的發(fā)現(xiàn)、態(tài)度傾向性分析和網(wǎng)絡(luò)輿情擴散方式建模等問題,能夠為社會管理者及時了解輿情熱點并進(jìn)行反饋、預(yù)警和引導(dǎo)提供必要的信息。

    目前,我國各界已經(jīng)深入開展了關(guān)于網(wǎng)絡(luò)輿情相關(guān)領(lǐng)域的研究工作。首先,研究基金資助方面,國家大力支持網(wǎng)絡(luò)輿情分析與監(jiān)測領(lǐng)域的相關(guān)研究,僅2014年批準(zhǔn)的國家自然科學(xué)基金資助此領(lǐng)域項目有12項,資助力度在21萬到84萬之間;國家社會科學(xué)基金資助此領(lǐng)域項目8項。其次,研究成果文獻(xiàn)發(fā)表方面,根據(jù)中國知網(wǎng)(CNKI)檢索數(shù)據(jù)顯示,我國關(guān)于微博輿情分析方面的研究文獻(xiàn)最早于2011年發(fā)表,之后每年倍數(shù)增長。研究熱點主要集中在以下七個方面:第一,涉及微博輿情監(jiān)測和預(yù)警的具體技術(shù)、方法和算法;第二,微博輿情預(yù)測模型;第三,微博輿情傳播的影響因素、模式、特征和規(guī)律;第四,微博輿情管控、引導(dǎo)和微博突發(fā)事件應(yīng)對;第五,政務(wù)微博的作用、對突發(fā)事件的應(yīng)對能力和發(fā)展方向;第六,涉警微博的熱點事件應(yīng)對和引導(dǎo);第七,高校微博輿情的特點和影響力及其監(jiān)管、引導(dǎo)和應(yīng)對機制。再次,產(chǎn)品研發(fā)方面,我國已有18家網(wǎng)絡(luò)輿情科研機構(gòu)、包括“拓爾思、谷尼、軍犬、樂思”在內(nèi)的12家網(wǎng)絡(luò)輿情監(jiān)測服務(wù)機構(gòu)和包括“天涯輿情”在內(nèi)的3個有影響力的媒體型網(wǎng)絡(luò)輿情產(chǎn)品。

    微博輿情熱點話題發(fā)現(xiàn)是實現(xiàn)微博輿情監(jiān)測、預(yù)警、應(yīng)對和引導(dǎo)最核心的工作和基礎(chǔ)。部分研究者將聚類方法的改進(jìn)及其在熱點發(fā)現(xiàn)方面的應(yīng)用作為網(wǎng)絡(luò)輿情熱點話題發(fā)現(xiàn)研究的工作重點。張壽華等人首先提取檢索頁面標(biāo)題分析熱點關(guān)鍵詞,然后利用熱點關(guān)鍵詞進(jìn)行話題聚類,最后設(shè)計熱點話題評估模型,從而實現(xiàn)對熱點話題的監(jiān)測。韓晨靖改進(jìn)特征詞提取方法和向量相似度計算公式,并將該結(jié)果融入基于密度的聚類算法中發(fā)現(xiàn)輿情熱點。韓威通過改進(jìn)Single-Pass聚類算法克服該算法對文本輸入順序敏感的缺陷,將其應(yīng)用于網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)。也有研究者關(guān)注面向大數(shù)據(jù)環(huán)境的微博輿情熱點監(jiān)控。陳彥舟等將Hadoop分布式文件系統(tǒng)和Map-Reduce計算模型應(yīng)用于微博數(shù)據(jù)處理,實現(xiàn)對微博熱點話題的發(fā)現(xiàn)。另有研究者將藏文輿情分析作為研究工作的著眼點。江濤設(shè)計藏文語料預(yù)處理和分詞方法,并將其表示為向量空間模型,通過增量聚類完成藏文熱點話題的發(fā)現(xiàn)并提出熱點輿情分析結(jié)果可視化方案。部分熱點發(fā)現(xiàn)方面的研究成果已被應(yīng)用于實際的產(chǎn)品中,如李渝勤等提出的面向互聯(lián)網(wǎng)輿情的熱詞分析技術(shù)已經(jīng)被應(yīng)用于拓爾思輿情檢測系統(tǒng)中的熱點話題發(fā)現(xiàn)模塊。

    縱觀已有研究成果,我國微博輿情熱點發(fā)現(xiàn)與分析還處于探索階段,熱點話題發(fā)現(xiàn)的準(zhǔn)確率、召回率和時效性問題,將影響整個輿情監(jiān)測系統(tǒng)的性能。目前,很多研究成果還無法適應(yīng)實踐的需求,在實際應(yīng)用中,突發(fā)事件的早期預(yù)警,輿情事件的進(jìn)展跟蹤等仍然依賴人工參與。因此,為了降低輿情監(jiān)控過程中人工參與的程度,本文將重點研究并提出微博輿情熱點話題挖掘模型以及具體的熱點話題發(fā)現(xiàn)方法。

    1、微博輿情熱點挖掘方法

    1.1 熱點挖掘模型構(gòu)建

    根據(jù)微博數(shù)據(jù)的特點和用戶實際應(yīng)用的最終需求,構(gòu)建了由數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理層、數(shù)據(jù)存儲層、數(shù)據(jù)智能分析層、輿情信息表示層和應(yīng)用層組成的微博輿情熱點挖掘系統(tǒng)模型,如圖1所示。

    (1)數(shù)據(jù)采集層用于從國內(nèi)四大主流微博平臺自動采集原始數(shù)據(jù)。目前新浪、騰訊、搜狐和網(wǎng)易均提供了微博開放平臺,將其微博相關(guān)功能接口通過Open API(Application Progamming Interface,應(yīng)用編程接口)的形式開放給用戶。Open API即開放平臺是服務(wù)型網(wǎng)站常見的一種應(yīng)用,網(wǎng)站的服務(wù)商將自己的網(wǎng)站服務(wù)封裝成一系列API開放出去,供第三方開發(fā)者使用,輿情挖掘系統(tǒng)中通過調(diào)用這些API可以獲取微博內(nèi)的數(shù)據(jù)。新浪微博同時還提供了微博開放平臺商業(yè)數(shù)據(jù)API,為企業(yè)接入者提供便捷的獲取微博官方數(shù)據(jù)的通道,這為接入者提供了更強大的數(shù)據(jù)支持和穩(wěn)定性保障。endprint

    (2)數(shù)據(jù)預(yù)處理層主要用于對原始數(shù)據(jù)進(jìn)行清洗,提取元數(shù)據(jù)。元數(shù)據(jù)主要包含兩個方面:第一,用戶信息元數(shù)據(jù)。包括認(rèn)證信息、基本信息(用戶ID、昵稱、性別、所在地、簡介、生日、注冊時間)、微博數(shù)、粉絲數(shù)、關(guān)注數(shù)、評論數(shù)、微數(shù)據(jù)(被轉(zhuǎn)發(fā)數(shù)、收到評論數(shù))、微人脈(社交關(guān)系網(wǎng)絡(luò));第二,微博元數(shù)據(jù)。包括微博ID、微博內(nèi)容、發(fā)表時間、轉(zhuǎn)發(fā)數(shù)、被評論數(shù)、“贊”數(shù)、“@”內(nèi)容、表情符號、“#…#”關(guān)注話題、分享圖書、分享音樂、分享短視頻、發(fā)表時位置信息。

    (3)數(shù)據(jù)存儲層實現(xiàn)在分布式數(shù)據(jù)倉庫中存儲元數(shù)據(jù)。

    (4)數(shù)據(jù)智能分析層是微博輿情熱點發(fā)現(xiàn)最核心的部分。主要是借助大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘技術(shù)(分類算法、聚類算法、相似項發(fā)現(xiàn)算法、序列模式挖掘算法)和自然語言處理相關(guān)技術(shù),實現(xiàn)對微博數(shù)據(jù)的智能分析。熱點話題的發(fā)現(xiàn)、情感傾向判斷、發(fā)展走勢分析和預(yù)測、時間和地域特征分析以及受眾跟蹤是這一層主要要實現(xiàn)的功能。

    (5)輿情信息表示層主要實現(xiàn)微博輿情熱點挖掘結(jié)果的可視化。這一層主要包括三個方面的功能:第一,熱點話題博文排行榜,幫助快速了解輿情熱點;第二,熱點話題博文時空分布特征圖表展示,直觀掌握輿情發(fā)生、發(fā)展和演變情況;第三,突發(fā)輿情預(yù)警功能,通過網(wǎng)站強調(diào)顯示、自動向有關(guān)人員發(fā)送簡報信息(短信、郵件、電話),為及時控制和引導(dǎo)輿情事件提供可靠的技術(shù)保障。

    1.2 熱點詞的確定

    實現(xiàn)微博輿情熱點挖掘的首要任務(wù)是在微博文本中發(fā)現(xiàn)熱點詞。在微博博文中出現(xiàn)的高頻詞中(不包括代詞、介詞、連詞、助詞、嘆詞、擬聲詞),選擇隨時間改變詞頻變化大的作為熱點詞。詞是最小的能夠獨立運用的語言單位,但是在漢語語句中詞語之間沒有明顯的區(qū)分標(biāo)記,因此在實現(xiàn)對熱點詞的提取前首先需要將微博文本中的語句分割成正確的詞語序列,然后再實現(xiàn)高頻詞的查找。

    (1)這里采用中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS實現(xiàn)分詞處理。該系統(tǒng)主要功能包括中文分詞;詞性標(biāo)注;命名實體識別;新詞識別;同時支持用戶詞典;支持繁體中文;支持gb2312、GBK、UTF8等多種編碼格式。ICrCLAS分詞速度單機500KB/s,分詞精度98.45%,是目前世界上最好的漢語詞法分析器。圖2是取自2014年8月31日新浪微博的一條博文,通過調(diào)用ICIELAS分析后效果如圖3所示。

    計算所漢語詞性標(biāo)記集中的標(biāo)記共計99個(22個一類,66個二類,11個三類),其中一類標(biāo)記如表l所示。

    (2)基于分詞后的結(jié)果,可以利用由日本早稻田大學(xué)科技學(xué)院Laurence Anthony編寫的一款綠色、跨平臺語料處理軟件AntConc(這里使用antconc3.2.4w版本)實現(xiàn)高頻詞的發(fā)現(xiàn)。AntConc具有詞語檢索、詞表生成、主題詞計算、搭配和詞族提取等多種功能。高頻詞的檢索和高頻詞在文內(nèi)呈現(xiàn)示意如圖4、圖5所示。

    比如對2014年8月31日新浪微博中關(guān)于“中國新首富馬云”部分博文按照上述方法進(jìn)行分析,得到高頻詞據(jù)頻率由高到低分別是馬云、首富、王思聰、萬達(dá)、電商、阿里巴巴。微博博文分析數(shù)據(jù)恰巧與一條新聞相關(guān)并且一致。2014年8月28日,美國彭博新聞社發(fā)布的億萬富豪指數(shù)顯示,阿里巴巴創(chuàng)始人馬云超越萬達(dá)集團(tuán)王健林成為中國首富。馬云是世界最大電商平臺的掌門人。因此,輿論關(guān)注的焦點也的確表現(xiàn)在馬云的財富和他所擁有的產(chǎn)業(yè)以及萬達(dá)王健林的兒子王思聰?shù)确矫妗?/p>

    (3)選擇隨時間改變詞頻正向變化大的高頻詞作為熱點詞。

    1.3 熱點博文聚類

    通過聚類,可以實現(xiàn)熱點話題的發(fā)現(xiàn)。這里設(shè)計熱點博文聚類方法主要包含四個步驟:第一,將博文表示成熱點詞向量組的形式;第二,求解博文的熱點詞出現(xiàn)矩陣;第三,求解博文的相異度矩陣;第四,利用層次聚類Chamdeon算法實現(xiàn)熱點博文聚類。

    1.3.1 博文的向量表示

    微博博文集合用S表示,S={s1,s1,…,sn},其中si(1≤i≤n)代表一條微博文本,si=(hw1,hw2,…,hwm)(hwi(1≤i≤m)表示si中出現(xiàn)的經(jīng)過分詞過濾后的熱點詞)。

    1.3.2 博文熱點詞出現(xiàn)矩陣定義

    定義一個n×g(n條博文×g個熱點詞)的矩陣,如公式(1)所示。

    1.3.3 博文相異度矩陣定義

    定義一個n×n(n條博文)的矩陣,表達(dá)n條博文兩兩之間的近似性,如公式(2)所示。

    其中,d(i,j)是毛和si之間的相異性的量化表示,是一個非負(fù)值,si和sj越相似,其值越接近于O,否則其值越大。因為d(i,j)=d(j,i)且d(i,i)=0,這里只需要使用一個下三角矩陣。

    另外,通過計算Jaceard系數(shù)來完成,如公式(3)所示。

    其中,a表示在公式(1)中,兩條博文si和sj的相同熱點詞屬性具有相同屬性值1的屬性個數(shù);b表示在公式(1)中,兩條博文si和sj的相同熱點詞屬性具xip=1且xjp=0的特征的屬性個數(shù);c表示在公式(1)中,兩條博文si和sj的相同熱點詞屬性具xip=O且xjp=1的特征的屬性個數(shù)。

    1.3.4 熱點話題發(fā)現(xiàn)

    Chameleon是一種利用動態(tài)建模的層次聚類算法,簇間的相似度依據(jù)族中對象的互連度和簇的近似度判斷,將互連性和近似性都大的簇合并。該算法可以發(fā)現(xiàn)高質(zhì)量的任意形狀的簇。借助該算法實現(xiàn)熱點話題發(fā)現(xiàn)的具體步驟如下:endprint

    第一步,構(gòu)造一個K-最近鄰圖Gk。圖中頂點表示數(shù)據(jù)項,即si(1≤i≤n);若si到sj的距離值是所有數(shù)據(jù)項到數(shù)據(jù)項sj的距離值中K個最小值之一,則在這兩個點之間加入一條帶權(quán)邊,邊的權(quán)重代表它們之間的近似度。即它們之間的距離越大,則它們之間的近似度越小,它們之間的邊的權(quán)重也越小。

    第二步,根據(jù)最小化截斷邊的權(quán)重和來分割K-最近鄰圖Gk。

    第三步,合并子簇。訪問每個簇,計算它與臨近簇的相對近似度(RI)和相對互連度(RC),計算方法如公式(4)和公式(5)所示;合并彤和RC分別超過TRj和TRc的簇對(TRI和TRC為用戶指定的閾值),若滿足條件的臨近簇多于一個,合并具有最高絕對互連性的簇;重復(fù)上述操作,直到?jīng)]有可合并的簇。

    其中,EC(Ci,Cj)是連接簇Ci和Cj的所有邊的權(quán)重之和;EC(Ci)是把簇劃分為兩個大致相等部分的最小等分線切斷的所有邊的權(quán)重之和。

    其中,SEC(Ci,Cj)是連接簇Ci和Cj的邊的平均權(quán)重;SEC(Ci)是把簇Ci劃分為兩個大致相等部分的最小等分線切斷的所有邊的平均權(quán)重。

    通過上述步驟可以完成熱點博文向量的聚類,提取簇心所在向量,將其對應(yīng)的博文作為熱點話題呈現(xiàn)。

    2、結(jié)論

    隨著互聯(lián)網(wǎng)的快速發(fā)展,微博作為其重要應(yīng)用之一已經(jīng)深入人們的日常網(wǎng)絡(luò)生活,社會各階層的參與者通過微博表達(dá)其對各種公共事務(wù)的意見、態(tài)度、觀點和情緒。對微博輿情的檢測、預(yù)警和引導(dǎo)是新形勢下創(chuàng)新科學(xué)社會管理機制的迫切需要。但微博數(shù)據(jù)量的迅猛增長和數(shù)據(jù)形式的多樣化使得人工分析輿情信息變得愈發(fā)困難。在這種大數(shù)據(jù)背景下,為保證微博輿情檢測的準(zhǔn)確性和時效性,并逐步減少人工參與程度,本文研究并提出了由數(shù)據(jù)的采集、預(yù)處理、存儲、智能分析和信息表示等六層構(gòu)成的微博輿情熱點挖掘模型;重點討論了智能分析部分熱點話題提取的方法,首先利用分詞和詞索引實現(xiàn)熱點詞的發(fā)現(xiàn),然后設(shè)計博文的向量表示方法和相異度矩陣從而實現(xiàn)對博文數(shù)據(jù)的規(guī)范化處理,最后運用Chameleon算法進(jìn)行博文聚類從而發(fā)現(xiàn)熱點話題。未來關(guān)于博文中情感傾向性分析問題以及涉及長微博的輿情分析將成為工作的重點。endprint

    猜你喜歡
    熱點話題微博輿情
    青少年數(shù)字素養(yǎng)的社會與文化內(nèi)涵及其教育啟示
    2017年高考作文熱點話題預(yù)測
    事實與流言的博弈
    人間(2016年26期)2016-11-03 18:19:04
    輿情
    中國民政(2016年16期)2016-09-19 02:16:48
    基于SVM的熱點話題跟蹤實現(xiàn)過程研究
    輿情
    中國民政(2016年10期)2016-06-05 09:04:16
    輿情
    中國民政(2016年24期)2016-02-11 03:34:38
    熱點話題排行榜
    基于熵值的網(wǎng)絡(luò)論壇熱點話題發(fā)現(xiàn)
    計算機工程(2014年6期)2014-02-28 01:28:00
    微博的輿情控制與言論自由
    富裕县| 文化| 武清区| 南漳县| 手游| 多伦县| 光山县| 逊克县| 隆化县| 江门市| 调兵山市| 那曲县| 波密县| 郸城县| 广水市| 喜德县| 怀集县| 淮阳县| 六枝特区| 潼南县| 霞浦县| 和田县| 大方县| 揭西县| 简阳市| 慈溪市| 基隆市| 南漳县| 新龙县| 招远市| 右玉县| 桃源县| 吴忠市| 松原市| 武定县| 抚顺县| 富民县| 日照市| 临猗县| 临洮县| 阜城县|