摘 要:社交網(wǎng)絡(luò)是社會公眾表達自身訴求的新渠道,也是我國霧霾輿情的重災(zāi)區(qū)。文章以語料庫與主要研究方法,從數(shù)據(jù)角度上剖析了語義標注技術(shù)在我國霧霾輿情監(jiān)控中的應(yīng)用價值。由于社交媒體的信息質(zhì)量層次不齊,文章還考察了相關(guān)用戶影響力評價指標及數(shù)據(jù)清洗規(guī)則。
關(guān)鍵詞:霧霾;社交網(wǎng)絡(luò);語料庫;構(gòu)建模式
近年來互聯(lián)網(wǎng)新媒體技術(shù)的不斷發(fā)展,不僅使網(wǎng)絡(luò)傳播模式發(fā)生了深刻的變化,也使網(wǎng)絡(luò)輿情的形態(tài)發(fā)生了重大的改變。新媒體技術(shù)的不斷發(fā)展,使網(wǎng)民具備了越來越多自由使用互聯(lián)網(wǎng)信息的能力。在自由交互的網(wǎng)絡(luò)環(huán)境中,網(wǎng)絡(luò)輿情的產(chǎn)生、積聚、爆發(fā)以及對現(xiàn)實空間產(chǎn)生影響和引導(dǎo)社會輿論的過程中,網(wǎng)民發(fā)揮出來的影響力越來越重要。
社交網(wǎng)絡(luò)已成為健康信息的重要傳播媒介,特別是近年來關(guān)于霧霾這一話題的研究引起了學(xué)界較大關(guān)注。目前存在的主要問題有:
(1)社交媒體成為了霧霾輿情的重災(zāi)區(qū),極易引發(fā)民眾恐慌,如何辨別相關(guān)信息真?zhèn)纬蔀樨酱鉀Q的一大難題。
(2)社交網(wǎng)絡(luò)信息質(zhì)量參差不齊,內(nèi)容更是五花八門,如何獲取公眾對霧霾危害的健康信息表達也是霧霾輿情監(jiān)控的重要研究內(nèi)容。針對以上問題,文章提出以語料庫構(gòu)建為基礎(chǔ),構(gòu)建能夠從多個數(shù)據(jù)維度反映霧霾信息的知識庫模型。在信息質(zhì)量評價上,借鑒科學(xué)計量學(xué)相關(guān)指標對社交媒體中用戶行為的影響力進行正確評價。
一、用戶影響力研究及數(shù)據(jù)選擇
1.用戶影響力指標研究現(xiàn)狀
用戶影響力的傳統(tǒng)指標包括粉絲數(shù)、關(guān)注數(shù)、是否實名認證、是否有個人頭像等,行為指標主要由發(fā)帖、回復(fù)和轉(zhuǎn)發(fā)。
趙倩雯以霧霾事件為例,對微博用戶的行為進行了深入挖掘,探討微博如何對社會輿論進行引導(dǎo),從而轉(zhuǎn)移公眾的關(guān)注點;王晰巍使用Gephi社會網(wǎng)絡(luò)軟件及數(shù)理統(tǒng)計分析工具繪制了霧霾用戶傳播可視化圖譜;王禎駿等學(xué)者設(shè)計了基于時間模型的潛在影響力傳播模型 ;汪明艷等從加強政府輿情治理的可控性角度,對社交媒體網(wǎng)絡(luò)輿情傳播影響力的指標進行了深入探討;廖海涵等從新浪微博采集到的用戶發(fā)布數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)等信息特征入手,借助數(shù)據(jù)的相關(guān)分析、偏相關(guān)分析、回歸分析等方法研究用戶行為關(guān)系;原福永等學(xué)者以新浪微博為研究對象,提出微博用戶的用戶影響力指數(shù)模型 ;張昊等根據(jù)用戶自身特征與用戶粉絲情況得出其計算公式,綜合考慮用戶在微博中的所有信息并計算用戶影響力。
2.用戶影響力數(shù)據(jù)來源
文章通過北京拓爾思公司海貝大數(shù)據(jù)管理系統(tǒng),獲取了66萬條霧霾相關(guān)信息,在考慮用戶行為時,只運用回復(fù)、轉(zhuǎn)發(fā)等有效用戶行為,考察相關(guān)指標的用戶影響力分布。文章統(tǒng)計了相關(guān)用戶的轉(zhuǎn)載量排序分布、回復(fù)數(shù)排序分布,并利用齊普夫定律對其進行圖像考察,如下圖1、2所示。
從轉(zhuǎn)載量、評論量圖像,不難看出對于霧霾輿情用戶行為,從統(tǒng)計學(xué)角度符合齊普夫定律,這意味著少量用戶的發(fā)帖引發(fā)了多數(shù)的評論、轉(zhuǎn)載。因而,這部分用戶就是霧霾輿情主要的發(fā)布者或轉(zhuǎn)發(fā)者。具體來看,轉(zhuǎn)發(fā)和回復(fù)第一的均是“頭條新聞”網(wǎng)絡(luò)媒體。但網(wǎng)絡(luò)媒體用戶一般較少關(guān)注并與其他用戶互動,那么實名認證信息則有助于排出此類用戶。
3.用戶影響力指標設(shè)計
除了自身發(fā)帖行為以外,社交媒體用戶影響力主要體現(xiàn)在回復(fù)數(shù)、轉(zhuǎn)發(fā)數(shù)這兩個能夠體現(xiàn)用戶及用戶互動行為的指標上。在此基礎(chǔ)上,借鑒科學(xué)計量學(xué)中計量科學(xué)家影響力的指標H指數(shù),文章提出了社交網(wǎng)絡(luò)中回復(fù)H指數(shù)、轉(zhuǎn)載H指數(shù)指標。一個博主的回復(fù)H指數(shù)是指其發(fā)帖中有h篇被回復(fù)h次以上,相對的一個博主的轉(zhuǎn)載H指數(shù)是指其發(fā)帖中有h篇被轉(zhuǎn)載h次以上。H指數(shù)的引入與實名認證個人用戶相結(jié)合,即可以獲得較高質(zhì)量的微博用戶信息源。
二、數(shù)據(jù)清洗和信息過濾規(guī)則
由于微博的迅速發(fā)展,言論可以隨意發(fā)布,并且發(fā)布不需要非常復(fù)雜的驗證,導(dǎo)致了非常多的虛假廣告出現(xiàn)以及傳播。具體體現(xiàn)為文本中經(jīng)常夾雜著生僻的漢字、數(shù)字、表情符號、火星文或者英文等形式,以此來蒙混過關(guān)。這樣的行為對微博用戶的體驗造成了非常嚴重的影響,同時對用戶獲取正常信息造成了困擾,對于短文本信息的過濾研究則非常有實用價值。
于然等人分析了中文微博信息的特點,提出了基于多視角特征融合的檢測中文垃圾微博的方法;張磊等人使用了正則表達式來匹配過濾樣本,建立停用詞表作為文本過濾的特征項;劉陸陽提出了一種微博信息過濾處理的框架,結(jié)合用戶可信度,檢測垃圾微博并對其進行過濾;楊赫采用統(tǒng)計機器學(xué)習(xí)的方法,提取、分析和對比新浪微博平臺上的正常賬號和垃圾賬號的社交關(guān)系行為的特征和微博內(nèi)容的特征。
文章考察了部分霧霾輿情信息,并對其中信息質(zhì)量較差的數(shù)據(jù)進行了規(guī)則分析,如下:
此外,對于部分長度過短的信息,其用戶意圖并不明顯,因此在長度限制上以13個漢字為主要界限進行長度約束。
三、 語義信息自動標注類型
通過有效過濾后的微博信息,即可對其中的語義知識進行標注。在小規(guī)模標注基礎(chǔ)上,文章列出了主要的語義信息類型及樣例,如下表2所示:
通過考察相關(guān)數(shù)據(jù),時間、地點、數(shù)量、健康表達這4個主要分類是社交網(wǎng)絡(luò)中霧霾輿情里價值量較高的信息。除了這4類信息外,對于霧霾的吐槽、觀點也是常見輿情,如“艾瑪 頭一回在霧霾繚繞的仙境中開車 真是太刺激了”,相關(guān)可提取價值量不大,多為公眾吐槽。詳細考察時間、地點、數(shù)量、健康表達,又可以對其數(shù)據(jù)進行進一步細分,如下表3-5。
從地點信息來看,移動端用戶發(fā)送時,有較為明顯的特征“我在: ”。此外,認證實名用戶注冊地點也是公開可以獲取的知識。在用于地域性研究中,這些知識具有一定統(tǒng)計學(xué)意義。從數(shù)據(jù)分布來看,對于我國霧霾輿情的發(fā)布主要集中在北方省市,尤其是北京。以江蘇及相關(guān)城市作為檢索,發(fā)現(xiàn)江蘇省霧霾實名認證用戶發(fā)帖僅為171條。移動端地理信息仍存在較為詳細這一問題,有些地址必須與地理信息系統(tǒng)相結(jié)合才能獲取其所在城市位置。
從健康信息總量上來看,在所有發(fā)帖中所占比例極小,但這部分信息顯示了公眾對霧霾危害的親身體驗,因此具有較高可信度和分析價值。在分析中,可以結(jié)合細粒度分析技術(shù),對這些健康表達的語言學(xué)特征進行統(tǒng)計,并通過機器學(xué)習(xí)模型實現(xiàn)自動標注。
四、結(jié)語
文章以新浪微博為數(shù)據(jù)源,通過用戶影響力評價指標、垃圾信息過濾規(guī)則的探討,為獲取高質(zhì)量的霧霾輿情信息源提供思路。在小規(guī)模標注基礎(chǔ)上,利用語料庫技術(shù),探討了霧霾輿情在社會網(wǎng)絡(luò)環(huán)境下,具有潛在挖掘價值的語義知識類型,為構(gòu)建基于語料庫技術(shù)的霧霾輿情知識庫提供支撐。
參考文獻:
[1]趙倩雯.從霧霾事件分析微博在社會輿論中的博弈[J].今傳媒,2014,22(7):57-59.
[2]王晰巍,邢云菲,趙 丹,等.基于社會網(wǎng)絡(luò)分析的移動環(huán)境下網(wǎng)絡(luò)輿情信息傳播研究——以新浪微博“霧霾”話題為例[J].圖書情報工作,2015,59(7):14-22.
[3]王禎駿,王樹徽,張維剛,等.基于社交內(nèi)容的潛在影響力傳播模型[J].計算機學(xué)報,2016,39(8):1528-1540.
[4]汪明艷,陳 梅.社交媒體網(wǎng)絡(luò)輿情傳播影響力研究綜述[J].情報科學(xué),2017,35(5):171-176.
[5]廖海涵,靳嘉林,王曰芬.網(wǎng)絡(luò)輿情事件中微博用戶行為特征和關(guān)系分析——以新浪微博“霧霾調(diào)查:穹頂之下”為例[J].情報資料工作,2016(3):12-18.
[6]原福永,馮 靜,符茜茜.微博用戶的影響力指數(shù)模型[J].現(xiàn)代圖書情報技術(shù),2012(6):60-64.
[7]張 昊,劉功申,蘇 波.一種微博用戶影響力的計算方法[J].計算機應(yīng)用與軟件,2015,32(3):41-44.
[8]TRS Hybase 海貝大數(shù)據(jù)管理系統(tǒng)[EB/OL]. http://www.trs.com.cn/cphfw/Hybase/. [2019.4.20]
[9]于 然,劉春陽,靳小龍,王元卓,程學(xué)旗.基于多視角特征融合的中文垃圾微博過濾[J]. 山東大學(xué)學(xué)報(理學(xué)版),2013,48(11):53-58.
[10]張 磊.虛擬社區(qū)不良信息過濾技術(shù)研究[D].昆明:昆明理工大學(xué),2011.
[11]劉陸陽. 基于博文質(zhì)量評估的微博過濾研究[D].北京:北京工業(yè)大學(xué),2016.
[12]楊 赫.垃圾微博信息過濾技術(shù)的研究[D].哈爾濱:哈爾濱理工大學(xué),2015.
[13]王玉新.大數(shù)據(jù)背景下的高校教學(xué)檔案信息化建設(shè)[J].蘭臺內(nèi)外,2018(04):57-58.
[14]車向清.高校檔案數(shù)字化管理芻議[J].蘭臺世界,2019(S1):98.
[15]閆虹娟.大數(shù)據(jù)時代人社檔案管理初探[J].蘭臺世界,2019(S1):76.
[16]蔡金玲,王小超,王文姣.氣象專業(yè)技術(shù)人才隊伍建設(shè)與發(fā)展的思考[J].管理觀察,2019(08):65-66+69.
基金項目:江蘇省社會科學(xué)基金“大數(shù)據(jù)下基于微博語料庫的江蘇省霧霾輿情監(jiān)控機制研究”(15TQC002)階段性成果之一。
作者簡介:謝靖(1981- ),男,江蘇徐州人,南京中醫(yī)藥大學(xué)衛(wèi)生經(jīng)濟管理學(xué)院副教授,博士,研究方向:基于智能信息技術(shù)的情報分析與評價。