文/賈盼斗 尹春華
微博作為當(dāng)今具有重要影響力的主流社交網(wǎng)絡(luò)平臺(tái),不僅所涵蓋的領(lǐng)域廣泛,而且用戶基數(shù)大,活躍用戶眾多,微博熱點(diǎn)事件所引發(fā)的討論也受到了社會(huì)各界人士的密切關(guān)注。微博網(wǎng)絡(luò)的輿情監(jiān)管問(wèn)題變得愈發(fā)重要。針對(duì)微博熱點(diǎn)事件的信息度量研究將為微博輿情問(wèn)題的研究工作提供參考依據(jù)。因此,如何對(duì)微博信息文本進(jìn)行度量成為重要研究?jī)?nèi)容。本文以香農(nóng)信息理論為基礎(chǔ),基于Bayesian方法對(duì)熱點(diǎn)微博事件信息進(jìn)行度量工作。
目前,針對(duì)信息度量的研究工作處在不斷發(fā)展的階段,相關(guān)應(yīng)用領(lǐng)域也變得更加廣泛。信息論之父Shannon排除語(yǔ)義等主觀因素的思想提出客觀信息量統(tǒng)計(jì)模型,從概率角度對(duì)信息進(jìn)行量化[1]。Ben-Arie[2]提出運(yùn)用bayesian樹(shù)模型,來(lái)輔助進(jìn)行文本信息測(cè)量研究。Maria[3]探討了購(gòu)買(mǎi)任務(wù)中消費(fèi)者的認(rèn)知反應(yīng)如何受到網(wǎng)站內(nèi)信息量的影響。袁梓皓[4]基于信息熵和互信息量測(cè)量?jī)蓚€(gè)空間個(gè)體間任意非線性的相關(guān)性,進(jìn)行非對(duì)稱相依程度的度量研究。何俊[5]用信息熵對(duì)網(wǎng)絡(luò)數(shù)據(jù)演化涌現(xiàn)性進(jìn)行度量,并對(duì)演化行為和系統(tǒng)層次可能引入的誤差進(jìn)行校正。
信息量是隨機(jī)變量不確定度的度量,Bayesian相關(guān)理論方法是處理不確定性信息的重要工具。本文針對(duì)微博熱點(diǎn)網(wǎng)絡(luò)事件,以香農(nóng)信息理論為基礎(chǔ),基于Bayesian方法對(duì)相關(guān)信息文本進(jìn)行信息度量分析,在一定程度上對(duì)主觀性文本信息進(jìn)行度量,為社交網(wǎng)絡(luò)輿情問(wèn)題的研究提供參考依據(jù)。
熵,它是隨機(jī)變量不確定度的度量。對(duì)于離散型隨機(jī)變量,Shannon繼承和發(fā)展了Hartley關(guān)于排除語(yǔ)義等主觀因素的思想提出客觀信息量統(tǒng)計(jì)模型,從概率角度對(duì)信息進(jìn)行量化[1]。信息熵公式為:
式中:H(X)為信息熵;X為文本信息可能出現(xiàn)的事件集合,即P為事件X的概率分布。
Bayesian網(wǎng)絡(luò)是以bayesian理論為基礎(chǔ)的一種概率網(wǎng)絡(luò),同時(shí)它又是基于概率推理的圖形化網(wǎng)絡(luò)。Bayesian網(wǎng)絡(luò)最早由Judea·Pearl于1988年提出,用來(lái)表示變量集合連接概率的圖形模型。它提供了一種表示因果信息的方法。Bayesian網(wǎng)絡(luò)是由始于根節(jié)點(diǎn),而后經(jīng)由有向邊連接諸多級(jí)子節(jié)點(diǎn)構(gòu)成的網(wǎng)狀結(jié)構(gòu)樹(shù)。節(jié)點(diǎn)代表隨機(jī)變量,節(jié)點(diǎn)間的有向邊代表了節(jié)點(diǎn)間存在的關(guān)系。
考慮到短評(píng)文本信息本身帶有的主觀性、離散型特性,Bayesian作為能夠進(jìn)行分類(lèi)的方法之一,可以在一定程度上解決關(guān)聯(lián)性問(wèn)題。在Shannon信息論的基礎(chǔ)之上,引入bayesian網(wǎng)絡(luò)進(jìn)行微博熱點(diǎn)事件文本信息度量工作。Bayesian節(jié)點(diǎn)網(wǎng)絡(luò)是由始于根節(jié)點(diǎn),而后經(jīng)由有向邊連接諸多級(jí)子節(jié)點(diǎn),從而構(gòu)成的網(wǎng)狀結(jié)構(gòu)樹(shù)。Bayesian網(wǎng)絡(luò)中的節(jié)點(diǎn)按級(jí)進(jìn)行屬性分類(lèi)。首先需要進(jìn)行節(jié)點(diǎn)的分類(lèi),每一級(jí)的節(jié)點(diǎn)都代表了一種狀態(tài),由上一級(jí)的節(jié)點(diǎn)到下一級(jí)節(jié)點(diǎn),涉及到了節(jié)點(diǎn)的選取問(wèn)題,也就是節(jié)點(diǎn)狀態(tài)的選取問(wèn)題。從一級(jí)節(jié)點(diǎn)經(jīng)有向邊到二級(jí)節(jié)點(diǎn)是一個(gè)條件概率,它表示在一級(jí)節(jié)點(diǎn)發(fā)生的情況下,從一級(jí)節(jié)點(diǎn)經(jīng)由有向邊到二級(jí)節(jié)點(diǎn)發(fā)生的概率。
文本信息度量將通過(guò)聯(lián)合概率信息熵來(lái)實(shí)現(xiàn),對(duì)于微博短信息的文本內(nèi)容,可以被看做是由離散型隨機(jī)變量構(gòu)成的文本狀態(tài)空間,信息文本通過(guò)Bayesian網(wǎng)絡(luò)的形式進(jìn)行表示。在此,我們假設(shè)隨機(jī)變量x構(gòu)成的狀態(tài)空間具有完整性,所有變量是相互排斥并且具有概率分布。給出如下信息量度量公式[2]:
當(dāng)隨機(jī)變量不是相互獨(dú)立時(shí),求解一組隨機(jī)變量的聯(lián)合概率將是一件非常困難的事情。為了解決這一問(wèn)題,引入bayesian網(wǎng)絡(luò),將使得隨機(jī)變量是獨(dú)立或者至少可以認(rèn)為是條件獨(dú)立的。這就使得求解聯(lián)合概率得到了簡(jiǎn)化,從而為解決文本信息度量提供了解決方法。下面將就微博的熱點(diǎn)事件進(jìn)行具體信息度量分析。針對(duì)發(fā)生在2019年3月11日“中國(guó)停飛波音737-Max8”引發(fā)熱議,就這一熱點(diǎn)事件中的相關(guān)消息,進(jìn)行相關(guān)文本信息量度量分析。
在進(jìn)行信息量度量時(shí),避免關(guān)聯(lián)性隨機(jī)變量對(duì)度量造成的困擾,引用bayesian網(wǎng)絡(luò)通過(guò)假設(shè)隨機(jī)變量是獨(dú)立的或者至少條件獨(dú)立。為了使得度量更具條理性,將節(jié)點(diǎn)進(jìn)行層級(jí)分類(lèi),目前確定前三級(jí)的級(jí)的節(jié)點(diǎn),并結(jié)合相關(guān)統(tǒng)計(jì)數(shù)據(jù)的分析,確定節(jié)點(diǎn)的條件概率。在此確定的根節(jié)點(diǎn)為“信息”,明確其概率為“1”,第二級(jí)的節(jié)點(diǎn)分別為郵件(0.35)、新聞(0.2)、語(yǔ)音(0.05)、會(huì)議(0.1)、書(shū)信(0.1)、其他(0.2)。第三級(jí)的節(jié)點(diǎn)分別為科技(0.1)、政治(0.2)、健康(0.1)、旅游(0.1)、體育(0.2)、娛樂(lè)(0.1)、商業(yè)(0.2)。之后級(jí)節(jié)點(diǎn)將依據(jù)具體的文本信息內(nèi)容進(jìn)行關(guān)鍵詞選取。每一個(gè)節(jié)點(diǎn)代表了一種狀態(tài),由根節(jié)點(diǎn)順次連接各個(gè)級(jí)的節(jié)點(diǎn)直至終節(jié)點(diǎn)結(jié)束,從而將所選信息文本進(jìn)行表示,繼而進(jìn)行信息度量分析。這將為微博信息文本的主觀性分析提供一定的參考。
民航局發(fā)布了題為“民航局要求國(guó)內(nèi)運(yùn)輸航空公司暫停波音737-8飛機(jī)商業(yè)運(yùn)行”的公告。具體節(jié)選主要內(nèi)容為“3月10日,埃塞俄比亞航空一架波音737-8飛機(jī)發(fā)生墜機(jī)空難,這是繼去年10月29日印尼獅航空難事故之后,波音737-8飛機(jī)發(fā)生的第2起空難。鑒于兩起空難均為新交付不久的波音737-8飛機(jī),3月11日9時(shí),民航局發(fā)出通知,要求國(guó)內(nèi)運(yùn)輸航空公司于2019年3月11日18時(shí)前暫停波音737-8飛機(jī)的商業(yè)運(yùn)行?!?/p>
在上一節(jié)中對(duì)前三級(jí)節(jié)點(diǎn)進(jìn)行了相關(guān)規(guī)定,接下來(lái)是針對(duì)民航局發(fā)布的文本進(jìn)行bayesian網(wǎng)絡(luò)構(gòu)建。具體包括對(duì)文本信息的關(guān)鍵詞進(jìn)行提取并將其作為節(jié)點(diǎn),每一級(jí)節(jié)點(diǎn)共同組成這一級(jí)的狀態(tài)空間。從第四級(jí)節(jié)點(diǎn)開(kāi)始,下一級(jí)節(jié)點(diǎn)要依據(jù)本級(jí)節(jié)點(diǎn)以及結(jié)合上一級(jí)節(jié)點(diǎn)的狀態(tài)進(jìn)行本級(jí)節(jié)點(diǎn)狀態(tài)的擴(kuò)充。在上述民航局發(fā)布的文本信息中提取到的關(guān)鍵詞有民航局、暫停、B737-800、運(yùn)行。針對(duì)關(guān)鍵詞所處的不同狀態(tài),其相關(guān)概率也會(huì)有所不同。以暫停為例,與其同級(jí)的節(jié)點(diǎn)分別為:開(kāi)始(0.2)、中斷(0.2)、恢復(fù)(0.3)、結(jié)束(0.1)。具體如圖1給出了Bayesian節(jié)點(diǎn)網(wǎng)絡(luò)每一級(jí)的狀態(tài)以及相應(yīng)狀態(tài)概率分布情況。
在此,為了進(jìn)一步對(duì)Bayesian節(jié)點(diǎn)網(wǎng)絡(luò)方法進(jìn)行應(yīng)用說(shuō)明。又選取了針對(duì)這一熱點(diǎn)事件的文本信息。由人民日?qǐng)?bào)發(fā)表的題為“特朗普宣布:美國(guó)將禁飛波音737MAX所有機(jī)型”的微博評(píng)論文本信息。節(jié)選內(nèi)容為:“美國(guó)總統(tǒng)特朗普在電視直播中宣布,他將下令停飛波音737 Max 8和Max 9機(jī)型。特朗普表示,美國(guó)聯(lián)邦航空管理局(FAA)將發(fā)布一項(xiàng)“緊急通知”,停飛上述兩款波音機(jī)型。”上述段落第四級(jí)節(jié)點(diǎn)為美國(guó)、英國(guó)、俄羅斯、中國(guó)、日本,下一級(jí)為宣布、通知、警告、提醒;波音737,波音747,波音738,波音757,波音733,波音787,波音777;禁飛、通航、延誤、變更。確定其相應(yīng)概率。具體如圖2給出了Bayesian節(jié)點(diǎn)網(wǎng)絡(luò)每一級(jí)的狀態(tài)以及相應(yīng)狀態(tài)概率分布情況。
通過(guò)上述對(duì)微博文本信息的Bayesian節(jié)點(diǎn)網(wǎng)絡(luò)表示之后,下面將用Bayesian網(wǎng)絡(luò)度量方法對(duì)上述兩段微博文本信息進(jìn)行度量。由公式(2),可以得到圖1文本信息的信息量I1為:
同理,可以得出圖2文本信息的信息量I2為:
圖1:Bayesian節(jié)點(diǎn)網(wǎng)絡(luò)文本信息示意圖
圖2:Bayesian節(jié)點(diǎn)網(wǎng)絡(luò)文本信息示意圖
微博網(wǎng)絡(luò)輿情事關(guān)社會(huì)穩(wěn)定,本文以信息論為基礎(chǔ)并應(yīng)用Bayesian方法,通過(guò)對(duì)微博網(wǎng)絡(luò)中的熱點(diǎn)事件相關(guān)信息文本進(jìn)行信息量度量分析,從信息量化角度對(duì)熱點(diǎn)事件文本信息進(jìn)行度量,區(qū)別于傳統(tǒng)客觀信息量度量,定量對(duì)微博網(wǎng)絡(luò)熱點(diǎn)事件主觀性信息進(jìn)行研究。鑒于信息量是隨機(jī)變量不確定度的度量,在此證明了采用基于信息論的Bayesian網(wǎng)絡(luò)方法的合理性。通過(guò)bayesian網(wǎng)絡(luò)結(jié)構(gòu),微博熱點(diǎn)事件的文本信息以節(jié)點(diǎn)狀態(tài)的形式進(jìn)行呈現(xiàn),完成了對(duì)于微博網(wǎng)絡(luò)的相關(guān)文本信息進(jìn)行了度量分析。