付 琳,張 媛
(首都師范大學 管理學院,北京 100048)
文本數(shù)據(jù)事件檢測是信息抽取中被廣泛研究的一個問題,起源于1997年啟動的話題檢測與追蹤(TDT)研究。主要是從海量文本數(shù)據(jù)中自動提取事件或話題的信息,實現(xiàn)對未知事件或話題的發(fā)現(xiàn)。這些文本可以是傳統(tǒng)媒體的新聞報道,也可以是社交媒體上的帖子或推文。目前事件檢測在突發(fā)事件檢測、網(wǎng)絡(luò)輿情檢測、熱點話題發(fā)現(xiàn)等方面有較好的應(yīng)用。例如,Johnson N F等人研究了與恐怖組織ISIS相關(guān)的個人或組織,分析他們在社交網(wǎng)絡(luò)中的行為與現(xiàn)實世界所發(fā)生的極端恐怖事件之間的聯(lián)系,幫助預測了現(xiàn)實世界中可能出現(xiàn)的恐怖襲擊事件[1]。事件檢測與話題檢測最主要的區(qū)別在于對事件和話題的定義。一般來說,事件是由特定原因、條件引起,發(fā)生在某些特殊時間、地點的重要事情。事件相對于話題來說更具有局限性,同一話題下可能涵蓋多個相似或相關(guān)事件。
隨著大數(shù)據(jù)和人工智能等技術(shù)的發(fā)展和突破,事件檢測中運用的方法更加豐富,效率和準確率都得到了顯著提升。在事件檢測領(lǐng)域已有的研究中,大部分是關(guān)于計算機科學和情報學領(lǐng)域的內(nèi)容,盡管已有一些學者對事件檢測進行綜述研究,但大多只關(guān)注和分析了事件檢測在社交媒體中的應(yīng)用,對國內(nèi)事件檢測研究涉及的其他領(lǐng)域和方向分析較少。同時也缺少基于文獻計量分析的研究工作,基于文獻計量分析的研究能夠推進事件檢測領(lǐng)域的系統(tǒng)發(fā)展,幫助研究人員把握科研工作的方向。因此,該文從文獻的角度出發(fā),借助CiteSpace軟件,采用文獻計量分析方法對事件檢測研究進行可視化分析,明確事件檢測領(lǐng)域的研究內(nèi)容,梳理研究現(xiàn)狀,分析研究熱點與重點,探索研究演化趨勢和未來研究方向。并且這是首次使用知網(wǎng)數(shù)據(jù)庫對事件檢測進行文獻計量分析。
該文選擇中國知網(wǎng)(CNKI)數(shù)據(jù)庫作為數(shù)據(jù)收集平臺。采用主題檢索的方式對CNKI中信息科技類文獻進行檢索,檢索時間段為2003年1月1日至2021年11月10日,來源類別為期刊。以事件檢測為主要檢索詞,同時為了改善單一主題或關(guān)鍵詞檢索中查全率不高的問題,對主題詞進行拓展。話題檢測和事件檢測同屬于TDT技術(shù),兩者的研究相互交叉,有很多重合部分。另外,對于“event detection”的中文翻譯不盡相同,存在事件檢測、事件發(fā)現(xiàn)、事件識別等結(jié)果,但其研究方法和方向都可以歸到事件檢測領(lǐng)域。因此,增加了話題檢測、事件探測、事件識別、事件發(fā)現(xiàn)、話題識別、話題發(fā)現(xiàn)六個同義詞語,作為主題和關(guān)鍵詞檢索的補充。通過檢索共獲得4 712篇期刊文獻,去掉非文本數(shù)據(jù)研究和相關(guān)性較小的文獻,最終篩選出440篇相關(guān)文獻作為研究對象。
文獻計量分析是一種定量分析方法,以文獻的各種外部特征作為研究對象,通過數(shù)學、統(tǒng)計學等計量方法來描述、評價和預測某個研究領(lǐng)域的現(xiàn)狀與發(fā)展趨勢,總結(jié)研究領(lǐng)域知識結(jié)構(gòu)并探索研究前沿動態(tài)。
CiteSpace是由陳超美教授研發(fā)的一款信息可視化軟件,它主要基于共引分析理論和尋徑網(wǎng)絡(luò)算法,通過對特定領(lǐng)域文獻進行計量和可視化圖譜的繪制,來形成領(lǐng)域演化潛在動力機制的分析和領(lǐng)域發(fā)展前沿的探測[2]。
該文運用文獻計量法對發(fā)文量、核心期刊占比、基金資助、研究機構(gòu)和發(fā)文期刊等外部特征進行量化分析,借助CiteSpace軟件對收集的相關(guān)文獻進行可視化分析。在研究熱點與研究重點的分析上,利用關(guān)鍵詞共現(xiàn)與關(guān)鍵詞聚類分析方法;在研究趨勢與研究方向的分析上,利用時間線視圖譜和關(guān)鍵詞突現(xiàn)分析方法。
發(fā)文量在一定程度上可以反映一個研究領(lǐng)域在學術(shù)界受關(guān)注的程度。2003-2021年,國內(nèi)事件檢測研究領(lǐng)域的發(fā)文數(shù)量如圖1所示。
圖1 2003-2021年發(fā)文量統(tǒng)計
2003-2010年,國內(nèi)事件檢測研究屬于起步階段,發(fā)文量較少,但呈上升趨勢。2011年發(fā)文量有了顯著上升,發(fā)文量是2009年的2.2倍。2011-2016年,國內(nèi)事件檢測研究發(fā)文量逐年增長,2016年達到頂峰。這與國內(nèi)互聯(lián)網(wǎng)普及、社交媒體開始流行有很大關(guān)系。社交媒體最大的特點就是能非常迅速即時地將信息傳遞給每一個用戶。隨著國內(nèi)網(wǎng)民的增加,社交媒體中的數(shù)據(jù)開始爆發(fā)式增長。因此,學者們從基于新聞報道的長文本研究轉(zhuǎn)向了對微博等社交媒體中短文本數(shù)據(jù)的研究。隨著自然語言處理、機器學習等技術(shù)的不斷發(fā)展,越來越多的學者將前沿技術(shù)運用于事件檢測領(lǐng)域。2017-2021年,該領(lǐng)域發(fā)文量基本保持穩(wěn)定,說明國內(nèi)事件檢測研究正逐步趨于成熟。從核心期刊文獻占全部發(fā)文數(shù)量的百分比可以看出,2012年發(fā)文數(shù)量成一定規(guī)模以后,只有2018年略低于60%,其余年份核心期刊的發(fā)文占比一直在60%以上,表明該領(lǐng)域的研究質(zhì)量整體較高,且研究比較深入。
文獻的基金資助情況能反映學術(shù)研究的科學性和重要性。在440篇相關(guān)文獻中,國家層面的基金支持有234篇,占53%,其中國家自然科學基金委員會資助的論文最多,達到182篇;地方層面基金支持和無基金資助的文獻有206篇,占47%。說明國家層面對事件檢測領(lǐng)域的關(guān)注度高,研究價值的認可度高,試圖通過資金支持、項目研發(fā)、人才培養(yǎng)等方式推進事件檢測領(lǐng)域的研究。
在CNKI中發(fā)表過事件檢測相關(guān)研究論文的機構(gòu)共有281個,但各發(fā)文機構(gòu)之間合作極少,都是獨立進行研究。國內(nèi)的事件檢測領(lǐng)域研究還未形成一個整體,各研究機構(gòu)應(yīng)當充分交流、加強合作,共同推進事件檢測領(lǐng)域的創(chuàng)新發(fā)展。國內(nèi)發(fā)文量最高的是中國科學院,共發(fā)表24篇,總被引量為748次。說明該研究機構(gòu)較為關(guān)注事件檢測領(lǐng)域,并對該領(lǐng)域的研究做出了較大貢獻。武漢大學和四川大學緊隨其后,分別發(fā)表了14篇和13篇文獻,總被引量為134次和127次。除此以外,哈爾濱工業(yè)大學、蘇州大學、昆明理工大學、南京理工大學、北京信息科技大學也是該領(lǐng)域發(fā)文量較多的機構(gòu)。
在刊載平臺方面,《中文信息學報》關(guān)于事件檢測研究的刊文量最多,達到24篇。其次是《計算機應(yīng)用研究》和《計算機工程》,共21篇和19篇?!队嬎銠C應(yīng)用》《計算機工程與應(yīng)用》《計算機科學》《計算機應(yīng)用與軟件》《情報雜志》等期刊也是事件檢測研究的重要刊載平臺。由此可知,在信息技術(shù)分類中,比較關(guān)注事件檢測研究的是計算機軟件與應(yīng)用領(lǐng)域。
對相關(guān)文獻進行整理,列出高被引文獻及作者,見表1。其中被引次數(shù)最高的兩篇都是綜述類文獻。洪宇的《話題檢測與跟蹤的評測及研究綜述》從2007年發(fā)表至今總共被引487次,平均每年被引35次。洪宇在文中對話題檢測與追蹤(TDT)技術(shù)進行了系統(tǒng)闡述,這篇綜述文獻在國內(nèi)事件檢測領(lǐng)域具有重要意義。
表1 高被引文獻及作者
文章介紹了TDT任務(wù)與評測的相關(guān)知識,包括相關(guān)定義、使用語料、評價體系以及層次結(jié)構(gòu),并重點論述和分析了國內(nèi)外在該領(lǐng)域的相關(guān)研究及其相互關(guān)系[3]。另一篇高引綜述文獻是李保利的《話題識別與跟蹤研究》,這是知網(wǎng)中最早介紹TDT的文獻。李保利梳理了TDT的研究歷史,并詳細介紹了TDT的5個子任務(wù):對新聞報道的切片,新事件的識別,報道關(guān)系識別,話題識別,話題跟蹤[4]。
早期事件檢測的研究還是以新聞?wù)Z料為主,研究者們在信息檢索技術(shù)的基礎(chǔ)上,不斷嘗試新的方法改進算法模型,以提高新聞事件檢測的效率。例如,基于時間距離的相似度計算模型[5]、多策略優(yōu)化的分治多層聚類算法模型[6]、四向量相似度計算模型[7]。
2012年,微博的迅猛發(fā)展帶來了另一種社會化的新聞媒體形式。學術(shù)界將視角聚焦于社交媒體中的短文本,對短文本的研究很快成為了主流。所以,另外幾篇高引文獻均是從短文本數(shù)據(jù)中進行事件檢測。鄭斐然等人通過分析微博用戶的習慣和數(shù)據(jù)特征,提出了一套完整的微博數(shù)據(jù)處理方法和新聞話題的檢測算法。在向量空間模型的基礎(chǔ)上,從文檔主題詞的時域分布中,篩選出信息量最大的新聞主題詞,并進行聚類[8]。路榮等人通過充分挖掘隱主題來克服短文本數(shù)據(jù)稀疏性對文本相似度度量的影響,并使用一種兩層的K均值和層次聚類的混合聚類方法來彌補層次聚類時間慢和K均值聚類無法事先指定中心個數(shù)的缺點[9]。馬雯雯等人對前者的方法進行了優(yōu)化,在混合聚類的基礎(chǔ)上,引入隱含語義分析的方法對中文微博數(shù)據(jù)建模,解決了傳統(tǒng)向量空間模型中高維和同義、多義的問題[10]。
顯然并不是所有的微博都是描述新聞事件的,很多微博只是描述用戶的心情、狀態(tài)、工作情況等。有研究表明,當微博中情感詞數(shù)量增多,并導致相鄰時段中情感分布存在差異,這往往意味著熱點事件的出現(xiàn)[11]。楊亮等人在此基礎(chǔ)上提出了情感分布語言模型ELM,用于發(fā)現(xiàn)微博平臺中的熱點事件[12]。
關(guān)鍵詞可以揭示文章的主要內(nèi)容和核心,對事件檢測領(lǐng)域相關(guān)文獻進行關(guān)鍵詞共現(xiàn)分析可以更好地了解該領(lǐng)域的研究熱點。為了使可視化效果更好,對同義或近似義節(jié)點進行合并。最終得到事件檢測研究相關(guān)文獻的關(guān)鍵詞共現(xiàn)圖譜,如圖2所示。共包含348個關(guān)鍵詞,602條連接,密度為0.01,其中節(jié)點越大表明關(guān)鍵詞出現(xiàn)頻率越高,連線越多表明兩個關(guān)鍵詞共現(xiàn)次數(shù)越多,連線越粗表明聯(lián)系程度越強[13]。
圖2 關(guān)鍵詞共現(xiàn)圖譜
為了更全面地了解事件檢測的研究熱點,該文通過統(tǒng)計和排序?qū)⒐铂F(xiàn)頻次前6的關(guān)鍵詞及其信息繪制成表格,如表2所示??梢园l(fā)現(xiàn),最大的三個節(jié)點分別是話題檢測(141次)、微博(91次)和事件檢測(52次)。其中“話題檢測”和“事件檢測”出現(xiàn)時間較早,是該領(lǐng)域的基礎(chǔ)概念?!拔⒉庇?012年出現(xiàn),出現(xiàn)時間較晚,但共現(xiàn)頻次很高,說明“微博”一出現(xiàn)就成為研究者們的關(guān)注焦點,且很快成為了該領(lǐng)域的研究熱點。除此以外,“聚類”“熱點話題”“突發(fā)事件”的中介中心性較高,因此可以初步判斷它們也是事件檢測領(lǐng)域的研究熱點。
表2 關(guān)鍵詞頻次和中介中心性
關(guān)鍵詞是論文中出現(xiàn)頻率最高、同時也是最核心的詞匯,對文獻進行關(guān)鍵詞聚類分析可以從側(cè)面反映出該領(lǐng)域各階段研究的重點[14]。模塊值(Q值)和平均輪廓值(S值)兩個指標可以作為判斷知識圖譜繪制效果的依據(jù)。一般而言,Q>0.3就意味著繪制的網(wǎng)絡(luò)結(jié)構(gòu)是顯著的,越接近1則可認定該網(wǎng)絡(luò)圖譜所獲得的聚類效果就越優(yōu)秀。當S值>0.7時,認為聚類是令人信服的,若在0.5以上,一般認為聚類是合理的。
事件檢測關(guān)鍵詞聚類圖譜如圖3所示。聚類模塊值Q為0.643 1>0.3,聚類平均輪廓值S為0.886 7>0.7,說明聚類效果顯著,且令人信服,具有較高的研究價值。共得到7個主要聚類,即話題檢測(#0)、事件檢測(#1)、突發(fā)事件(#2)、命名實體(#3)、網(wǎng)絡(luò)輿情(#4)、主題發(fā)現(xiàn)(#5)、社交媒體(#6)。通過對聚類進行比較分析,將7個聚類分成3組。
圖3 關(guān)鍵詞共現(xiàn)圖譜
(1)事件檢測技術(shù)研究(#0、#1、#3、#5)。
從圖2和圖3可以看出,學者們較為關(guān)注對事件檢測技術(shù)的研究。事件檢測工作主要分為兩部分:文本預處理和事件檢測,它們分別對應(yīng)不同的技術(shù)。在文本預處理階段使用的技術(shù)大體可以分為三類:命名實體、特征提取或兩者結(jié)合。
命名實體是自然語言處理中一項基礎(chǔ)性關(guān)鍵任務(wù),其主要任務(wù)是識別出文本中的人名、地名等專有名稱和有意義的時間、日期等數(shù)量短語并加以歸類。張闊等人利用統(tǒng)計方法優(yōu)化不同類別新聞對于不同詞性詞元的權(quán)重,再根據(jù)已處理的新聞及話題信息動態(tài)調(diào)整詞元權(quán)重,實驗結(jié)果表明,其性能與同類事件檢測模型相比有顯著提升[15]。
特征提取是將原始數(shù)據(jù)的維度減少或?qū)⒃嫉奶卣鬟M行重新組合,從而提高文本分類的準確性和效率。商憲麗等人就對傳統(tǒng)文本特征提取進行改進,引入時間因素構(gòu)建動態(tài)共詞網(wǎng)絡(luò),利用網(wǎng)絡(luò)統(tǒng)計特征動態(tài)提取微博文本特征,在實驗中取得了較優(yōu)的微博話題識別效果[16]。也有一些學者將兩者方法結(jié)合使用。例如,劉素芹等人將新聞文檔表示成基于命名實體及特征詞的雙特征向量,很好地解決了海量網(wǎng)絡(luò)數(shù)據(jù)環(huán)境下相似話題難以區(qū)分的問題[17]。
在事件檢測階段,研究者們運用的方法主要是統(tǒng)計模型中的聚類分析。自90年代以來,統(tǒng)計模型一直是信息抽取的主流方法[18]。有非常多的統(tǒng)計方法被用來抽取文本中的目標信息,其中聚類分析被廣泛應(yīng)用于事件檢測領(lǐng)域。聚類技術(shù)通常又被稱為無監(jiān)督學習。聚類可以根據(jù)給定的標準將數(shù)據(jù)集分割成不同的類簇,使得同一個類簇內(nèi)的數(shù)據(jù)高度相似,從而實現(xiàn)對目標事件的檢測。常用的聚類算法有基于劃分的聚類算法、基于層次的聚類算法以及基于模型的聚類算法。隨著不斷的實踐,為了得到更好的聚類結(jié)果,學者們對各種聚類算法都進行了改進。
基于劃分的聚類算法是聚類算法中最簡單的一種。該種聚類要達到的要求是使類簇內(nèi)部有較高的相似度,而類簇之間的相似度盡可能低。K-means算法、Single-Pass增量算法、圍繞中心劃分(PAM)算法等都得到了廣泛的應(yīng)用。張先飛等人利用觸發(fā)詞來確定K-means聚類初始質(zhì)心, 同時結(jié)合自相似度策略來確定K值, 以解決聚類算法中K值及初始質(zhì)心選取的問題[19]。稅儀冬等人為解決增量式聚類初始模型不準確的問題,在Single-Pass聚類基礎(chǔ)上添加了周期分類模塊。該模塊能夠定期對已經(jīng)聚類的報道分類,有效提高了話題簇的精度[20]。殷風景等人提出了ICIT聚類算法,繼承single-pass算法的原理,通過引入正文和標題雙向量的機制提高聚類結(jié)果的精確度[21]。
基于層次的聚類算法又稱為樹聚類算法。與K-means算法不同,層次聚類算法不需要預先設(shè)定聚類數(shù),只要樣本集合通過不斷迭代達到聚類條件或者迭代次數(shù)即可。龍志祎等人先計算特征詞對間基于互信息的相似度,之后采用自底向上的層次聚合聚類算法對特征向量進行聚類[22]。楊長春等人提出了一種改進的CURE層次聚類算法。將傳統(tǒng)CURE算法中的代表點轉(zhuǎn)換為博文種子集,提高了聚類的精確度[23]。
基于模型的聚類算法是假設(shè)每個類簇為一個模型,然后尋找與該模型擬合最好的數(shù)據(jù),通常有基于概率和基于神經(jīng)網(wǎng)絡(luò)兩種方法。前者最常用的方法是基于主題模型的聚類。主題模型假定數(shù)據(jù)的分布是符合一系列的概率分布,用概率分布模型對數(shù)據(jù)進行聚類,而不是像層次聚類和劃分聚類那樣基于距離來進行聚類。主題模型的方法一直備受青睞,學者們通過優(yōu)化主題模型來改進和完善事件檢測的效果和效率。姜曉偉等人提出詞項聚合LDA(term-aggregated LDA,tLDA)策略來解決傳統(tǒng)LDA無法從短文本中獲得足夠信息的缺陷[24]。郭藍天等人引入基于CBOW(continuous bag-of-word)模型的詞向量化方法,通過對LDA模型的輸入進行相似詞的聚類,使話題含義的表達更加明確[25]。為了提高檢測的速度,聶文匯等人提出一種基于熱度矩陣的主題模型,以詞間的共有熱度來挖掘各潛在主題間的語義關(guān)系。實驗顯示,在微博數(shù)據(jù)量達到60萬條時,該方法依然可以在1 min內(nèi)挖掘出潛在的熱點話題[26]。
隨著機器學習的發(fā)展,深度學習也逐漸成為事件檢測的研究熱點。相比于傳統(tǒng)的主題模型方法,引入深度學習的模型無需人工定義的特征模板,能夠自動地學習文本數(shù)據(jù)中的有效特征。因此,在標注語料充分的情況下,深度學習模型往往能夠取得比傳統(tǒng)方法更好的性能[27]。侯偉濤等人使用雙向LSTM神經(jīng)網(wǎng)絡(luò)學習文本的隱藏特征,解決了傳統(tǒng)方法通用性不強以及無法捕捉前后文隱含信息的缺點[28]。張秀華等人提出卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建中文新聞事件檢測模型的方法,通過深度學習抽取文本深層特征[29]。馬晨曦等人提出了可以避免誤差傳播的遞歸神經(jīng)網(wǎng)絡(luò)的事件檢測聯(lián)合模型,該模型不依賴于觸發(fā)詞表的構(gòu)造和擴展,并且有很好的移植性[30]。
(2)社交媒體事件檢測研究(#6)。
隨著互聯(lián)網(wǎng)的普及與高速發(fā)展,社交媒體已經(jīng)成為人們分享觀點、抒發(fā)情感、交流經(jīng)驗的主要渠道?,F(xiàn)階段的社交媒體包括微博、微信、博客、論壇、播客等。為了從社交媒體數(shù)據(jù)中獲取有效信息,克服數(shù)據(jù)量大、結(jié)構(gòu)復雜、傳播速度快等問題,研究者們不斷嘗試各種方法來優(yōu)化事件檢測的效果。陳友認為網(wǎng)絡(luò)論壇下的突發(fā)話題發(fā)現(xiàn)面臨的關(guān)鍵問題是噪音,因此他提出利用詞以及用戶參與度的突發(fā)特性來過濾噪音[31]。趙文清等人針對微博數(shù)據(jù)稀疏性、實時性、不規(guī)范性的特點,提出根據(jù)主題詞間的共現(xiàn)度構(gòu)建詞共現(xiàn)圖的方法[32]。周剛等人注意到微博平臺具備一些傳統(tǒng)媒體不具有的特性,如關(guān)注行為、轉(zhuǎn)發(fā)評論行為。他利用這些結(jié)構(gòu)化信息輔助判斷,以提高話題檢測的性能[33]。申國偉等人針對微博消息流高度動態(tài)變化的特點,提出動態(tài)窗口選擇算法。設(shè)置微博窗口調(diào)整系數(shù)α和滑動窗口調(diào)整系數(shù)β,在消息流較大時,提高參數(shù)α、β的值,即增大兩個窗口的時間片,能夠提高檢測粒度,在消息流大小確定時,調(diào)整參數(shù)α能夠降低隨機噪聲對算法的影響。實驗表明,在大規(guī)模微博消息流中,該算法能夠幫助模型更早地檢測到突發(fā)話題[34]。
還有一些學者關(guān)注網(wǎng)絡(luò)問答平臺的研究。黃魯成等人結(jié)合網(wǎng)絡(luò)問答社區(qū)的特點,采用候選關(guān)鍵詞與組合詞結(jié)合進行二次篩選的辦法,降低了模糊處理與分詞結(jié)果不準確帶來的誤差[35]。
近年來也有很多學者使用深度學習技術(shù)來解決社交媒體事件檢測中的問題。石磊等人利用循環(huán)神經(jīng)網(wǎng)絡(luò)來學習詞之間的關(guān)系,并作為主題模型的先驗知識,使主題更加聚焦,解決了短文本稀疏性問題[36]。熊宇等人則提出一種多模態(tài)特征深度融合模型來學習事件的多模態(tài)特征表達。分別利用深層和淺層的卷積神經(jīng)網(wǎng)絡(luò)來提取圖片的語義特征和學習短文本的語義信息,從而生成魯棒性更好的多模態(tài)融合特征[37]。
(3)事件檢測在突發(fā)事件中的應(yīng)用(#2、#4)。
在海量數(shù)據(jù)流中檢測突發(fā)事件是事件檢測的研究熱點之一。國內(nèi)《突發(fā)事件應(yīng)對法》中對突發(fā)事件做出了相關(guān)定義:“突發(fā)事件是指突然發(fā)生,造成或者可能造成嚴重社會危害,需要采取應(yīng)急處置措施予以應(yīng)對的自然災害、事故災難、公共衛(wèi)生事件和社會安全事件?!蓖话l(fā)事件的出現(xiàn)會給人們的日常生活、人身安全、財產(chǎn)安全帶來巨大影響。因此,對突發(fā)事件的檢測顯得尤為重要。突發(fā)事件檢測中面臨的一個重要問題就是如何準確地識別突發(fā)事件。林達真等人通過考慮事件在時間分布特征上的差異來判斷該事件在時間特征上是否具有突發(fā)性和關(guān)聯(lián)性,從而有效去除虛假突發(fā)事件的檢測[38]。王勇等人提出一種基于“絕對聚類”的微博突發(fā)詞文本聚類算法(ACFD算法)。其思想是如果某一個對象屬于既有的一個類,那么它應(yīng)該和這個類中的每一個對象都相似,即“絕對”屬于這個類,否則不屬于這個類。并對聚類結(jié)果進行熱度加權(quán)計算,返回各類簇中熱度最大的微博作為突發(fā)事件的檢測結(jié)果[39]。
實際情況中,突發(fā)事件是經(jīng)常帶有地域?qū)傩缘?,仲兆滿等人針對地域性突發(fā)事件的檢測,提出了地域Top-k突發(fā)事件檢測的系統(tǒng)框架,將地域信息作為突發(fā)詞提取的指標和熱度計算指標之一[40]。李綱等人則關(guān)注突發(fā)事件的演化規(guī)律,結(jié)合地理標簽和個人信息描述對受災地區(qū)用戶和非受災地區(qū)用戶進行自動劃分,比較兩類用戶在宏觀層面和微觀層面的熱點話題演化規(guī)律??梢詭椭鸀暮芾聿块T更高效地從社交媒體數(shù)據(jù)中識別受災人群及其需求,從而及時采取響應(yīng)措施[41]。
突發(fā)事件總會帶來大量的網(wǎng)絡(luò)輿情,對于網(wǎng)絡(luò)輿情的識別也是事件檢測的研究熱點之一。網(wǎng)絡(luò)輿情具有自由性、交互性、多元性、突發(fā)性、群體極化性等特點,能夠影響民眾的情感和判斷,能推動和改變事件的發(fā)展和走向,容易被不懷好意的群體利用,已經(jīng)成為影響社會穩(wěn)定的重要因素。因此,及時檢測、控制并引導輿情的發(fā)展具有十分重要的意義。丁杰等人設(shè)計了一個網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)IPSMS,應(yīng)用了網(wǎng)頁清洗及k-d tree分類方法,將網(wǎng)絡(luò)新聞及論壇、BBS上的帖子依關(guān)鍵詞搜索,并依“事件”聚類,讓管理者通過閱讀事件可以了解正在發(fā)生或已經(jīng)發(fā)生的事件[42]。李磊等人關(guān)注網(wǎng)絡(luò)輿情的態(tài)勢演化,他在對主題詞頻數(shù)進行加權(quán)的基礎(chǔ)上,計算詞對的最大信息系數(shù)(MIC)。基于MIC計算的主題詞集合的密度和中心度充分揭示了話題內(nèi)容的演化趨勢[43]。王曰芬等人以新聞媒體報道來表達社會現(xiàn)實事件、以公眾評論來表達輿情事件,通過話題識別與主題關(guān)聯(lián)分析,探究同一事件新聞報道與輿情評論之間的共振與偏離[44]。馮科等人將網(wǎng)絡(luò)輿情事件發(fā)現(xiàn)與分類的復雜問題,分解到三個模型中:基于深度學習的事件句檢測模型ESDM、事件類型判別模型ETDM和網(wǎng)絡(luò)輿情事件專家知識模式庫EKB。三個模型組成的聯(lián)合模型有效降低了網(wǎng)絡(luò)輿情重大事件檢測的漏判和誤判[45]。
時間線圖譜可以了解聚類之間的關(guān)系以及某個聚類中文獻的歷史演進趨勢[46]。因此,根據(jù)時間線的變化可以更清晰地了解事件檢測領(lǐng)域的發(fā)展變化,時間線圖譜如圖4所示。突現(xiàn)關(guān)鍵詞表示在一段時期內(nèi)該研究主題受到了高度關(guān)注,近年關(guān)鍵詞突現(xiàn)信息如表3所示。
表3 關(guān)鍵詞突現(xiàn)信息
一個研究領(lǐng)域,一般先經(jīng)過最初的概念形成階段,然后隨著研究工具的大量出現(xiàn),研究的能力和范圍開始增強,此后進入擴散階段,研究者將這些方法應(yīng)用到原本的研究問題之外的領(lǐng)域,最后進入衰減階段[47]?;谠摾碚摽梢钥闯觯?003-2009年是事件檢測領(lǐng)域的概念形成階段。這一階段較大的節(jié)點是“話題檢測”
圖4 時間線圖譜
“事件檢測”和“聚類”。國內(nèi)的研究剛剛起步,許多方面還不能滿足實際應(yīng)用的需要。所以學者們更多的是對概念的研究,使用的方法也多局限于聚類和信息檢索,例如命名實體、增量聚類、層次聚類和文本挖掘。這一階段的研究熱點是從新聞長文本中檢測事件,所以主要的研究對象是新聞專題、新聞事件、新聞報道和新聞組織等。在這一時間段內(nèi)的凸顯關(guān)鍵詞是“融合特征”和“命名實體”。
2010-2021年是事件檢測領(lǐng)域的工具開發(fā)階段。為克服傳統(tǒng)方法的各種缺陷,研究者們不斷對檢測技術(shù)進行改進和完善。這一階段最大的變化就是微博等社交媒體的流行,徹底改變了事件檢測研究的數(shù)據(jù)類型。研究主題與上一階段相比成倍增長,“網(wǎng)絡(luò)輿情”“主題模型”“神經(jīng)網(wǎng)絡(luò)”“bert模型”等內(nèi)容獲得了研究者的大量關(guān)注。研究方法更是多種多樣,自然語言處理、文本挖掘、主題模型、多模態(tài)、深度學習等技術(shù)都被應(yīng)用在該領(lǐng)域。同時,也出現(xiàn)了領(lǐng)域擴散的現(xiàn)象,研究方向不再局限于對技術(shù)的探索,已有部分學者將事件檢測應(yīng)用于輿情管理、應(yīng)急管理、信息安全、食品安全、廣播電視、城市治理等領(lǐng)域。
“突發(fā)事件”“社交媒體”和“深度學習”是近三年值得關(guān)注的突現(xiàn)詞。近年來國內(nèi)處于突發(fā)事件高發(fā)階段,新冠疫情、電動車電池爆炸、城市洪水等突發(fā)性災害事件引起人們的廣泛關(guān)注。越來越多的研究者和應(yīng)急管理人員意識到事件檢測在應(yīng)對突發(fā)事件中的重要性。而應(yīng)急管理需要即時訪問各種數(shù)據(jù)源,了解災難發(fā)生期間現(xiàn)場的情況以及各種信息。社交媒體就是當前最重要的信息發(fā)布和傳播渠道之一。人們能夠通過社交媒體主動或被動分享有價值的事件信息,并傳遞給應(yīng)急管理人員、決策者或能夠提供幫助的人。因此,如何更有效地利用社交媒體中的信息是當前研究者和管理者都在不斷探索的問題。深度學習已經(jīng)成為機器學習的研究熱點,它被廣泛運用于自然語言處理、圖像識別、物體檢測等領(lǐng)域,使人工智能等相關(guān)技術(shù)取得了很大的進步。深度學習不需要人工提取特征,大幅提高了事件檢測的效率,同時它能更好地挖掘文本的隱藏特征,使事件檢測的結(jié)果更加準確。因此,繼續(xù)探究基于機器學習的事件檢測方法將是未來該領(lǐng)域一個重要的研究方向。除此以外,這一階段的發(fā)文量有顯著增長,研究角度也更加深入和細化,如子事件檢測、事件演化和事件脈絡(luò)挖掘等方面的研究。
運用文獻計量的方法和知識可視化軟件CiteSpace對事件檢測研究成果進行梳理和分析,得出以下結(jié)論:
(1)事件檢測領(lǐng)域發(fā)文量已經(jīng)趨于穩(wěn)定,核心期刊占比整體上呈上升趨勢,說明對事件檢測研究的質(zhì)量和深度都在提高。中國科學院發(fā)文數(shù)量最多,但與其他機構(gòu)的交流合作需要進一步提升,同時其他研究機構(gòu)之間的合作也較少,從長遠來看不利于事件檢測領(lǐng)域的發(fā)展。各機構(gòu)之間,尤其是不同學科之間應(yīng)該加強合作,呈現(xiàn)多樣化和交叉性發(fā)展態(tài)勢,有利于事件檢測研究的跨學科創(chuàng)新發(fā)展。
(2)梳理了研究者在事件檢測中應(yīng)用的方法和技術(shù)。雖然方法多種多樣,但是很多研究者使用的實驗數(shù)據(jù)是英文語料或Twitter等國外平臺的數(shù)據(jù)。面對結(jié)構(gòu)和語義都頗為復雜的中文文本,研究者們還需要繼續(xù)深化中文數(shù)據(jù)的處理能力,提出更加高效、精準的檢測方法。
(3)在研究熱點和研究重點方面,事件檢測的研究熱點集中在突發(fā)事件與熱點話題的文本事件檢測應(yīng)用研究、基于微博數(shù)據(jù)的事件檢測案例研究、以聚類為主要方法的事件檢測方法研究這三個方面。當前研究重點是事件檢測技術(shù),社交媒體事件檢測和事件檢測在突發(fā)事件中的應(yīng)用。
演化趨勢分為兩個階段,2003-2009年是事件檢測領(lǐng)域的概念形成階段,2010-2021年是事件檢測領(lǐng)域的工具開發(fā)階段。同時出現(xiàn)了領(lǐng)域擴散的現(xiàn)象,研究者將事件檢測應(yīng)用到其他領(lǐng)域,如輿情管理、應(yīng)急管理、信息安全、食品安全、廣播電視、城市治理等。
未來的研究方向包括社交媒體、突發(fā)事件、深度學習和突發(fā)話題?;谏缃幻襟w的突發(fā)事件檢測是事件檢測領(lǐng)域一個主要的研究方向,如何準確、實時地檢測突發(fā)事件并對事件的發(fā)展進行追蹤,是研究者們當前以及未來一段時間關(guān)注的焦點。同時可以預見,深度學習將成為未來事件檢測的研究重點,將深度學習與自然語言處理結(jié)合,可以顯著提高事件檢測的效率和效果,使事件檢測在各個領(lǐng)域的應(yīng)用具有更好的表現(xiàn)。