摘要:在5G時代信息大爆炸的背景下,知識圖譜成為一種有效的信息管理工具,通過將零散信息進行關(guān)聯(lián),可以形成完整的知識體系。在新聞領(lǐng)域,知識圖譜的應(yīng)用能夠改變傳統(tǒng)的新聞內(nèi)容存儲和管理方式,提高新聞生產(chǎn)效率,為用戶提供一種更加便捷的方式來獲取所需信息。本文重點探討了新聞領(lǐng)域?qū)χR圖譜的需求、知識圖譜在國內(nèi)外新聞領(lǐng)域的應(yīng)用狀況,以及知識圖譜在新聞領(lǐng)域可能出現(xiàn)的應(yīng)用場景,以期為相關(guān)人員提供參考和借鑒。
關(guān)鍵詞:知識圖譜;新聞生產(chǎn)平臺
引言
知識圖譜是一種可將信息有效結(jié)構(gòu)化的方法,可以把零散的信息關(guān)聯(lián)起來,形成一個完整的知識體系,使人們能夠更好地理解和使用信息。對于新聞領(lǐng)域來說,知識圖譜的引入為新聞領(lǐng)域提供了新的可能性和機遇。通過將新聞信息結(jié)構(gòu)化,知識圖譜可以幫助新聞生產(chǎn)者更好地管理新聞內(nèi)容,提高新聞生產(chǎn)的效率,同時,也為用戶提供了一種更加便捷的獲取他們需要的信息的方式。
1. 知識圖譜綜合性闡述
知識圖譜是一種利用圖形結(jié)構(gòu)來表達和整理知識的方法,它將事物(如對象、事件、概念等)表示為節(jié)點,將事物之間的關(guān)系表示為邊,從而形成一個網(wǎng)絡(luò)結(jié)構(gòu)。這種結(jié)構(gòu)可以幫助人們更好地理解和分析復(fù)雜的信息和知識。
1.1 知識圖譜的特性
(1)結(jié)構(gòu)化。知識圖譜將信息從非結(jié)構(gòu)化狀態(tài)轉(zhuǎn)化為結(jié)構(gòu)化的形態(tài),使機器可以更好地理解和處理這些數(shù)據(jù)。
(2)語義化。知識圖譜不僅保存了數(shù)據(jù),還保存了數(shù)據(jù)之間的關(guān)系,這種關(guān)系是有語義的。例如,“北京是中國的首都”這個語句可以被轉(zhuǎn)化為知識圖譜中的兩個節(jié)點(北京、中國)和一個邊(是首都)。
(3)可連接。知識圖譜中的節(jié)點和邊可以連接到其他知識圖譜,從而形成一個更大的知識網(wǎng)絡(luò)。這種連接可以幫助人們發(fā)現(xiàn)新的知識,并深入洞察。
1.2 知識圖譜的類型
知識通常可以被劃分為領(lǐng)域知識、百科知識、場景知識、語言知識、常識知識等幾種類型?;谶@些知識種類,可以將知識圖譜歸類為領(lǐng)域知識圖譜和通用知識圖譜。領(lǐng)域知識圖譜專注于某一特定領(lǐng)域的知識,如保險、醫(yī)療、法律等,其構(gòu)建的難度相對較小。通用知識圖譜則覆蓋知識面更為廣泛,包括各種各樣的信息,因此,在構(gòu)建過程中面臨的挑戰(zhàn)更大。
1.3 知識圖譜的構(gòu)建
建立知識圖譜的過程通常涵蓋三個核心步驟:知識抽取、知識融合、知識推理[1]。知識抽取是指從各種數(shù)據(jù)源中自動提取結(jié)構(gòu)化的知識,包括文本、圖像、語音等。知識融合是指將各種不同來源的知識進行統(tǒng)一和整合,消除冗余和矛盾。知識推理是指基于已有的知識進行推理和推斷,得出新的知識。
通常,知識圖譜的構(gòu)建采用Neo4j圖形數(shù)據(jù)庫來實現(xiàn)。主流的圖形數(shù)據(jù)庫還有JanusGraph、HugeGraph。
知識圖譜的出現(xiàn)是多種相關(guān)技術(shù)在發(fā)展過程中相互影響、融合和進化的產(chǎn)物,這些技術(shù)包括語義網(wǎng)絡(luò)知識表示、本體論、語義網(wǎng)、自然語言處理等,其技術(shù)基礎(chǔ)融匯了Web、人工智能、自然語言處理等多個領(lǐng)域的先進理念和方法。在全球范圍內(nèi),除了Google的知識圖譜外,還有一些高質(zhì)量大規(guī)模開放的知識圖譜,如DBpedia、Wikidata、ConceptNet,以及Microsoft Concept Graph等,這些知識圖譜涵蓋了多種語言和廣泛的領(lǐng)域。此外,還有OpenKG等中文開放知識圖譜平臺。
知識圖譜廣泛應(yīng)用于搜索引擎、社會網(wǎng)絡(luò)、推薦系統(tǒng)、自然語言處理和人工智能等領(lǐng)域。Google把搜索引擎從反向索引轉(zhuǎn)向到知識圖譜,滿足更多的檢索場景,提供更準(zhǔn)確和豐富的搜索結(jié)果;Facebook的社交圖譜可以幫助用戶發(fā)現(xiàn)新的朋友和興趣;Amazon的商品圖譜可以提供更個性化的購物推薦。
2. 知識圖譜在國內(nèi)外主流媒體中的應(yīng)用現(xiàn)狀
央視網(wǎng)“人工智能編輯部”的“I學(xué)習(xí)”智能時政數(shù)據(jù)庫,成功打造了中國首個大規(guī)模的中文時政領(lǐng)域知識圖譜[2]。這個以時政知識圖譜為核心的工具,實現(xiàn)了時政新聞的全面知識結(jié)構(gòu)化、圖譜化、可視化,不僅有效助力了時政內(nèi)容創(chuàng)作過程中的策劃選題、思路拓展和數(shù)據(jù)提取等環(huán)節(jié),更在提高生產(chǎn)效率方面發(fā)揮了重要作用。
《華盛頓郵報》在網(wǎng)頁新聞中嵌入知識地圖,在新聞?wù)闹?,一些關(guān)鍵知識點會被標(biāo)注。當(dāng)讀者點擊這些標(biāo)注時,正文右側(cè)將以知識卡片的方式展示相關(guān)的背景新聞或相關(guān)信息。這種補充顯示的知識主要以簡潔的文字和圖片形式呈現(xiàn)[3]。
《紐約時報》應(yīng)用知識圖譜的新聞編碼代表了一種創(chuàng)新的新聞?wù)宫F(xiàn)形式,其來源于《紐約時報》研究與發(fā)展實驗室提出的“Particles理論”,對新聞中提取出的新聞顆粒即信息點進行編碼。這種新聞編碼是對新聞中提取出的信息點,即新聞顆粒進行編碼的過程。通過這種方式,新聞信息具備了被搜索和提取的能力,可以被拆解為各個元素,并在清晰的時間軸上進行組織。這種策略能夠?qū)崿F(xiàn)新聞信息的實時增量積累和重復(fù)利用,同時,也可以將相同的新聞內(nèi)容自動轉(zhuǎn)化為不同風(fēng)格的文章[3]。
3. 知識圖譜在新聞生產(chǎn)平臺的應(yīng)用研究
知識圖譜能夠?qū)⑺槠?、分散的信息集成到一個統(tǒng)一、結(jié)構(gòu)化的框架中,提供更深層次、更全面的信息理解和應(yīng)用,在有效處理大規(guī)模數(shù)據(jù)時,不斷挖掘其中的價值,服務(wù)于各種復(fù)雜的任務(wù)和需求。新聞領(lǐng)域信息系統(tǒng)利用自然語言處理、機器學(xué)習(xí)和圖譜構(gòu)建等先進技術(shù),可以從新聞素材中提取和分析信息,進一步將這些信息編織成一張知識圖譜,實現(xiàn)對新聞事件的深度挖掘和理解,從而賦予新聞更深遠的價值和意義。這個過程可以幫助新聞機構(gòu)提高新聞生產(chǎn)、發(fā)布和推薦的效率和質(zhì)量,同時,也為新聞消費者提供了更好的閱讀體驗。
在以往的新聞制作過程中,新聞內(nèi)容的過度重復(fù)加工導(dǎo)致大規(guī)模的人力資源浪費,同時,也給新聞制作人員帶來了挑戰(zhàn),他們需要創(chuàng)新并提供高品質(zhì)的新聞產(chǎn)品,讓用戶可以輕松高效地獲取信息?,F(xiàn)在利用知識圖譜技術(shù),能夠使新聞信息技術(shù)系統(tǒng)提供優(yōu)質(zhì)的數(shù)據(jù)資源和自動化工具,從而提升新聞從業(yè)人員的生產(chǎn)效率。以下是知識圖譜在新聞生產(chǎn)技術(shù)平臺中的一些綜合應(yīng)用場景,其能夠在新聞生產(chǎn)、媒體內(nèi)容智能標(biāo)注、新聞元數(shù)據(jù)推薦、制作流程優(yōu)化等方面,加強和優(yōu)化媒體內(nèi)容資源數(shù)據(jù)管理能力。
3.1 新聞聚合
使用知識圖譜自動標(biāo)記新聞報道的主題,根據(jù)主題進行分類,能夠讓新聞采編人員和新聞用戶更容易找到他們感興趣的內(nèi)容。將不同來源的新聞按照主題、事件、人物等進行分類和鏈接,幫助新聞采編人員和新聞用戶更全面地了解某個事件的發(fā)展過程和背景信息。例如,知識圖譜可以將所有關(guān)于特定政治事件的新聞聚合在一起,使用戶能夠從多個角度和多個來源了解整個事件。
3.2 新聞推薦
通過知識圖譜可得到更細粒度、知識層面的新聞與用戶特征信息,構(gòu)建采編人員的興趣模型,可以幫助理解采編用戶的資料查閱習(xí)慣和興趣愛好,從而提供更個性化的新聞推薦,推薦更符合個性化需求的內(nèi)容。這一功能模塊同樣可以應(yīng)用于新聞用戶的訂閱和展示平臺中。例如,使用知識圖譜將用戶的瀏覽歷史、社交媒體活動等數(shù)據(jù)與新聞文章的主題、作者、出版日期等信息相結(jié)合,以生成更精確的推薦。
3.3 自動新聞生成
基于知識圖譜技術(shù)的自動新聞生成技術(shù),能夠自動從大量的數(shù)據(jù)中提取信息,然后生成新聞報道。通過把新聞事件、人物、地點、日期等信息轉(zhuǎn)化為知識圖譜的節(jié)點和邊,機器可以根據(jù)這些信息自動生成新聞報道。例如,知識圖譜可以將一場足球比賽的結(jié)果、進球球員、比賽地點等信息轉(zhuǎn)化為新聞報道的框架,然后通過自然語言處理技術(shù)填充具體的描述和評論。此外,對這些內(nèi)容進行關(guān)聯(lián)性分析,以此為基礎(chǔ),形成的分析結(jié)果將作為可供編輯記者參考的素材。
3.4 事件追蹤和分析
知識圖譜作為一種結(jié)構(gòu)化的知識表示方法,可以幫助人們更好地理解和利用通過自然語言提取的信息,從而更高效的進行事件追蹤和分析。利用自然語言處理技術(shù),對新聞素材進行細致的分析和處理,以挖掘并理解文本中的語義信息,同時也有能力識別文本中的情感和立場。自動探索新聞素材中的事件和主題,對相關(guān)信息進行分類和整理,以便深度挖掘和理解各種事件。例如,自然語言處理技術(shù)可以用來識別、收集和分析有關(guān)特定事件(如選舉、自然災(zāi)害[4]、謠言治理[5]或沖突)的信息,以便新聞記者和分析人員進行深入的研究和報道。也有研究人員使用知識圖譜分析工具CiteSpace軟件進行行業(yè)或領(lǐng)域(如跨文化傳播[6]、短視頻研究、我國AI主播)信息的知識圖譜,形成這些領(lǐng)域的基本知識結(jié)構(gòu)體系結(jié)構(gòu)化和可視化構(gòu)建。
3.5 媒體內(nèi)容資源管理
通過知識圖譜構(gòu)建統(tǒng)一和高效的管理框架,優(yōu)化媒體內(nèi)容資源管理的采集、存儲、處理和分發(fā)各環(huán)節(jié)構(gòu)成的工作流程。支持媒體內(nèi)容資源的高級分析,如趨勢預(yù)測、影響力評估等,用于媒體機構(gòu)理解媒體內(nèi)容資源的使用情況和用戶需求,對媒體內(nèi)容的策劃和生產(chǎn)也有一定的指導(dǎo)意義。
在該技術(shù)平臺構(gòu)建的新聞內(nèi)容元數(shù)據(jù)關(guān)系管理模塊中,采用“前端D3.js+后端Neo4J”的技術(shù)路線,以關(guān)系圖的方式將新聞內(nèi)容元數(shù)據(jù)之間的關(guān)系進行展示和追溯,將新聞內(nèi)容制作過程中的各種生產(chǎn)數(shù)據(jù)、各層級數(shù)據(jù)之間的關(guān)系進行任意維度的分析,為新聞內(nèi)容生產(chǎn)提供高效便捷的查詢和管理手段。
4. 知識圖譜技術(shù)在新聞領(lǐng)域應(yīng)用發(fā)展展望
信息大爆炸給新聞生產(chǎn)者和媒體從業(yè)人員帶來了許多深刻的變化和挑戰(zhàn),挑戰(zhàn)和機遇并存。隨著人工智能技術(shù)的發(fā)展,知識圖譜在新聞技術(shù)系統(tǒng)中的應(yīng)用呈現(xiàn)多元化的趨勢,未來的發(fā)展前景廣闊。以下是一些可能的發(fā)展趨勢和應(yīng)用場景。
首先,知識圖譜的規(guī)模和深度將會進一步擴大。未來的知識圖譜不再局限于處理結(jié)構(gòu)化數(shù)據(jù),而是能夠深度挖掘非結(jié)構(gòu)化數(shù)據(jù),包括文本、圖片、視頻等。例如,通過對新聞報道的圖片和視頻進行深度學(xué)習(xí)分析,知識圖譜能夠提取出更豐富的信息,進一步解讀和分析新聞。
其次,知識圖譜將會更加智能化,具有更強的自學(xué)習(xí)和自適應(yīng)能力。通過深度學(xué)習(xí)和強化學(xué)習(xí)等技術(shù),知識圖譜能夠?qū)崿F(xiàn)自我進化,隨著信息量的增加,其分析能力和準(zhǔn)確度將不斷提升。這使得新聞機構(gòu)能夠更快速、更精準(zhǔn)地進行新聞事件的跟蹤和分析。
再次,知識圖譜還可能與人工智能技術(shù)進行融合和應(yīng)用,發(fā)揮更大的作用。在應(yīng)對“假新聞”的挑戰(zhàn)上,知識圖譜也有巨大的潛力。通過對新聞事件的深度分析和跨源核實,知識圖譜能夠辨別出虛假的新聞報道,幫助用戶獲取真實、準(zhǔn)確的新聞信息。
最后,知識圖譜在系統(tǒng)運維和安全方面也逐漸得到廣泛應(yīng)用,在近幾年的研究中,研究范圍包括事件關(guān)聯(lián)與緊急響應(yīng)、網(wǎng)絡(luò)安全分析、風(fēng)險管理、故障排除,以及預(yù)測性維護。例如,基于圖數(shù)據(jù)庫的系統(tǒng)日志圖譜模型[7],在傳統(tǒng)日志分析信息維度中引入網(wǎng)絡(luò)安全知識、系統(tǒng)環(huán)境數(shù)據(jù)和威脅情報三個維度的背景知識,能夠提供多維度分析能力與強事件關(guān)聯(lián)能力。使用基于安全知識圖譜和逆向特征的弱點信息補全方法對開源網(wǎng)絡(luò)安全知識庫進行弱點加固[8],可以解決現(xiàn)有弱點信息補全方法對弱點信息不同鄰域特征學(xué)習(xí)不充分的問題。構(gòu)建面向域名解析系統(tǒng)的知識圖譜[9],用于提高網(wǎng)絡(luò)域名系統(tǒng)服務(wù)器日志分析能力。知識圖譜能進一步幫助運維人員理解和監(jiān)控網(wǎng)絡(luò)活動、跟蹤系統(tǒng)配置變化、識別和管理安全風(fēng)險、存儲和檢索知識,以解決問題并預(yù)測和處理可能的系統(tǒng)問題。例如,結(jié)合知識圖譜算法的優(yōu)勢和復(fù)雜社交網(wǎng)絡(luò)建模的特點解決惡意用戶篩選的問題,在傳統(tǒng)的靜態(tài)網(wǎng)絡(luò)安全知識圖譜上引入了時序信息,可以有效地預(yù)測網(wǎng)絡(luò)攻擊事件[10-11]。
結(jié)語
近年來,知識圖譜在新聞技術(shù)系統(tǒng)中的應(yīng)用逐漸廣泛,但同時,其在實施過程中仍面臨許多挑戰(zhàn)和限制。未來,隨著人工智能技術(shù)的發(fā)展和社會的進步,知識圖譜將會在新聞技術(shù)系統(tǒng)中發(fā)揮更大的作用,將改變新聞的生產(chǎn)、分發(fā)和消費方式,為新聞機構(gòu)和用戶帶來更加便捷和有價值的體驗。
參考文獻:
[1]張吉祥,張祥森,武長旭,等.知識圖譜構(gòu)建技術(shù)綜述[J].計算機工程,2022,48(3):23-37.
[2]譚景瑜,李璇.以內(nèi)容為紐帶以技術(shù)為驅(qū)動——央視網(wǎng)2023年兩會報道創(chuàng)新應(yīng)用實踐[J].中國傳媒科技,2023(4):17-22.
[3]宋卿,戚成琳,張鵬洲.知識圖譜技術(shù)在新聞領(lǐng)域中的應(yīng)用思考[J].中國傳媒科技,2016,(05):19-21,39.
[4]周華清,李來斌.國內(nèi)外突發(fā)事件的應(yīng)急傳播研究熱點與趨勢分析(2012~2021年)[J].電子科技大學(xué)學(xué)報(社科版),2023,25(3):38-49..
[5]寧辰.基于知識圖譜的國內(nèi)網(wǎng)絡(luò)謠言治理研究可視化分析[J].新聞世界,2024(6):26-29.
[6]劉懋瓊,楊海燕.跨文化傳播輿情管理知識圖譜構(gòu)建[J/OL].情報科學(xué),2024(6):1-13[2024-09-04].http://kns.cnki.net/kcms/detail/22.1264.G2.20240627.1142.006.html.
[7]鄭中一,李賽飛,江曉峰.基于圖數(shù)據(jù)庫的系統(tǒng)日志圖譜模型構(gòu)建與分析[J].信息安全與通信保密,2023(6): 110-121.
[8]周莎,申國偉,郭春.基于安全知識圖譜與逆向特征的弱點信息補全[J].計算機工程,2024,50(1):145-155.
[9]胡昌秀,張仰森,劉洋,等.面向域名解析系統(tǒng)的知識圖譜構(gòu)建與應(yīng)用方法[J].科學(xué)技術(shù)與工程,2023,23(23): 9979-9990.
[10]朱弘毅,李榮臻,劉萬里,等.基于知識圖譜的惡意用戶篩選算法研究[J].計算機與數(shù)字工程,2023,51(10): 2334-2338.
[11]黃智勇,劉昕宇,林仁明,等.基于知識圖譜的網(wǎng)絡(luò)攻擊預(yù)測方法研究及應(yīng)用[J].現(xiàn)代電子技術(shù),2024,47(9): 91-96.
作者簡介:韓笑,碩士研究生,高級工程師,hanxiao@xinhua.org,研究方向:媒體融合;端木義平,本科,高級工程師,研究方向:AI、廣播電視制作、播出。