張四平 王梅
摘 ?要: 從網(wǎng)絡(luò)空間的海量信息中發(fā)現(xiàn)公開情報(bào)信息,對(duì)于維護(hù)國(guó)家安全和社會(huì)穩(wěn)定具有重要意義。文章通過開發(fā)的“大數(shù)據(jù)網(wǎng)絡(luò)公開情報(bào)發(fā)現(xiàn)系統(tǒng)”,研究多源異構(gòu)數(shù)據(jù)的采集、融合、分析及展示;通過設(shè)計(jì)網(wǎng)絡(luò)空間對(duì)象關(guān)聯(lián)分析系統(tǒng)來分析處理海量信息,從而能夠支持不良信息的溯源、重點(diǎn)關(guān)注用戶賬號(hào)的關(guān)聯(lián)、網(wǎng)絡(luò)嫌疑人身份信息的協(xié)同搜索等。
關(guān)鍵詞: 大數(shù)據(jù)分析; 互聯(lián)網(wǎng)公開情報(bào); 網(wǎng)絡(luò)空間對(duì)象; 關(guān)聯(lián)分析系統(tǒng)
中圖分類號(hào):TP393 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? 文章編號(hào):1006-8228(2020)03-09-04
Research on big data analysis based Internet open information discovery technology and system
Zhang Siping, Wang Mei
(School of software Hunan College of Information, Changsha, Hunan 410200, China)
Abstract: It is of great significance for maintaining national security and social stability to find open information from the massive information in cyberspace. This paper studies the collection, fusion, analysis and display of multi-source heterogeneous data by the developed "big data Internet open information discovery system"; through the design of network space object association analysis system to analyze and process massive information, so as to support the traceability of bad information, the association of the focused user accounts, and collaborative search of identity information of network suspects, etc.
Key words: big data analysis; Internet open information; network space object; association analysis system
0 引言
社會(huì)信息化程度不斷加深,這對(duì)傳統(tǒng)的社會(huì)形態(tài)有著深遠(yuǎn)的影響,傳統(tǒng)的社會(huì)形態(tài)面臨巨大的挑戰(zhàn)。以新聞門戶網(wǎng)站(新浪、網(wǎng)易)、論壇類媒體(BBS和博客)為代表的傳統(tǒng)網(wǎng)絡(luò)媒體,以微博媒體和社交網(wǎng)站為代表的網(wǎng)絡(luò)新媒體,產(chǎn)生海量互聯(lián)網(wǎng)信息,此類網(wǎng)絡(luò)空間信息大數(shù)據(jù)具有模式多態(tài)、動(dòng)態(tài)交互、碎片化、變化演繹等特點(diǎn),其中蘊(yùn)含著大量有價(jià)值的情報(bào)信息。如何針對(duì)用戶的實(shí)際需求和真實(shí)搜索意圖,發(fā)現(xiàn)互聯(lián)網(wǎng)的公開情報(bào)信息,這項(xiàng)研究對(duì)于涉恐辦案情報(bào)分析、經(jīng)濟(jì)情報(bào)分析、輿論情報(bào)分析等,以及對(duì)于維護(hù)國(guó)家安全和社會(huì)穩(wěn)定具有重要意義。
1 研究現(xiàn)狀
現(xiàn)代情報(bào)大數(shù)據(jù)具有數(shù)據(jù)規(guī)模大、高速生成、異構(gòu)、多源、細(xì)粒度語義單元分析的特點(diǎn),這些特點(diǎn)對(duì)計(jì)算平臺(tái)、數(shù)據(jù)收集、數(shù)據(jù)組織和數(shù)據(jù)分析等提出了新的挑戰(zhàn),促使在這些領(lǐng)域形成了新的技術(shù)體系。
⑴ 大數(shù)據(jù)計(jì)算平臺(tái)。大規(guī)模分布式計(jì)算平臺(tái)是解決大數(shù)據(jù)的規(guī)模問題基本的思路,遵循Map/Reduce計(jì)算模型[1]的Hadoop[2]系統(tǒng)是其中的代表產(chǎn)品。在Apache等開源社區(qū)的推動(dòng)下,針對(duì)不同數(shù)據(jù)計(jì)算模式的特點(diǎn),分布式計(jì)算平臺(tái)呈現(xiàn)不同方向發(fā)展:面向大數(shù)據(jù)高時(shí)變性的特點(diǎn),出現(xiàn)了以Storm、Spark Stream、S4為代表的流計(jì)算平臺(tái)[3];大數(shù)據(jù)中數(shù)據(jù)高度關(guān)聯(lián)的特點(diǎn)推動(dòng)了面向大圖數(shù)據(jù)管理和計(jì)算的平臺(tái),包括Pregal(以分布式矩陣計(jì)算為基礎(chǔ))、Trinity(基于分布式共享內(nèi)存)、Power Graph(基于GAP模型)和Distributed graphlab為代表的大圖數(shù)據(jù)計(jì)算平臺(tái)[4];針對(duì)大內(nèi)存計(jì)算的需求,出現(xiàn)了以Hana、Spark、GemFire為代表的內(nèi)存計(jì)算系統(tǒng)[5]。
⑵ 網(wǎng)絡(luò)信息獲取與提取技術(shù)。從各種公開或非公開數(shù)據(jù)源中獲取數(shù)據(jù)是情報(bào)大數(shù)據(jù)系統(tǒng)的重要組成部分,其中主要包括數(shù)據(jù)獲取和信息抽取兩個(gè)關(guān)鍵技術(shù)。網(wǎng)絡(luò)爬蟲系統(tǒng)是當(dāng)前主要的數(shù)據(jù)獲取手段,Anthelion、Scrapy等系統(tǒng)可以自動(dòng)地實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上網(wǎng)頁或數(shù)據(jù)庫(kù)數(shù)據(jù)的爬取[6]。在信息抽取方面,在互聯(lián)網(wǎng)數(shù)據(jù)分析、醫(yī)療數(shù)據(jù)分析等領(lǐng)域均出現(xiàn)從網(wǎng)頁等文本數(shù)據(jù)抽取各種語義信息的方法,主要包括通過網(wǎng)頁結(jié)構(gòu)進(jìn)行分析獲取其中的數(shù)據(jù)抽取目標(biāo)的技術(shù)。
⑶ 多源異構(gòu)數(shù)據(jù)建模與集成。多源異構(gòu)數(shù)據(jù)集成的研究一直是信息集成領(lǐng)域的主要研究?jī)?nèi)容。在第一代的信息集成系統(tǒng)中主要實(shí)現(xiàn)對(duì)異構(gòu)的半結(jié)構(gòu)化文本和數(shù)據(jù)庫(kù)的集成,主要以解決模式上的異構(gòu)問題為主。
⑷ 情報(bào)大數(shù)據(jù)分析技術(shù)。情報(bào)分析領(lǐng)域業(yè)務(wù)部門、工業(yè)界和學(xué)術(shù)界多年來已在數(shù)據(jù)挖掘、互聯(lián)網(wǎng)搜索、自然語言處理、在線社交網(wǎng)絡(luò)分析等傳統(tǒng)方向上有成熟技術(shù)和產(chǎn)品基礎(chǔ)。
2 本研究采用的關(guān)鍵技術(shù)
本文研究的技術(shù)路線如圖1所示,主要包括互聯(lián)網(wǎng)情報(bào)獲取與融合、情報(bào)知識(shí)倉(cāng)庫(kù)構(gòu)建和管理、用戶真實(shí)搜索意圖理解、用戶搜索意圖的搜索與匹配等部分。
2.1 網(wǎng)絡(luò)空間情報(bào)獲取與融合
支持網(wǎng)絡(luò)空間數(shù)據(jù)獲取和推理,包括公開互聯(lián)網(wǎng)、微博、博客、論壇、維基、共享網(wǎng)站等空間中采集文本、圖片、語音、視頻等各種類型的多模態(tài)數(shù)據(jù),以及各類已存在的實(shí)體對(duì)象情報(bào)和關(guān)系情報(bào)。數(shù)據(jù)獲取與采集過程不間斷進(jìn)行,采集后的數(shù)據(jù)和知識(shí)是后續(xù)推理和搜索的基礎(chǔ)。
2.2 情報(bào)知識(shí)倉(cāng)庫(kù)構(gòu)建和管理
面向公開互聯(lián)網(wǎng)的海量實(shí)體對(duì)象情報(bào)及關(guān)系情報(bào)知識(shí)進(jìn)行建模;在此模型實(shí)例化的基礎(chǔ)上通過情報(bào)知識(shí)聚合,構(gòu)建情報(bào)知識(shí)庫(kù)空間,并通過索引、關(guān)聯(lián)和演算等聚合操作預(yù)先形成情報(bào)聚合體。知識(shí)倉(cāng)庫(kù)中的情報(bào)知識(shí)是不斷經(jīng)過二次加工的,經(jīng)過用戶的查詢、修改、反饋和自演化的過程,逐步完善,根據(jù)應(yīng)用建立各類索引,同時(shí)滿足用戶搜索時(shí)的準(zhǔn)確性需求和實(shí)時(shí)性需求。
2.3 用戶真實(shí)搜索意圖理解
真實(shí)情報(bào)意圖理解的準(zhǔn)確性和歧義消除是用戶的基本需求。結(jié)合用戶的上下文和語義知識(shí)等方法,迅速、準(zhǔn)確地理解用戶的真實(shí)意圖,并轉(zhuǎn)變成與知識(shí)倉(cāng)庫(kù)可匹配推演的表示方式。
2.4 用戶搜索意圖的搜索與匹配
基于意圖理解表示和知識(shí)倉(cāng)庫(kù),經(jīng)過匹配、推理、計(jì)算乃至眾包等技術(shù)和方法的處理,形成若干個(gè)滿足用戶真正意圖的綜合情報(bào)解決方案,并通過結(jié)果評(píng)價(jià)排序方式給出其優(yōu)先級(jí),為用戶提供智能的情報(bào)解答方案。
3 系統(tǒng)整體架構(gòu)
本文中“大數(shù)據(jù)網(wǎng)絡(luò)公開情報(bào)發(fā)現(xiàn)系統(tǒng)”(簡(jiǎn)稱BDID系統(tǒng))的整體架構(gòu)如圖2所示,包括“大數(shù)據(jù)采集”、“大數(shù)據(jù)計(jì)算”、“可擴(kuò)展分析工具與關(guān)聯(lián)情報(bào)庫(kù)”,以及“情報(bào)搜索與展示”四個(gè)子系統(tǒng)。
3.1 基于關(guān)聯(lián)的多源異構(gòu)情報(bào)大數(shù)據(jù)建模和高效計(jì)算
在開源流數(shù)據(jù)處理平臺(tái)的基礎(chǔ)上,融合大圖計(jì)算平臺(tái),開發(fā)面向動(dòng)態(tài)異構(gòu)圖數(shù)據(jù)的分布式計(jì)算平臺(tái);應(yīng)用基于圖的多版本管理、以代表點(diǎn)為核心的預(yù)計(jì)算等方法,提高動(dòng)態(tài)圖數(shù)據(jù)上基本算子的執(zhí)行效率;利用實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)的思想和資源描述框架(簡(jiǎn)稱RDF)數(shù)據(jù)描述形式進(jìn)行異構(gòu)數(shù)據(jù)的建模;結(jié)合異構(gòu)網(wǎng)絡(luò)的分析技術(shù)和RDF數(shù)據(jù)查詢技術(shù),實(shí)現(xiàn)針對(duì)海量關(guān)聯(lián)數(shù)據(jù)的管理和查詢。
3.2 多源異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)智能采集與提取模型
首先采用可擴(kuò)展分布式采集模型實(shí)現(xiàn)服務(wù)器無感采集,在分析、仿真真實(shí)網(wǎng)絡(luò)用戶群上網(wǎng)行為的基礎(chǔ)上,實(shí)現(xiàn)對(duì)大規(guī)模分布式采集點(diǎn)的智能調(diào)度。然后,采用熱點(diǎn)信息動(dòng)態(tài)感知模型實(shí)現(xiàn)對(duì)社會(huì)網(wǎng)絡(luò)的深度采集。再研究高智能內(nèi)容協(xié)商采集模型,包括個(gè)性化可配置自動(dòng)提取和互動(dòng)式社會(huì)網(wǎng)絡(luò)信息智能提取技術(shù)。
3.3 全媒體大數(shù)據(jù)可用性評(píng)估理論模型
首先應(yīng)用一階邏輯、時(shí)序邏輯和隨機(jī)過程等不同數(shù)學(xué)方法,建立特定事件大數(shù)據(jù)的全面性、準(zhǔn)確性、時(shí)效性和實(shí)體同一性理論模型,然后在統(tǒng)一的邏輯框架下把用不同數(shù)學(xué)方法建立的理論模型融合成為一個(gè)完整的特定事件大數(shù)據(jù)可用性理論模型。在此基礎(chǔ)上,重點(diǎn)解決最大滿足子集求解難題和應(yīng)用需求可滿足性判定問題,并進(jìn)一步設(shè)計(jì)高效的特定事件大數(shù)據(jù)可用性的定量評(píng)估模型求解算法。
3.4 基于語義網(wǎng)的全媒體特定主題事件大數(shù)據(jù)分布式存儲(chǔ)
由于數(shù)據(jù)源是全面涵蓋傳統(tǒng)網(wǎng)絡(luò)媒體、網(wǎng)絡(luò)新媒體和移動(dòng)互聯(lián)網(wǎng)媒體的網(wǎng)絡(luò)全媒體,因此在進(jìn)行特定事件大數(shù)據(jù)分布式結(jié)構(gòu)存儲(chǔ)前,首先通過對(duì)特定事件數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)其中隱含的相似模式,并為其自動(dòng)生成RDF 描述的模型框架后,再進(jìn)行基于語義網(wǎng)的分布式結(jié)構(gòu)存儲(chǔ)。在此基礎(chǔ)上,項(xiàng)目進(jìn)一步研究大規(guī)模分布式結(jié)構(gòu)存儲(chǔ)系統(tǒng)中基于文件的RDF圖的存儲(chǔ)優(yōu)化技術(shù),以及大規(guī)模語義網(wǎng)數(shù)據(jù)訪問控制方法。
3.5 基于屬性關(guān)聯(lián)與圖匹配的重點(diǎn)人物關(guān)聯(lián)分析
首先研究重點(diǎn)人物、群體等實(shí)體的可關(guān)聯(lián)信息建模方法,通過屬性模板描述不同類型實(shí)體的可能關(guān)聯(lián)屬性,通過圖模型描述組成群體的不同個(gè)體關(guān)聯(lián)關(guān)系類型;在此基礎(chǔ)上,在RDF語義網(wǎng)的支持下,分別由語義索引匹配和圖索引匹配方法,對(duì)可能匹配的實(shí)體屬性進(jìn)行輪詢計(jì)算,采用分布式處理架構(gòu)與內(nèi)存處理相結(jié)合的方式支持千級(jí)屬性維度的并行計(jì)算,評(píng)估重點(diǎn)人物和群體的信息關(guān)聯(lián)度;進(jìn)而對(duì)“可信”匹配特征進(jìn)行拼接,自動(dòng)發(fā)現(xiàn)、評(píng)估和建立重點(diǎn)人物、群體之間的各類關(guān)聯(lián)。
3.6 基于網(wǎng)絡(luò)痕跡鑒別的特殊事件的溯源追蹤分析
基于全媒體特定主題事件的大數(shù)據(jù)模型,首先根據(jù)特定事件的特征(或從樣本數(shù)據(jù)中提取的特征),從事件庫(kù)中檢索得到特定事件關(guān)聯(lián)的各種“網(wǎng)絡(luò)痕跡”數(shù)據(jù),包括全媒體的內(nèi)容帖、轉(zhuǎn)發(fā)評(píng)論及交互、上網(wǎng)的行為數(shù)據(jù)、其他相關(guān)數(shù)據(jù)等;根據(jù)數(shù)據(jù)的時(shí)間戳信息和時(shí)序模型,計(jì)算痕跡數(shù)據(jù)時(shí)間線;在此基礎(chǔ)上,將與事件相關(guān)聯(lián)的人、群體、組織等實(shí)體檢索后按照時(shí)序關(guān)系組織成溯源圖和追蹤圖;基于概率貝葉斯模型等分類方法對(duì)人、群體、組織的虛擬身份進(jìn)行立場(chǎng)分類,篩選并發(fā)現(xiàn)新的重點(diǎn)人員及其軌跡。
3.7 結(jié)合深度學(xué)習(xí)與巨圖匹配的時(shí)空敏感數(shù)據(jù)智能分析
針對(duì)RDF語義網(wǎng)中的人物、事件相關(guān)快速匹配需求,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、LSTM神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法提取人物、事件相關(guān)的各種數(shù)據(jù)的時(shí)間特征、空間特征提取方法,以及不同關(guān)鍵詞間的深度語義關(guān)聯(lián),并在語義空間中研究基于時(shí)空相似的快速匹配算法;針對(duì)RDF語義網(wǎng)中的關(guān)系類知識(shí)的快速匹配算法,基于圖的分布式處理方法,解決億級(jí)節(jié)點(diǎn)規(guī)模、十億級(jí)邊規(guī)模的大圖和巨圖的并行匹配的分解算法及優(yōu)化方法,通過圖索引確保秒級(jí)查詢相應(yīng);針對(duì)多尺度混合屬性查詢請(qǐng)求,以多時(shí)間尺度間的自動(dòng)轉(zhuǎn)換方法自動(dòng)計(jì)算新的時(shí)空特征及其快速匹配算法。
4 結(jié)束語
本文結(jié)合公安等部門的互聯(lián)網(wǎng)管理業(yè)務(wù),展開了互聯(lián)網(wǎng)上實(shí)體/關(guān)系的關(guān)聯(lián)分析研究和開發(fā),在大數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)上,“大數(shù)據(jù)網(wǎng)絡(luò)公開情報(bào)發(fā)現(xiàn)系統(tǒng)”(簡(jiǎn)稱BDID系統(tǒng))。該系統(tǒng)能夠?qū)ヂ?lián)網(wǎng)上的特定信息進(jìn)行不間斷采集融合、關(guān)聯(lián)分析和查詢展示,系統(tǒng)按照人物、時(shí)間、地點(diǎn)、事件等維度將信息關(guān)聯(lián)起來,為用戶提供多種服務(wù)。
參考文獻(xiàn)(References):
[1] 李超,周瑛,周煥,潘瑋.大數(shù)據(jù)環(huán)境下情報(bào)分析方法與情報(bào)分析軟件探討[J].現(xiàn)代情報(bào),2017.37(7):151-158,165
[2] 謝新洲.發(fā)展情報(bào)方法研究,應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)[J].圖書情報(bào)工作,2014.58(14):5
[3] KIM J, HASTAK M. Social network analysis: Characteris-tics of online social networks after adisaster[J]. International Journal of Information Management,2018.38(1):86-96
[4] 陳云偉.社會(huì)網(wǎng)絡(luò)分析方法在情報(bào)分析中的應(yīng)用研究[J].情報(bào)學(xué)報(bào),2019.38(1):21-28
[5] 馬續(xù)補(bǔ),呂肖娟,秦春秀,劉瑋,劉懷亮,李洋.政策工具視角下我國(guó)公共信息資源開放政策量化分析[J].情報(bào)理論與實(shí)踐,2019.42(5):46-50
[6] ZHAO M, YAN E, LI K. Data set mentions and citations: Acontent analysis of full-textpublications[J]. Journal of the Association for Information Science and Technology,2018.69(1):32-46
[7] 王超,許海云,董坤,方曙.基于創(chuàng)新鏈的產(chǎn)業(yè)競(jìng)爭(zhēng)情報(bào)分析框架與應(yīng)用研究——以國(guó)內(nèi)基因工程疫苗產(chǎn)業(yè)為例[J].情報(bào)理論與實(shí)踐,2018.41(1):87-93