王 慧, 王 宇, 張 民, 張 鈺
(中國人民公安大學(xué)網(wǎng)絡(luò)安全保衛(wèi)學(xué)院,北京 100038)
?
網(wǎng)絡(luò)灰色信息智能獲取與分析
王慧,王宇,張民,張鈺
(中國人民公安大學(xué)網(wǎng)絡(luò)安全保衛(wèi)學(xué)院,北京100038)
摘要網(wǎng)絡(luò)灰色信息多屬于互聯(lián)網(wǎng)上離散分布的半公開化潛在數(shù)據(jù)資源,通過總結(jié)網(wǎng)絡(luò)灰色信息的價(jià)值性與綜合特征可知,依靠常規(guī)搜索引擎較難獲得可用性高的灰色信息資源集。為獲取更寬泛的網(wǎng)絡(luò)灰色信息存在軌跡,提出了以廣度優(yōu)先搜索為主的信息爬取技術(shù)架構(gòu)并建立索引數(shù)據(jù)庫,在此基礎(chǔ)上,將語義相似度與置信度約束融入主題關(guān)聯(lián)二次搜索,以獲得理想挖掘結(jié)果;網(wǎng)絡(luò)信息流強(qiáng)度概念的引入,揭示出網(wǎng)絡(luò)媒體資源對社會(huì)決策的影響程度,并在股票漲跌幅與網(wǎng)絡(luò)關(guān)注度的關(guān)聯(lián)實(shí)例中得到驗(yàn)證。
關(guān)鍵詞灰色信息; 智能獲取; 信息相似度; 關(guān)聯(lián)分析
0引言
隨著大數(shù)據(jù)分析處理技術(shù)與網(wǎng)絡(luò)通信技術(shù)的有機(jī)融合,互聯(lián)網(wǎng)上信息資源的數(shù)量與種類瞬間激增,同時(shí),搜索引擎技術(shù)的發(fā)展使信息的獲取在數(shù)量上變得相對容易,但信息的有用性篩選卻變得相對復(fù)雜,尤其對網(wǎng)絡(luò)分布較為分散的數(shù)據(jù)結(jié)構(gòu)。一般情況下,網(wǎng)絡(luò)信息資源的獲取方法決定著其合法性,互聯(lián)網(wǎng)上的主流信息是白色信息,該類信息具有公開發(fā)行的明確行政版權(quán)或個(gè)人署名權(quán),可在不侵犯著作權(quán)的情況下自由流通;而通過主動(dòng)攻擊等非法手段竊取的商業(yè)秘密、軍事情報(bào)等資料稱為黑色信息,屬于網(wǎng)絡(luò)禁止流轉(zhuǎn)的信息;除網(wǎng)絡(luò)白色信息與黑色信息之外,互聯(lián)網(wǎng)上仍然存在大量灰色信息,這類信息從不同的視角涉及到社會(huì)生活的各個(gè)方面,無明確的所有者,不向全網(wǎng)公開,僅在一定范圍內(nèi)流通,屬于互聯(lián)網(wǎng)上的邊緣信息,主要表現(xiàn)為互聯(lián)網(wǎng)上廣泛分布的未具有公開發(fā)行版權(quán)的各類電子資料、實(shí)時(shí)新聞報(bào)道、企業(yè)內(nèi)部公共信息資源等[1]。根據(jù)現(xiàn)有的法律制度,網(wǎng)絡(luò)灰色信息的搜集是正當(dāng)合法的,對網(wǎng)絡(luò)灰色信息的合理使用將對商業(yè)企業(yè)的經(jīng)營運(yùn)作、政府機(jī)關(guān)的管理決策制定具有重要的輔助借鑒作用。
灰色信息在互聯(lián)網(wǎng)上離散分布,目前針對網(wǎng)絡(luò)灰色信息的常規(guī)獲取途徑主要有:使用搜索引擎平臺篩選有用信息、通過行業(yè)人際關(guān)系網(wǎng)及人員流動(dòng)獲取內(nèi)部資料、利用灰色文獻(xiàn)資源等。但是,現(xiàn)有的獲取手段也存在以下問題:
(1)由常規(guī)搜索引擎可以獲得的信息數(shù)量較大,但搜索結(jié)果中信息間的相關(guān)性分析較少涉及,易造成部分關(guān)聯(lián)信息的缺失;
(2)僅利用內(nèi)部人員及灰色文獻(xiàn)可取得的資料在數(shù)量上不占優(yōu)勢,單條信息的可信度較低;
(3)容易忽略網(wǎng)絡(luò)文庫、網(wǎng)絡(luò)論壇等動(dòng)態(tài)資源,導(dǎo)致分析結(jié)果的時(shí)效性較差。
由于大量網(wǎng)絡(luò)資源的綜合分析可有效提升信息的可靠程度,鑒于網(wǎng)絡(luò)灰色信息的數(shù)據(jù)分布特征,為擴(kuò)大網(wǎng)絡(luò)灰色信息的有效搜索利用范圍,將網(wǎng)絡(luò)白色信息的組合分析結(jié)果也作為灰色信息的一種存在形式,并結(jié)合廣泛存在于網(wǎng)絡(luò)環(huán)境的半公開化灰色信息資源[2],提出在廣度優(yōu)先爬取的基礎(chǔ)上進(jìn)行主題關(guān)聯(lián)二次搜索的灰色信息提取策略,該方法在信息爬取過程中更強(qiáng)調(diào)搜索結(jié)果間的相關(guān)性,并可動(dòng)態(tài)加入內(nèi)部資料強(qiáng)化信息的可靠度,增加了情報(bào)信息提煉過程的靈活性;引入中文信息的語義相似度、置信度及網(wǎng)絡(luò)信息流強(qiáng)度約束,可有效解決信息篩選的滯后性問題,提高挖掘分析結(jié)果的可用性,從而為經(jīng)營決策提供數(shù)據(jù)依據(jù)。
1網(wǎng)絡(luò)灰色信息的基本特征
根據(jù)網(wǎng)絡(luò)灰色信息的獲取途徑不同,可分為直接資源與間接資源兩類,直接資源是分布于互聯(lián)網(wǎng)上與特定主題相關(guān)的未公開或者局部公開的潛在信息,具體表現(xiàn)為企業(yè)內(nèi)網(wǎng)公開資料、網(wǎng)站文庫、個(gè)人網(wǎng)頁、學(xué)術(shù)論壇、會(huì)議論文、開源代碼解析等顯性資源;間接資源是指需通過特定途徑訪問內(nèi)部人員獲得的一手資料,如非商業(yè)秘密的企業(yè)內(nèi)部未公開信息,也可以是通過各種公開白色信息的收集和綜合分析所得出的結(jié)論,屬于借助網(wǎng)絡(luò)流轉(zhuǎn)的隱性資源。網(wǎng)絡(luò)灰色信息常具有以下特征。
(1)邊界模糊性:所有互聯(lián)網(wǎng)上未公開發(fā)行的電子資源以及通過合法途徑獲取的內(nèi)部資料均屬于網(wǎng)絡(luò)灰色信息范疇,隨著互聯(lián)網(wǎng)信息資源的無上限擴(kuò)充,網(wǎng)絡(luò)灰色信息的涉及面更加寬泛,與其它信息資源的界限將越來越模糊;
(2)發(fā)布自由性:伴隨網(wǎng)絡(luò)對日常社會(huì)行為影響的深入,將導(dǎo)致灰色信息在互聯(lián)網(wǎng)上的發(fā)布時(shí)間與地點(diǎn)更加隨意,且存在時(shí)效更短,如各個(gè)論壇中對某特定網(wǎng)絡(luò)行為的評論、對訪客提問的線上回答、開源信息的實(shí)時(shí)上傳等都具有時(shí)空隨機(jī)性;
(3)分布隱蔽性:商業(yè)企業(yè)的內(nèi)部資料在網(wǎng)絡(luò)灰色信息中占據(jù)很大比重,這類信息屬于內(nèi)部人員占有的受限訪問資源,多分布于商業(yè)企業(yè)內(nèi)網(wǎng)的部門分支網(wǎng)頁,一般通過公用外網(wǎng)很難獲得,在通用搜索引擎頁面的出現(xiàn)率也較低,網(wǎng)絡(luò)分布較為隱蔽,需要通過特定渠道才可獲得,但其對商業(yè)企業(yè)特定經(jīng)營狀況的分析具有重要作用,可信度較高;
(4)歸屬不明性:有些網(wǎng)絡(luò)灰色信息的所有權(quán)并不屬于發(fā)布者,也不屬于特定個(gè)人,如實(shí)事報(bào)道信息、企業(yè)動(dòng)態(tài)公告等,有些網(wǎng)絡(luò)灰色信息是具有歷史沿襲性的集體成果,如商業(yè)企業(yè)的內(nèi)部管理制度、用戶的使用注冊狀況等,這類信息的所有者不明確,容易出現(xiàn)在各大知名網(wǎng)站的文庫資源中;
(5)收益明顯性:網(wǎng)絡(luò)灰色信息形式多樣,獲取相對困難,如與企業(yè)經(jīng)營相關(guān)的信息既包含單位團(tuán)體信息的動(dòng)態(tài)報(bào)道,也包括員工個(gè)人發(fā)布的信息資源等,該類信息屬于隱性資源,需由專門特定途徑收集,但其情報(bào)參考價(jià)值性更高,將該類信息融入網(wǎng)絡(luò)直接資源集進(jìn)行綜合挖掘分析,結(jié)果往往可以更加真實(shí)地反映出所關(guān)注企業(yè)的經(jīng)營現(xiàn)狀,有利于科學(xué)決策的制定,為經(jīng)濟(jì)活動(dòng)帶來更大效益。
總之,由于網(wǎng)絡(luò)灰色信息的分散分布及網(wǎng)頁文件的非結(jié)構(gòu)化特點(diǎn),為了收集與研究內(nèi)容相關(guān)的高可信度有效資源,對灰色信息的挖掘分析策略須不同于常規(guī)白色信息的搜索引擎技術(shù)。
2網(wǎng)絡(luò)灰色信息智能獲取架構(gòu)
網(wǎng)絡(luò)灰色信息多分布于需要特定認(rèn)證渠道才可獲得的半公開化資源,普通搜索引擎只可得到局部信息或其鏡像鏈接文件,這些信息索引在網(wǎng)絡(luò)分布廣泛,但彼此關(guān)聯(lián)性較差,因此,針對某一主題的灰色信息爬取需廣度搜索優(yōu)先并輔之以主題關(guān)聯(lián)挖掘分析,網(wǎng)絡(luò)爬蟲可完成廣度優(yōu)先搜索。
網(wǎng)絡(luò)爬蟲是一針對網(wǎng)頁信息可自身設(shè)定規(guī)則并實(shí)施抓取動(dòng)作的程序。爬蟲程序根據(jù)網(wǎng)頁文件的URL(Uniform Resource Locator,簡稱URL)解析并提取網(wǎng)頁信息,首先建立URL隊(duì)列,信息爬取過程不斷地提取網(wǎng)頁中蘊(yùn)含的新URL加入更新隊(duì)列,當(dāng)本頁面爬行完畢之后,按照先進(jìn)先出的原則從URL隊(duì)列中獲得下一爬取目標(biāo)的URL繼續(xù),最終達(dá)到對整個(gè)網(wǎng)站鏈接內(nèi)容的抓取[3]。
網(wǎng)絡(luò)灰色信息在網(wǎng)頁上的分布屬于淺層信息,為在短時(shí)間內(nèi)獲得較好的數(shù)據(jù)抓取效果,其爬行算法宜采用廣度優(yōu)先搜索策略,智能獲取的技術(shù)架構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)爬蟲技術(shù)架構(gòu)圖
系統(tǒng)通過爬蟲獲得網(wǎng)絡(luò)灰色信息,建立索引,存入數(shù)據(jù)庫,為后期數(shù)據(jù)關(guān)聯(lián)分析做準(zhǔn)備。
3網(wǎng)絡(luò)灰色信息主題關(guān)聯(lián)分析
網(wǎng)絡(luò)直接灰色信息源具有強(qiáng)時(shí)效性,多來自網(wǎng)絡(luò)廣泛分布與關(guān)注點(diǎn)有一定聯(lián)系的各類信息資源,包括網(wǎng)絡(luò)實(shí)時(shí)新聞、在線學(xué)術(shù)研討、開放聊天室記錄、網(wǎng)絡(luò)專題論壇、BBS、數(shù)字圖書館、網(wǎng)站文庫資源、專用內(nèi)網(wǎng)資源等,這類信息主要以網(wǎng)頁文本形式存在,屬于非結(jié)構(gòu)化或半結(jié)構(gòu)化信息,網(wǎng)絡(luò)灰色信息關(guān)聯(lián)挖掘分析的主要目的在于獲取與關(guān)注點(diǎn)密切相關(guān)的各類情報(bào)資料,期望挖掘結(jié)果中各文本空間的特征主題詞間具有較強(qiáng)關(guān)聯(lián)性。同時(shí),相對于網(wǎng)絡(luò)空間廣泛分布的白色信息而言,灰色信息屬于較低分布率的資源,常規(guī)搜索引擎的關(guān)鍵詞模糊匹配規(guī)則,僅對與所輸入關(guān)鍵詞匹配程度較高的網(wǎng)頁文件重點(diǎn)關(guān)注,并在輸出結(jié)果中前置,而對網(wǎng)頁中所包含的與主題具有關(guān)聯(lián)性的其他高頻詞不進(jìn)行二次匹配搜索,容易造成部分重點(diǎn)灰色信息的關(guān)注缺失。
網(wǎng)絡(luò)灰色信息的主題關(guān)聯(lián)分析是在信息挖掘過程中融入語義相似度與置信度概念,首先對所挖掘的主題相關(guān)信息進(jìn)行中文特征值的抽取,根據(jù)給定的語義相似度與置信度閾值,按照正態(tài)分布規(guī)律將過高匹配率的網(wǎng)頁去重,過低匹配率的網(wǎng)頁作為孤立點(diǎn)單獨(dú)處理,僅對較高頻出現(xiàn)的關(guān)聯(lián)關(guān)鍵詞進(jìn)行二次搜索,最后輸出選定網(wǎng)絡(luò)灰色信息的鏈接結(jié)果。與網(wǎng)絡(luò)灰色信息主題關(guān)聯(lián)分析相關(guān)的語義相似度與置信度定義如下:
定義1中文信息的語義相似度用于表征網(wǎng)頁文本di與dj間蘊(yùn)含信息的相近程度,由各網(wǎng)頁文本的特征值間的距離Similarity(di,dj)度量,簡記為Sim(di,dj),
(1)
定義2定義在網(wǎng)頁文本特征集合簇T上,形如T1?T2關(guān)聯(lián)規(guī)則的置信度是指包含特征值子集T1和T2的網(wǎng)頁文本數(shù)與包含T1的文本數(shù)之比[4],即
Confidence(T1?T2)=Support(T1∪T2)/Support(T1)
(2)
其中,Support(Ti)=‖{d|Ti∈d,d∈D}‖/‖D‖,為特征值子集Ti的支持度[5],代表了文本特征值子集的信息強(qiáng)度,是包含Ti的網(wǎng)頁文本數(shù)占總文本數(shù)的比值,且T1,T2?T,T1∩T2=?。
根據(jù)上述定義及網(wǎng)絡(luò)灰色信息首次爬取時(shí)所建立的索引信息庫,網(wǎng)絡(luò)灰色信息主題關(guān)聯(lián)分析步驟如下。
步驟1:將網(wǎng)頁視為一文本空間,根據(jù)首次網(wǎng)絡(luò)信息爬取過程中所建立的主題索引對各個(gè)網(wǎng)絡(luò)文本空間抽取特征值,同時(shí)加入內(nèi)部資料對應(yīng)特征子集,形成網(wǎng)頁主題特征集合簇T;
步驟2:根據(jù)各文本特征集Ti,由公式(1)計(jì)算各網(wǎng)頁文本空間的語義相似度;
步驟3:結(jié)合網(wǎng)絡(luò)灰色信息的數(shù)據(jù)分布特點(diǎn),按照正態(tài)分布規(guī)律設(shè)定語義相似度范圍,將過高相似度文本空間只保留一項(xiàng),重組網(wǎng)頁文本特征集合簇T,新集合簇記為T′,計(jì)算T′上的相對最大頻繁項(xiàng)集;
步驟4: 設(shè)定置信度閾值,由公式(2)對網(wǎng)頁文本特征集合簇T′進(jìn)行關(guān)聯(lián)分析,獲取強(qiáng)關(guān)聯(lián)規(guī)則集[6];
步驟5: 以強(qiáng)關(guān)聯(lián)規(guī)則的后件為新網(wǎng)絡(luò)主題進(jìn)行二次搜索匹配,并根據(jù)對挖掘內(nèi)容精度與廣度的要求重復(fù)步驟1~5,直至不滿足語義相似度與置信度閾值限制;
步驟6:輸出滿足條件的網(wǎng)絡(luò)灰色信息存在路徑。
按照上述步驟在網(wǎng)絡(luò)灰色信息主題關(guān)聯(lián)分析的過程中,考慮網(wǎng)頁文本的復(fù)雜多樣性,網(wǎng)頁文本特征集合簇T是一允許重復(fù)項(xiàng)存在的集合族,根據(jù)對網(wǎng)絡(luò)灰色信息的獲取強(qiáng)度要求對網(wǎng)頁文本特征值集的最大頻繁項(xiàng)進(jìn)行二次搜索,以獲得盡可能多的灰色信息資料,其他途徑獲取的隱性內(nèi)部資料視需求情況適時(shí)融入網(wǎng)絡(luò)文本空間,以提升分析結(jié)果的可信度。
4網(wǎng)絡(luò)灰色信息智能分析實(shí)例驗(yàn)證
在互聯(lián)網(wǎng)空間探尋可用灰色信息時(shí),由于所訪問的網(wǎng)頁內(nèi)容之間具有超鏈接關(guān)聯(lián),因此在信息廣度爬取的過程中采用滾動(dòng)主題關(guān)聯(lián)分析,可以將更多的有效內(nèi)容在搜索結(jié)果中前置。在搜索結(jié)果中,根據(jù)給定的支持度閾值,特征集合簇T上的最大頻繁項(xiàng)集在網(wǎng)頁文本空間中出現(xiàn)的頻率最高,其信息分布強(qiáng)度可以表征對鎖定主題的網(wǎng)絡(luò)關(guān)注熱度,考慮網(wǎng)絡(luò)灰色信息的高時(shí)效性,網(wǎng)絡(luò)信息流強(qiáng)度定義如下:
定義3網(wǎng)絡(luò)信息流強(qiáng)度是指單位時(shí)間內(nèi)根據(jù)給定支持度閾值,文本特征值集合簇中的最大頻繁項(xiàng)目集Tmax在主題網(wǎng)頁集中出現(xiàn)的頻度。
(3)
為驗(yàn)證上述挖掘步驟的有效性以幫助用戶獲得高時(shí)效的推薦灰色信息集,隨機(jī)抽取上市公司A,爬取與其相關(guān)的網(wǎng)絡(luò)信息流,分析公司A的股票交易價(jià)格波動(dòng)與網(wǎng)絡(luò)信息流強(qiáng)度之間的關(guān)系。
首先,設(shè)定信息分析周期為兩周(10個(gè)工作日),每天實(shí)時(shí)收集公司A相關(guān)的網(wǎng)頁文本信息,構(gòu)造文本空間特征集合簇T進(jìn)行主題相關(guān)性分析,由所獲網(wǎng)絡(luò)信息存在路徑可知,第一金融網(wǎng)、和訊、新浪財(cái)經(jīng)、東方財(cái)經(jīng)、財(cái)經(jīng)股票博客、公司A企業(yè)網(wǎng)站等網(wǎng)頁鏈接對網(wǎng)絡(luò)信息流分析的貢獻(xiàn)較大,為提高數(shù)據(jù)分析的可靠度,將公司A的企業(yè)內(nèi)部財(cái)務(wù)管理制度、企業(yè)內(nèi)部持股人狀況及季度財(cái)務(wù)報(bào)告融入數(shù)據(jù)源,分析結(jié)果如圖2所示。
圖2 網(wǎng)絡(luò)信息流強(qiáng)度與股票漲跌幅關(guān)系
由圖2可知,股票漲跌幅度受網(wǎng)絡(luò)信息流強(qiáng)度的影響較大,在網(wǎng)絡(luò)信息流強(qiáng)度值較大的日期,公司A的股價(jià)波動(dòng)較小,但延遲1~2天后,股票漲跌幅度起伏性變化較大,說明股價(jià)與網(wǎng)絡(luò)信息流強(qiáng)度具
有相對正向波動(dòng),且有明顯滯后性,反映出網(wǎng)絡(luò)股評輿論信息及股民網(wǎng)絡(luò)關(guān)注度對股價(jià)的影響。
5結(jié)論
網(wǎng)絡(luò)灰色信息既包含無明確歸屬的文獻(xiàn)資源,也包含半公開的網(wǎng)絡(luò)文庫資源及內(nèi)部資料,其有效獲取與分析手段與常規(guī)網(wǎng)絡(luò)關(guān)鍵詞搜索略有不同,信息抓取過程更強(qiáng)調(diào)以關(guān)鍵詞為依托的廣度搜索,挖掘分析過程更注重主題特征值間的相關(guān)性度量,在網(wǎng)絡(luò)灰色信息搜索過程中融入關(guān)聯(lián)分析技術(shù),可擴(kuò)大有效挖掘范圍,并給出灰色信息的網(wǎng)絡(luò)存在軌跡,為網(wǎng)絡(luò)灰色信息的后期高效利用奠定數(shù)據(jù)基礎(chǔ),提升灰色信息的可用性。網(wǎng)絡(luò)信息流強(qiáng)度概念的引入可有效度量網(wǎng)絡(luò)空間的媒體影響力,并在上市公司股價(jià)波動(dòng)與網(wǎng)絡(luò)信息流強(qiáng)度的相關(guān)性分析中得到驗(yàn)證。
參考文獻(xiàn)
[1]史致遠(yuǎn).淺談網(wǎng)絡(luò)灰色信息的界定和利用[J].常州信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2006,5(1):16-18.
[2]王成,段福興.企業(yè)競爭情報(bào)中灰色信息的價(jià)值及其獲取渠道[J].山東理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2006,22(4):28-30.
[3]CHAN D H,PANDIT S,WANG S,et al.Parallel crawling for online social networks[C]∥Proceedings of the 16th international conference on World Wide Web,2007:1283-1284.
[4]張濤,周愛武,謝榮傳.基于概念格和關(guān)聯(lián)規(guī)則Web個(gè)人化系統(tǒng)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18(2):139-142,158.
[6]毛國君,段麗娟,王實(shí),等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.
(責(zé)任編輯于瑞華)
中圖分類號D035.31
基金項(xiàng)目中國人民公安大學(xué)2015年度中央高?;究蒲袠I(yè)務(wù)費(fèi)項(xiàng)目“網(wǎng)絡(luò)灰色信息智能分析技術(shù)及相關(guān)法律問題研究”(2015JKF01113)。
作者簡介王慧(1973—),女,內(nèi)蒙古人,博士,副教授。研究方向?yàn)榫W(wǎng)絡(luò)安全與執(zhí)法、數(shù)據(jù)挖掘。