引言
公開情報(Open Source Intelligence,OSCINT)是指可以公開合法獲取、以打印或電子數(shù)據(jù)等多種形式存在的相關情報信息[1],具有傳播方式多樣、分布渠道廣泛、蘊含信息海量、不涉及權利歸屬爭議等特點,歷來是情報研究的重點之一。美國國會研究服務機構(gòu)(Congressional Research Service,CRS)在2007年提交給國會的一份報告中指出:“我們的分析人員長期以來一直借助公開情報來支撐、配合、驗證秘密情報,但是系統(tǒng)地收集公開情報并非情報委員會(Intelligence Community,IC)的核心事務,面對近些年國際環(huán)境的變化,我們的情報機構(gòu)應該投入更多力量到公開情報收集及分析當中”[2]。截至2013年11月,美國中央情報局(Central Intelligence Agency,CIA)已經(jīng)建立專門的公開情報中心[3]為其情報人員提供培訓和支持,國家情報總監(jiān)辦公室(Office of the Director of National Intelligence,OSDI)更是為了開展公開情報研究工作組建了多個保障機構(gòu)[4]。
當前,伴隨信息網(wǎng)絡的普及和終端應用的豐富,各類公開、實時、動態(tài)的信息充斥于我們周圍,公開情報的研究前景顯得空前廣闊。但是公開情報本身的信息冗余和失真現(xiàn)象十分嚴重,為追求較高的研究效益和情報價值,筆者采用知識圖譜研究方法,借助CiteSpace軟件對近20年該領域的研究情況做一系列可視化分析,以期較為清晰地展現(xiàn)當前國際公開情報研究的熱點和前沿問題,為研究人員提供參考和幫助。
數(shù)據(jù)來源與研究方法
2.1數(shù)據(jù)來源
本研究使用的數(shù)據(jù)采集于Web of Science網(wǎng)站,WOS作為一站式科研資源庫,其包含的引文數(shù)據(jù)跨越多種學科、覆蓋全世界最具影響力的12 000多種期刊[5],用戶可以方便地檢索并下載到所需的引文數(shù)據(jù)。為確保檢全率和檢準率,筆者設置檢索主題詞為:Open Source Intelligence*、Open source information*、Public information*、Public intelligence*、Disclosed information*、Disclosed intelligence*,在WOS搜索引擎中選擇Web of Science數(shù)據(jù)庫,依次輸入上述主題詞,檢索時間為2013年11月4日,時間跨度為所有年份,引文索引勾選全部選項,檢索得到相關文獻之后選擇信息科學與圖書館科學(information science library science)進行學科精煉,設置記錄內(nèi)容為全紀錄和引用的參考文獻,選擇輸出并保存到本地純文本格式文件,匯總得到有效引文數(shù)據(jù)3 196條。
2.2研究方法
知識圖譜是顯示科學知識發(fā)展進程及結(jié)構(gòu)關系的可視化圖形[6],通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制把復雜知識顯示出來,揭示其動態(tài)發(fā)展規(guī)律,為科學研究提供有價值的參考,具有廣泛的應用空間和良好的發(fā)展前景。CiteSpace[7-8]是目前知識圖譜領域影響力較大的一款軟件,系美國Drexel大學陳超美教授用JAVA語言研制而成的,該軟件與WOS數(shù)據(jù)兼容性好,生成的知識圖譜即可直接解答某個研究領域的知識基礎、研究熱點及前沿等核心問題。本研究采用CiteSpace V3.7R7版本,有關該軟件的下載及安裝使用請見參考文獻[9]。
公開情報研究可視化分析
3.1主要國家(地區(qū))和機構(gòu)分布知識圖譜
3.1.1主要國家(地區(qū))分布知識圖譜
設置Time Slicing為1993-2013年,計20年,每2年為一個區(qū)間,設置Node Types為Country,top N% per slice為30,勾選最小生成樹(Minimum Spanning Tree, MST)算法,運行WOS數(shù)據(jù)得到圖1,共計34個國家(地區(qū))、1個連接點,其中發(fā)文頻次排名前10的國家分別為:美國(850篇)、英國(223篇)、西班牙(135篇)、加拿大(134篇)、中國(112篇)、巴西(77篇)、澳大利亞(72篇)、挪威(58篇)、德國(54篇)、韓國(38篇)。
圖1 主要國家(地區(qū))分布知識圖譜
從圖1可以看出:①圖中僅有一條連接線(英國與蘇格蘭),表明各國公開情報研究均獨立進行,彼此不交流;②各國發(fā)文數(shù)量差距很大,美國和部分歐洲國家處于領先地位,其中美國的發(fā)文數(shù)量幾乎等同于其后9個國家發(fā)文數(shù)量的總和,中國位列第5,與美國的差距較大;③圖中4個國家的引文年環(huán)帶有紅色內(nèi)圈,分別是英國、德國、意大利、印度,表明這些國家近些年文獻數(shù)量急劇增加。
3.1.2機構(gòu)分布知識圖譜
設置Node Types為Institution,top N% per slice為10,其他參數(shù)不變,運行WOS數(shù)據(jù)得到圖2,共計140個機構(gòu)、23個連接點。從圖2中可以看到:①機構(gòu)類型主要是各類高校,其中以美國高校居多;②連接點都是各國內(nèi)部高校之間的交流,極少跨國;③圖中明顯可見的有3所高校的引文年環(huán)帶有紅色內(nèi)圈,表明其近些年文獻數(shù)量急劇增加,文獻突增機構(gòu)統(tǒng)計見表1。
3.2知識基礎
知識基礎是某個研究領域的早期奠基文獻以及共被引頻次和中心度都比較高的文獻的合集。它在相當長的一段時期內(nèi)具有穩(wěn)定性[10],可以作為分析研究前沿及發(fā)展趨勢的可靠依據(jù)。陳超美教授認為研究前沿的知識基礎是它在科學文獻中的引文和共引軌跡[7],筆者借鑒此觀點,通過生成高共被引文獻的知識圖譜來展現(xiàn)公開情報研究領域的知識基礎。
設置Node Types為Cited Reference,top N% per slice為30,其他參數(shù)不變,運行WOS數(shù)據(jù)得到圖3,共計981篇文獻、984個連接點,圖中每個引文年輪代表被引文獻,年輪越大表示被引頻次越高,中間帶有紅色內(nèi)圈的表示該文獻被引頻次激增。考慮篇幅,筆者列出被引頻次前10位的相關文獻,見表2。
文獻1、3、9均與用戶使用體驗關系密切,這與公開情報研究的最終目的相吻合,即為用戶所接受并創(chuàng)造情報價值。其中被引頻次最高的文獻1是1989年美國密歇根大學的F. D. Davis所寫的《感知有用性,感知易用性,感知信息技術的用戶接受性》一書,他在該書中提出了信息技術有用性和易用性這兩個變量,并指出這兩個變量是信息技術是否為用戶接受的核心指標[11];文獻3《基于統(tǒng)一視角的信息技術可接受性》由馬來西亞Multimedia大學的V. Venkatesh于2003年發(fā)表,他在文章中總結(jié)了以往實踐中8種反饋較好的用戶可接受性模型并逐一分析其變量,然后將這些變量隨機組合以探索新模型[12];文獻9是1991年新澤西州大學的C. C. Kuhlthau所寫的《檢索過程窺探:從用戶角度看信息檢索》一文,他在文章中以用戶的角度對ISP(information search process)進行了深入分析,探討了用戶建設性檢索行為對于解決其自身實際問題的意義[13]。
文獻2、4、10均重點論述了定性分析相關內(nèi)容。定性分析是開展科學研究的重要方法,也是定量分析的前提和基礎,應用到公開情報研究中即可以在情報搜集階段排除大部分冗余信息,避免了后續(xù)定量分析上的資源浪費,可以大幅度提高研究效率。文獻2《扎根理論之探索》由加利福尼亞大學的B. G. Glaser于1967年發(fā)表,作者在文章中指出“扎根理論”不僅可以提高社會學科學家的理論研究能力,并且適用于一切以定性數(shù)據(jù)分析為基礎的學科[14];文獻4《定性數(shù)據(jù)分析:原始素材的拓展》由M. Miles發(fā)表于1994年,作者在文章中為數(shù)據(jù)定性分析人員提供了豐富的組織、分析、展現(xiàn)這些數(shù)據(jù)的思想和靈感[15];文獻10《定性研究之基礎篇》的作者為A. Strauss,出版于1990年,作者在書中為學生以及應用學科研究人員介紹了一系列實用的流程和技巧用于扎根理論研究,從而免去了數(shù)據(jù)收集之后的分析解釋環(huán)節(jié)[16]。
文獻5《結(jié)構(gòu)化方程式模型評估:隱性變量與測量錯誤》由C. Fornell發(fā)表于1981年,作者在文章中提出了基于結(jié)構(gòu)化模型、測量模型和體系模型共享參數(shù)量化的一套測試系統(tǒng),用以解決測試方法與模型之間因樣本數(shù)量過大而溢出的問題[17]。
文獻6、7、8均涉及組織科學,但各有側(cè)重點。文獻6《發(fā)展功能健全的電子政務:四階段模型》由K. Layne發(fā)表于2001年,作者在文章中提出了電子政務的四階段模型,并在不同的階段模型中為讀者勾勒出電子政務的結(jié)構(gòu)和功能,同時探討了各階段模型如何與傳統(tǒng)的管理架構(gòu)相兼容的問題[18];文獻7《構(gòu)建虛擬政府:信息技術與體制變革》由J. Fountain于2001年出版,作者在書中描繪了以信息技術帶動體制變革,進而構(gòu)建虛擬政府的美好前景,并分析了由此將給每個獨立個體帶來的前所未有的信息獲取機會[19]。文獻8《開源軟件與“個人—團隊”創(chuàng)新模式:組織科學的相關問題》由E. VonHippel發(fā)表于2003年,作者在文章中提出了一種復合型的創(chuàng)新模式,即“個人—團隊”創(chuàng)新模式,用以克服個人創(chuàng)新模式與團隊創(chuàng)新模式各自存在的弊端[20],提升組織的創(chuàng)新能力。
3.3研究熱點
關鍵詞是對作者寫作意圖的高度概括,體現(xiàn)了文獻的主題思想和主旨內(nèi)容。若某個關鍵詞的出現(xiàn)頻次和中心度較高,則可以視為研究熱點。設置Node Types為Keyword,top N% per slice為10,勾選路徑網(wǎng)絡簡化算法(Pathfinder),其他參數(shù)不變,運行WOS數(shù)據(jù)得到圖4,共計255個關鍵詞、536個連接點,引文年環(huán)越大表示該關鍵詞出現(xiàn)頻次越高,年環(huán)中心帶紅色內(nèi)圈表明其頻次激增,年環(huán)中心帶紫色光暈表示其中心度[21]高,具體數(shù)據(jù)見表3。
從圖4可以看出,信息(information)是最大的節(jié)點,互聯(lián)網(wǎng)(internet)位列第2。情報是信息的子集,信息涵蓋的內(nèi)容遠大于情報,龐雜的信息只有經(jīng)過轉(zhuǎn)化吸收才能演變?yōu)榍閳骩22]。信息的載體非常廣泛,傳播渠道也非常多樣,但在網(wǎng)絡高速發(fā)展的今天,信息與互聯(lián)網(wǎng)的結(jié)合為公開情報研究提供了完美的契機。互聯(lián)網(wǎng)在某種意義上講即是最大化的公開,研究人員足不出戶就能收集、獲取各類情報素材,也可以定制自己所需類型的特定信息[23],省去了許多不必要的程序性事務,從而將主要精力集中在數(shù)據(jù)分析及其有效利用上,極大地提高了公開情報研究的效率和質(zhì)量,無疑會成為公開情報研究的熱點。
排名第3、4位的分別是技術(technology)和模型(model)。信息整序和有效管理歷來是公開情報研究的重點和難點問題,應用技術手段可以很好地解決該問題,尤以通信技術和計算機技術為代表[22]。技術應用的理想目標是模塊化、集成化、體系化,以解決環(huán)境、樣本、參數(shù)差異對技術可移植性、跨平臺使用的限制,而模型則是實現(xiàn)這一目標的前提條件,目前學界已經(jīng)提出了許多較為成熟的情報研究模型[24],完全可以給我們提供指引和借鑒。
排名5、6、7、8位的分別是電子政務(e-government)、系統(tǒng)(systems)、管理(management)、知識(knowledge)。政府作為社會知識資源的最大擁有者,其政務信息歷來是情報來源的一大核心[25]。以往收集政務信息通常難度大、代價高,伴隨當前電子政務的廣泛應用,政務信息得以相對公開,普通公眾即可接觸到此類信息,這對公開情報研究來說是個好機會。知識管理系統(tǒng)作為電子政務的底層業(yè)務支撐,具有收集、處理、分享一個組織的全部知識的功能,可以顯著提升該組織信息管理的效率與有效性,其內(nèi)在功能與價值目標與公開情報研究均相吻合,值得加大探索力度。
排名第9位的是性能(performance),筆者在此將其理解為情報的有效性與可靠性,具體含義見參考文獻[26]。公開情報研究的目的是服務決策,這就對情報的有效性和可靠性提出了很高的要求,根據(jù)情報工作實踐,劉昭東等學者提煉的四字原則——“廣、快、精、準”即是對此要求的經(jīng)典描述[27]。
排名第10的是交流(communication),筆者在此類推理解為社交網(wǎng)絡(social network service)。社交網(wǎng)絡的工具包含E-MAIL、BBS、IM、BLOG、Twitter等,基本上涵蓋了當前社會人類“非接觸型”交際的大部分內(nèi)容,從歷史維度來看,社交網(wǎng)絡更是一個推動互聯(lián)網(wǎng)向現(xiàn)實世界無限靠近的關鍵力量。社交網(wǎng)絡在公開情報研究領域越來越受重視,美國國防部就利用社交網(wǎng)絡來獲取情報[28],而美國政府則試圖通過監(jiān)控Twitter賬戶狀態(tài)及博客更新實現(xiàn)突發(fā)事故的初期預警[29]。
3.4研究前沿
陳超美教授認為研究前沿(research front)是一組突現(xiàn)的動態(tài)概念和潛在的研究問題[7]。CiteSpace自帶有突變檢測功能,通過檢測選擇項的突增指數(shù),為用戶提供研究前沿的知識圖譜。在Term Type面板里勾選Burst Terms,點擊Detect Bursts進行突變詞檢測,完成之后設置Node Types為Term,top N% per slice為10,勾選MST算法,運行WOS數(shù)據(jù),而后在控制面板選擇時區(qū)視圖(Timezone),得到圖5,共計623個單元項、871條連接線。
排名第1位的突變項是2007年的“實踐指導意義”(practical implications),表明在該年度,公開情報研究領域尤其關注于理論研究對實踐的指導意義,在公開情報研究的具體方法和技術探索等方面更傾向于實踐應用,理論研究的成果與實踐結(jié)合更為緊密。排名第2、3位的分別是2002年的“開源軟件”(open source software)和2004年的“開源”(open source),表明在2002年度,開源軟件吸引了公開情報研究人員的極大關注,比較有影響力的相關開源軟件有Dspace、ssl-explorer等,這些開源軟件獲取免費,沒有功能限制,可以進行二次開發(fā),給需要個性化使用的用戶提供了很大的便利;2004年度,開源的范圍則超越了軟件源代碼,網(wǎng)絡上的各類開源信息都被納入了公開情報研究人員的視線,克蘭菲爾德大學的S. Gibson在其《公開來源情報——情報的生命線》一文中更是詳細論述了在信息超速發(fā)展的當今時代,開源情報已然成為公開情報研究的生命線。排名第4、5位的是“政府信息”(government information)和“社會媒體”(social media),與二者相關的內(nèi)容已在上文(研究熱點之電子政務與社交網(wǎng)絡部分)分別論述,不再重復。
研究不足與期望
筆者利用CiteSpace軟件對Web of Science數(shù)據(jù)庫中與公開情報研究相關的數(shù)據(jù)進行統(tǒng)計分析,對近20年來國際上公開情報研究領域的相關問題做了探討,但是這一方法有其固有的局限性。首先,數(shù)據(jù)來源局限于Web of Science數(shù)據(jù)庫,其他大型的數(shù)據(jù)庫(如維普、萬方、CSSCI、Wiley、IEEE等)的數(shù)據(jù)并未被納入研究范圍,難免存在分析不全面的問題;其次,正如前文論述,公開情報領域各國均是秘密進行,涉及的資料及文獻收集獲取難度很大,能夠被收錄到Web of Science數(shù)據(jù)庫中的極有可能是已經(jīng)過了解密期的涉密文檔或者是未設秘級的文檔,那么其本身應有的情報價值即難以高估,使得本文分析研究的內(nèi)容只能是旁敲側(cè)擊地體現(xiàn)主題,未能直擊要害;另外,筆者未能將國內(nèi)外學術機構(gòu)近期所舉辦的學術交流會議或者專家學者近期所發(fā)表的相關成果、專著等引入到數(shù)據(jù)源中,顯然遺落了部分重要研究對象。綜上所述,未來的研究還應該側(cè)重于完善數(shù)據(jù)來源與對數(shù)據(jù)進行實時更新等方面,也應當參照借鑒其他文獻計量法對公開情報研究進行進一步的探討分析。
總結(jié)
本文利用CiteSpace軟件對Web of Science數(shù)據(jù)庫中1993—2013這20年間與公開情報研究相關的文獻數(shù)據(jù)進行統(tǒng)計分析,重點分析了研究力量分布、知識基礎、研究熱點、研究前沿幾個問題。得出如下結(jié)論:①當前國際上公開情報研究主要力量分布在以美國為代表的一些西方國家;②承擔研究任務的機構(gòu)主要為上述國家的高校及科研單位;③研究熱點集中于互聯(lián)網(wǎng)、信息技術、知識管理、電子政務、社交網(wǎng)絡等方面;④研究前沿為實踐指導意義、開源信息、政務信息和社會媒體等方面。