·專題·
引言:2012年美國(guó)奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”,正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”?!禨cience》與《Nature》分別于2008年、2011年推出了大數(shù)據(jù)專刊。2012年達(dá)沃斯世界經(jīng)濟(jì)論壇把大數(shù)據(jù)列為主題之一,2013年我國(guó)第462次香山科學(xué)會(huì)議的主題為“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的科學(xué)原理與發(fā)展前景”。IBM、Amazon、Google、Facebook等國(guó)際知名企業(yè)都宣布或?qū)嵤┝舜髷?shù)據(jù)研發(fā)計(jì)劃,并進(jìn)行了實(shí)際應(yīng)用。麥肯錫、Gartner等公司分別發(fā)布了關(guān)于大數(shù)據(jù)的行業(yè)分析報(bào)告,對(duì)大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行了詳盡的分析。
情報(bào)分析,也被稱為情報(bào)研究或信息分析,是根據(jù)用戶的特定需求,對(duì)大量紛繁無(wú)序的信息進(jìn)行有針對(duì)性的選擇、分析、預(yù)測(cè),為用戶提供系統(tǒng)、綜合、準(zhǔn)確、及時(shí)、大流量的知識(shí)與信息的智能活動(dòng)。由于情報(bào)分析是以數(shù)據(jù)、信息等情報(bào)源為基礎(chǔ)的信息采集、管理、分析和服務(wù)的工作,本身就是一項(xiàng)數(shù)據(jù)分析和數(shù)據(jù)挖掘工作,正是因?yàn)槿绱?,大?shù)據(jù)理念和方法,正在深刻地影響著情報(bào)研究的理論和實(shí)踐,也成為了情報(bào)學(xué)研究的熱點(diǎn)課題之一。
在這種背景下,我們于2014年申請(qǐng)了國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“大數(shù)據(jù)環(huán)境下的計(jì)算型情報(bào)分析方法與技術(shù)研究”(項(xiàng)目編號(hào):14ATQ005),得到了國(guó)家社會(huì)科學(xué)基金委的肯定和批準(zhǔn)。本專題的四篇文章就是該項(xiàng)目的初步研究成果。
第一篇是“從棱鏡計(jì)劃看大數(shù)據(jù)時(shí)代下的情報(bào)分析”,這篇文章并沒(méi)有討論棱鏡計(jì)劃中的隱私及保護(hù)問(wèn)題,而是更深入地揭示了棱鏡計(jì)劃背后隱藏的情報(bào)現(xiàn)象,全面剖析了棱鏡計(jì)劃的本質(zhì),分析了棱鏡計(jì)劃的數(shù)據(jù)基礎(chǔ)、分析過(guò)程與方法、實(shí)施目標(biāo),并對(duì)大數(shù)據(jù)時(shí)代下的情報(bào)分析進(jìn)行了探討。棱鏡計(jì)劃的真正目標(biāo)是運(yùn)用大數(shù)據(jù)進(jìn)行情報(bào)分析,從大量數(shù)據(jù)中發(fā)掘出有價(jià)值的情報(bào),為戰(zhàn)略決策提供全面準(zhǔn)確、客觀有力的支撐與參考服務(wù),這是大數(shù)據(jù)時(shí)代情報(bào)分析的重點(diǎn),也是情報(bào)從業(yè)人員的關(guān)鍵能力所在。
第二篇是“不同領(lǐng)域的情報(bào)分析及其在大數(shù)據(jù)環(huán)境下的發(fā)展”,旨在從宏觀角度探討不同領(lǐng)域中的情報(bào)分析之間的學(xué)科差異。大數(shù)據(jù)時(shí)代本身,各行各業(yè)都在重視情報(bào)研究工作,有些學(xué)科領(lǐng)域不僅有自己的情報(bào)分析,而且這種情報(bào)分析本身就是這些學(xué)科領(lǐng)域的核心內(nèi)容和特色。但是,這些情報(bào)分析又都不可避免地打上本學(xué)科領(lǐng)域的烙印,不可以一言以蔽之。本篇文章的目的是揭示情報(bào)分析的學(xué)科差異,反映情報(bào)分析的學(xué)科特點(diǎn),并探討大數(shù)據(jù)環(huán)境下各學(xué)科領(lǐng)域中情報(bào)分析的發(fā)展。
第三篇是“大數(shù)據(jù)分析的方法及其在情報(bào)研究中的適用性初探”,大數(shù)據(jù)的價(jià)值不僅僅在于數(shù)據(jù)量,大數(shù)據(jù)的核心理念之一是大數(shù)據(jù)分析,即對(duì)海量的數(shù)據(jù)進(jìn)行分析,從中獲取有助于決策的信息。目前,大數(shù)據(jù)分析方法已經(jīng)成為大數(shù)據(jù)領(lǐng)域的熱點(diǎn)研究問(wèn)題,而且,這些研究的內(nèi)容對(duì)情報(bào)研究方法有借鑒意義,本篇文章梳理了當(dāng)前大數(shù)據(jù)分析方法的研究與實(shí)踐成果,總結(jié)了常見的大數(shù)據(jù)分析方法,探討了這些方法在情報(bào)研究中的適用性。
第四篇“基于關(guān)聯(lián)規(guī)則的術(shù)語(yǔ)自動(dòng)抽取研究”是一篇實(shí)驗(yàn)類的研究論文。情報(bào)分析的第一步是要厘清文本中的各種概念,而概念又是用語(yǔ)詞來(lái)表達(dá),因而,從文本中抽取出跟蹤術(shù)語(yǔ),特別是抽取出由復(fù)合語(yǔ)詞組成的術(shù)語(yǔ),是自動(dòng)化情報(bào)分析的重要和基礎(chǔ)技術(shù)環(huán)節(jié)。本篇文章探討了關(guān)聯(lián)規(guī)則方法用于術(shù)語(yǔ)抽取的可行性。文章通過(guò)試驗(yàn)驗(yàn)證了關(guān)聯(lián)規(guī)則可以很好的完成復(fù)合術(shù)語(yǔ)的識(shí)別和抽取問(wèn)題,而且,與現(xiàn)有的方法相比較,關(guān)聯(lián)規(guī)則方法具有實(shí)現(xiàn)簡(jiǎn)單、占用系統(tǒng)資源少、沒(méi)有學(xué)科和語(yǔ)言的依賴性等優(yōu)勢(shì)。
北京大學(xué)信息管理系李廣建