〔摘要〕隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)吸引了包括政府、企業(yè)等在內(nèi)的多方關注,被稱為是下一個社會發(fā)展階段的“金礦”和“石油”,具有催生社會變革的能量。它同樣也給情報學這一學科帶來了很多難題和機遇。本文針對大數(shù)據(jù)時代情報學面臨的挑戰(zhàn)進行分析,提出了大數(shù)據(jù)時代情報學的學科發(fā)展趨勢以及情報學在大數(shù)據(jù)時代發(fā)展的機遇。
〔關鍵詞〕大數(shù)據(jù);情報學;研究方法;非結(jié)構(gòu)化數(shù)據(jù)
〔中圖分類號〕G250.2〔文獻標識碼〕A〔文章編號〕1008-0821(2013)08-0058-03
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關注?!吨婆_》的分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百甚至數(shù)千的電腦分配工作[1]。所以大數(shù)據(jù)時代對于各個學科的要求都提高了很多,對于情報學專業(yè)而言,大數(shù)據(jù)時代同樣帶來了很多挑戰(zhàn)和機遇。
1大數(shù)據(jù)時代情報學面臨的挑戰(zhàn)
進入2012年之后,“大數(shù)據(jù)”一詞被越來越多的人所提及,它用來描述信息大爆炸時代產(chǎn)生的海量數(shù)據(jù),時至今日“大數(shù)據(jù)”的研究價值已經(jīng)可以和黃金相媲美。所謂“大數(shù)據(jù)”顧名思義,首先是數(shù)據(jù)量要大,但是并不是數(shù)據(jù)量大的數(shù)據(jù)都可以稱之為大數(shù)據(jù),IBM公司大數(shù)據(jù)的特點是4個V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實),它提供了在新的和正在出現(xiàn)的數(shù)據(jù)和內(nèi)容中洞悉事物的機會,使業(yè)務更加靈活,并回答以往沒有考慮到的問題[2]。Gartner公司的報告也提出,大數(shù)據(jù)是大容量、高速和多樣化的信息資產(chǎn),它們需要新的處理方式,以提高決策能力、洞察力和流程優(yōu)化[3]。
在筆者看來,“大數(shù)據(jù)”還應該加入一個特點就是海量資料之間的關聯(lián)程度。如果有一批更新速度極快的多樣真實的大量數(shù)據(jù),將這批數(shù)據(jù)看作一個整體,每個單獨的數(shù)據(jù)看作是整體的一個組成部分,這些組成部分之間毫不相關,數(shù)據(jù)彼此很孤立,數(shù)據(jù)間的關系不清晰很難捉摸,看上去并不像一個整體,相反地更像是一盤散沙。這種零散的海量數(shù)據(jù)之間的關系斷裂,其關聯(lián)程度很低,也就導致其含金量減少,不能形成所謂的“大數(shù)據(jù)”。
由此可見,大數(shù)據(jù)時代的背后其實有更加深刻的理念,同時這些理念也為情報工作者帶來了新的挑戰(zhàn)。
(1)大數(shù)據(jù)時代從字面上理解只是進入了一個海量數(shù)據(jù)時代,而實際上大數(shù)據(jù)時代更深刻的理念在于它帶領我們進入了數(shù)據(jù)分析時代,數(shù)據(jù)的分析隨著大數(shù)據(jù)時代進入了一個前所未有的黃金時期,如何從海量數(shù)據(jù)中獲取有用的信息成為情報工作者面臨的新挑戰(zhàn)。
(2)大數(shù)據(jù)時代的另一個特點就是其多樣性。進入大數(shù)據(jù)時代之后,數(shù)據(jù)的種類除了包括一部分結(jié)構(gòu)化的數(shù)據(jù)以外,還包括很多非結(jié)構(gòu)化的數(shù)據(jù),例如文本、音頻、視頻等很多形式的數(shù)據(jù)。情報工作者要挖掘的某些規(guī)律可能隱含在各種形式的數(shù)據(jù)中,而同一種形式的數(shù)據(jù)又有可能含有很多規(guī)律,如此一來,大數(shù)據(jù)時代就要求情報工作人員的統(tǒng)籌兼顧,不能漏過任何一種類型的數(shù)據(jù)。
(3)大數(shù)據(jù)時代不僅僅是數(shù)據(jù)量的巨大,其最主要的特點還有Velocity(高速),這一特點就迫使情報工作人員必須打破以往的人工分析的工作模式,計算機智能分析將成為未來大數(shù)據(jù)時代數(shù)據(jù)分析的主流技術。
在大數(shù)據(jù)時代中,要求將情報學和其他各個學科相結(jié)合,在其他學科的各個領域內(nèi)應用情報學的知識對海量的數(shù)據(jù)進行分析研究,并將各個學科領域內(nèi)的研究都歸為情報學的一個組成部分加以建設,情報學自身的優(yōu)勢何在,劣勢何在,如何把握大數(shù)據(jù)時代這一機會進一步進行學科的完善,是我們應該思考的問題。
2情報學在大數(shù)據(jù)時代的發(fā)展趨勢
大數(shù)據(jù)時代的變革將會引領情報學進入一個嶄新的發(fā)展階段,英國萊斯特大學的MarkPhythian教授在2008年發(fā)表了題為“Intelligence Analysis Today and Tomorrow”的報告中指出[4]:①獲知情境是非常重要的。忽略戰(zhàn)略環(huán)境、領導作風和心理因素等更廣泛的問題,都會引起情報研究的失誤;②加強信息之間的關聯(lián)。美國政府內(nèi)部信息共享的障礙,分析人員無法獲得足夠的信息,以支持分析活動,導致情報研究預測失??;③要學習更多外部的專業(yè)知識。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
在大數(shù)據(jù)時代背景下,通過對國內(nèi)外學者和專家的研究成果的研究,筆者認為情報學未來發(fā)展的三方面趨勢:①情報學將會從原來的單一學科的研究轉(zhuǎn)變?yōu)槎鄬W科交叉結(jié)合研究;②情報學研究中數(shù)據(jù)的采集和獲取范圍將會從單一的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榧尤敫嗟姆墙Y(jié)構(gòu)化數(shù)據(jù);③情報學的分析方法將會從原來的人工分析為主體轉(zhuǎn)變?yōu)橛嬎銠C智能化為主體的智能分析。
2.1單一學科的研究轉(zhuǎn)變?yōu)槎鄬W科交叉結(jié)合研究
情報學是信息大爆炸時代的新興學科,而面對大數(shù)據(jù)時代,信息量不但巨大而且更新速度極快,傳統(tǒng)的情報學研究方法已經(jīng)不能滿足大數(shù)據(jù)時代人們對于信息處理的需求,傳統(tǒng)的情報學更多的是處理結(jié)構(gòu)化的數(shù)據(jù),而大數(shù)據(jù)時代給我們帶來更多非結(jié)構(gòu)化的數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)的處理不是基于數(shù)學和邏輯運算,而主要是基于對內(nèi)容含義的理解和語義分析,包括各種形式的分類、檢索、信息抽取和內(nèi)容匹配等方法。傳統(tǒng)數(shù)據(jù)庫技術,例如SQL語言在設計之初僅考慮了結(jié)構(gòu)化數(shù)據(jù),在海量非結(jié)構(gòu)化數(shù)據(jù)中已然無用武之地。
未來情報學在發(fā)展中應該汲取各個領域的不同學科的方法和優(yōu)勢,開創(chuàng)更多新型的研究方法來應對“大數(shù)據(jù)”的處理問題,而在非結(jié)構(gòu)化數(shù)據(jù)的包裝下其數(shù)據(jù)的本源是什么,數(shù)據(jù)的含義何在,這些問題在以后的情報學研究中就需要涉及到本體論的相關應用來解決。為了順應大數(shù)據(jù)時代的需要,面對高速產(chǎn)生的繁雜的海量數(shù)據(jù),本體思想無疑是解決內(nèi)容含義和語義分析最有力的武器。
此外,對于很多企業(yè)的數(shù)據(jù)資源,情報學這一學科需要研究的除了用戶的行為挖掘之外,還要運用很多其他學科的知識進行輔助分析,例如心理學的相關理論已經(jīng)逐步被引用到情報學領域,并起到輔助數(shù)據(jù)分析的作用,而情報學反過來在應用其他專業(yè)知識的同時也可以為其他專業(yè)提供新的思維和引導。如此一來,多學科交叉將會增多,多學科交叉研究將會成為未來情報學以及其他學科為順應大數(shù)據(jù)時代的一個發(fā)展方向。
2.2情報學研究中數(shù)據(jù)的采集和獲取范圍將會從單一的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榧尤敫嗟姆墙Y(jié)構(gòu)化數(shù)據(jù)不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術報告等,可以較為直觀地反映研究者對某科技問題的理解與描述,而評論文章、科技新聞、市場調(diào)查等,可以反映出社會對該科技的觀點、認知情況[5]。
在大數(shù)據(jù)時代,情報學這一學科需要研究的數(shù)據(jù)量更大,數(shù)據(jù)類型更多,很多在別人看來是無用的數(shù)據(jù),在情報學看來它們可能是最有價值的資源,情報學在大數(shù)據(jù)時代更多的要學會“撿垃圾”,在海量資源中獲取數(shù)據(jù)的同時不能忽略任何一個可以找到信息情報的數(shù)據(jù),可能某一數(shù)據(jù)表面看來毫無用處,但是當這個數(shù)據(jù)和其他數(shù)據(jù)整合在一起后就有可能是打開整個數(shù)據(jù)挖掘大門的金鑰匙。
雖然情報學的很多研究方法在處理非結(jié)構(gòu)化數(shù)據(jù)方面不是強項,比如情報學的一些分析方法,在處理圖像信息和影音信息方面顯得后勁不足,但是在研究中同樣不能忽略這些資源,這也對情報工作者技術方面提出了更高的要求,開發(fā)新技術,更好的對數(shù)據(jù)進行分析將是情報學未來面對的難題。而為了得到更優(yōu)質(zhì)的研究結(jié)果,從單一結(jié)構(gòu)化數(shù)據(jù)的采集和獲取轉(zhuǎn)變?yōu)榧尤敫嗟姆墙Y(jié)構(gòu)化數(shù)據(jù)將會是情報學研究的必然趨勢。
2.3情報學的分析方法將會從原來的人工分析為主體轉(zhuǎn)變?yōu)橛嬎銠C智能化為主體的智能分析正如美國國家科學基金會(NSF)發(fā)布的報告[6]所說,美國在科學和工程領域的領先地位將越來越取決于利用數(shù)字化科學數(shù)據(jù)以及借助復雜的數(shù)據(jù)挖掘、集成、分析與可視化工具將其轉(zhuǎn)換為信息和知識的能力。
由于非結(jié)構(gòu)化的數(shù)據(jù)的大量引入,情報學不可避免的將面對一場技術上的革命,而傳統(tǒng)的人工分析不僅浪費人力資源,而且根本無法適應高速產(chǎn)生的數(shù)據(jù)群。開發(fā)計算機智能分析技術勢在必行,在技術上,計算機智能化分析將會以更快的速度解決不斷增長的海量數(shù)據(jù),達到節(jié)約時間提高效率的作用。從數(shù)據(jù)類型方面,很多數(shù)據(jù)并不是傳統(tǒng)人工方法可以完成的,例如分析視頻和音頻,這就需要新技術的支持,未來如果不開發(fā)計算機智能化新技術,將會導致很多視頻和音頻數(shù)據(jù)不得不被放棄掉。
計算機智能化新技術可以解放更多的人力去做更有價值的研究,同時也是大數(shù)據(jù)時代進行高速數(shù)據(jù)處理,高速數(shù)據(jù)挖掘的需要。未來情報學中計算機智能分析模型的建立將會對情報工作者提出更多的要求,情報工作者除了有數(shù)據(jù)分析和挖掘的能力之外,還應該具有數(shù)學邏輯思維來輔助計算機智能化模型的建立,傳統(tǒng)的人工分析為主體的分析方法,必然會被計算機智能化分析方法所取代,這不僅是大數(shù)據(jù)時代的要求,也是當今社會發(fā)展的必然趨勢。
3大數(shù)據(jù)時代情報學的機遇
狄更斯曾經(jīng)說過“機會不會上門來找,只有人去找機會?!倍髷?shù)據(jù)時代的來臨,無疑是為情報學的學科發(fā)展創(chuàng)造了契機。情報學還是一個比較年輕的學科,大數(shù)據(jù)時代的到來也顯示出情報學的“年輕”之處,如何將情報學進行完善,如何讓情報學走向成熟,這都將會在大數(shù)據(jù)時代中找到解決的機遇。
3.1完善學科技術和方法
美國McKinsey Global Institute在2011年5月發(fā)布了研究報告“大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領域”[7]。報告分6個部分,其中第二部分討論了大數(shù)據(jù)技術,并圍繞大數(shù)據(jù)分析技術、大數(shù)據(jù)技術和可視化三方面進行了闡述。在大數(shù)據(jù)分析技術中,列舉了26項適用于眾多行業(yè)的分析技術,包括A/B測試、關聯(lián)規(guī)則學習、分類、聚類分析、眾包、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學習、遺傳算法、機器學習、自然語言處理、神經(jīng)網(wǎng)絡、網(wǎng)絡分析、優(yōu)化、模式識別、預測建模、回歸、情感分析、信號處理、空間分析、統(tǒng)計、監(jiān)督學習、模擬、時間序列分析、無監(jiān)督學習和可視化[8]。
大數(shù)據(jù)時代,無論是數(shù)據(jù)量還是數(shù)據(jù)類型,都要求情報學這一學科對于自身的技術和研究方法進行一次變革和完善,以往的技術不能解決的問題,在大數(shù)據(jù)時代的今天將會得到解決;以往的方法不能研究的問題,在大數(shù)據(jù)時代也將得到研究,這也是技術和方法的升華。大數(shù)據(jù)時代的到來,可以為情報學這一學科提供更強有力的數(shù)據(jù)處理分析工具和方法。
數(shù)據(jù)分析雖然是情報學的研究內(nèi)容,但是大數(shù)據(jù)時代的契機下更多的人才進入這個領域,這樣就使數(shù)據(jù)分析方法汲取百家之長,從各個方面得到了完善和發(fā)展。同時情報學在完善技術和方法的同時也將會開創(chuàng)更多的新技術,為將來更多的研究做鋪墊,情報學專業(yè)將會在大數(shù)據(jù)時代逐步走向成熟。
3.2情報學將會更加受到重視
很多人曾經(jīng)認為沒有必要設置情報學專業(yè),甚至網(wǎng)絡中有人將情報學列入20個無用的專業(yè)之一。但是在大數(shù)據(jù)時代,任何一個行業(yè)想在海量數(shù)據(jù)中進行“淘金”,都需要情報工作人員的介入,事實驗證情報學的一些比較成熟的研究方法是其他專業(yè)不能比擬的,在情報學對數(shù)據(jù)挖掘的能力面前,曾經(jīng)看著無用的垃圾信息將會是揭示某種規(guī)律的關鍵性信息。
情報學專業(yè)在大數(shù)據(jù)時代應該抓住機遇展現(xiàn)自身的優(yōu)勢,順應潮流發(fā)展,讓更多的人看到情報學專業(yè)的閃光點,進一步對學科建設進行完善,使情報學充分的與數(shù)學、經(jīng)濟學、心理學等其他學科結(jié)合起來,從而使情報學更為成熟,成為數(shù)據(jù)挖掘和數(shù)據(jù)分析中的領頭羊。
3.3情報學人才的培養(yǎng)
情報學未來開發(fā)新技術,研究新方法無疑是需要更多的人才培養(yǎng),這就需要更多跨專業(yè)人才進入情報學,在招收情報學方面人才時應該更加注重人才在學科中的交叉,不同學科人才的思維方式不同,不同學科人才的專長不同,不同學科人才所了解的研究方法也是多種多樣。未來情報學要抓住大數(shù)據(jù)時代的契機,對各類人才進行吸收,從而使情報技術更為完善,使研究方法更為廣泛。同時現(xiàn)有的情報工作者也要注重自身的培養(yǎng),與時俱進,多涉及一些其他領域的知識,使自身的研究領域得到更好的完善。
4結(jié)論
綜上所述,大數(shù)據(jù)時代為情報學帶來了很多難題,也帶來了很多技術和方法上的困難,但與此同時,大數(shù)據(jù)時代也為情報學帶來了更多的發(fā)展,機遇。本文從大數(shù)據(jù)時代背景下情報學發(fā)展趨勢和面對機遇方面出發(fā),為情報學未來發(fā)展提出了建議,希望可以為以后的研究者提供些幫助。
參考文獻
[1]http:∥baike.baidu.com/view/6954399.htm[EB].2013,(1).
[2]What is big data[EB/OL].http:∥www-01.ibm.com/software/data/bigdata/,2013-01-16.
[3]Big data in little New Zealand[EB/OL].http:∥www.techday.co.nz/itbrief/news/big-data-in-little-new-zealand/24518/,2013-01-16.
[4]Intelligence Analysis Today and Tomorrow[J].SecurityChallenges,2009,5(1):67-83.
[5]Alan L.Porter,ScottW.Cunninghan.Tech Mining Exploiting New Technologies for Competitive Advantage[M].John Wiley Sons,2005.
[6]NSFs Cyberinfrastructure Vision for 21st Century Discovery[EB/OL].http:∥www.nsf.gov/od/oci/civ5.pdf,2013-01-16.
[7]Big data:The next frontier for innovation,competition,and productivity[EB/OL].http:∥www.mckinsey.com/insights/mgi/research/technologyandinnovation/bigdatathenextfrontierforinnovation,2013-01-15.
[8]李廣建,楊林.大數(shù)據(jù)視角下的情報研究與情報研究技術[J].圖書與情報,2012,(6):3-5.
(本文責任編輯:孫國雷)