• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)分析的方法及其在情報研究中的適用性初探*

      2014-04-14 08:52:20江信昱王柏弟
      圖書與情報 2014年5期
      關(guān)鍵詞:情報研究分析方法數(shù)據(jù)挖掘

      江信昱 王柏弟

      (北京大學(xué)信息管理系 北京 100871)

      ·專題·

      大數(shù)據(jù)分析的方法及其在情報研究中的適用性初探*

      江信昱 王柏弟

      (北京大學(xué)信息管理系 北京 100871)

      對基于數(shù)據(jù)或信息分析的情報研究來說,大數(shù)據(jù)分析方法帶來了新機遇。文章在現(xiàn)有研究的基礎(chǔ)上,先梳理了基于數(shù)據(jù)、流程及信息技術(shù)三種視角的大數(shù)據(jù)分析方法,并從中歸納出了面向統(tǒng)計、挖掘、發(fā)現(xiàn)、預(yù)測與集成等5種分析層次的17種相關(guān)研究方法。接著探討了大數(shù)據(jù)分析方法在情報研究的適用性,分別找出10種可直接移植的方法、2種調(diào)整后可移植的方法、2種不適用的方法、3種需要繼續(xù)研究或關(guān)注的方法。

      大數(shù)據(jù)大數(shù)據(jù)分析方法情報研究適用性

      大數(shù)據(jù)分析(Big Data Analytics,BDA)是以“深度的發(fā)現(xiàn)分析、引領(lǐng)行動”作為目標(biāo)的工作,它包括由多個任務(wù)組成的高度重復(fù)執(zhí)行的步驟。BDA通常要集成多種分析技術(shù)與軟件工具,以便讓海量數(shù)據(jù)的處理及分析變得更加容易,從數(shù)據(jù)中提取有用信息并形成結(jié)論,用來驗證、指導(dǎo)及規(guī)范組織或個人的決策行動;BDA的執(zhí)行過程一般包括問題需求及假設(shè)提出、數(shù)據(jù)獲取及記錄、信息抽取及清洗、數(shù)據(jù)整合及表示、選擇建模及分析方法、結(jié)果詮釋、評測結(jié)果有效性及監(jiān)控等幾個階段。從以上BDA的定義及過程來看,BDA與情報學(xué)領(lǐng)域中的情報研究(也稱情報分析)在本質(zhì)上是一致的,兩者至少在方法與技術(shù)(以下簡稱方法)上可以相互借鑒或補充。本文基于情報學(xué)的視角,關(guān)注哪些BDA方法可以為情報研究提供借鑒,并解決情報研究的相關(guān)問題。因此,本文首先概略總結(jié)BDA的方法體系,然后探討B(tài)DA方法在情報研究中的適用性。

      1大數(shù)據(jù)分析的方法分類

      到目前為止,尚沒有公認的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認識。本文首先綜述現(xiàn)有的相關(guān)研究,并以此為基礎(chǔ)提出我們的分類體系。

      1.1 相關(guān)研究

      不同學(xué)者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數(shù)據(jù)視角的分類、面向流程視角的分類以及面向信息技術(shù)視角的分類。

      (1)面向數(shù)據(jù)視角的BDA方法分類。這類研究主要是以BDA處理的對象“數(shù)據(jù)”作為分類依據(jù),從數(shù)據(jù)的類型、數(shù)據(jù)量、數(shù)據(jù)能夠解決的問題、處理數(shù)據(jù)的方式等角度對BDA方法進行分類。

      Power依據(jù)分析需求將數(shù)值型數(shù)據(jù)的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數(shù)據(jù)及定量工具進行“回顧性數(shù)據(jù)分析”;②若要進行前瞻及預(yù)測分析,可采取歷史數(shù)據(jù)及仿真模型進行“預(yù)測性數(shù)據(jù)分析”;③若要觸發(fā)事件,可采取實時數(shù)據(jù)及定量工具進行“規(guī)范性數(shù)據(jù)分析”。美國國家研究委員會在2013年公布的《海量數(shù)據(jù)分析前沿》研究報告中提出了七種基本統(tǒng)計數(shù)據(jù)分析方法,包括:①基本統(tǒng)計(如一般統(tǒng)計及多維數(shù)分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數(shù)計算(Linear Algebraic Computations);⑤優(yōu)化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數(shù)據(jù)匹配(如隱馬爾可夫模型等)。

      針對非純粹的數(shù)值型數(shù)據(jù),Li、Han梳理了面向“時空數(shù)據(jù)”(Spatiotemporal Data)的BDA方法,通過對動態(tài)數(shù)據(jù)挖掘出主體的預(yù)測性,如運用物理工程領(lǐng)域的傅立葉變換(Fourier Transform)及自相關(guān)匹配(Autocorrelation)偵查某一時間區(qū)段的信號、發(fā)生的事件或生物基因中的周期性節(jié)律,也可運用時間序列方法預(yù)測地點位置的變化;魏順平以教育領(lǐng)域為例,梳理了面向?qū)W生與學(xué)習(xí)環(huán)境的“學(xué)習(xí)分析方法”(Learning Analytics),此方法集成了內(nèi)容分析、話語分析、社會網(wǎng)絡(luò)分析、統(tǒng)計分析、數(shù)據(jù)挖掘等多種方法,從中挖掘?qū)W習(xí)的各種語義關(guān)系,并回答“誰在學(xué)、學(xué)什么、怎么學(xué)、學(xué)的結(jié)果如何”等問題,為教學(xué)與優(yōu)化學(xué)習(xí)提供參考。

      Mohanty等人從數(shù)據(jù)獲?。―ata Ingestion)角度,依照處理的數(shù)據(jù)量從小至大的順序,區(qū)分出八種分析方法:①流分析(Streaming Analytics),以預(yù)定模式及時處理數(shù)據(jù)流;②高速的數(shù)據(jù)采集(High Velocity Data Ingestion),不轉(zhuǎn)換任何格式,可稍晚處理;③鏈結(jié)分析(Linkage Analysis),構(gòu)建不同數(shù)據(jù)源的關(guān)系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數(shù)據(jù)集中尋找特定模式;⑤數(shù)據(jù)聚合(Data Mash-Ups),需要對數(shù)據(jù)屬性發(fā)展故事線或鏈接關(guān)系進行分析;⑥文本分析(Text Analytics),如觀點挖掘或社會網(wǎng)絡(luò)分析等;⑦時間序列分析(Time-Series Analysis),通過模式偵測及事件發(fā)生概率來處理時空數(shù)據(jù);⑧數(shù)據(jù)辯論(Data Forensic),用于數(shù)據(jù)科學(xué)家探索大規(guī)模數(shù)據(jù)集。

      Chen等人認為,在商業(yè)智能分析發(fā)展的過程中,商業(yè)智能分析經(jīng)歷了從處理結(jié)構(gòu)化程度較高的數(shù)據(jù)、到處理網(wǎng)絡(luò)上半結(jié)構(gòu)化數(shù)據(jù)、再到處理移動數(shù)據(jù)的發(fā)展,涵蓋了五類核心的分析方法:①數(shù)據(jù)分析,涉及數(shù)據(jù)倉儲、ETL、聯(lián)機分析及數(shù)據(jù)挖掘等分析技術(shù),可應(yīng)用在時間序列挖掘、網(wǎng)站挖掘、空間數(shù)據(jù)挖掘等;②文本分析,涉及信息檢索、查詢處理、相關(guān)反饋等分析技術(shù),可應(yīng)用在QA系統(tǒng)、觀點挖掘、多語義分析、可視化分析等;③網(wǎng)站分析,涉及信息檢索、網(wǎng)絡(luò)爬蟲、日志分析等分析技術(shù),可應(yīng)用在云計算、社會網(wǎng)絡(luò)分析、網(wǎng)站可視化等;④網(wǎng)絡(luò)分析,涉及信息計量、引用網(wǎng)絡(luò)、數(shù)學(xué)網(wǎng)絡(luò)模式等分析技術(shù),可應(yīng)用在鏈結(jié)分析、社區(qū)發(fā)現(xiàn)、社會影響力及擴散模式等;⑤移動分析,可應(yīng)用在移動通訊服務(wù)、個性化分析、游戲營銷分析等。

      (2)面向流程視角的BDA方法分類。這類研究主要是依據(jù)BDA的步驟和階段對BDA方法進行分類。

      美國計算社區(qū)協(xié)會出版的《大數(shù)據(jù)的機會與挑戰(zhàn)》白皮書指出BDA是一個多階段任務(wù)循環(huán)執(zhí)行過程,從整體看,其分析的過程包括了五個階段,每一個階段都包含該階段需要使用的方法:①數(shù)據(jù)獲取及記錄,從各種感知工具中獲取的數(shù)據(jù)通常與空間時空相關(guān),需要及時分析技術(shù)處理數(shù)據(jù)并過濾無用數(shù)據(jù);②信息抽取及清洗,從異構(gòu)數(shù)據(jù)源抽取有用信息,并轉(zhuǎn)換為結(jié)構(gòu)化的格式;③數(shù)據(jù)整合及表示,將數(shù)據(jù)結(jié)構(gòu)與語義關(guān)系轉(zhuǎn)換為機器可讀取、自動解析的格式;④數(shù)據(jù)建模及分析,從數(shù)據(jù)中挖掘出潛在規(guī)律及知識,涉及可擴展的挖掘算法或知識發(fā)現(xiàn)等方法;⑤詮釋,為了讓用戶容易解讀分析結(jié)果,可視化分析技術(shù)變得十分重要。此外,嚴(yán)霄鳳、張德馨依照搜集、分析到可視化的流程,梳理了適用于大數(shù)據(jù)的關(guān)鍵技術(shù),包括:遺傳算法、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、回歸分析、分類、聚類、關(guān)聯(lián)規(guī)則、數(shù)據(jù)融合、機器學(xué)習(xí)、自然語言處理、情感分析、網(wǎng)絡(luò)分析、空間分析、時間序列分析等多種方法。

      (3)面向信息技術(shù)視角的BDA方法分類。這類研究強調(diào)大數(shù)據(jù)技術(shù)本身涉及到的新型信息技術(shù),將大數(shù)據(jù)處理架構(gòu)、大數(shù)據(jù)計算模式、大數(shù)據(jù)系統(tǒng)等作為BDA方法分類的依據(jù)。

      孟小峰、慈祥著眼于大數(shù)據(jù)處理框架,梳理了數(shù)據(jù)抽取與集成、數(shù)據(jù)分析及數(shù)據(jù)解釋所使用的分析方法,在數(shù)據(jù)抽取與集成方面,可區(qū)分為基于物化(Materialization)或ETL的方法、基于聯(lián)邦數(shù)據(jù)庫或中間件的方法、基于數(shù)據(jù)流的方法以及基于搜索引擎的方法等四類;在數(shù)據(jù)分析方面,傳統(tǒng)的數(shù)據(jù)挖掘、機器學(xué)習(xí)或統(tǒng)計分析面臨數(shù)據(jù)規(guī)模、算法調(diào)整等困難,需進一步發(fā)展;在數(shù)據(jù)解釋方面,引入可視化技術(shù)或交互式的數(shù)據(jù)分析過程,有助于用戶理解分析結(jié)果。覃雄派等人認為,非關(guān)系數(shù)據(jù)管理(如MapReduce)擴展了數(shù)據(jù)分析的多維視角,使數(shù)據(jù)分析的生態(tài)系統(tǒng)從“大量數(shù)據(jù)的移動”轉(zhuǎn)向“直接對數(shù)據(jù)進行分析”。

      2012~2013年在印度召開了兩次BDA國際研討會,會上分別就BDA中的機器學(xué)習(xí)面臨數(shù)據(jù)規(guī)模與多維度問題、可擴展的機器學(xué)習(xí)算法(如隨機映射、隨機梯度下降等)、機器學(xué)習(xí)在MapReduce的應(yīng)用、社交媒體數(shù)據(jù)挖掘(如話題檢測與跟蹤、地點推理、語義連接等)、高維數(shù)據(jù)降維分析(如主成分分析、因子分析、經(jīng)典相關(guān)分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進行了探討。2013年IEEE計算機協(xié)會在美國召開大數(shù)據(jù)國際研討會,BDA結(jié)合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內(nèi)容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

      1.2 BDA方法的分類——面向?qū)哟蔚腂DA方法框架

      上述三種視角的BDA分類各有特點,都有一定的道理。從面向數(shù)據(jù)的視角來看,BDA方法正從統(tǒng)計(Statistics)轉(zhuǎn)向挖掘(Mining),并提升到發(fā)現(xiàn)(Discovery)和預(yù)測(Prediction)。基于流程的BDA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項分析任務(wù)時,需要綜合使用多種方法。從面向信息技術(shù)的BDA分類中可以看出,這種分類方式強調(diào)使用新技術(shù)對傳統(tǒng)數(shù)據(jù)處理方法進行改進和創(chuàng)新,同時更重視新型系統(tǒng)架構(gòu)與分析方法的集成,例如,各種數(shù)據(jù)挖掘算法的MapReduce化,就是這方面的典型實例。

      本文認為,如果綜合上述三種分類體系中體現(xiàn)的層次性,將可以更準(zhǔn)確描述BDA方法。在此,本文提出一個面向?qū)哟蔚腂DA分類框架,將BDA方法分為統(tǒng)計、挖掘、發(fā)現(xiàn)、預(yù)測及集成五個層次,并初步歸納出17種BDA相關(guān)方法(見表1)。

      2 BDA方法在情報研究中的適用性探討

      如前所述,BDA與情報研究在本質(zhì)上有共同之處,BDA方法可為情報研究提供借鑒,因此,探討B(tài)DA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性等因素,對本文所列舉的17種面向?qū)哟蔚腂DA方法在情報研究中的適用性進行分析。

      2.1 可直接移植的方法

      表1 面向?qū)哟蔚腂DA分類框架

      可直接移植方法是指這些方法的原理、流程、算法等可以直接應(yīng)用于情報研究,用來對情報研究的數(shù)據(jù)源(如科技文獻、網(wǎng)絡(luò)資源等)進行處理,解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向?qū)哟蔚腂DA方法中,數(shù)據(jù)挖掘、文本挖掘、知識發(fā)現(xiàn)、觀點挖掘、話題演化分析、多元統(tǒng)計分析、時間序列分析、海量數(shù)據(jù)的基本統(tǒng)計方法、高維數(shù)據(jù)降維分析方法、多源數(shù)據(jù)融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報研究中已經(jīng)有多年的應(yīng)用歷史。

      (1)數(shù)據(jù)挖掘與文本挖掘。數(shù)據(jù)挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發(fā)現(xiàn)技術(shù),文本挖掘?qū)儆诨谟嬎銠C語言學(xué)及統(tǒng)計方法的發(fā)現(xiàn)技術(shù),用來揭示文本中的詞與句法特征;數(shù)據(jù)挖掘以數(shù)據(jù)庫中的大量結(jié)構(gòu)化的數(shù)據(jù)挖掘為基礎(chǔ),用來揭示數(shù)據(jù)中潛在的、可能的數(shù)據(jù)模式及關(guān)聯(lián)規(guī)律。在情報學(xué)領(lǐng)域的實踐應(yīng)用中,數(shù)據(jù)挖掘多應(yīng)用在圖書館自動化技術(shù)與服務(wù)方面,例如,館藏采購決策、個性化服務(wù)、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學(xué)專門分析方法對科技文獻內(nèi)在知識挖掘不足的缺欠,例如,祝清松、冷伏海為了解決引文分析方法無法揭示論文的研究內(nèi)容這個問題,提出引文內(nèi)容分析,先建立基于規(guī)則的引文內(nèi)容抽取來識別引用句,再通過基于C-value多詞術(shù)語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻之間的語義關(guān)系。

      (2)知識發(fā)現(xiàn)。情報研究中所說的知識發(fā)現(xiàn),主要是指基于文獻的知識發(fā)現(xiàn),例如,張樹良、冷伏海在共詞、共引、文本挖掘等方法基礎(chǔ)上,提出了“基于文獻的知識發(fā)現(xiàn)”,包括:基于相關(guān)文獻、基于非相關(guān)文獻及基于全文獻三種條件下的知識發(fā)現(xiàn),完整揭示文獻的知識結(jié)構(gòu)與演化情況。在網(wǎng)絡(luò)環(huán)境下,李楠、張學(xué)福認為關(guān)聯(lián)數(shù)據(jù)的RDF數(shù)據(jù)模型、數(shù)據(jù)訪問機制、URIs及自描述數(shù)據(jù)等規(guī)范所形成的數(shù)據(jù)共享環(huán)境,為知識發(fā)現(xiàn)提供了新的研究潛力,包括知識發(fā)現(xiàn)的范圍被擴展成全球數(shù)據(jù)空間、高效率理解及處理數(shù)據(jù)間的語義關(guān)系等。簡言之,知識發(fā)現(xiàn)從不同數(shù)據(jù)源之間的復(fù)雜關(guān)系中獲得隱含的知識或規(guī)律,甚至可對未來進行預(yù)測。

      (3)觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數(shù)據(jù)挖掘及文本挖掘的具體及深化應(yīng)用。觀點挖掘主要有三種挖掘任務(wù):情感分類、基于特征的觀點挖掘、比較語句和關(guān)系挖掘,例如,黃曉斌、趙超通過對網(wǎng)絡(luò)輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態(tài)度及觀點,再通過關(guān)聯(lián)分析找出網(wǎng)絡(luò)輿情信息的各種關(guān)聯(lián)性。趙潔、溫潤認為微博情感分析的關(guān)鍵是觀點句識別,并根據(jù)文本特征的差異性,提出了基于新詞擴充和特征選擇的觀點句識別方法,即先擴充情感詞典來提高分詞準(zhǔn)確率,再結(jié)合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點,借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時間信息模擬該話題隨著時間推移所表現(xiàn)的受關(guān)注程度及關(guān)注點的變化。又例如,賀亮、李芳利用LDA模型抽取科技文獻中的話題(即主題詞),再計算話題的強度與內(nèi)容演化,從而區(qū)分熱門與冷門話題及其歷年特征詞的演化趨勢。

      (4)多元統(tǒng)計分析與時間序列分析。多元統(tǒng)計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法,前者研究客觀事物中多個變量(或多個因素)之間相互依賴的統(tǒng)計規(guī)律,后者則是基于隨機過程理論和數(shù)理統(tǒng)計學(xué)方法,研究動態(tài)數(shù)據(jù)序列的規(guī)律性。這兩種分析方法的一個重要特點在于能基于歷史數(shù)據(jù)的變化,評價事物現(xiàn)狀或預(yù)測事物未來的發(fā)展。

      (5)海量數(shù)據(jù)的基本統(tǒng)計分析方法。海量數(shù)據(jù)的七種基本統(tǒng)計分析方法適用于情報研究的原因是,專家們普遍認為,在現(xiàn)有硬件技術(shù)條件下要開發(fā)一個海量數(shù)據(jù)分析系統(tǒng)的難度過高,且高性能計算領(lǐng)域也面臨許多困難,因而轉(zhuǎn)向?qū)ふ夜餐ǖ幕A(chǔ)性計算方法來幫助運算,同時這些統(tǒng)計方法也經(jīng)常應(yīng)用于數(shù)據(jù)挖掘或文本挖掘。對情報研究來說,處理的數(shù)據(jù)量不及高性能計算領(lǐng)域的海量數(shù)據(jù),因此可以容易地應(yīng)用這些基本統(tǒng)計分析方法。盡管如此,隨著情報研究處理的文本量增加,包括文獻計量或信息計量方法在內(nèi)的定量分析方法,仍然要經(jīng)常借鑒基礎(chǔ)性的計算方法,并進行公式改進。

      (6)高維數(shù)據(jù)降維分析方法。高維數(shù)據(jù)降維分析方法反映了海量的數(shù)值型數(shù)據(jù)在數(shù)據(jù)縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關(guān)分析、獨立成分分析、投影尋蹤等。高維數(shù)據(jù)經(jīng)常存在大量的弱相關(guān)內(nèi)容或噪音,通過線性(如主成分分析、典型相關(guān)分析等)或非線性(如投影尋蹤、核方法等)映射可以將數(shù)據(jù)樣本從高維空間映射到低維空間,從而提高機器學(xué)習(xí)的效率。情報研究在處理文本語料時,廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機器學(xué)習(xí)的效果產(chǎn)生很大影響,通過特征選擇(如特征頻率、互信息等)進行特征抽?。ㄈ鏟CA、LSI、NMF等),轉(zhuǎn)換成一個低維的特征集來提高訓(xùn)練效果,是非常必要的。

      (7)多源數(shù)據(jù)融合方法。多源數(shù)據(jù)融合方法是解決大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)整合而提出的方法,例如,為了解決不同研究階段產(chǎn)生的各類科學(xué)數(shù)據(jù)集成問題,白如江、冷伏海認為解決關(guān)鍵在于中間件構(gòu)建,例如,通過基于XML模型將異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)映射到全局視圖,解決了不同數(shù)據(jù)源的關(guān)系描述問題,并提供用戶可靈活訂制查詢規(guī)則;但基于XML模型只能提供語法層次的整合,為了提供數(shù)據(jù)在語義層次的整合,可通過基于語義模型對XML的對象進行分類,在對象模型的基礎(chǔ)上生成邏輯規(guī)則,揭示隱含在科學(xué)數(shù)據(jù)中的語義信息。此外,也可以通過基于物化或ETL方法、基于數(shù)據(jù)流方法或其他方法對異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取出實體與關(guān)系,再進行數(shù)據(jù)集成或數(shù)據(jù)清洗。多源數(shù)據(jù)融合方法是進入數(shù)據(jù)分析之前的重要任務(wù),對情報研究來說,需要多種來源支持情報分析工作,包括同型異源信息、異質(zhì)異構(gòu)信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權(quán)等進行融合分析。

      2.2 調(diào)整后移植的方法

      調(diào)整后移植的方法是指其在原本的領(lǐng)域已經(jīng)成功應(yīng)用,但由于該方法最早或成功應(yīng)用的領(lǐng)域在任務(wù)需求、數(shù)據(jù)處理、分析過程有自身的特點,若移植到情報研究時,需要根據(jù)情報研究自身的特征進行調(diào)整。數(shù)據(jù)可用處理及分析方法、時空數(shù)據(jù)分析等兩種分析方法就屬于這類情況。

      (1)數(shù)據(jù)可用處理及分析方法。大數(shù)據(jù)環(huán)境中容易產(chǎn)生許多劣質(zhì)數(shù)據(jù)來降低數(shù)據(jù)可用性,為了提高數(shù)據(jù)可用性及數(shù)據(jù)質(zhì)量,李建中及劉顯敏梳理了數(shù)種數(shù)據(jù)可用性的相關(guān)方法,包括高質(zhì)量數(shù)據(jù)獲取與整合、數(shù)據(jù)錯誤自動檢測與修復(fù)、弱可用數(shù)據(jù)處理與分析等,分別解決了大規(guī)模數(shù)據(jù)集預(yù)處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說,情報素材、產(chǎn)品形式及工作任務(wù)分解的質(zhì)量控制是情報工作的核心,其中,情報素材的質(zhì)量對后續(xù)的情報分析成敗存在著至關(guān)重要的作用,當(dāng)數(shù)據(jù)或信息是錯誤或不完整時,提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質(zhì)量控制取決于人,如果能引入數(shù)據(jù)可用處理及分析方法解決數(shù)據(jù)或信息源可能存在的不一致、不精確、遺漏、滯后或重復(fù)等問題,有助于提高情報分析素材的可用性與正確性。

      (2)時空數(shù)據(jù)分析。時空數(shù)據(jù)分析是地球信息科學(xué)相關(guān)領(lǐng)域的研究熱點,其中最常使用“周期性行為”(Periodic Behavior)分析,例如天氣預(yù)報、環(huán)境監(jiān)控、地理信息系統(tǒng)、城市交通網(wǎng)絡(luò)管理等都是常見的應(yīng)用實例。現(xiàn)有研究的多數(shù)做法是采取基于時間序列的方法進行周期性行為建模,但建模過程容易出現(xiàn)對象可能沒有周期性行為、時間點分布不一定呈現(xiàn)周期性等問題,為了解決這些問題,王閱等人提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人提出多粒度時間文本下的周期模式挖掘算法解決時態(tài)文本數(shù)據(jù)挖掘問題。對情報研究來說,時間是文本中一個重要的屬性,如文獻發(fā)表規(guī)律、輿情監(jiān)控、科研人員的研究主題周期等。在原有數(shù)據(jù)基礎(chǔ)上增加時間維度進行長時段分析是多數(shù)研究的常見做法,但并沒有呈現(xiàn)出其中的周期性規(guī)律,特別是文本中的規(guī)律特征較難發(fā)現(xiàn),如果能引入此類方法,將有助于找出情報演化的周期模式。

      2.3 不適用的方法

      考慮學(xué)科領(lǐng)域差異,本文認為“翻譯生物信息學(xué)分析”及“學(xué)習(xí)分析方法”兩種專門研究方法不適合情報研究。

      (1)翻譯生物信息學(xué)分析。翻譯生物信息學(xué)分析是生物信息學(xué)的專門分析方法,這種方法是依據(jù)特定目的整合多數(shù)據(jù)源及促進領(lǐng)域知識的有效利用,其結(jié)果可應(yīng)用在生物醫(yī)學(xué)研究、產(chǎn)生支持醫(yī)療人員在治療點中的“可操作的決策”(Actionable Decision),同時能對人類與疾病的關(guān)聯(lián)關(guān)系提供更好的理解。生物信息學(xué)為了找出更多基因與疾病的關(guān)系,通過翻譯生物信息學(xué)分析,可以將分析方法與工具開發(fā)從系統(tǒng)層面橫跨到分子、個人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉(zhuǎn)向新基因或遺傳性狀組合與預(yù)測研究。從分析方法的操作過程來說,考慮到數(shù)據(jù)源的特殊性(如DNA編碼數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)等)、分析視角、工具構(gòu)建及使用等因素,并不符合情報學(xué)的學(xué)科研究特色。

      (2)學(xué)習(xí)分析方法。學(xué)習(xí)分析方法是搜集、分析及評測學(xué)習(xí)者及其學(xué)習(xí)語境的分析方法,目的在于理解與優(yōu)化學(xué)習(xí)及其學(xué)習(xí)環(huán)境。從UNESCO IITE機構(gòu)在2012年11月出版的學(xué)習(xí)分析方法政策簡報可知,學(xué)習(xí)分析方法的數(shù)據(jù)分析功能是基于數(shù)據(jù)挖掘從而開展相關(guān)分析內(nèi)容,包括行為分析、學(xué)習(xí)資源瀏覽分析、各種關(guān)聯(lián)分析與影響因素分析等。雖然數(shù)據(jù)挖掘是情報研究的常見方法,但學(xué)習(xí)分析方法的結(jié)果意義在于解釋學(xué)習(xí)者的學(xué)習(xí)語境,為教師或管理者提供決策支持,從而改善學(xué)習(xí)者的學(xué)習(xí)習(xí)慣及促進學(xué)習(xí)效果。由于這種方法有其特定的含義和應(yīng)用環(huán)境,離開了學(xué)習(xí)語境,方法的內(nèi)涵和外延可能就會產(chǎn)生變化,因此,難以移植到情報研究。

      2.4 需要繼續(xù)關(guān)注的方法

      基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務(wù)智能分析,是近年研究探討較多的方法,但目前尚未形成一個成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續(xù)發(fā)展中,本身也存在不斷的改進空間,它們與各種分析方法的集成缺乏公認的標(biāo)準(zhǔn)和規(guī)范,同樣地,對于關(guān)注圖像與事物之間關(guān)聯(lián)的圖模型分析與挖掘也尚沒有發(fā)展出固定的技術(shù),又例如,商務(wù)智能分析被定義為由數(shù)據(jù)倉庫、ETL、聯(lián)機分析、數(shù)據(jù)挖掘、客戶關(guān)系管理、知識管理等多種技術(shù)融合的一組系統(tǒng),通過BI系統(tǒng)管理組織內(nèi)部及個人相關(guān)的商業(yè)數(shù)據(jù)、專家信息及知識,涉及數(shù)據(jù)的融合、取用及分析等方法與工具,目前也沒有標(biāo)準(zhǔn)化的體系架構(gòu)。

      因此,本文還無法明確回答上述三種方法將如何應(yīng)用于情報研究、在應(yīng)用過程中需要做哪些調(diào)整、這些方法與現(xiàn)有的情報研究方法的關(guān)系如何等相關(guān)問題,但可以肯定的是,這些方法對未來的情報研究具有借鑒價值,例如,一旦情報研究的處理對象(即數(shù)據(jù))積累到了一定程度,成為傳統(tǒng)關(guān)系數(shù)據(jù)庫處理不了的大數(shù)據(jù),那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補充情報研究在圖像分析的不足,而商務(wù)智能分析可理解為一套集成系統(tǒng),可應(yīng)用在情報機構(gòu)的知識庫或機構(gòu)典藏,找出組織的知識缺口等方面。

      3 結(jié)語

      大數(shù)據(jù)時代就是一個數(shù)據(jù)分析的時代,學(xué)界和業(yè)界提出了很多大數(shù)據(jù)分析的方法與技術(shù),這些方法與技術(shù)對情報研究產(chǎn)生了積極的借鑒作用,本文總結(jié)了大數(shù)據(jù)分析的方法,提出面向?qū)哟蔚腂DA方法框架,歸納總結(jié)了其中的17種BDA方法,并從可直接移植、將調(diào)整后移植、不適用于情報研究以及需要繼續(xù)關(guān)注等四個方面對這些方法在情報研究中的適用性進行了分析,以期為情報研究借鑒或移植BDA相關(guān)方法提供參考,促進情報研究的理論與實踐發(fā)展。

      [1]Lavalle S,Lesser E,Shockley R,et al.Big Data,Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

      [2]Russom P.BIG DATA ANALYTICS[R].The DataWarehousing Institute,2011.

      [3]Mohanty S,Jagadeesh M,Srivatsa H.Big Data Imperatives-Enterprise Big Data Warehouse,BI Implementations and Analytics[M].New York:Apress,2013.

      [4]Computing community consortium.Challenges and Opportunitieswith Big Data[R].Washington,DC:Computing Research Association,2012.

      [5]Power D J.Using"Big Data"for analytics and decision support[J].Journalof Decision Systems,2014,23(2):222-228.

      [6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press,2013.

      [7]Li Z H,Han JW.Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A].Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg,2014:41-81.

      [8]魏順平.學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時代下教育數(shù)據(jù)的價值[J].現(xiàn)代教育技術(shù),2013,23(2):5-11.

      [9]Chen H C,Chiang R H L,Storey V C.Business Intelligence and Analytics:From Big Data to Big Impact[J]. MISQuarterly,2012,36(4):1165-1188.

      [10]嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計算機技術(shù)與發(fā)展,2013,23(4):168-172.

      [11]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.

      [12]覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報,2012,23(1):32-45.

      [13]Sengamedu S.Scalable Analytics-Algorithms and Systems[A].Srinivasa S,Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg,2012:1-7.

      [14]Mehta S,Subramaniam L V.Tutorial:Social Media Analytics[M].Bhatnagar V,Srinivasa S.Big Data Analytics[M].India:Springer International Publishing,2013:1-21.

      [15]王煉,武夷山.方法移植對科學(xué)計量學(xué)研究的方法論啟示[J].科學(xué)學(xué)研究,2006,24(4):503-507.

      [16]Kroeze JH,Matthee M C,Bothma T JD.Differentiating Data-and Text-Mining Terminology:The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z].South Africa:2003:93-101.

      [17]祝清松,冷伏海.基于引文內(nèi)容分析的高被引論文主題識別研究[J].中國圖書館學(xué)報,2014,(1):39-49.

      [18]張樹良,冷伏海.基于文獻的知識發(fā)現(xiàn)的應(yīng)用進展研究[J].情報學(xué)報,2006,25(6):700-712.

      [19]李楠,張學(xué)福.基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)應(yīng)用體系研究[J].圖書情報工作,2013,(6):127-133.

      [20]王輝,王暉昱,左萬利.觀點挖掘綜述[J].計算機應(yīng)用研究,2009,26(1):25-29.

      [21]黃曉斌,趙超.文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J].情報科學(xué),2009:(1):94-99.

      [22]趙潔,溫潤.基于新詞擴充和特征選擇的微博觀點句識別方法[J].情報學(xué)報,2013,32(9):945-951.

      [23]單斌,李芳.基于LDA話題演化研究方法綜述[J].中文信息學(xué)報,2010,24(6):43-49.

      [24]賀亮,李芳.科技文獻話題演化研究[J].現(xiàn)代圖書情報技術(shù),2012,(4):61-67.

      [25]查先進.信息分析[M].武漢:武漢大學(xué)出版社,2011.

      [26]Lakshminarayan C.High Dimensional Big Data and Pattern Analysis:A Tutorial[A].Bhatnagar V,Srinivasa S.Big Data Analytics[M].India:Springer International Publishing,2013:8302,68-85.

      [27]胡潔.高維數(shù)據(jù)特征降維研究綜述[J].計算機應(yīng)用研究,2008,(9):2601-2606.

      [28]吳曉婷,閆德勤.數(shù)據(jù)降維方法分析與研究[J].計算機應(yīng)用研究,2009,(8):2832-2835.

      [29]陳濤,謝陽群.文本分類中的特征降維方法綜述[J].情報學(xué)報,2005,24(6):690-695.

      [30]白如江,冷伏海.“大數(shù)據(jù)”時代科學(xué)數(shù)據(jù)整合研究[J].情報理論與實踐,2014,37(1):94-99.

      [31]化柏林.多源信息融合方法研究[J].情報理論與實踐,2013,(11):16-19.

      [32]李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機研究與發(fā)展,2013,50(6):1147-1162.

      [33]王延飛,王林蘭.論情報研究質(zhì)量[J].圖書情報工作,2010,54(10):35-39.

      [34]王閱,高學(xué)東,武森,等.時間序列周期模式挖掘的周期檢測方法[J].計算機工程,2009,35(22):32-34.

      [35]孟志青,樓婷淵,胡強.多粒度時間文本數(shù)據(jù)的周期模式挖掘算法[J].計算機科學(xué),2013,(S2):251-254.

      [36]Bellazzi R,Diomidous M,Sarkar I,et al.Data analysis and datamining current issues in biomedical informatics[J].Methodsof Information in Medicine,2011,50(6):536-544.

      [37]Negash S.Business intelligence[J].Communications of the Association for Information Systems,2004,13(1):177-195.

      [38]Ranjan J.Business Intelligence:Concepts,Components,Techniquesand Benefits[J].Journal of Theoretical and Applied Information Technology,2009,9(1):60-70.

      Prelim inary Study on the Big Data Analytics and Its Adap tability in Intelligence Studies

      Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development.Based on existing research,the author makes a review of three viewpoints of big data analytics based on data,process and information technology,and then summarizes five levels of analytics which including statistics,mining,discovery,predict and integrate,and its 17 kinds of relevant research methods.The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 researchmethods can be directly transplanted to intelligence studies,2 research methods should be adjusted for transplantation,2 research methods are inapplicable,and 3 research methods needfurther study.

      big data;big data analytics;intelligence studies;adaptability

      G250.2

      :A

      :1003-6938(2014)05-0013-07

      江信昱(1985-),男,北京大學(xué)信息管理系博士研究生;王柏弟(1988-),女,北京大學(xué)信息管理系碩士研究生。

      *本文系國家社科基金重點項目“大數(shù)據(jù)環(huán)境下的計算型情報分析方法與技術(shù)研究”(項目編號:14ATQ005)研究成果之一。

      2014-09-10;責(zé)任編輯:魏志鵬

      猜你喜歡
      情報研究分析方法數(shù)據(jù)挖掘
      體育信息情報研究發(fā)展趨勢探析
      基于EMD的MEMS陀螺儀隨機漂移分析方法
      面向新階段高質(zhì)量發(fā)展的圖書情報研究(卷首語)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      一種角接觸球軸承靜特性分析方法
      重型機械(2020年2期)2020-07-24 08:16:16
      中國設(shè)立PSSA的可行性及其分析方法
      中國航海(2019年2期)2019-07-24 08:26:40
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于微博的競爭情報研究
      核安全設(shè)備疲勞分析方法與步驟
      班玛县| 民乐县| 梅州市| 前郭尔| 淅川县| 陆川县| 红桥区| 育儿| 海淀区| 林西县| 霍邱县| 天津市| 福海县| 互助| 囊谦县| 康乐县| 甘德县| 丰顺县| 瑞安市| 大安市| 绥中县| 英吉沙县| 科技| 江孜县| 察隅县| 新丰县| 资溪县| 皋兰县| 沙坪坝区| 公安县| 郑州市| 延边| 寿阳县| 东兰县| 安丘市| 石景山区| 新昌县| 昌宁县| 江源县| 溧水县| 九寨沟县|