陳可沁 虞為
摘 要:[目的/意義]研究情報學學科的研究內(nèi)容與熱點,提出了基于關鍵詞的對情報學學科研究熱點進行分析與預測的方法,為情報學學科建設提供參考。[方法/過程] 本文以中國社會科學引文索引(CSSCI)所發(fā)表的情報學學科論文中的關鍵詞為研究對象,通過對關鍵詞的詞頻統(tǒng)計以及語義分析,運用語義分類及歷時分析等方法對情報學學科中的研究熱點和重點進行了挖掘和分析。[結(jié)果/結(jié)論]情報學學科研究重點可分為研究領域和研究工具兩類,研究熱點大致可分為新型熱點、傳統(tǒng)領域、分析方法以及具體應用等。近幾年情報學涌現(xiàn)出許多新熱點,本文為需要進一步研究的情報學學科熱點和重點提供了分析和參考。
關鍵詞:情報學學科建設;研究熱點;語義分析
1 引言
近年來,我國深入落實創(chuàng)新發(fā)展戰(zhàn)略,以科技創(chuàng)新為核心,積極推動各大領域的全面發(fā)展。情報學作為一門科學學科,致力于研究情報的產(chǎn)生與交流,傳播與應用,更是與社會生活中的信息傳遞與知識轉(zhuǎn)換息息相關。因此,對情報學信息理論的研究、對社會信息需求的了解和進一步提高情報信息的利用價值,都能給國家、政府、企業(yè)等相關機構(gòu)的信息情報工作帶來極大的益處。隨著大數(shù)據(jù)的廣泛應用、信息輿論影響力的逐步擴大,以及公眾對情報知識的需求日益增加,情報學的學科價值日益提升。對情報學學科的主要研究熱點分析,就是對情報學的學科關注點及其變化軌跡的挖掘與分析,這有助于對情報學學科發(fā)展現(xiàn)狀及發(fā)展趨勢進行了解,是情報學學科建設的重要步驟之一,因此,一直受到情報學界的廣泛關注。大數(shù)據(jù)時代的來臨,給情報學研究帶來新的挑戰(zhàn)與機遇,也因此要有更適應時代的研究思路與方法。本文通過對CSSCI所發(fā)表的情報學學科論文中的關鍵詞采用語義分析和詞頻統(tǒng)計對情報學學科熱點進行挖掘和預測,為情報學學科建設提供新思路和理論依據(jù)。
2 相關工作
趙蓉英等從文獻計量學角度,利用知識圖譜工具,對CSSCI數(shù)據(jù)庫和Web of Science核心集收錄的近五年國內(nèi)外情報學研究論文的題錄和引文數(shù)據(jù)進行了比較和分析。也有研究使用文獻計量學方法,從期刊分布、年度論文分布、機構(gòu)分布、基金分布、高頻關鍵詞、研究方法與工具、高被引論文、論文互引、高被引作者和機構(gòu)等角度進行統(tǒng)計分析。黃曉斌等利用Python語言對國內(nèi)近5年具有代表性的情報學學術(shù)會議征文進行分詞處理,統(tǒng)計出現(xiàn)的高頻詞并對其進行聚類分析和內(nèi)容分析。還有研究通過文獻調(diào)研、趨勢圖、內(nèi)容分析等方法,梳理我國圖書情報學主題分布研究的研究現(xiàn)狀。胡浪對核心期刊所刊載的作者發(fā)文量及被引頻次、關鍵詞頻次及共現(xiàn)進行分析,并用知識圖譜呈現(xiàn),得到高影響力作者分布、研究熱點及發(fā)展趨勢。
這些學者從文獻計量學的角度,對近幾年情報學的研究論文和會議征文的題錄和文獻內(nèi)容進行分詞處理,進而對它們的主題進行確定,并利用統(tǒng)計學方法,結(jié)合知識圖譜工具,總結(jié)情報學研究現(xiàn)狀,提出情報學發(fā)展方向。這些工作都對情報學學科的研究現(xiàn)狀和研究熱點進行了分析和總結(jié),為情報學學科領域的其他學者提供了研究基礎和參考。
本文根據(jù)中圖分類法中情報學學科所屬的11個分類號對CSSCI 98年至18年所發(fā)表的情報學相關的文章中所列舉的關鍵詞進行分析和研究。傳統(tǒng)的詞頻分析是根據(jù)文章內(nèi)容的詞頻進行分析,會引起大量噪音。文章中列舉的關鍵詞是對文章的內(nèi)容的高度概括,具有權(quán)威性和準確性。因此,關鍵詞可以很好地挖掘和分析情報學學科的研究熱點和重點。
3 系統(tǒng)框架
本論文的研究框架,如圖1所示。本研究從CSSCI中根據(jù)中圖分類法選取情報學學科相關的研究論文,共搜索并下載了1998-2018年共6733條記錄。每條記錄包括中英文題目、作者、項目名稱、來源期刊、機構(gòu)名稱、中圖類號、年代卷期、關鍵詞以及參考文獻。本文主要對中文題目、中圖類號、年代卷期以及關鍵詞展開挖掘與分析。
3.1 數(shù)據(jù)來源
本研究在中國社會科學引文索引(CSSCI)上,檢索情報學學科領域的論文記錄進行下載。對情報學學科領域的界定,本文采用中國圖書館分類法,它是我國圖書館和情報單位普遍使用的一部綜合性的分類法,對情報學的界定比較權(quán)威和客觀。本文在CSSCI上下載的數(shù)據(jù)是直接用中圖分類號進行搜索的,所以最后確定的搜索范圍是:G350情報學,G351情報工作體制、組織,G352情報資料的搜集、保管,G353情報資料的處理,G354情報檢索,G355機器翻譯,G356情報過程自動化的方法和設備,G357文獻復制方法和設備,G358情報資料的利用,G359世界各國情報事業(yè),N99情報學、情報工作。
本文所分析和展示的所有數(shù)據(jù)都來源于中國社會科學引文索引(CSSCI)。由于CSSCI搜索只能顯示從現(xiàn)在到1998年的記錄,故本研究數(shù)據(jù)所屬的時間段是1998-2018年。
3.2 關鍵詞的語義分類
因為不同的作者對詞語的表達略有不同,所以有一些關鍵詞雖然不同,但是它們表達的含義是相同或相似的,如“層次分析”和“層次分析法”。還有一些關鍵詞表達的含義不完全相同,但它們屬于一個類別,比如“競爭情報”、“競爭情報系統(tǒng)”以及“競爭情報評估”,都是競爭情報方面的研究。這些情況對關鍵詞分析容易造成語義歧義,影響分析結(jié)果,因此本文對關鍵詞進行了語義匹配處理。
首先,對關鍵詞進行去噪,然后進行語義匹配,計算出關鍵詞相似度。根據(jù)經(jīng)驗,本文將閾值P設置為80%。對所有關鍵詞進行語義匹配后,將所有滿足匹配條件的關鍵詞視作同一個關鍵詞類,匹配完成后一共有8822個關鍵詞類。
4 熱點分析
4.1 關鍵詞歷時分析
本研究以2016年至2018年3月期間發(fā)表并被CSSCI收錄的論文中的關鍵詞(類)為分析對象,對這些關鍵詞(類)詞頻進行統(tǒng)計分析,然后按照詞頻降序排列,取降序排列后的前30個關鍵詞進行聚類分析,再統(tǒng)計這些關鍵詞在過去二十年中每三年出現(xiàn)的頻次。
從上表的數(shù)據(jù)可以看出,2001-2003年是情報學學科發(fā)展的蕭條期。2007-2012年是情報學學科迅猛發(fā)展的時期。
本研究以語義分類的方法對這一結(jié)果進行分析,并將這些關鍵詞劃歸為以下四個比較明確的熱點類型。
第一類,近五年的新興熱點。關鍵詞包括:大數(shù)據(jù)、反恐情報、情感分析、國家安全、反恐、智庫。這幾年“大數(shù)據(jù)”這個詞和我們信管專業(yè)的同學的關系日益密切,就業(yè)方向、研究領域都和大數(shù)據(jù)息息相關,甚至很多學校預備或已經(jīng)將信管專業(yè)的名字改成大數(shù)據(jù)管理與應用?!按髷?shù)據(jù)”這個詞從2013-2015年開始出現(xiàn),在這三年的所有論文的關鍵詞中共出現(xiàn)了30次,2016-2018年出現(xiàn)了25次,是近三年出現(xiàn)頻率最高的關鍵詞,由此可見大數(shù)據(jù)正在發(fā)展初期,發(fā)展勢頭強勁。隨著互聯(lián)網(wǎng)+時代的飛速發(fā)展,大數(shù)據(jù)也將應用于各行各業(yè),所以大數(shù)據(jù)日后的發(fā)展前景非??捎^。關鍵詞“反恐情報”在2013-2015年出現(xiàn)了3次,2016-2018年出現(xiàn)了10次,發(fā)展速度非????!胺纯帧迸c之發(fā)展情況相似,2013-2015年出現(xiàn)了2次,2016-2018年出現(xiàn)了5次。關鍵詞“國家安全”也是近幾年迅速出現(xiàn)的一個關鍵詞,2013-2015年出現(xiàn)了7次,2016-2018年出現(xiàn)了5次。反恐情報、反恐和國家安全是情報學在國防安全方面的重要應用,體現(xiàn)了情報學在國家建設方面的重要作用,是國防安全的重要技術(shù)保障。結(jié)合反恐情報在國內(nèi)的發(fā)展情況來看,今后還會挖掘出很多新的發(fā)展方向。情感分析和智庫是近五年新出現(xiàn)的關鍵詞,而且出現(xiàn)的頻率不高,發(fā)展才剛起步,后續(xù)的發(fā)展空間非常大?!扒楦蟹治觥币辉~也是近六年剛出現(xiàn)的新關鍵詞,前三年出現(xiàn)了1次,近三年出現(xiàn)了7次。情感分析之所以會有快速發(fā)展,很大程度得歸功于社交網(wǎng)絡,而且情感分析在有關數(shù)據(jù)挖掘和信息檢索等方面也有了廣泛的研究。智庫作為一種專業(yè)的研究機構(gòu),是智慧的源泉。智庫的發(fā)展,很大程度上代表著國家軟實力,也更能在國際上增加話語權(quán)。近年來,智庫在國家或者國際經(jīng)濟發(fā)展中起著越來越重要的作用,當然也促進了智庫在情報學界的飛速發(fā)展。2013-2015年“智庫”一詞出現(xiàn)了3次,近三年出現(xiàn)了5次。這些領域的發(fā)展才剛剛起步,勢頭強勁,新型熱點會吸引國內(nèi)外學者集中精力努力研究,所以未來幾年這些領域的研究成果數(shù)量仍會繼續(xù)直線上升。
第二類,情報學學科領域的分析方法。關鍵詞包括:專利分析、社會網(wǎng)絡分析、知識圖譜、內(nèi)容分析、相似度、文本挖掘、被引頻次、條件隨機場、共詞分析。這些領域在過去十年中已經(jīng)發(fā)展并已初具規(guī)模,但仍然存在較大的發(fā)展空間。“專利分析”一詞在2013年至2015年出現(xiàn)40次,達到鼎盛時期,其他時間段出現(xiàn)該關鍵詞的頻率基本持平。社會網(wǎng)絡分析是最近非常流行的一種社會科學研究方法,在2010-2012年出現(xiàn)頻次最高,達到79次,與2004-2006年僅出現(xiàn)1次相比,有了非常明顯的突破。關鍵詞“知識圖譜”和“文本挖掘”在2013-2015年分別出現(xiàn)了36次和7次,與2007-2009年出現(xiàn)四次相比有較大發(fā)展,尤其是“知識圖譜”一詞出現(xiàn)的頻率在2010-2015年增長明顯,說明學者們在此期間經(jīng)常研究和應用知識圖譜?!皟?nèi)容分析”、“被引頻次”和“共詞分析”則在2010-2012年出現(xiàn)頻次最高,頻次分別是11、17和47次。
第三類,情報學理論的具體應用。關鍵詞包括:網(wǎng)絡輿情、信息行為、公安情報、突發(fā)事件。情報學無論如何發(fā)展,應用性學科的性質(zhì)不會改變,監(jiān)控輿情傳播并提供輿情分析,加強對應急事件的情報分析并建立模型與機制。這四個研究領域,在近八年出現(xiàn)的頻數(shù)都比2007-2009年多一些,發(fā)展呈穩(wěn)步上升趨勢。
第四類,情報學學科的傳統(tǒng)領域。關鍵詞包括:競爭情報、文獻計量、情報分析、引文分析、數(shù)據(jù)挖掘、圖書館、可視化、情報服務、學科建設、評價指標、期刊評價。這些領域從20年前開始已有所發(fā)展,最近幾年發(fā)展平穩(wěn),是情報學學科體系中的重要組成部分。其中,競爭情報是2007-2012年迅猛發(fā)展時期的所有關鍵詞中出現(xiàn)頻次最高的,2007-2009年的頻次高達193,可見競爭情報是情報學學科發(fā)展的重點之一。
我們可以看出,未來幾年,情報學學科的傳統(tǒng)領域會繼續(xù)穩(wěn)步發(fā)展;情報學學科領域的分析方法作為其它學科的工具、情報學理論的具體應用作為國家和各類企業(yè)的工具,還會繼續(xù)迅猛發(fā)展;而大數(shù)據(jù)、反恐情報、情感分析、國家安全、反恐、智庫這些領域才剛開始發(fā)展,未來數(shù)年發(fā)文數(shù)都會直線上升,達到鼎盛時期。
5 結(jié)論
從關鍵詞(類)TF-IDF統(tǒng)計分析結(jié)果來看,目前情報學學科的研究重點是競爭情報、文獻計量學、知識管理、信息服務、可視化、網(wǎng)絡信息計量學、情報分析等領域。情報學學科領域的熱點主要包括大數(shù)據(jù)、反恐情報、情感分析、國家安全、反恐和智庫等。
情報學學科的未來發(fā)展,必將要設法突破以文獻為基礎的情報學學科固有范式,回歸情報的本原,深入到情報、信息、智能與智慧的內(nèi)容與過程之中,構(gòu)建以情報分析為核心、以技術(shù)開發(fā)應用為手段、以大數(shù)據(jù)為核心能力,開創(chuàng)情報學與情報工作的新時代。