陳 微
智慧圖書館在教育大數(shù)據的環(huán)境下開展學科服務,以大數(shù)據建立智能化數(shù)據采集系統(tǒng)——學科資源庫,以支持智慧圖書館的決策、實施、評價等過程。目前我國高校的學科資源庫相對缺乏,教育資源庫在數(shù)量、規(guī)模、標準化等方面存在一定不足,需要根據不同學科制定出一套自擴充式和以用戶為中心的完備的資源庫以供智慧圖書館使用,滿足學習者智慧化需求,為高校師生建立一套精準的服務模式,具有個性推送、智慧交互等功能。
2008年,《科學》雜志發(fā)表文章“Big Data:Science in the Petabyte Era”,“大 數(shù)據”一詞開始廣泛傳播[1]。聯(lián)合國在 2012 年發(fā)布的大數(shù)據白皮書《Big Data for Development:Challenges & Opportunities》中指出大數(shù)據的出現(xiàn)將會對社會各個領域產生深刻影響[2]。關于數(shù)據驅動教育的理念,美國早在60年代就開始嘗試采用,直到2012年10月,美國教育部發(fā)布了《通過教育數(shù)據挖掘和學習分析促進教與學》的教育大數(shù)據報告,這份報告對美國教育界應用大數(shù)據的進行教育大數(shù)據挖掘的案例以及面臨的問題做了詳細介紹[3]。
我國有關教育大數(shù)據的研究緊隨其后,2012年10月,我國成立了中國通信學會大數(shù)據專家委員會,這是國內第一個專門研究大數(shù)據應用和發(fā)展的學術組織。大數(shù)據研究應用到教育領域是在2012年,王震一指出教育數(shù)據同樣是形式多樣的海量數(shù)據,需要有一套全面的方案來管理教育大數(shù)據,形成信息化教育[4]。2014年,教育部辦公廳《2014年教育信息化工作要點》中指出:加強對教育預測等相關數(shù)據資源的整合與集成,為教育決策提供及時和準確的數(shù)據支持,推動共享全國基礎教育數(shù)據[5]。
2003年,“智慧圖書館”的概念首先由Aittola等人在《智慧圖書館:基于位置感知的移動圖書館服務》一文中提出[6]。隨后,學者們先后結合RFID、云計算、大數(shù)據和物聯(lián)網等先進技術對智慧圖書館的實現(xiàn)途徑進行了研究。對智慧圖書館學科資源庫的建設是構建智慧圖書館的重要前提和保障。利用教育大數(shù)據對學科資源庫進行智慧個性化推送的實現(xiàn)需要多種環(huán)境的支持,多種技術的支撐,多種業(yè)務的集成,但其中最基礎也最核心的應屬教育資源庫或關鍵詞庫的構建。
目前關鍵詞庫在智慧圖書館方面的應用比較少。學科關鍵詞庫數(shù)量較少,規(guī)模小,資源結構單一,利用率低,資源重復建設和標準化等問題完全阻礙了智慧個性化推送的發(fā)展。而學科關鍵詞庫的建立可以為教育大數(shù)據環(huán)境下的智慧學科知識服務的發(fā)展建立新的理論基礎、提供新的指導思路。所以本文將在大數(shù)據的背景下,探討關鍵詞庫在智慧教育中的應用,并建立教育資源庫或關鍵詞庫,來驅動智慧教育,使智慧教育做到個性精準的服務于各種類型的用戶,從而使其到達更好的效果。
學科關鍵詞庫應用于智慧圖書館將主要在以下幾個方面發(fā)揮作用:
建立詞庫對知識管理具有指導作用。一般來說知識管理過程包括知識獲取、知識整合和知識應用。知識獲取階段,詞庫可以幫助研究者更好的識別語義;知識整合階段,詞庫可以幫助研究者對內容進行分解和抽?。恢R應用階段,詞庫可以幫助研究者描述資源,開展標引工作。因此關鍵詞詞庫在整個知識管理過程中發(fā)揮的作用十分重要。
建立詞庫對學科服務的指導作用。關鍵詞詞庫是一個同時具有標準規(guī)范語言和自然語言的詞庫,多是以學科概念為主線組庫,詞和詞之間是基于學科有上下位關系、關聯(lián)關系以及交叉關系。這種詞庫既可對已有的學科名詞進行規(guī)范管理,又給學科發(fā)展中出現(xiàn)的新概念、新詞匯保留一定空間擴充。因此,關鍵詞詞庫對學科服務具有指導作用。
關鍵詞詞庫是特定領域關鍵詞的合集,關鍵詞和關鍵詞詞庫的優(yōu)劣對各類檢索系統(tǒng)、搜索引擎的性能有著重要影響[7]。建立詞庫也就是把某一個學科里邊的關鍵詞使用各種可能的方法都挖掘出來,從而對智慧圖書館的知識服務做一個科學的指導,詞庫是非常重要的,它基本上代表了本專業(yè)中用戶所要搜索的詞語,也就是說,詞庫代表著需求。所以關鍵詞庫應用十分廣泛,特別是具體學科領域的關鍵詞庫可以使本學科的學習者可以更快速、科學的發(fā)現(xiàn)專業(yè)的信息。對于關鍵詞庫的建立主要方法有:1)利用統(tǒng)計分析的方法,如對大量相關文獻進行提取及頻率的統(tǒng)計;2)利用詞語網絡的方法,即將相關文檔依據一定規(guī)則映射為詞語網絡,并對詞語進行相關性的計算[8]。3)利用詞語語義的方法,即根據詞語的語義特征提取關鍵詞[9]。因為本文選取“遠程教育”這一較小的學科進行關鍵詞庫的建立,其特征詞匯較少,所以本文將主要使用傳統(tǒng)的統(tǒng)計方法對關鍵詞進行提取。
本節(jié)將以“遠程教育”這一學科為例,建立一個以“遠程教育”為主題面向特定學科的關鍵詞庫,旨在為學習和研究遠程教育的學者提供一個全面的術語資源庫,從而為讀者提供更加專業(yè)、更加個性化的學科服務。為了使詞庫更加權威且具有時效性,筆者將分四個步驟對詞庫進行建立,其中包括:一是關鍵詞庫的樣本獲??;二是關鍵詞提取與優(yōu)化;三是關鍵詞庫的建立;四是對詞庫進行維護。
建立詞庫的首要任務是獲取關鍵詞庫的樣本。本文關鍵詞庫樣本主要有兩個來源:
1)由專業(yè)文獻數(shù)據庫獲取。科學文獻往往能夠反映一個學科的研究熱點和趨勢,作者選定的關鍵詞是其研究的高度概括,所以科學文獻中的關鍵詞是一個學科或領域的學術資源的濃縮,是構建詞庫的重要來源之一。首先,我們將利用中國知網對遠程教育的相關文獻進行檢索。為了保證搜集的術語的全面性,還將對“遠程教育”進行擴展,以期更全面的獲得相關文獻信息。百度搜索是目前國內應用最為廣泛的搜索引擎,其擁有巨大的數(shù)據庫,可以較全面的覆蓋與“遠程教育”相關的關鍵詞。所以我們利用引擎平臺挖掘擴展工具百度推廣賬號中的“關鍵詞規(guī)劃師”來進行關鍵詞的挖掘與擴展。通過擴展可以得到與“遠程教育”語義相似的主題詞13個,其中包括:“虛擬教育”“智慧教育”“數(shù)字教育”“移動教育”“網絡教育”“遠程網絡教育”“在線教育”“遠程成人教育”“虛擬現(xiàn)實教育”“虛擬教學”“虛擬培訓”“教育虛擬仿真”“三維虛擬教學”。在中國知網的高級檢索中,以主題為內容檢索條件,在檢索框中依次輸入這14個主題詞,精確檢索,共檢索出85 315篇文獻。其中最早一篇關于遠程教育的文獻是在1951年發(fā)表的,隨后在1982年才再次出現(xiàn)在研究者的視野中,并且研究者越來越多,從2000年到2016年每一年都有數(shù)以千計的文章發(fā)表。隨后,導出這些文獻的關鍵詞導入到BICOMB中進行提取、統(tǒng)計,共獲得96 558個關鍵詞。這些關鍵詞是建立詞庫的重要來源之一。
2)基于社交網絡擴展關鍵詞庫。社交網絡為人們提供了一個更為廣闊的信息發(fā)表與交流的空間,其明顯區(qū)別與傳統(tǒng)的網站,具有個性化、交互性等特色。目前,大量互聯(lián)網用戶包括許多科研人員通過網絡社區(qū)進行正式或非正式的交流。社交網絡儼然已經成為許多新型信息及詞匯的集會地,對其進行挖掘是十分重要的。所以,僅對專業(yè)文獻數(shù)據庫進行關鍵詞的挖掘,遠不能滿足詞庫使用者對專業(yè)詞匯的需求。為了使關鍵詞庫更加貼合時代的發(fā)展,包容更多更全面的信息,筆者還利用社交網絡社區(qū)進行關鍵詞庫的擴展。由于目前中國缺乏綜合教育類的社交平臺,僅存的粉筆網等教育類平臺僅提供職業(yè)考試培訓等業(yè)務,較少有學術方面的交流。所以筆者選擇了我國較多使用社交網絡社區(qū),包括:新浪博客、天涯、知乎、果殼等進行關鍵詞樣本的獲取。具體方法如下:(1)樣本的選取。利用社交網絡平臺自身檢索功能中,對擴展的14個關鍵詞匯進行檢索,得到關于“遠程教育”的相關頁面。(2)樣本信息的獲得。利用八爪魚等網絡爬蟲軟件爬取具有代表性的關于“遠程教育”頁面的信息。其中,關于“遠程教育”頁面的信息只選擇題目和標簽進行獲取。因為題目和標簽信息可以高度概括文本信息的內容,具有代表性。八爪魚網路采集器是一款可以從網絡中快速便捷的獲取客戶所需要的信息的網絡信息采集工具,可以實現(xiàn)數(shù)據自動化采集。(3)網絡關鍵詞庫樣本的獲得。利用分詞軟件對步驟2得到的樣本信息進行分詞,得到網絡關鍵詞庫的樣本。目前,國內有許多比較成熟的針對中文的分詞軟件,常用的分詞工具有:中國科學院開發(fā)的利用的ICTCLAS、庖丁解牛分詞及盤古分詞等。
由于獲取關鍵詞樣本多有重復或明顯與“遠程教育”主題無關,且特別是通過社交網絡社區(qū)提取的詞匯多參差不齊,所以筆者將對得到詞匯進行提取優(yōu)化,只保留有價值的信息。對關鍵詞提取與優(yōu)化,即對采集的詞庫樣本進行初步的過濾,篩選。將從專業(yè)文獻中獲取的關鍵詞和從社交網絡中獲取的關鍵詞整合,作為一個樣本進行過濾、篩選。對關鍵詞的提取和過濾采用如下步驟:1)去重,將相同的關鍵詞去除,只保留一個。2)去除無意義的關鍵詞,例如:策略、研究等。3)去除意思相同但表述不同的詞,例如:慕課、大規(guī)模在線課程與MOOCs,網絡、Web與Internet等,只保留其中之一。4)去除意思相近,表述不同的詞,例如:大數(shù)據分析與大數(shù)據研究,遠程教育與遠程教學等,只保留一個。5)去除小類,保留其大類,例如,若有高校圖書館,則將××高校圖書館去除。按上述五個步驟對關鍵詞進行過濾、篩選之后,獲得關鍵詞包括:遠程教育、黨員干部、實況錄像、慕課、認知風格、師生素質等傳統(tǒng)主題詞匯,還有自媒體、教育品牌、教育直播等新型的網絡關鍵詞。這些關鍵詞就構成了遠程教育詞庫的所有術語。
采用一定方法對提取的關于“遠程教育”的關鍵詞進行合并,構建關鍵詞庫;一般建立關鍵詞庫都采用分類的方法。分類是詞庫建設的核心,分類就是為了能夠實現(xiàn)快速布局。我們根據遠程教育不同的意圖及其特征等,對遠程教育詞庫進行分類,共分為七類。一是遠程教育的主體,包括學習者、教育者、專家、機構等。例如,黨員干部、大中小學教師、何克抗教授、××高校、××培訓機構等。二是遠程教育相關的概念術語,包括理論概念、技術概念等。例如:遠程教育、虛擬教育、XML、云計算、自媒體等。三是教育相關的術語。包括情感認知、參與式教學、情景教學、目標式導學、構建主義等。四是遠程教育相關的資源與工具。例如:微視頻、慕課、資源庫建設、在線學習系統(tǒng)、移動終端、衛(wèi)星設備等。五是涉及遠程教育相關的評價。例如:發(fā)展性評價、能力評價、課程質量評估、評價體系創(chuàng)新、評價質量標準等。六是遠程教育的研究方法。包括神經網絡、因子分析、文獻計量、支持向量機等。最后一類是其他。包括師德建設、人才隊伍建設、資金投入等。之后對于每一類術語進行排序,我們按照漢語拼音的前后順序排序,這種順序在詞典中廣泛使用,方便使用者進行查詢。
一個領域的術語并不是一成不變的,科學概念會隨時間進行演化,不斷的消亡或者產生新的關鍵詞。所以對詞庫進行維護是至關重要的,衡量一個詞庫好壞的關鍵之一是它的與時俱進性,維護可以保證一個詞庫的有效性。對于詞庫的維護,需要不斷地進行上述三個步驟,首先定期查閱文獻和檢索相關社交網站,提取出其關鍵詞。然后,在提取的關鍵詞間,以及關鍵詞與原詞庫間進行去重、過濾、篩選等工作。最后,根據原詞庫的類別劃分,將新加入的術語分門別類,并按順序排列。這是一個重復的工作,是保證一個詞庫能永葆價值的關鍵。
學科知識詞庫是智慧圖書館向內容延伸的實踐。本文建立的“遠程教育”關鍵詞庫,只是在某一學科的簡單試探,更多的學科領域還亟待建立自己的學科知識詞庫,并在這些詞庫的基礎上,利用個性化推送、大數(shù)據和云計算等技術實現(xiàn)進一步的精準服務,完善自擴充式詞庫,以用戶為中心,真正做到智慧服務、智慧學習、智慧搜索等,使智慧圖書館一步一步走向實踐。