劉金哲(國家圖書館)
2013年被許多媒體和專家稱為“大數(shù)據(jù)元年”,互聯(lián)網(wǎng)公司和其他各個行業(yè)開始紛紛投入資金和技術(shù)開展大數(shù)據(jù)的研究和應(yīng)用。2015年,國務(wù)院印發(fā)了《促進大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50號)將大數(shù)據(jù)的戰(zhàn)略意義提升到政府層面。目前,應(yīng)用大數(shù)據(jù)進行分析預(yù)測和輔助決策較多的領(lǐng)域包括公共服務(wù)、商業(yè)分析、企業(yè)管理、金融、娛樂和個人服務(wù)等。[1]大數(shù)據(jù)在各行業(yè)的應(yīng)用,促進了行業(yè)的融合發(fā)展和模式創(chuàng)新。目前,除了互聯(lián)網(wǎng)、電商等領(lǐng)域有比較成功的大數(shù)據(jù)應(yīng)用案例外,其他行業(yè)仍處于探索的初級階段,實際落地還存在顯著的瓶頸。因此,圖書館應(yīng)從戰(zhàn)略層面認(rèn)識大數(shù)據(jù),促進大數(shù)據(jù)與實際業(yè)務(wù)的深度結(jié)合,推動圖書館決策、管理、服務(wù)、創(chuàng)新能力的不斷提升。
對大數(shù)據(jù)理念的認(rèn)識不深入、數(shù)據(jù)基礎(chǔ)的缺失以及管理方式無法迅速向適應(yīng)大數(shù)據(jù)需求的方式轉(zhuǎn)換等原因?qū)е庐?dāng)前大數(shù)據(jù)解決方案很難和具體行業(yè)的實際應(yīng)用深度結(jié)合。
筆者在招標(biāo)與采購網(wǎng)以“大數(shù)據(jù)”為關(guān)鍵詞進行搜索,僅2019年1月1日至8月21日,發(fā)布的招標(biāo)信息就有8,045項,但大數(shù)據(jù)項目的實施結(jié)果卻不容樂觀:2016年,Gartner估算約60%的大數(shù)據(jù)項目都會失??;一年后,Gartner分析師Nick表示,實際大數(shù)據(jù)項目失敗率接近85%。[2]當(dāng)前,大多數(shù)大數(shù)據(jù)項目只實現(xiàn)了數(shù)據(jù)采集和數(shù)據(jù)呈現(xiàn),如對指定數(shù)據(jù)源的數(shù)據(jù)進行抓取、匯總,再進一步根據(jù)某個場景或者主題計算變化曲線,有些基于大數(shù)據(jù)的聚合平臺也只是將網(wǎng)絡(luò)上的相關(guān)信息整合成一個新的信息源,然后以推送或者訂閱的方式提供給用戶。同時,目前興建的大數(shù)據(jù)中心更多地還停留在“建機房、上設(shè)備、堆數(shù)據(jù)”的階段,[3]很多數(shù)據(jù)中心因為缺乏運營經(jīng)驗而處于閑置狀態(tài),但又有很多城市仍在斥巨資投建數(shù)據(jù)中心,而無法做到真正將數(shù)據(jù)應(yīng)用于服務(wù)。
豐富的數(shù)據(jù)源是大數(shù)據(jù)項目實施的基本前提。大數(shù)據(jù)項目80%的時間和經(jīng)費都花在數(shù)據(jù)的準(zhǔn)備工作上,其中多源數(shù)據(jù)的融合是最耗費資源的任務(wù)之一。隨著各行各業(yè)信息化程度越來越高,理論上來說會有很多數(shù)據(jù),但真正進行數(shù)據(jù)調(diào)研和分析時會發(fā)現(xiàn)數(shù)據(jù)的收集和利用、特別是高質(zhì)量數(shù)據(jù)的獲取是非常困難的。① 早期建設(shè)的信息化系統(tǒng)缺乏對過程數(shù)據(jù)的記錄,或者系統(tǒng)管理人員缺乏對過往日志信息、數(shù)據(jù)的保存,因此,獲取到的數(shù)據(jù)都是項目開始之后的數(shù)據(jù),導(dǎo)致“海量”只停留在理論。② 數(shù)據(jù)增長的速度過快,保存和管理數(shù)據(jù)都超出一般運維管理的范疇,這是影響大數(shù)據(jù)項目實施成效的關(guān)鍵因素。③ 數(shù)據(jù)時效性差,許多業(yè)務(wù)統(tǒng)計數(shù)據(jù)匯集頻率低,有些需要人工填寫表單或者導(dǎo)入報表,導(dǎo)致大數(shù)據(jù)項目的實施效果不盡人意。
數(shù)據(jù)孤島是大數(shù)據(jù)發(fā)展過程中面臨的共性問題。不同來源的數(shù)據(jù)依附于不同的平臺、存儲在不同地方、歸屬不同部門,導(dǎo)致數(shù)據(jù)匯集困難、無法有效流通。首先,數(shù)據(jù)來源比較雜。一個機構(gòu)通常會建設(shè)或者購買多套系統(tǒng)來滿足不同的業(yè)務(wù)需求,這些系統(tǒng)一般各自獨立或者以松耦合的方式存在,系統(tǒng)平臺架構(gòu)各異、功能也不盡相同,多數(shù)系統(tǒng)都設(shè)置了訪問權(quán)限和保護措施,形成了一個個的孤島,為數(shù)據(jù)交互共享帶來了很大障礙,直接影響大數(shù)據(jù)項目實施的效率和效果。其次,收集數(shù)據(jù)標(biāo)準(zhǔn)問題。收集到的數(shù)據(jù)原始記錄的格式和載體不同,導(dǎo)致很多數(shù)據(jù)無法直接利用,需要轉(zhuǎn)化或者清洗。再者,數(shù)據(jù)歸屬問題。大數(shù)據(jù)項目不單是信息技術(shù)部門的職責(zé),人事、財務(wù)等各部門都是數(shù)據(jù)的生產(chǎn)者和持有者,都在大數(shù)據(jù)的運籌體系中,但目前國內(nèi)機構(gòu)管理體系呈現(xiàn)條塊化,數(shù)據(jù)持有者之間很難完全進行數(shù)據(jù)開放和共享。
(1)技術(shù)方面。當(dāng)前數(shù)據(jù)處理的技術(shù)和工具已經(jīng)落地,但數(shù)據(jù)分析尚且不成熟。數(shù)據(jù)分析以產(chǎn)生決策智能為目標(biāo),提取、融合、梳理多種數(shù)據(jù)源中的相關(guān)數(shù)據(jù),將其整合成分析數(shù)據(jù)集,數(shù)據(jù)集可隨數(shù)據(jù)源的變化重組、調(diào)整和更新。這些環(huán)節(jié)需要通過包括數(shù)學(xué)、經(jīng)濟學(xué)、社會學(xué)、計算機科學(xué)和管理科學(xué)在內(nèi)的多學(xué)科進行交叉研究,是當(dāng)前大數(shù)據(jù)項目的實施機構(gòu)和服務(wù)提供方都面臨的一個瓶頸。
(2)市場方面。近年來,Hadoop等大數(shù)據(jù)處理軟件平臺發(fā)展比較成熟且在很多項目中得到了應(yīng)用,相關(guān)產(chǎn)業(yè)已經(jīng)在美國初步形成。隨著數(shù)據(jù)總量的飛速增長及市場對數(shù)據(jù)分析利用的需求,又出現(xiàn)了以Spark為代表的新型大數(shù)據(jù)計算平臺,使大規(guī)模的數(shù)據(jù)挖掘與機器學(xué)習(xí)可以更加高效地執(zhí)行。我國大數(shù)據(jù)產(chǎn)品市場基礎(chǔ)薄弱,總體上以跟隨為主,難以滿足大規(guī)模應(yīng)用的需求。部分大型互聯(lián)網(wǎng)公司提供的產(chǎn)品或者解決方案相對比較落地,如阿里云的一站式大數(shù)據(jù)平臺,覆蓋了企業(yè)數(shù)倉、商業(yè)智能、機器學(xué)習(xí)、數(shù)據(jù)可視化等領(lǐng)域,可以提供數(shù)據(jù)采集、數(shù)據(jù)深度融合、計算和挖掘服務(wù),并通過可視化工具進行個性化的數(shù)據(jù)分析和展現(xiàn),但是需要捆綁阿里云并具備一定的技術(shù)基礎(chǔ)才能使用,且這類大數(shù)據(jù)平臺或者產(chǎn)品的價格不菲,還要根據(jù)實際業(yè)務(wù)需求進行集成和二次開發(fā)服務(wù)。
大數(shù)據(jù)項目實施過程中,面臨數(shù)據(jù)存儲和訪問安全的挑戰(zhàn),可以通過建立大數(shù)據(jù)使用規(guī)范和安全標(biāo)準(zhǔn)、在數(shù)據(jù)提供訪問時做好訪問權(quán)限控制等措施應(yīng)對。同時,大數(shù)據(jù)項目也不可避免地會面臨用戶隱私泄露問題。通過大數(shù)據(jù)挖掘分析用戶需求,就必須要跟蹤、分析、挖掘用戶訪問行為、使用傾向等信息,導(dǎo)致暴露用戶自身不為“外人”所知的信息,這也是實施大數(shù)據(jù)項目時所面臨的共同問題。
大數(shù)據(jù)與圖書館的結(jié)合是必然的。一是因為圖書館行業(yè)對信息技術(shù)有著其他行業(yè)不可比的敏感性和依賴性。從圖書館集成系統(tǒng)到電子館藏到圖書館新形態(tài),都是圖書館不斷與新技術(shù)深度結(jié)合的產(chǎn)物。二是因為數(shù)字圖書館本身就是一個龐大的數(shù)據(jù)源。除了圖書館本身大量的館藏和流通信息外,用戶在訪問和使用數(shù)字圖書館時會不斷產(chǎn)生大量信息資源。
圖書館中的數(shù)據(jù)主要有以下4種類型。① 資源數(shù)據(jù)。圖書館擁有大量的由紙質(zhì)圖書轉(zhuǎn)換的數(shù)字資源、數(shù)據(jù)庫資源、聲/圖/視頻影像資源,這些資源以及描述這些資源的元數(shù)據(jù)是圖書館大數(shù)據(jù)的重要組成部分,且增長速度較快。② 業(yè)務(wù)數(shù)據(jù),即圖書館在常規(guī)運行過程中產(chǎn)生的各類業(yè)務(wù)統(tǒng)計數(shù)據(jù)。對這類數(shù)據(jù)進行對比分析可以了解圖書館整體服務(wù)情況和發(fā)展水平、運營狀態(tài),為制定科學(xué)、可持續(xù)發(fā)展的政策提供支撐。③ 用戶數(shù)據(jù)。隨著圖書館服務(wù)方式的多樣化,除了常規(guī)的到館讀者和辦卡讀者外,還增加了實名讀者、互聯(lián)網(wǎng)用戶、手機用戶等服務(wù)對象,以及這些服務(wù)對象的屬性特征、群體特征、社會特征等信息。④ 服務(wù)數(shù)據(jù),主要指讀者使用圖書館資源和服務(wù)的過程中產(chǎn)生的大量行為記錄,如瀏覽歷史、借閱數(shù)據(jù)、網(wǎng)站點擊數(shù)據(jù)、館藏使用情況等。
筆者在中國知網(wǎng)學(xué)術(shù)期刊全文數(shù)據(jù)庫中以“圖書館”“大數(shù)據(jù)”為檢索詞進行主題搜索,截至2019年7月,共檢索出3,409篇文獻(見下表)。
表 2013-2019年我國圖書館和大數(shù)據(jù)相關(guān)文獻
由表可知,我國有關(guān)圖書館大數(shù)據(jù)的研究成果自2013年開始增多,研究內(nèi)容主要集中在大數(shù)據(jù)時代圖書館進行服務(wù)創(chuàng)新的必要性、大數(shù)據(jù)應(yīng)用于圖書館可以改進的服務(wù)以及改進方式等,關(guān)于大數(shù)據(jù)分析技術(shù)和應(yīng)用實踐的研究仍然比較粗淺。綜合這些研究成果,大數(shù)據(jù)在圖書館中主要有以下應(yīng)用場景。① 資源整合和開放。支持結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理,支持跨平臺、異質(zhì)文檔的整合,進而開放集成網(wǎng)絡(luò)環(huán)境下的各類數(shù)字內(nèi)容。② 提供決策支撐。通過大數(shù)據(jù)對業(yè)務(wù)發(fā)展趨勢和水平進行分析,進而優(yōu)化圖書館的業(yè)務(wù)流程,為圖書館發(fā)展規(guī)劃、服務(wù)政策調(diào)整提供決策支持。③ 建立更加良好的用戶體驗。對讀者行為信息進行分析挖掘,了解讀者對資源和服務(wù)的偏好及其變化規(guī)律,進而指導(dǎo)圖書館提供個性化、特色化服務(wù)。④ 開展深層次的知識服務(wù):利用大數(shù)據(jù)分析挖掘各類資源間的關(guān)聯(lián)關(guān)系,形成知識網(wǎng)絡(luò),為讀者提供可視化的知識網(wǎng)絡(luò)服務(wù)。
受益于數(shù)字圖書館的建設(shè)成果,圖書館界形成了大數(shù)據(jù)應(yīng)用的數(shù)據(jù)基礎(chǔ)。① 開放館藏資源并提供關(guān)聯(lián)數(shù)據(jù)服務(wù)。美國各類公共圖書館、行業(yè)協(xié)會等非營利機構(gòu)利用大數(shù)據(jù)開展了“數(shù)據(jù)無邊界運動”等一系列的社會公共服務(wù)。如哈佛大學(xué)公布了由73家圖書館分館提供的1,200多萬種資料,并在美國數(shù)字公共圖書館中提供下載服務(wù);[4]德國數(shù)字圖書館以1,842家圖書館、檔案館和博物館機構(gòu)為支撐,開放在線資源560萬件,并通過API提供元數(shù)據(jù)的自由和免費再利用等。[5]② 開發(fā)更多符合讀者需求的服務(wù)。如韓國文化體育觀光部從2014年開始推動建設(shè)圖書館大數(shù)據(jù)收集、存儲、共享平臺,并幫助各大圖書館開發(fā)更多符合讀者需求的服務(wù)。[6]
國內(nèi)各大圖書館和其他信息機構(gòu)已展開了大數(shù)據(jù)應(yīng)用的探索與嘗試。深圳“圖書館之城”基本實現(xiàn)了深圳市文獻資源的共享和大流通,從文獻外借、讀者群體、閱讀喜好等方面深入分析市民閱讀狀況,并有針對性地加強閱讀引導(dǎo)。[7]上海圖書館基于大量流通數(shù)據(jù)和日志建設(shè)了數(shù)據(jù)倉庫,在此基礎(chǔ)上為讀者制作個人閱讀賬單,提供個性化的年度閱讀總結(jié)和指引,形成流通數(shù)據(jù)白皮書和流通分析報告等。[8]
(1)海量數(shù)據(jù)與高質(zhì)量數(shù)據(jù)獲取困難的矛盾。雖然圖書館的信息數(shù)據(jù)化程度較高,但仍然缺乏基礎(chǔ)數(shù)據(jù)的規(guī)劃、管理和保存機制,數(shù)據(jù)分析困難。① 圖書館早年建設(shè)的信息系統(tǒng)以實用和滿足業(yè)務(wù)需求為主,缺乏周全的統(tǒng)計模塊和日志記錄功能,缺乏對必要數(shù)據(jù)的維護和目的性保存。② 圖書館購買的部分外文數(shù)據(jù)庫由于僅能購買其檢索和文獻下載權(quán)限,而無法獲取可利用、分析的有效訪問數(shù)據(jù)信息。③ 圖書館的服務(wù)一直朝著簡潔化和人性化的方向發(fā)展,因此,很難對用戶的行為進行完整和精準(zhǔn)的記錄。④數(shù)據(jù)質(zhì)量問題。圖書館的許多業(yè)務(wù)數(shù)據(jù)匯集頻率低,而大數(shù)據(jù)項目需要對數(shù)據(jù)進行實時更新,數(shù)據(jù)收集特別是高質(zhì)量數(shù)據(jù)的完整獲取存在困難。
(2)圖書館的公共性與大數(shù)據(jù)強調(diào)個性化的矛盾。大數(shù)據(jù)時代的信息服務(wù)開始向個性化、去中心化、實時化、智慧化方向發(fā)展,[9]注重根據(jù)用戶需求提供個性化定制或者推薦服務(wù)。然而,圖書館的服務(wù)在本質(zhì)上仍是一種“公共品”,公共性、普遍性、均等性是其主要特點。大數(shù)據(jù)所注重的對用戶個性化信息服務(wù)的滿足與圖書館信息服務(wù)的公共性在一定程度上是相悖的。檢索能力較高或經(jīng)常訪問這一網(wǎng)站的用戶需求和行為規(guī)律被記錄下來,大數(shù)據(jù)則依據(jù)用戶行為數(shù)據(jù)的“結(jié)果預(yù)判”來提供相應(yīng)的信息服務(wù),久而久之,那些信息檢索能力較低或偶爾訪問這一網(wǎng)站的用戶其需求則會被忽略,進而影響圖書館信息服務(wù)的公共性。
大數(shù)據(jù)建設(shè)是一項體系復(fù)雜、動態(tài)調(diào)整、多頭并進的系統(tǒng)工程,大數(shù)據(jù)項目在實施之前,應(yīng)做好頂層規(guī)劃,設(shè)定長期建設(shè)目標(biāo)和階段性目標(biāo),并確定每個階段需要收集的數(shù)據(jù)內(nèi)容和類型。以數(shù)據(jù)為基礎(chǔ)、以應(yīng)用為導(dǎo)向,使相互融通、相互支持的數(shù)據(jù)形成聚合效應(yīng),以推動應(yīng)用層的拓展和創(chuàng)新。大數(shù)據(jù)技術(shù)是輔助性工具,而不是決定性工具,因此,圖書館應(yīng)審慎推進大數(shù)據(jù)項目。此外,要深度調(diào)研能否獲得足夠的基礎(chǔ)數(shù)據(jù)支持。如,圖書館資源分析需獲取圖書館實體資源、數(shù)字資源等相關(guān)系統(tǒng)中的資源建設(shè)、發(fā)布和使用情況等數(shù)據(jù)作為支持;用戶滿意度分析需獲取用戶的需求、行為及用戶在網(wǎng)站、自媒體平臺、反饋問卷等渠道的評價等。同時,還要考量當(dāng)前是否具備大數(shù)據(jù)落地的基礎(chǔ)條件,如配套的技術(shù)、數(shù)據(jù)基礎(chǔ)、人才儲備等。
大數(shù)據(jù)平臺一般根據(jù)數(shù)據(jù)的流向自底向上共包括五層,分別為數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)分析層、數(shù)據(jù)訪問層及應(yīng)用層。在同一層次,不同的平臺會采用不同的技術(shù)組件來滿足不同的業(yè)務(wù)場景,因此,選擇大數(shù)據(jù)平臺時應(yīng)結(jié)合自己的業(yè)務(wù)需求。一般來說,大數(shù)據(jù)平臺要具備以下能力:① 多樣化數(shù)據(jù)采集能力,支持對表格、文件、消息等多種類型數(shù)據(jù)的實時增量數(shù)據(jù)采集和批量數(shù)據(jù)分布式采集;② 可視化快速配置能力,提供圖形化的開發(fā)和維護界面,支持圖形化拖拽式開發(fā)和快速接口配置;③ 高效的管理能力,包括應(yīng)用管理和系統(tǒng)管理,能夠?qū)崿F(xiàn)對各類技術(shù)組件的透明訪問,并滿足調(diào)度管理、元數(shù)據(jù)管理、質(zhì)量管理等需求;④ 靈活適應(yīng)不同應(yīng)用類型和數(shù)據(jù)場景,具備合理的基礎(chǔ)架構(gòu),具有恰當(dāng)?shù)慕ㄔO(shè)維護成本和生命周期。
圖書館的數(shù)據(jù)存在于不同的平臺,依附于不同的業(yè)務(wù)流程,數(shù)據(jù)的標(biāo)準(zhǔn)、格式、類型、表現(xiàn)形式和存儲結(jié)構(gòu)千差萬別。在現(xiàn)有技術(shù)條件下,完全收集、整理和處理這些數(shù)據(jù)是一件非常困難的事情。因此,需要制定合理的數(shù)據(jù)價值評估標(biāo)準(zhǔn),按照數(shù)據(jù)重要性進行排序與分類,這樣不僅有利于收集核心數(shù)據(jù),更有利于了解數(shù)據(jù)價值分布情況,方便數(shù)據(jù)的后續(xù)收集保存與使用。一般來說,圖書館的大數(shù)據(jù)采集要涵蓋資源、用戶、服務(wù)等主題,每個主題要有不同的屬性特征。每個屬性特征下有不同的指標(biāo)集,如用戶屬性包括用戶的性別、年齡、職業(yè)、生活地域、文化程度等,每個指標(biāo)項都要有固定的采集頻率、采集方式等。此外,數(shù)據(jù)收集工作除了要采集數(shù)據(jù)外,還要對數(shù)據(jù)進行培養(yǎng),即從大數(shù)據(jù)的角度出發(fā),深入調(diào)研需要哪些數(shù)據(jù)、缺少哪些數(shù)據(jù)、哪些數(shù)據(jù)現(xiàn)階段的精度還不符合實施的需求,從而主動地要求數(shù)據(jù)提供方來補充和生產(chǎn)這些數(shù)據(jù),形成一個循環(huán)可持續(xù)發(fā)展的數(shù)據(jù)體系。
大數(shù)據(jù)項目能否順利實施、充分發(fā)揮作用,深層次看,面臨的主要挑戰(zhàn)不是技術(shù),而是組織和管理。圖書館中的數(shù)據(jù)隸屬于不同的組織部門,要想整合這些數(shù)據(jù),就需要各相關(guān)部門統(tǒng)一樹立開放、共享基礎(chǔ)設(shè)施與數(shù)據(jù)資源的意識,形成標(biāo)準(zhǔn)統(tǒng)一、權(quán)責(zé)清晰的數(shù)據(jù)體系和管理機制。此外,大數(shù)據(jù)項目的實施和運營對圖書館的人才隊伍提出了更高的要求,不僅要有系統(tǒng)架構(gòu)、數(shù)據(jù)倉儲等傳統(tǒng)IT領(lǐng)域的人才,還要有數(shù)據(jù)分析、數(shù)據(jù)挖掘、人工智能、統(tǒng)計學(xué)、數(shù)學(xué)等方面的精英。