顧 婷 郭春淼
(云南大學歷史與檔案學院 云南昆明 650091 )
2015年9月,國務院印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》中提出,“大數(shù)據(jù)”已經(jīng)上升為國家級的發(fā)展戰(zhàn)略。經(jīng)過四年的發(fā)展,大數(shù)據(jù)已逐漸向各行各業(yè)、各個領域延伸,云計算、人工智能、區(qū)塊鏈、5G等新技術的發(fā)展也與大數(shù)據(jù)密不可分,共同改變了人類生活的各個領域。2018年4月,工信部總工程師張峰指出,目前,全球大數(shù)據(jù)進入到加速發(fā)展時期,數(shù)據(jù)總量逐年增長50%。Jim Gray博士[1]談到,目前我們正步入數(shù)據(jù)密集型的第四范式,關于大數(shù)據(jù)驅(qū)動的研究主要是面向個體化、全樣本的發(fā)現(xiàn)和預測研究。2018年米加寧等人[2]認為,“大數(shù)據(jù)”作為第四研究范式,破除了傳統(tǒng)社會科學目標弱化、學科學派對立、數(shù)據(jù)質(zhì)量良莠不齊和統(tǒng)計偏誤的四大局限性,給現(xiàn)今的社會科學研究奠定了更高的數(shù)據(jù)起點和更廣闊的方法論。
數(shù)據(jù)驅(qū)動是指通過移動互聯(lián)網(wǎng)或者其他的相關軟件為手段采集海量的數(shù)據(jù),將數(shù)據(jù)進行組織,在形成信息以后,對有用的信息進行整合和凝練,在數(shù)據(jù)的基礎上經(jīng)過訓練和擬合形成自動化的決策模型。換言之,數(shù)據(jù)驅(qū)動是由數(shù)據(jù)激發(fā)信息的過程或活動,不是僅憑直覺或個人經(jīng)驗形成信息的簡單范式。數(shù)據(jù)驅(qū)動包括三個特征:海量的數(shù)據(jù)、自動化的業(yè)務和強大的模型支持自動化決策。
雖然關于數(shù)據(jù)驅(qū)動下圖書館的研究已成為近年來圖情領域的研究熱點之一,甚至有些圖書館宣稱已經(jīng)實現(xiàn)了數(shù)據(jù)驅(qū)動,但是大部分的圖書館只是以數(shù)據(jù)為中心進行決策,并非真正地實現(xiàn)了圖書館的數(shù)據(jù)驅(qū)動。
2013年,田野、祝忠明[3]提出了一種關聯(lián)數(shù)據(jù)驅(qū)動的數(shù)字圖書推薦模型,給用戶提供了跨數(shù)據(jù)源的信息推薦服務。首先,將圖書館的內(nèi)部數(shù)據(jù)和外部相關的關聯(lián)數(shù)據(jù)相結合,再根據(jù)圖書館信息資源各自的特征,構建出用戶社會關系和數(shù)字圖書兩大語義本體知識庫;其次,時時觀察用戶對圖書瀏覽的頻率和頻次,針對不同的用戶采取不同的推薦手段,最終實現(xiàn)用戶推薦服務的全方位覆蓋。
2018年,洪亮等人[4]以大數(shù)據(jù)驅(qū)動為主要視角, 以圖書館的業(yè)務流程為導向,提供了圖書館智慧信息服務體系建構的思路,構建出大數(shù)據(jù)驅(qū)動下圖書館智慧信息服務體系。
2019年,曹樹金等人[5]談到,圖書館大數(shù)據(jù)系統(tǒng)的構建結構包括:多來源的數(shù)據(jù)采集層、數(shù)據(jù)預處理與存儲層、精準化的數(shù)據(jù)分析建模層和支持精準化的管理與服務的應用層等自下而上的四個層次,以求為讀者提供精準化的服務。同年,杭哲、李芙蓉[6]在基于關聯(lián)數(shù)據(jù)技術建構參考咨詢服務新模式的基礎上,通過關聯(lián)數(shù)據(jù)來實現(xiàn)圖書館信息資源的精準化、結構化以及關聯(lián)化的數(shù)據(jù)整合, 優(yōu)化已有模式中的各個環(huán)節(jié),增加統(tǒng)計分析模塊,用以改善虛擬的咨詢服務方式,提高圖書館參考咨詢的服務質(zhì)量。
2008年,王學熙[7]對我國公共圖書館服務體系的基本特征和現(xiàn)狀進行了分析,提出公共圖書館具有形態(tài)性、公益性和社會性等特征,闡述了五種不同的公共圖書館服務體系建設模式。
2012年,李巖等人[8],從需求導向的角度出發(fā),在了解和分析信息需求、服務要素以及服務方式的基礎上,構建出框架結構全面地描述和提出健康信息服務多元化服務模式,為我國公共圖書館共享現(xiàn)有的服務經(jīng)驗與成果、加強和規(guī)劃未來的服務提供參考。
2016年,王敏[9]將大數(shù)據(jù)與小數(shù)據(jù)進行對比,研究了小數(shù)據(jù)思維在公共圖書館信息服務上應用的重要性,從小數(shù)據(jù)的服務原則、服務流程和服務措施三個方面,提出了公共圖書館信息的服務模式。
綜上所述,雖然數(shù)據(jù)驅(qū)動下公共圖書館的研究已經(jīng)有了一定成果,但當前大多數(shù)的公共圖書館即使在服務模式和服務創(chuàng)新等方面展開了非常深入的嘗試,也提出了數(shù)據(jù)驅(qū)動圖書館系統(tǒng)模型的構建,但仍然存在一定的問題。本文在發(fā)現(xiàn)和分析問題的基礎上,為公共圖書館數(shù)據(jù)驅(qū)動下的信息服務發(fā)展提出相應的解決措施。
在大數(shù)據(jù)時代,以大量數(shù)據(jù)為基礎的現(xiàn)代化圖書館會比傳統(tǒng)圖書館更為科學、高效[10]。但是研究發(fā)現(xiàn),數(shù)據(jù)孤島化問題一直是圖書館實現(xiàn)數(shù)據(jù)驅(qū)動的最大難題,這一難題使得公共圖書館的“數(shù)據(jù)驅(qū)動”變?yōu)榭照劇?/p>
首先是數(shù)據(jù)擁有者之間存在孤島化問題。大數(shù)據(jù)時代的到來,使得其在各個學科領域形成了全方位滲透,學科間跨界融合不斷加深,用戶所求的信息服務往往需要跨學科的數(shù)據(jù),但是由于商業(yè)領域信息不對稱性帶來的巨大經(jīng)濟效益,政府領域數(shù)據(jù)存在較大的安全隱患,科研領域數(shù)據(jù)往往分散在各個研究者的手中,所以大量數(shù)據(jù)仍然集中在政府、互聯(lián)網(wǎng)企業(yè)、數(shù)據(jù)商和各個科研機構手中。近年來,全國各級政府貫徹執(zhí)行國務院頒布的《促進大數(shù)據(jù)發(fā)展行動綱要》,初步搭建了各級政府的大數(shù)據(jù)平臺系統(tǒng),但是在商業(yè)、數(shù)據(jù)商、個人數(shù)據(jù)等方面,由于缺乏統(tǒng)一的共享機制,導致這些數(shù)據(jù)擁有者之間形成一個個“數(shù)據(jù)孤島”,在采集數(shù)據(jù)方面有一定的難度。就公共圖書館而言,各個省市公共圖書館大多仍是獨立采購資源,獨立管理資源,獨立提供信息檢索服務。
其次是數(shù)據(jù)系統(tǒng)處理流程存在孤島化問題。由于數(shù)據(jù)系統(tǒng)在環(huán)節(jié)間沒有形成自動化對接、數(shù)據(jù)跨系統(tǒng)且圖書館員缺位的情況下,環(huán)節(jié)與環(huán)節(jié)之間存在不同的斷裂處。當一個環(huán)節(jié)結束或出錯,該系統(tǒng)便失去了對流程的掌控,導致圖書館無法為用戶提供更好的數(shù)據(jù)服務。目前而言,雖然在大數(shù)據(jù)利用方面,圖書館標榜以用戶為中心,以數(shù)據(jù)為驅(qū)動,但大多數(shù)圖書館尤其是公共圖書館尚未形成數(shù)據(jù)驅(qū)動的閉環(huán),仍需要人力的操縱和決策,而且數(shù)據(jù)決策難免會摻雜個人意志;只要用戶信息服務系統(tǒng)在某一環(huán)節(jié)的節(jié)點缺位和失誤,數(shù)據(jù)流程就會產(chǎn)生斷裂或錯誤的風險,這對公共圖書館產(chǎn)生的大量數(shù)據(jù)無疑是一種資源浪費。
傳統(tǒng)的數(shù)據(jù)庫是利用單個服務器來實現(xiàn)儲存和處理信息的需求,但是當數(shù)據(jù)量增大時,一臺服務器無法滿足信息處理的需求,這就需要增加更多的服務器,然而隨著近年來數(shù)據(jù)急劇增加、分區(qū)復雜化、服務器的故障率和服務器費用提高,無形中給公共圖書館的數(shù)據(jù)信息服務造成極大的壓力。海量數(shù)據(jù)不僅考驗著公共圖書館如何進行儲存,還考驗著圖書館如何對數(shù)據(jù)進行高效、快速、實時的處理。當今社會,數(shù)據(jù)量龐大、分布廣、格式多、真假混雜,且每時每刻都在急速增加。在數(shù)據(jù)驅(qū)動的背景下,公共圖書館亟需使用更先進的技術方法來進行數(shù)據(jù)管理。滿足上述需求的數(shù)據(jù)庫不僅需要巨大的儲存空間、較低的費用,還要能夠高效地進行數(shù)據(jù)處理、分析以及提供相應的數(shù)據(jù)服務。這些需求已經(jīng)遠遠超出用來處理結構化、關系型數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)庫能夠處理的范圍。
根據(jù)專家學者在數(shù)據(jù)驅(qū)動方面的研究[11],構建的公共圖書館的大數(shù)據(jù)體系框架,大致分為四個層次:數(shù)據(jù)采集層→數(shù)據(jù)處理和集成層→數(shù)據(jù)建模和分析層→數(shù)據(jù)服務層→用戶(如圖1所示)。但是由于這個系統(tǒng)缺少數(shù)據(jù)反饋層,使得系統(tǒng)無法收集反饋數(shù)據(jù),從而無法自動進行系統(tǒng)的評估并進行系統(tǒng)優(yōu)化和迭代升級。新的情況和需求發(fā)生時,僅僅依靠圖書館員的個人經(jīng)驗來處理,造成信息資源使用完畢后無法對未來的使用提供有用數(shù)據(jù)。用戶為什么使用該信息資源、使用時做了什么操作、是否解決了問題、使用該資源的用戶群體有無類似條件、能否為后來使用者提供借鑒等等,這些都是可以供系統(tǒng)優(yōu)化、提高服務的寶貴的數(shù)據(jù)。因此,就需要一個不僅能對數(shù)據(jù)進行實時采集,對數(shù)據(jù)進行自動處理、分析和輸出使用,還要對系統(tǒng)進行評估和反饋、對分析方法和模型進行優(yōu)化的系統(tǒng)(如圖2所示)。
圖2 持續(xù)不斷的數(shù)據(jù)驅(qū)動閉環(huán)系統(tǒng)
基于數(shù)據(jù)驅(qū)動閉環(huán)系統(tǒng),筆者刻畫出具體的數(shù)據(jù)驅(qū)動圖書館系統(tǒng)處理流程(如圖3所示)。公共圖書館通過對線上、線下及第三方數(shù)據(jù)進行采集,將采集到的數(shù)據(jù)進行處理與集成之后,建立相應的用戶標簽和數(shù)據(jù)模型,對數(shù)據(jù)進行可視化分析,可視化分析結果提供給用戶形成圖書館的數(shù)據(jù)服務,用戶又將數(shù)據(jù)反饋給圖書館,形成一個良性的閉環(huán)結構。
圖3 數(shù)據(jù)驅(qū)動圖書館系統(tǒng)處理流程
2017年8月,文化部印發(fā)的《“十三五”時期公共數(shù)字文化建設規(guī)劃》中提出,要大力推動全國文化信息資源共享工程的進程。在政府的大力支持下,公共圖書館應該牢牢抓住機遇,積極投身于信息資源的共享工程中去。各級公共圖書館首先應當進行數(shù)據(jù)資源整合,打破公共圖書館之間的數(shù)據(jù)界限,與政府合作,研究出統(tǒng)一的框架。其次,要將公共圖書館獨立采購、獨立管理、獨立服務的模式改為由統(tǒng)一的數(shù)據(jù)格式、技術標準組成的數(shù)據(jù)共享平臺,并且能夠接入政府信息資源共享系統(tǒng),激勵和引導各類數(shù)據(jù)持有者加入信息資源共享平臺。再次,要對數(shù)據(jù)進行融合,通過數(shù)據(jù)清洗、噪點消除、缺點補充等技術處理,生成ID儲存于統(tǒng)一的數(shù)據(jù)資源中心。最后,由于數(shù)據(jù)資源中心里涉及到國際、企業(yè)、機構和個人的信息安全和隱私,所以在對數(shù)據(jù)共享、開發(fā)時,應制定嚴格的制度管理規(guī)定,對數(shù)據(jù)設立安全等級,對數(shù)據(jù)的管理和使用形成規(guī)范化管理,尤其是對USB、打印設備等外接設備,要防止數(shù)據(jù)感染和泄露。
公共圖書館是獨立于數(shù)據(jù)利益相關者外的第三方機構,所以對數(shù)據(jù)應承擔監(jiān)管者的角色,對數(shù)據(jù)的歸屬提供證明,保護數(shù)據(jù)提供者的權益。公共圖書館還應定期召開數(shù)據(jù)共享技術大會,邀請各類館員和專家學者探討新技術、新成果和發(fā)展建議,為數(shù)據(jù)共享平臺建言獻策,從而解決公共圖書館存在的數(shù)據(jù)孤島問題。
Hadoop框架是一個能夠?qū)A繑?shù)據(jù)信息進行分布式處理的軟件框架,形成了擴充力強、成本低廉、效率高以及可靠性強等特點,目前已成為許多大型公司、科研機構等用于處理大數(shù)據(jù)的主流工具。Hadoop以HDFS(儲存)和MapReduce(計算)為核心。其中,HDFS可以協(xié)同多臺服務器共同實現(xiàn)海量數(shù)據(jù)存儲的目標。而MapReduce則是對離線大數(shù)據(jù)進行處理,它的計算過程被封裝得很好,用戶只需使用簡單的map和reduce函數(shù)就可以對數(shù)據(jù)信息加以處理,將數(shù)據(jù)集的大規(guī)模操作分發(fā)給網(wǎng)絡上的各個節(jié)點,每個節(jié)點進行周期性的工作反饋,直到任務結束,由此實現(xiàn)數(shù)據(jù)處理的可靠性。通過使用Hadoop框架,公共圖書館就能解決數(shù)據(jù)驅(qū)動背景下產(chǎn)生的數(shù)據(jù)使用問題,對公共圖書館的數(shù)據(jù)信息進行有效存儲和處理,打通數(shù)據(jù)使用的各個環(huán)節(jié),提高公共圖書館數(shù)據(jù)信息的利用效率,提高公共圖書館的用戶服務水平。
數(shù)據(jù)反饋是實現(xiàn)公共圖書館數(shù)據(jù)信息系統(tǒng)閉環(huán)的關鍵部分。數(shù)據(jù)驅(qū)動環(huán)境下,傳統(tǒng)的解析方法不足以滿足數(shù)據(jù)反饋的需求。因此,在系統(tǒng)面向用戶的服務結束之后,對系統(tǒng)使用效果構建評估優(yōu)化模型就顯得至關重要。本文設計了公共圖書館基于分群標簽閉環(huán)系統(tǒng)的反饋系統(tǒng)(如圖4所示)。
圖4 數(shù)據(jù)反饋層模型框架
閉環(huán)(閉環(huán)結構),也稱為“反饋控制系統(tǒng)”,是把系統(tǒng)輸出量的測量值與其期望的給定值做比較,從而產(chǎn)生的偏差信號,通過調(diào)節(jié)控制此偏差信號,讓輸出值無限趨近于期望值。在公共圖書館信息服務閉環(huán)中,該系統(tǒng)將自動收集公共圖書館的各項數(shù)據(jù),按照數(shù)據(jù)模型進行分析處理,服務于用戶,然后收集反饋數(shù)據(jù),對新的數(shù)據(jù)進行自動分析,圖書館員只需對現(xiàn)有數(shù)據(jù)和期望數(shù)據(jù)進行比較,調(diào)整偏差使之接近與符合期望值,形成一個閉環(huán)。數(shù)據(jù)驅(qū)動只有在實現(xiàn)閉環(huán)的情況下才能更好地完成數(shù)據(jù)的自動流通,將大數(shù)據(jù)融合進圖書館信息服務系統(tǒng)的全流程并形成閉環(huán),不僅將圖書館員從海量的數(shù)據(jù)中解放出來,也解決了信息服務周期長、效率低的問題,提高了圖書館信息服務的水平。
(1)用戶服務。首先根據(jù)公共圖書館已有的信息屬性,將信息按屬性進行分類,構建信息特征矩陣,其后根據(jù)用戶注冊的信息以及歷史行為數(shù)據(jù),建構出用戶目標矩陣,再針對用戶目標矩陣,生成相應的向量以及向量距離近的相鄰用戶,用當前用戶目標矩陣和相鄰用戶的目標信息進行對比,融合后形成新的用戶服務矩陣,構建用戶畫像。根據(jù)用戶畫像制定特殊的信息服務,然后將數(shù)據(jù)挖掘的結果通過直方圖、詞云圖和關系圖譜等進行可視化展示,得出結果后加入用戶的數(shù)據(jù)信息反饋,并根據(jù)用戶的數(shù)據(jù)信息反饋做出系統(tǒng)改進和優(yōu)化。
(2)效果評價。ASCI美國顧客滿意度指數(shù)模型具有模型設計簡潔、顧客滿意界定和表示變量設計合理的優(yōu)點。本文在借鑒ASCI的基礎上,構建了公共圖書館信息服務用戶的滿意模型(如圖5所示),設立了用戶期望、感知質(zhì)量、用戶滿意度、用戶抱怨以及用戶忠誠五個變量。
圖5 公共圖書館信息服務用戶滿意度模型
(3)智能反饋。平均絕對誤差(Mean Absolute Error,MAE)是推薦算法領域常用的評價,用它作為評價標準,將所有單個信息服務預測評分和用戶真實評分做差,求出差的絕對值的平均。平均絕對差可以避免誤差相互抵消,用來反映算法的合理性。根據(jù)服務評價、用戶數(shù)據(jù)和行為數(shù)據(jù)是否滿足期望值,進行算法和數(shù)據(jù)用戶優(yōu)化,得到反饋數(shù)據(jù),然后將反饋數(shù)據(jù)發(fā)送給數(shù)據(jù)采集環(huán)節(jié)。
當用戶使用系統(tǒng)時,根據(jù)用戶信息和歷史行為按策略規(guī)則構成用戶服務矩陣生成觸發(fā)配置;不同的觸發(fā)配置在觸發(fā)器中有不同的觸發(fā)方式,根據(jù)觸發(fā)條件的方式進行標簽篩選,并根據(jù)標簽提供相應的信息服務,比如個性化推薦、需求猜測等服務;服務完成之后,系統(tǒng)彈出服務評價界面,通過設置的選項和留言收集用戶評價,自動分析觸發(fā)效果,智能反饋到用戶服務系統(tǒng)進行算法優(yōu)化和數(shù)據(jù)存儲,工作人員也可以根據(jù)期望進行手動調(diào)節(jié),形成自動化、精細化的公共圖書館用戶信息服務閉環(huán)。
數(shù)據(jù)驅(qū)動環(huán)境下,數(shù)據(jù)密集型范式改變了傳統(tǒng)研究方法,也推動了圖書情報領域的方法論變革。在數(shù)據(jù)信息日益密集的情況下,給用戶提供效率高、精準化、服務優(yōu)的信息服務系統(tǒng)也越來越重要。本文通過總結圖書館在大數(shù)據(jù)環(huán)境下的系統(tǒng)處理流程研究的基礎上,指出了系統(tǒng)處理流程存在的不足之處,提出了公共圖書館信息服務閉環(huán)系統(tǒng)的概念,分析了系統(tǒng)實現(xiàn)的條件和系統(tǒng)的構建思路,從而提高公共圖書館的用戶信息服務水平和質(zhì)量。