吳迎春
(南京圖書館,江蘇 南京 210018)
2011年6月,美國麥肯錫全球研究院發(fā)布《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》,“大數(shù)據(jù)”成為近十年各領(lǐng)域研究的熱點[1]。對圖書館行業(yè)而言,從圖書館集成系統(tǒng)到電子館藏再到圖書館新形態(tài)的進程,見證了圖書館行業(yè)的整體發(fā)展和協(xié)同進步,表明了圖書館對大數(shù)據(jù)等信息技術(shù)與時俱進的依附性和敏感性。尤其是互聯(lián)網(wǎng)+大環(huán)境下,公共文化事業(yè)和文化產(chǎn)業(yè)產(chǎn)生了龐大復(fù)雜的大數(shù)據(jù),大數(shù)據(jù)正在成為推動文化服務(wù)轉(zhuǎn)型的新動力,對社會治理、人民生活將產(chǎn)生重大影響。賦能革新的江蘇省公共圖書館大數(shù)據(jù)服務(wù)平臺(以下簡稱平臺),通過自主研發(fā)和創(chuàng)新,有望為圖書館智慧化服務(wù)和高質(zhì)量發(fā)展提供決策支撐,為資源建設(shè)做出最優(yōu)化管理,為讀者服務(wù)轉(zhuǎn)型提供精準化和智慧化方案,力爭為圖書館及文旅行業(yè)在數(shù)據(jù)開放共享和數(shù)據(jù)資源開發(fā)方面提供借鑒和思考。
我國先后出臺了大數(shù)據(jù)應(yīng)用的相關(guān)政策性文件。2015年,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,將大數(shù)據(jù)的戰(zhàn)略意義提升到國家層面;2016年,江蘇省印發(fā)《江蘇省大數(shù)據(jù)發(fā)展行動計劃》,推動省域內(nèi)大數(shù)據(jù)開發(fā)應(yīng)用;2017年,《江蘇省文化廳“十三五”文化發(fā)展規(guī)劃》提出“加強公共文化大數(shù)據(jù)采集、存儲和分析處理”,以推動公共數(shù)字文化服務(wù)向現(xiàn)代化、科技化、智慧化轉(zhuǎn)型;2019年,文化和旅游部辦公廳印發(fā)《公共數(shù)字文化工程融合創(chuàng)新發(fā)展實施方案》,對建設(shè)公共文化大數(shù)據(jù)平臺和文化大數(shù)據(jù)體系建設(shè)提出明確要求[2];這些文件的印發(fā)對公共圖書館大數(shù)據(jù)應(yīng)用建設(shè)提供了強有力的政策保障。
江蘇省公共圖書館大數(shù)據(jù)服務(wù)平臺能夠?qū)崿F(xiàn)數(shù)據(jù)開放共享目標,主要分三個子系統(tǒng):江蘇省公共圖書館大數(shù)據(jù)館情指標填報系統(tǒng)、江蘇省公共圖書館業(yè)務(wù)數(shù)據(jù)采集系統(tǒng)和江蘇省公共圖書館服務(wù)實時數(shù)據(jù)分析及展示系統(tǒng)。館情指標填報系統(tǒng):已填報江蘇省115家公共圖書館館情指標數(shù)據(jù),以及115家公共圖書館下屬的分館、流通服務(wù)點和基層文化服務(wù)中心的指標數(shù)據(jù)。江蘇省公共圖書館業(yè)務(wù)數(shù)據(jù)采集系統(tǒng):采集Aleph500圖書管理系統(tǒng)、力博圖書管理系統(tǒng)、匯文圖書管理系統(tǒng)和圖創(chuàng)集群圖書管理系統(tǒng)等其他系統(tǒng)數(shù)據(jù),采集圖書館業(yè)務(wù)及第六次全國公共圖書館評估定級標準(省級館、市級館、縣級館和少兒館)指標,采集國家共享工程、推廣工程、公共電子閱覽室建設(shè)工程以及江蘇省級公共數(shù)字文化工程項目的建設(shè)和運行服務(wù)數(shù)據(jù)。實時數(shù)據(jù)分析及展示系統(tǒng):通過大數(shù)據(jù)分析挖掘、可視化展示與接口服務(wù),為全省各級文化主管部門提供圖書館事業(yè)發(fā)展分析與智慧決策服務(wù),為全省公共圖書館提供讀者、資源、館情等多維度分析挖掘,以及為各館開展精準服務(wù)、智慧服務(wù)提供數(shù)據(jù)支持與應(yīng)用。如全省公共圖書館年度閱讀報告、全省公共圖書館年度讀者流量報告、全省公共圖書館公共文化服務(wù)年度報告。數(shù)據(jù)的資源開發(fā)和數(shù)據(jù)的開放共享也為將來供給側(cè)、需求側(cè)、行政管理和監(jiān)督數(shù)據(jù)池的實現(xiàn),進而對深層次文旅融合提供便利。
平臺基礎(chǔ)設(shè)施架構(gòu)于云端,通過阿里云實施整體安全保障。采用最先進的大數(shù)據(jù)分布式集群技術(shù)架構(gòu),應(yīng)用Hadoop技術(shù)作為基礎(chǔ)的數(shù)據(jù)計算平臺體系。通過數(shù)據(jù)ETL處理工具對采集的數(shù)據(jù)進行DES、MD5等加密技術(shù)后分析、清洗、轉(zhuǎn)換、加載與集成,并對各資源、讀者、行為等各類數(shù)據(jù)信息進行數(shù)據(jù)計算與分析[3]。最終實現(xiàn)大數(shù)據(jù)統(tǒng)計分析可視化展現(xiàn),為全省各級文化主管部門提供圖書館事業(yè)發(fā)展分析與智慧決策服務(wù)。
大數(shù)據(jù)實驗室平臺架構(gòu)組成包括基礎(chǔ)設(shè)施層、數(shù)據(jù)采集層、數(shù)據(jù)計算平臺、數(shù)據(jù)應(yīng)用及展示層。
基礎(chǔ)設(shè)施層:包含服務(wù)器、網(wǎng)絡(luò)設(shè)備和基礎(chǔ)物理設(shè)施等。為保障江蘇省公共圖書館服務(wù)大數(shù)據(jù)平臺正常運行,將主機、存儲、備份、網(wǎng)絡(luò)和系統(tǒng)軟件等方面均構(gòu)架于云計算服務(wù)上,利用云服務(wù)的穩(wěn)定性強、響應(yīng)速度快、安全可靠、存儲方便、升級便捷等優(yōu)勢,為大數(shù)據(jù)項目提供最為全面的基礎(chǔ)設(shè)施服務(wù)。
數(shù)據(jù)采集層:通過訪問數(shù)據(jù)庫或開放接口的方式,系統(tǒng)配置與不同數(shù)據(jù)來源、不同存儲形式接口的資源和管理數(shù)據(jù)訪問適配方式,運用ETL工具進行數(shù)據(jù)的抽取、數(shù)據(jù)質(zhì)量的凈化、轉(zhuǎn)換以及最后的數(shù)據(jù)加載處理,此過程中需要對系統(tǒng)涉及的基礎(chǔ)元數(shù)據(jù)內(nèi)容進行事先的整理與維護,為后續(xù)數(shù)據(jù)管理與轉(zhuǎn)換等工作奠定基礎(chǔ)。
數(shù)據(jù)計算平臺:數(shù)據(jù)采集后,會在數(shù)據(jù)倉庫工具Hive中為每個圖書館創(chuàng)建一個與其提供的數(shù)據(jù)庫表結(jié)構(gòu)完全相同的Hive庫,和原始庫形成一個鏡像。把原始庫的數(shù)據(jù)導(dǎo)入到相對應(yīng)的鏡像Hive庫后,在腳本中通過SQL查詢出需要的字段數(shù)據(jù),并將查詢的結(jié)果存入Hbase的一個臨時文件中。然后提取臨時文件進行清洗,并對各類數(shù)據(jù)信息進行數(shù)據(jù)計算與分析。將清洗完成的數(shù)據(jù)保存到每個圖書館原始庫相對應(yīng)的中間庫中,最后將所有圖書館中間庫數(shù)據(jù)匯總到大數(shù)據(jù)匯總庫。對存儲的大數(shù)據(jù)匯總庫內(nèi)容以及填報系統(tǒng)數(shù)據(jù)內(nèi)容,根據(jù)業(yè)務(wù)主題等進行多維度數(shù)據(jù)分析與挖掘。
數(shù)據(jù)應(yīng)用及頁面展示層:系統(tǒng)對數(shù)據(jù)挖掘采用數(shù)據(jù)推薦與挖掘算法進行優(yōu)化調(diào)整,對用戶群體屬性、讀者行為和業(yè)務(wù)主題進行多維度考慮,實現(xiàn)對資源、讀者、流通等數(shù)據(jù)以及館情指標數(shù)據(jù)進行關(guān)聯(lián)分析、個性化分析和多維數(shù)據(jù)分析與挖掘。利用可視化的界面交互方式,提供數(shù)據(jù)分析結(jié)果和查詢內(nèi)容的展現(xiàn)。包括面向Web、移動展示以及大屏幕多種呈現(xiàn)方式的結(jié)果內(nèi)容展示。
公共圖書館在運營過程中產(chǎn)生各種各樣的復(fù)雜數(shù)據(jù),主要有以下三種:一是管理數(shù)據(jù),除了實名認證的讀者數(shù)據(jù),還有微信、微博、微視以及客戶端的用戶數(shù)據(jù),圖書館內(nèi)各端口采集到的人流數(shù)據(jù),公共圖書館整體運營、服務(wù)、發(fā)展數(shù)據(jù)等;二是資源數(shù)據(jù),館藏資源(紙本圖書報刊、音像制品、電子資源和其他資源)、自建資源、外購資源、國家專項資源等;三是業(yè)務(wù)及服務(wù)數(shù)據(jù),包括圖書館在日常中產(chǎn)生的各類業(yè)務(wù)統(tǒng)計數(shù)據(jù),館內(nèi)外舉辦的讀者活動數(shù)據(jù),讀者訪問、檢索、借閱服務(wù)以及各服務(wù)端口產(chǎn)生的服務(wù)數(shù)據(jù)等[4]。
采集全省公共圖書館及基層服務(wù)點的基本數(shù)據(jù)、館情數(shù)據(jù)、業(yè)務(wù)及服務(wù)數(shù)據(jù),而現(xiàn)實中這些數(shù)據(jù)依附于不同的平臺、存儲在不同地方、歸屬不同部門,導(dǎo)致數(shù)據(jù)匯集困難,通過建立省級公共圖書館大數(shù)據(jù)中心有效解決這個問題[5]。首先,開發(fā)支持抓取系統(tǒng)數(shù)據(jù)的軟件工具,支持實時或定時、全量或增量采集數(shù)據(jù);數(shù)據(jù)采集對原數(shù)據(jù)庫、原始數(shù)據(jù)不作任何改動且不得影響原系統(tǒng)的運行性能、安全性和穩(wěn)定性;其次,在數(shù)據(jù)采集傳輸?shù)倪^程中,需要保證數(shù)據(jù)的安全性、完整性,不可篡改性,而且高效到達大數(shù)據(jù)中心。除了行業(yè)數(shù)據(jù),也要對公眾社交數(shù)據(jù)、互聯(lián)網(wǎng)輿情數(shù)據(jù),產(chǎn)品反饋數(shù)據(jù)以及市場監(jiān)管等數(shù)據(jù)進行采集分析評價;最后,根據(jù)目標要求,對采集的數(shù)據(jù)進行綜合性處理。
依據(jù)業(yè)務(wù)需求進行針對性的開發(fā)處理:一是開發(fā)業(yè)務(wù)統(tǒng)計分析系統(tǒng)。支持分級分主題統(tǒng)計權(quán)限控制,能針對單個圖書館、指定區(qū)域內(nèi)的圖書館群進行統(tǒng)計分析,滿足各級文化主管部門、各級圖書館管轄范圍內(nèi)的統(tǒng)計分析需求;支持通過可視化界面定制和展示統(tǒng)計分析結(jié)果,統(tǒng)計至少包括保障、讀者、資源、服務(wù)等幾大主題指標體系;支持統(tǒng)計結(jié)果的移動端、大屏端、HTML5等可視化展示;二是提供第三方應(yīng)用開發(fā)所需的各類標準數(shù)據(jù)接口(API)服務(wù)平臺,滿足全省讀者認證服務(wù)、全省文獻館藏(書目)數(shù)據(jù)服務(wù)、全省服務(wù)大數(shù)據(jù)分析等應(yīng)用服務(wù)的開發(fā)需求。數(shù)據(jù)接口支持敏感數(shù)據(jù)(照片、身份證、手機號、密碼等)的加密傳輸和模糊化處理,以保護個人隱私和數(shù)據(jù)安全;三是對接江蘇省智慧文旅平臺,以數(shù)據(jù)為支撐,推動文旅的深度融合,豐富文化內(nèi)容,創(chuàng)新文化產(chǎn)品,滿足大眾對文旅的新需求。
依托平臺建設(shè),充分利用圖書館大數(shù)據(jù)的挖掘、分析、展示和服務(wù),驅(qū)動圖書館服務(wù)轉(zhuǎn)型發(fā)展。
轉(zhuǎn)變服務(wù)主客形態(tài),將服務(wù)由被動轉(zhuǎn)為主動。一方面提供公共圖書館大數(shù)據(jù)分析及展示服務(wù):一是發(fā)布實時數(shù)據(jù),實時提供全省公共圖書館運行服務(wù)數(shù)據(jù),供各級主管部門、圖書館在大屛、移動終端、門戶上進行大數(shù)據(jù)發(fā)布,如客流量、外借量、辦證量等數(shù)據(jù);二是事業(yè)發(fā)展報告,按月、季、半年、年發(fā)布江蘇省公共圖書館主要業(yè)務(wù)指標統(tǒng)計分析報告,主要業(yè)務(wù)指標包括面積、人員、經(jīng)費、館藏文獻、讀者數(shù)量、到館人次、文獻流通和讀者活動等;三是業(yè)務(wù)分析報告,提供全省文獻資源、讀者和服務(wù)的多維度深度分析報告,包括全省、單個地區(qū)和單個圖書館為對象的總量分析和趨勢分析報告,多個地區(qū)之間、多個同等級或同類型圖書館之間比較分析報告。借助大數(shù)據(jù)分析報告,助力文化主管部門和圖書館對事業(yè)發(fā)展作出科學(xué)決策。目前,上述的實時數(shù)據(jù)、事業(yè)發(fā)展報告、業(yè)務(wù)分析報告都已開發(fā)完成,成果已提交給文化主管部門和相關(guān)機構(gòu)。后續(xù)將根據(jù)反饋的意見或要求,實時調(diào)整,及時滿足服務(wù)需求。另一方面大數(shù)據(jù)是文化發(fā)展的資源,是創(chuàng)新驅(qū)動的底層器件。要真正實現(xiàn)在政府、圖書館、社會公眾之間的共享。需要通過權(quán)威平臺發(fā)布相關(guān)的數(shù)據(jù)成果,建立標準的評價體系,推廣應(yīng)用成果,用大數(shù)據(jù)重構(gòu)文化事業(yè)、文化產(chǎn)業(yè)新格局。
黨的十九屆五中全會明確指出要堅定不移建設(shè)“制造強國、質(zhì)量強國、網(wǎng)絡(luò)強國、數(shù)字中國”,這為圖書館高質(zhì)量發(fā)展創(chuàng)造新環(huán)境和新機遇??缕浇淌凇豆矆D書館高質(zhì)量發(fā)展的十個新主題》文章中提出數(shù)據(jù)管理和大數(shù)據(jù)服務(wù)作為主題之一,數(shù)據(jù)機遇就是圖書館轉(zhuǎn)型發(fā)展的新機遇。實驗室的建設(shè)基于大數(shù)據(jù)統(tǒng)計分析結(jié)果、讀者畫像、資源畫像和整體畫像,為圖書館提出具體的業(yè)務(wù)改進方案,為廣大讀者提供個性化、精準化、智慧化服務(wù),為文化主管部門提供決策支撐服務(wù),助推圖書館高質(zhì)量發(fā)展。主要表現(xiàn)成果如下:一是依據(jù)評估定級標準、現(xiàn)代公共文化服務(wù)體系建設(shè)等標準,幫助對應(yīng)圖書館進行指標分析,尋找差距,并制定相應(yīng)整改方案;二是幫助對應(yīng)圖書館進行館藏結(jié)構(gòu)和讀者需求分析,為完善館藏結(jié)構(gòu)和文獻采購提供科學(xué)方案,包括各類圖書的種、冊數(shù)量比例,期刊的種、冊數(shù)量比例,復(fù)本數(shù)建議,數(shù)字資源薦購方案等;三是幫助對應(yīng)圖書館進行服務(wù)效能分析,尋找影響服務(wù)效能的主要因素,并提出改進方案和措施;四是為文化傳播搭建高效、快捷的平臺。能夠弘揚優(yōu)秀傳統(tǒng)文化,創(chuàng)新服務(wù)方式,推動全民閱讀,更好地滿足人民美好生活的需求。
開放共享圖書館數(shù)據(jù)價值,為政策制定、公共服務(wù)、文化傳播、社會治理等提供強有力的數(shù)據(jù)支撐,成為文旅深度融合最可靠的底層器件。一是突出區(qū)域文化旅游資源特色,打破政府、文旅企業(yè)的數(shù)據(jù)壁壘,實現(xiàn)對文旅產(chǎn)業(yè)的高效管理、對游客的高質(zhì)量公共服務(wù);二是構(gòu)建文化旅游身份的認同,旅游通過數(shù)據(jù)溯源,強化文化的身份符號。文旅深度結(jié)合通俗說就是講好故事,將文化記憶根植于旅游的行程中,使文化和旅游交融。
大數(shù)據(jù)構(gòu)建是一項體系龐大、結(jié)構(gòu)復(fù)雜、動態(tài)調(diào)整、多方協(xié)作的系統(tǒng)性工程。一方面公共圖書館在大數(shù)據(jù)建設(shè)時要依托國家政策,做好頂層設(shè)計,把握引領(lǐng)方向。一是響應(yīng)“一帶一路”政策引領(lǐng),公共圖書館要勇于擔(dān)當(dāng)社會職能,助力“一帶一路”人類命運共同體建設(shè),發(fā)揮智治和特色資源支撐作用;二是貫徹“創(chuàng)新、協(xié)調(diào)、綠色、開放、共享”的新發(fā)展理念,滿足群眾日益增長的多層次多方面多樣化美好生活需求,作為公共圖書館發(fā)展的方向和著力點。另一方面依托國家政策,加大專項經(jīng)費的投入。大數(shù)據(jù)構(gòu)建是一項系統(tǒng)性工程,基礎(chǔ)層面投入非常大,需要專業(yè)的技術(shù)人員、多方的協(xié)同合作和大量的專項資金支持。
既采集行業(yè)數(shù)據(jù),也要對公眾社交數(shù)據(jù)、互聯(lián)網(wǎng)輿情數(shù)據(jù),產(chǎn)品反饋數(shù)據(jù)以及市場監(jiān)管等數(shù)據(jù)進行采集評價。一般來說平臺會結(jié)合自身的業(yè)務(wù)要求采用不同的技術(shù)組件來滿足不同業(yè)務(wù)場景且具備以下能力:①多樣化的數(shù)據(jù)采集能力,無論是管理數(shù)據(jù)、資源數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù),還是圖片、文件、表格等多種類型數(shù)據(jù)的實時或定時、全量或增量數(shù)據(jù)采集;②支持可視化界面定制,提供開發(fā)應(yīng)用所需的各類標準數(shù)據(jù)接口服務(wù);③能夠快速調(diào)整和適應(yīng)不同業(yè)務(wù)場景,具備科學(xué)、合理的基礎(chǔ)架構(gòu);④具有科學(xué)的管理體系和高效的評價反饋機制,形成可持續(xù)發(fā)展體系,保障建設(shè)維護和生命力。
公共圖書館大數(shù)據(jù)的應(yīng)用,從表象上看是技術(shù)決定結(jié)局,但從深層分析,面臨的挑戰(zhàn)不僅僅是技術(shù),而是人才和管理。人才是基礎(chǔ)、技術(shù)是關(guān)鍵、管理是保障。公共圖書館中的數(shù)據(jù)來自不同平臺、不同部門和不同機構(gòu),他們之間屬于業(yè)務(wù)上的指導(dǎo)與被指導(dǎo)關(guān)系,不存在行政級別的上下級關(guān)系。所以就需要各相關(guān)機構(gòu)、各部門樹立共建共享的意識,達成規(guī)范的標準體系,形成權(quán)責(zé)清晰的管理機制。大數(shù)據(jù)項目實施要夯實配套設(shè)施如設(shè)備、環(huán)境等,提高人才要求(除了IT人才,還需要人工智能、統(tǒng)計分析等),提升管理者的專業(yè)水準和能力。
大數(shù)據(jù)應(yīng)用越來越廣泛,公共圖書館行業(yè)要結(jié)合國內(nèi)外的相關(guān)規(guī)范標準,可參考《中華人民共和國計算機信息系統(tǒng)安全保護條例》《通信網(wǎng)絡(luò)安全防護管理辦法》和《信息安全技術(shù)大數(shù)據(jù)安全管理指南》(GB/T37973—2019)等,建立適合自身發(fā)展的安全體系,做好大數(shù)據(jù)安全管理、風(fēng)險評估,有效安全地使用大數(shù)據(jù)[6]。同時在公共圖書館發(fā)展過程中,不斷借鑒最新的制度標準,合理合規(guī)地調(diào)整更新,從人員、設(shè)備和制度“三位一體”確保數(shù)據(jù)信息安全。
大數(shù)據(jù)已經(jīng)參與到人們生活、工作和學(xué)習(xí)的方方面面,江蘇省公共圖書館大數(shù)據(jù)服務(wù)平臺服務(wù)效能初顯。二期項目會從跨層級、跨區(qū)域、跨行業(yè)橫向和縱向業(yè)務(wù)的協(xié)同管理和服務(wù)轉(zhuǎn)型,同時考慮諸如地理、氣象,商業(yè)信息的融合,提升圖書館服務(wù)效能,進一步滿足讀者對美好閱讀服務(wù)尤其是對圖書館大數(shù)據(jù)服務(wù)的需要和向往。圖書館大數(shù)據(jù)應(yīng)用研究任重道遠,爭取實現(xiàn)有價值的數(shù)據(jù)開放和服務(wù)轉(zhuǎn)型,提高大數(shù)據(jù)轉(zhuǎn)化和使用能力,推動公共圖書館新時期高質(zhì)量發(fā)展。