摘? 要:隨著信息技術應用的創(chuàng)新與發(fā)展,圖書館的服務模式逐漸從數(shù)字圖書館向智慧圖書館過渡。對圖書館業(yè)務數(shù)據、管理數(shù)據、用戶數(shù)據等大數(shù)據的采集、組織和分析在圖書館服務創(chuàng)新中的作用日益凸顯。明晰智慧圖書館用戶智慧服務需求、數(shù)據挖掘、數(shù)據管理和用戶隱私保護的邏輯關系,從用戶數(shù)據服務價值、數(shù)據安全重要性和數(shù)據安全保護策略三個方面提出智慧服務背景下的數(shù)據安全與保護問題。
關鍵詞:智慧圖書館;用戶研究;隱私權保護;數(shù)據挖掘
中圖分類號:TP391.3;TP311.1? ? ? ? ? ? ? ?文獻標識碼:A 文章編號:2096-4706(2021)01-0109-04
Research on User Data Mining and Protection Strategy in the Context of Smart Service
——Take Smart Library as an Example
LI Hui
(Xian Aeronautical University Library,Xian? 710077,China)
Abstract:With the innovation and development of application of information technology,the service model of the library has gradually transitioned from a digital library to a smart library. The collection,organization and analysis of big data such as library business data,management data and user data play an increasingly important role in library service innovation. This paper clarifies the logical relationship among smart service needs,data mining,data management and user privacy protection of smart library users,and puts forward data security and protection issues under the background of smart service from three aspects of user data service value,data security importance and data security protection strategy.
Keywords:smart library;user research;privacy protection;data mining
0? 引? 言
隨著信息技術的創(chuàng)新與發(fā)展,大數(shù)據、人工智能、物聯(lián)網、云計算等新技術被廣泛應用于各行各業(yè)。技術的升級改造推動了服務品位的提升。智慧服務的理念不斷深入人心,圖書館的智慧服務也從理論研究走向具體實踐。
芬蘭學者Aittola提出“智慧圖書館(Smart Library)”的概念,智慧圖書館是一個不受時空限制且可被感知的移動圖書館[1]。圖書館學者們從用戶服務的角度出發(fā),秉承文化傳遞和育人職責,遵從智慧服務的感知性、互聯(lián)性、智能化特征,在物理空間、虛擬空間、資源空間等多維方向進行有機結合,不斷滿足用戶的情景式需求,創(chuàng)新個性化服務,提高服務精準度,并對用戶數(shù)據進行全面深入的挖掘與分析,在不斷的創(chuàng)新中實現(xiàn)智慧圖書館的發(fā)展。
國內學者們也致力于從數(shù)據挖掘的不同實踐領域,研究體現(xiàn)智慧服務中數(shù)據挖掘應用對于圖書館提高精準服務的有效性和必要性。陳丹[2]提出通過用戶畫像數(shù)據分析與利用提升高校圖書館的智慧服務能力。王衛(wèi)霞[3]將用戶借閱數(shù)據的分析應用于用戶決策采購中。
智慧圖書館的用戶數(shù)據在被挖掘利用的同時,數(shù)據管理的技術難度與責任也隨之增加,數(shù)據安全保護已成為智慧服務中不可規(guī)避的重點。通常圖書館每年會對讀者利用圖書館的軌跡、行為數(shù)據進行大數(shù)據分析,智慧圖書館迫切需要解決讀者隱私數(shù)據安全的保護問題。
1? 數(shù)據服務在智慧圖書館中的體現(xiàn)
1.1? 圖書館的智慧服務
1.1.1? 圖書館的智慧管理和服務需求
圖書館的智慧管理和服務是指圖書館利用機器學習、虛擬現(xiàn)實、射頻識別等相關技術[4-6]為讀者提供智能互通的個性化智慧服務體系。
近些年,各大院校紛紛將信息傳遞、情景感知、個性化推薦等技術應用于圖書館服務體系中,目的是為了建設空間布局人性化、設備智能化、館藏資源豐富化、系統(tǒng)科學化、服務人性化的現(xiàn)代圖書館。通過對這些技術的運用,不僅在橫向上打通和擴展了館際間的系統(tǒng)技術屏障,而且在縱向上結合線上線下,實現(xiàn)館內全方位、綜合性的用戶服務。
在智慧服務的過程中,用戶數(shù)據的大規(guī)模產生與聚類,也促使圖書館進行數(shù)據挖掘與分析,一方面便于各合作圖書館之間相互借鑒使用,形成數(shù)據集合系統(tǒng),建立龐大的共享型用戶信息數(shù)據庫。另一方面組建館藏資源共享聯(lián)盟,提高各館的館外文獻資源保障。
1.1.2? 智慧服務對用戶數(shù)據服務意識的培養(yǎng)
智慧服務作為智慧圖書館服務體現(xiàn)的關鍵核心,其服務質量的好壞直接影響智慧圖書館的實踐應用與長遠發(fā)展。隨著互聯(lián)網系統(tǒng)化關聯(lián)度的日益提高,圖書館的用戶數(shù)據匯聚平臺作用逐漸凸顯,大量的數(shù)據生產與聚類分析,讓用戶獲得了“便捷”的使用體驗,用戶可以依據自己的學習習慣和需求有導向性地使用圖書館資源,并通過一定的反饋機制來要求圖書館提高服務水平,以滿足讀者知識傳輸與利用的需求。用戶在使用過程中逐步適應并享受圖書館所提供的各項智慧服務,這種形式打破了傳統(tǒng)圖書館的區(qū)域限制,比如在參考資訊、資源訪問、文獻傳遞等方面實現(xiàn)了隨時、隨地傳遞模式,而不再僅僅局限于本地館藏資源的供給。
1.2? 智慧圖書館的用戶應用數(shù)據挖掘
在智慧圖書館建設大潮的背景下,圖書館大數(shù)據的采集、加工以及二次應用,對于圖書館的服務業(yè)務管理和服務創(chuàng)新貢獻了新的思路和方法。
1.2.1? 數(shù)據挖掘
數(shù)據挖掘是為了從讀者行為數(shù)據中找出所隱藏的服務需求,以此定制相應的服務、管理決策,而海量的用戶數(shù)據具有復雜性與多樣性,這既保障了用戶數(shù)據的真實、可靠與安全,又對數(shù)據挖掘技術提出了更高要求。
圖書館數(shù)據挖掘算法主要有訪問控制技術、數(shù)據加密技術、差分隱私模型等,其中聯(lián)機分析處理(On-Line Analytical Process,OLAP)是最常用的圖書館大數(shù)據挖掘方法,即提前設定需要監(jiān)測的數(shù)據維度,動態(tài)獲取數(shù)據分析結果。圖書館管理系統(tǒng)通過時間軸來呈現(xiàn)借閱量、訪問量和下載量等讀者信息[7],如圖1所示,通過對圖書館業(yè)務大數(shù)據的多維數(shù)據處理(包括驗證假設、規(guī)律探索、發(fā)掘信息等),全面分析、挖掘及利用服務業(yè)務數(shù)據為智慧服務體系的構建提供數(shù)據支撐。
1.2.2? 數(shù)據管理
由于圖書館數(shù)據的使用主要體現(xiàn)在資源、空間、服務三個方面,包括紙、電資源的結構化數(shù)據,用戶進、出館統(tǒng)計和圖書館智慧系統(tǒng)使用數(shù)據以及參考資訊、文獻傳遞等讀者服務模塊數(shù)據等。從數(shù)據庫中調取用戶信息檢索、瀏覽、借閱行為等記錄,對用戶的學習習慣、偏好以及行為進行聚類分析,形成清晰的用戶畫像[8],并參與和影響后續(xù)圖書館智慧服務的數(shù)據決策。
在程序與算法的作用下,在使用圖書館系統(tǒng)時不同的用戶使用習慣會獲得不同的檢索結果。采用基于聚類分析的服務數(shù)據挖掘手段和智慧推薦服務,可有效解決由于信息數(shù)據量過大帶來的信息過載問題。
聚類分析指的是將物理的或抽象的集合分組為相似對象組成的多個類的過程[9]。智慧服務大數(shù)據系統(tǒng)會根據用戶瀏覽痕跡和閱讀興趣自動推送相對應的主題內容,近而提升用戶體驗。同理,對于用戶學科的知識需求、圖書借閱服務等,也可以達到精準數(shù)據聚類后的智能、智慧服務效果,如圖2所示。
2? 數(shù)據安全與保護
2.1? 數(shù)據服務的價值
智慧服務環(huán)境下圖書館需要制定用戶數(shù)據挖掘規(guī)則,對讀者的行為利用信息數(shù)據進行感知、記錄、挖掘、聚類與分析,從而把握用戶信息需求傾向、用戶信息利用行為規(guī)律,對用戶利用數(shù)據的挖掘與分析可提升智慧服務的智能化和個性化程度。持續(xù)的數(shù)據應用挖掘,使這一行為被賦予了顯性或隱性的價值,因此,大數(shù)據逐漸成為繼云計算之后計算機信息學科領域一個新的技術增長點。而用戶在享受智慧服務的同時,通常也愿意犧牲部分隱私來換取更多便捷的服務,這推進了圖書館向更深層次的個性化、主動化、智能化和智慧化的信息服務轉型。動態(tài)、實時的數(shù)據價值提取也使得智慧服務在短時間內做到精準、有效,以增強用戶的滿意度與使用黏性,如圖3所示。
2.2? 數(shù)據安全的重要性
數(shù)據安全是智慧圖書館的基石。大數(shù)據賦能的智慧圖書館可以顯著提高讀者體驗,但如果安全問題沒解決好,或者遭遇惡意攻擊,那將是十分危險的。對數(shù)據進行一定程度的加密,這樣即使偷聽者攔截到信息,其沒有密鑰也無法破解加密信息,無法了解信息的具體內容。
2.2.1? 圖書館的智慧服務建設
圖書館以用戶為中心的服務建設理念,通過綜合運用大數(shù)據、物聯(lián)網、人工智能、“互聯(lián)網+”、RFID等諸多智能技術,把圖書館服務建設推向了全新的智能化發(fā)展方向,在實現(xiàn)圖書館智能化、智慧化管理和服務的過程中,需要大量的用戶數(shù)據支撐作為數(shù)據應用科學性、有效性的保障。
圖書館在數(shù)據過濾、分析挖掘中對用戶的畫像集成、聚類分析,以及所參與的知識管理、數(shù)據決策、智慧推送、虛擬參考等服務更加精準智能。這樣既可以提高用戶的圖書館感知效率,又可以體現(xiàn)圖書館先進性、系統(tǒng)化、深內容的高層次服務。
2.2.2? 用戶數(shù)據安全和保護意識增強
智慧圖書館在智慧服務的過程中,所獲取的用戶隱私數(shù)據有可能會遭遇網絡攻擊被盜取,盜取者對所盜取的信息進行非法使用和售賣等。Facebook[10]等企業(yè)被卷入隱私泄露事件中,侵犯個人信息安全事件層出不窮,用戶的隱私保護意識也在不斷增強。加之“數(shù)據透明”所引發(fā)的用戶對個人數(shù)據的披露恐慌,尤其是用戶姓名、電話以及財務方面的敏感數(shù)據披露,用戶在不確定數(shù)據利益是否可能成為行為發(fā)生導向時,都選擇避而不談。
隨著智慧圖書館新技術的應用和普及,對用戶數(shù)據挖掘的廣度和深度不斷加強,在涉及用戶的一些敏感信息時,也會激發(fā)用戶增強數(shù)據安全和保護意識。
2.3? 數(shù)據安全的保護策略
關于用戶數(shù)據使用的學術研究已經持續(xù)多年,在問題提出和體系構建方面也深入到了用戶數(shù)據保護的技術實現(xiàn)和架構模型層面。
從圖書館行業(yè)的全局觀出發(fā),可以說保護用戶數(shù)據安全是一種人道主義精神的體現(xiàn),在用戶使用圖書館并提供某些信息以換取便捷服務的同時,數(shù)據的價值體現(xiàn)不僅僅是踐行圖書館以人為本的理念,更應該推動整個圖書館行業(yè)的發(fā)展并提高其社會認可度。因此,完善用戶數(shù)據安全的保護機制是智慧圖書館發(fā)展路上的一塊重要奠基石。
2.3.1? 法律法規(guī)與圖書館制度相結合以保障數(shù)據安全
歐盟通過的《通用數(shù)據保護法案》將個人數(shù)據保護權利(數(shù)據修改和移動的權利等[11])范圍進一步拓寬。而基于法律層面對智能技術應用過程中數(shù)據安全保護方面的探討,姚萬勤指出應明確智能設備使用者的責權,遵守倫理道德底線[12];陸康[13]等通過對比《中華人民共和國網絡安全法》和《一般數(shù)據保護條例》,提出數(shù)據處理原則和完善技術處理制度。2020年,為加強個人信息安全保障,我國制定個人信息保護法和數(shù)據安全法[14]。在法律層面,我國的用戶數(shù)據安全保障法規(guī)方面與歐美發(fā)達國家相比仍有差距,有待繼續(xù)完善和提高。
ALA將圖書館用戶隱私保護定義為通過技術手段對讀者的想法、信仰、計劃等個人信息予以保護[15],而圖書館作為數(shù)據使用的主體,應當主動在管理制度方面做出條例補充和行為約束,以保護用戶的隱私及數(shù)據安全,避免不必要糾紛。相關的制度內容應從兩方面入手。第一,明確用戶數(shù)據保護制度,在網站上標明數(shù)據采集、存儲、利用和清理的范圍,數(shù)據采集的手段和目的以及圖書館保護用戶數(shù)據的方式、方法,從而增加用戶信任度。第二,圖書館內部的管理政策,包括對圖書館館員隊伍的規(guī)范化要求,對用戶數(shù)據的采集、訪問和調用、清理要進行實名認證、審核和授權,甚至可以設置崗位來進行專項業(yè)務的處理。
2.3.2? 數(shù)據安全保護的手段應用
圖書館的智慧服務技術手段主要體現(xiàn)在對物聯(lián)網、“互聯(lián)網+”、大數(shù)據、云計算、人工智能、RFID等智能技術的綜合運用,這些新技術通過對數(shù)據的采集、記錄、存儲與挖掘分析,輸出滿足用戶需求的個性化、系統(tǒng)性服務規(guī)則,提升用戶對圖書館使用的感知度與黏度;因此,用戶數(shù)據保護和循環(huán)迭代的技術手段也成了用戶密切關注的重要環(huán)節(jié),如圖4所示。
目前主流的用戶數(shù)據保護和循環(huán)迭代的技術手段:
(1)區(qū)塊鏈技術。區(qū)塊鏈是分布式數(shù)據存儲、點對點傳輸、共識機制及加密算法等計算機技術在互聯(lián)網時代的創(chuàng)新應用模式,具有去中心化、可信任、開放性、自治性、信息不可篡改和匿名性等特點[16],為用戶隱私數(shù)據保護提供了解決方案。
(2)統(tǒng)計分析中的算法運用。針對聚類分析的數(shù)據保護方法,采用DPk-medoids算法[17],它可以保證信息竊取者在獲取某一段數(shù)據集之外無法利用其他數(shù)據記錄;云計算中的運用是基于格的隱私保護聚類數(shù)據的挖掘方法[18],如PPk-means擴展并豐富了數(shù)據挖掘的應用場景,提升了圖書館用戶數(shù)據挖掘維度;通過項集的布爾集合關系識別,在保護原始數(shù)據隱私的前提下挖掘出頻繁序列模式任務[19]。
(3)數(shù)據感知系統(tǒng)。用戶信息挖掘與量化的智能量化分析系統(tǒng),通過感知系統(tǒng)的傳輸(如RFID技術設備等),處理、分析用戶行為數(shù)據中的基本特征,在數(shù)據運算中生成哈希函數(shù),針對用戶的私鑰對哈希函數(shù)進行簽名,生成智慧鏈上的交易行為數(shù)據,再進行二次加密,針對用戶的公鑰對密鑰加密,形成消息發(fā)送給讀者[20]。
3? 結? 論
智慧服務已經成為圖書館發(fā)展的必由之路,通過不斷引入新智能服務技術,圖書館力求在具體的管理和服務建設當中把相應的理論研究付諸實踐,而關于用戶數(shù)據的挖掘與保護問題業(yè)已成為圖書館所需面對和解決的問題。當下,圖書館的數(shù)據驅動停留在OLAP階段,融合其他挖掘算法和主動采取措施來規(guī)避數(shù)據使用風險,如將數(shù)據中的敏感信息“匿名化”、“模糊化”等,是可以解決的。
作為智慧圖書館的建設者,在提高對用戶數(shù)據挖掘與使用技能水平的前提下,以服務育人為本,有意識地保護用戶的數(shù)據安全,提升用戶體驗,對用戶負責,這對圖書館的智慧化發(fā)展具有深遠的意義。
參考文獻:
[1] AITTOLA M,RYH?NEN T,OJALA T. SmartLibrary-Location-Aware Mobile Library Service [C]//Human-Computer Interaction with Mobile Devices and Services.Udine:Springer,2003:411-416.
[2] 陳丹,羅燁,吳智勤.基于大數(shù)據挖掘和用戶畫像的高校圖書館個性化服務研究 [J].圖書館研究與工作,2019(4):50-53+ 59.
[3] 王衛(wèi)霞.基于用戶數(shù)據挖掘的圖書館圖書采訪決策模型研究 [J].圖書館學刊,2017,39(10):1-4.
[4] 張坤,王文韜,謝陽群.機器學習在圖書情報領域的應用研究 [J].圖書館學研究,2018(1):47-52.
[5] 陸穎雋.我國圖書館虛擬現(xiàn)實應用及研究述評 [J].圖書與情報,2017(5):120-127.
[6] 陳定權,王孟卓.我國圖書館RFID的十年實踐探索(2006~2016) [J].圖書館論壇,2016,36(10):16-24.
[7] 陸康.高校圖書館數(shù)字資源統(tǒng)計系統(tǒng)建設研究 [J].現(xiàn)代情報,2015,35(9):140-145.
[8] CLAUDIO T,SOUSA P J,ARNALDO J. User Profiles in Organizational Environments [J].Campus-Wide Information Systems,2008,25(3):128-144.
[9] 百度百科.聚類分析 [EB/OL].[2020-11-19].https://baike.
baidu.com/item/%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90.
[10] 董毅智律師.互聯(lián)網泄密事件大盤點 [EB/OL].[2020-11-19].http://baijiahao.baidu.com/s?id=1568296966262267&wfr=spider&for=pc&qq-pf-to=pcqq.c2c.
[11] 桂暢旎.歐盟《通用數(shù)據保護法案》的影響與對策 [J].中國信息安全,2017(7):90-93.
[12] 姚萬勤.防范人工智能法律風險應把握好三個重點 [N].人民法院報,2019-01-28(第2版).
[13] 陸康,劉慧,任貝貝,等.智慧圖書館用戶數(shù)據隱私保護研究——基于《中華人民共和國網絡安全法》和《一般數(shù)據保護條例》的文本啟示 [J].圖書館理論與實踐,2020(3):17-21.
[14] 梁曉輝.中國2020年將制定個人信息保護法、數(shù)據安全法 [EB/OL].(2019-12-21).http://news.cyol.com/content/2019- 12/21/content_18292661.htm.
[15] 趙天昀.數(shù)字圖書館個性化信息服務中用戶隱私保護研究 [J].圖書館理論與實踐,2018(2):101-103.
[16] AZARIA A,EKBLAW A,VIEIRA T,et al. MedRec:Using Blockchain for Medical Data Access and Permission Management [C]//2016 2nd International Conference on Open and Big Data (OBD). Vienna:IEEE,2016:25-30.
[17] 高瑜,田豐,吳振強.基于差分隱私保護的DPk-medoids聚類算法 [J].計算機技術與發(fā)展,2017,27(10):117-120+125.
[18] 崔一輝,宋偉,王占兵,等.一種基于格的隱私保護聚類數(shù)據挖掘方法 [J].軟件學報,2017,28(9):2293-2308.
[19] 方煒煒,謝偉,黃宏博,等.基于隱私保護的序列模式挖掘 [J].計算機科學,2016,43(12):195-199.
[20] 梅振榮,裴麗.基于區(qū)塊鏈的智慧圖書館用戶隱私保護 [J].中華醫(yī)學圖書情報雜志,2019,28(2):55-59.
作者簡介:李慧(1991—),女,漢族,助理工程師,碩士,研究方向:影視傳媒。