陸康 劉慧 任貝貝 杜健
摘? 要:[目的/意義]數(shù)字圖書館逐漸向智慧圖書館轉(zhuǎn)變。圖書館數(shù)據(jù)的收集、分析等數(shù)據(jù)使用行為不斷被實踐,并對業(yè)務(wù)管理與服務(wù)創(chuàng)新做出一定的貢獻。然而,涉及用戶隱私敏感數(shù)據(jù)的使用可能會帶來安全方面的問題。[方法/過程]本文在分析傳統(tǒng)的圖書館數(shù)據(jù)挖掘方法基礎(chǔ)上,嘗試引用PPDM(Privacy-Preserving Data Mining)的數(shù)據(jù)泛化、清洗、屏蔽、扭曲等方法,將數(shù)據(jù)挖掘與業(yè)務(wù)需求相融合,并以用戶數(shù)據(jù)規(guī)范化使用為目標,探索智慧服務(wù)背景下用戶隱私保護機制,構(gòu)建業(yè)務(wù)實施與數(shù)據(jù)保護融合的可行性方案。[結(jié)果/結(jié)論]智慧圖書館數(shù)據(jù)收集、數(shù)據(jù)發(fā)布、數(shù)據(jù)共享、數(shù)據(jù)匯聚都可以借鑒PPDM方法對用戶隱私數(shù)據(jù)加以保護。智慧圖書館只有緊密聯(lián)系技術(shù)創(chuàng)新才能夠保障服務(wù)創(chuàng)新,從而促進智慧圖書館事業(yè)的發(fā)展。
關(guān)鍵詞:PPDM;智慧圖書館;用戶數(shù)據(jù);隱私保護;數(shù)據(jù)挖掘
DOI:10.3969/j.issn.1008-0821.2020.10.010
〔中圖分類號〕G2520? 〔文獻標識碼〕A? 〔文章編號〕1008-0821(2020)10-0093-11
Research on User Privacy Data Protection of Smart Library Based on PPDM
Lu Kang1? Liu Hui1? Ren Beibei2? Du Jian1
(1.Nanjing Xiaozhuang University,Nanjing 211171,China;
2.Shanghai Institute ForIntegrated Application of Network Technology,Shanghai 200336,China)
Abstract:[Purpose/Significance]Digital libraries are also gradually transforming into smart libraries.The collection,analysis and other data usage behaviors of library data are constantly practiced,and make certain contributions to business management and service innovation.However,the use of sensitive data involving user privacy can raise security concerns.[Method/Process]Based on the analysis of data mining method based on the traditional library,try reference PPDM(privacy preserving data mining),the method of data generalization,cleaning,shielding,distortion,etc,and the integration of business requirements,data mining and the user data is standardized as the goal,to explore the smart service under the background of user privacy protection mechanism,build business implementation and data protection,the feasibility of integration solutions.[Pesult/Conclusion]The PPDM method can be used for data collection,data release,data sharing and data aggregation in a smart library to protect user privacy data.Only by closely connecting with technological innovation can smart libraries guarantee service innovation and thus promote the development of smart libraries.
Key words:privacy-preserving data mining;smart library;user data;privacy protection;data mining
智慧圖書館概念提出至今[1],互聯(lián)網(wǎng)智能技術(shù)支持書書互聯(lián)、書人相聯(lián)以及人人相聯(lián)等[2],系統(tǒng)之間的關(guān)聯(lián)構(gòu)成了智慧圖書館數(shù)據(jù)匯聚的基礎(chǔ)。在當今互聯(lián)網(wǎng)社會高速發(fā)展的時代,無處不在的計算機設(shè)備產(chǎn)生大量的數(shù)據(jù)?;ヂ?lián)網(wǎng)社會的數(shù)據(jù)分析有利于醫(yī)療衛(wèi)生、金融銀行、商業(yè)經(jīng)濟、交通運輸以及網(wǎng)絡(luò)安全等領(lǐng)域服務(wù)效率的提升。然而,數(shù)據(jù)源自于主體產(chǎn)生,數(shù)據(jù)主體大部分與公民相關(guān),即收集的數(shù)據(jù)可能涉及個人的敏感信息。隨著“棱鏡門”等隱私泄露事件不斷被媒體披露,人們對個人數(shù)據(jù)隱私問題的關(guān)注也逐漸提高。雖然個人層面隱私的概念沒有明確的標準[3],而隱私權(quán)的概念在1948年提出[4],并且被公認為一項權(quán)利,但是僅限于個人方面。《中華人民共和國網(wǎng)絡(luò)安全法》、GDPR(General Data Protection Regulation)等互聯(lián)網(wǎng)法律法規(guī)先后被相關(guān)政府機構(gòu)頒布實施,為用戶數(shù)據(jù)隱私與互聯(lián)網(wǎng)安全提供了執(zhí)行標準,也為機構(gòu)組織數(shù)據(jù)使用規(guī)則的制定提供了依據(jù)。隱私權(quán)—閱讀、思考和發(fā)展思想和信仰的權(quán)利,不受政府或其他人的觀察或不必要的監(jiān)視—是知識自由的基石。它是行使言論自由、思想自由和結(jié)社自由的必要條件[5]。自從數(shù)字圖書館起,圖書館就依靠互聯(lián)網(wǎng)技術(shù)實現(xiàn)服務(wù)創(chuàng)新。隨著互聯(lián)網(wǎng)社會中智慧服務(wù)概念的提出,“智慧城市”“智慧醫(yī)療”“智慧交通”等概念應(yīng)運而生?;ヂ?lián)網(wǎng)中的“智慧”主要依托數(shù)據(jù)。數(shù)據(jù)敏感性問題直接關(guān)系到用戶的隱私。例如,靜態(tài)數(shù)據(jù)方面:用戶的個人身份信息等;動態(tài)數(shù)據(jù)方面:用戶的互聯(lián)網(wǎng)訪問行為等。數(shù)據(jù)蘊含著價值,其中之一就是用戶的核心信息與互聯(lián)網(wǎng)行為,這也恰恰是圖書館想要獲取的數(shù)據(jù)之一。人類在享受互聯(lián)網(wǎng)技術(shù)成果的同時也逐漸意識到互聯(lián)網(wǎng)社會其實也是一個充滿悖論的空間?;ヂ?lián)網(wǎng)技術(shù)應(yīng)用的雙重性以及產(chǎn)生的倫理問題越來越引起人們的反思[6]。所以,在互聯(lián)網(wǎng)技術(shù)創(chuàng)新的背景下,如何將用戶隱私保護與數(shù)據(jù)價值獲取做到有效平衡,這也是圖書館開展智慧服務(wù)的關(guān)鍵。
1? 圖書館隱私的文獻回顧
互聯(lián)網(wǎng)社會形成后,計算機系統(tǒng)產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)被稱為是重要的資源之一?;ヂ?lián)網(wǎng)服務(wù)于人類社會,互聯(lián)網(wǎng)數(shù)據(jù)與人類活動存在著重要的關(guān)聯(lián),也因此產(chǎn)生了數(shù)據(jù)隱私等問題。在世界范圍內(nèi),“隱私”概念與范圍的界定尚未形成統(tǒng)一的標準。1948年的《世界人權(quán)宣言》中對隱私權(quán)的定義,僅局限于家庭以及與家庭相關(guān)的信息交流。隱私范圍的界定也是比較困難[7-8]。隱私可以分為:信息、主體(個人)、交流(通信)以及范圍(領(lǐng)域、領(lǐng)土)等[9]。其中信息包括用戶個人數(shù)據(jù)的收集與使用。主體容易因隱私泄露而受到傷害。交流則指任何形式的通信。范圍則指所涉及的物理與虛擬的邊界。信息在可控的傳播范圍內(nèi),Westin A F隱私的定義為:個人、機構(gòu)或者團體為主體決定在時間和方式上以何種程度傳達有關(guān)主體的信息,其中主體與隱私之間存在著“映射關(guān)系”[10]。這是從控制信息處理權(quán)利的角度定義的。Bertino E等從數(shù)據(jù)控制者角度做了相關(guān)定義[11],同時指明了隱私受到侵犯的風(fēng)險。信息共享與數(shù)據(jù)匯聚產(chǎn)生了大量的互聯(lián)網(wǎng)資源,數(shù)據(jù)流動讓數(shù)據(jù)價值得以體現(xiàn)。圖書館數(shù)據(jù)開放與共享屬于必然的趨勢[12]。圖書館的精準化、個性化、智能化的服務(wù)成為智慧圖書館主要特征[13]。精準化、個性化與智能化的服務(wù)也需要通過數(shù)據(jù)來“感知”用戶的需求。智慧圖書館的“感知”只能通過收集、分析用戶數(shù)據(jù)來實現(xiàn)。用戶的數(shù)據(jù)是用戶互聯(lián)網(wǎng)行為“痕跡”。數(shù)據(jù)隱私保護的傳統(tǒng)解決方法一般通過修改原始數(shù)據(jù)來保護個人信息行為,隱藏“痕跡”,然而數(shù)據(jù)修改破壞了數(shù)據(jù)完整性,降低了數(shù)據(jù)價值維度,導(dǎo)致數(shù)據(jù)分析、挖掘等數(shù)據(jù)使用得到不準確的結(jié)論,該類數(shù)據(jù)無法滿足精細化、個性化與智能化的智慧服務(wù)需求。IBM Almaden研究中心的Agrawal領(lǐng)導(dǎo)的研究小組,在2000年的ACM SIGMOD會議上首次提出了“隱私保護數(shù)據(jù)挖掘(Privacy-Preserving Data Mining,PPDM)”的概念[14]。PPDM主要考慮兩個方面的問題:1)為了保證數(shù)據(jù)的控制者、處理者不威脅到數(shù)據(jù)主體(用戶)的隱私,原始數(shù)據(jù)的敏感信息(姓名、身份證號、性別、Email、家庭住址、單位地址等標識符)被修改或者清洗掉。2)在數(shù)據(jù)挖掘過程中獲取的敏感信息、知識也應(yīng)該被剔除。PPDM主要是從挖掘算法層面對原始數(shù)據(jù)進行修改,從而讓數(shù)據(jù)在挖掘前后都保持隱私狀態(tài)[15]。PPDM主要是干擾、加密與匿名化等方法[16]。在大數(shù)據(jù)資源價值的背景下,PPDM最大化保護數(shù)據(jù)挖掘隱私,保障數(shù)據(jù)的實用性與價值性,為圖書館等領(lǐng)域的智慧服務(wù)提供技術(shù)支持。PPDM針對傳統(tǒng)隱私保護技術(shù)不再適用大數(shù)據(jù)價值挖掘而逐漸被學(xué)者們關(guān)注。PPDM的多場景、多樣化的模擬環(huán)境被開發(fā)、應(yīng)用。有些則側(cè)重于衡量與比較這些技術(shù)在隱私保護的級別、數(shù)據(jù)完整性與復(fù)雜性標準方面。PPDM不僅可以用來從數(shù)據(jù)中提取知識,同時注重數(shù)據(jù)隱私的保護,包括數(shù)據(jù)轉(zhuǎn)換技術(shù)方案,平衡數(shù)據(jù)挖掘與數(shù)據(jù)隱私效用,以及分布式隱私技術(shù),用于不披露本地信息而從分布式數(shù)據(jù)中挖掘宏觀信息。大數(shù)據(jù)的非結(jié)構(gòu)性特點增加了挖掘與分析的復(fù)雜度,數(shù)據(jù)隱私的關(guān)注與保護,使得原本復(fù)雜的應(yīng)用體系變得撲朔迷離,PPDM為智慧服務(wù)提供了合理化、規(guī)范化使用數(shù)據(jù)的方案,也為智慧圖書館的發(fā)展奠定了基礎(chǔ)。
2? 傳統(tǒng)的數(shù)據(jù)挖掘與隱私保護方法
沃倫和布蘭代斯完全不能想象的科技,那些我們在相對較短的時間之前無法想象的科技,它們給信息隱私帶來了前所未有的風(fēng)險[17]?;ヂ?lián)網(wǎng)的技術(shù)創(chuàng)新賦予決策新的理念與場景。決策是人們?yōu)榱藢崿F(xiàn)某一預(yù)設(shè)的目標,在擁有一定的信息與知識的基礎(chǔ)上,根據(jù)主、客觀條件的可能性,提出各種可行的方案,采用一定的科學(xué)方法,對所需解決的問題方案進行比較、分析與評價,并最終進行方案選擇的全過程[18]。數(shù)據(jù)支持決策的過程,取決于互聯(lián)網(wǎng)技術(shù)工具的保障,例如AI(人工智能)、機器學(xué)習(xí)、數(shù)理統(tǒng)計、數(shù)據(jù)倉儲、模式識別以及可視化技術(shù)等。其中部分工具的組合使用可以實現(xiàn)對數(shù)據(jù)的自動化分析、歸納、推理,從中提煉出潛在的動態(tài)、模式,幫助決策者調(diào)整業(yè)務(wù)策略,達到提高運營效率的目的,這屬于數(shù)據(jù)價值“提煉”的過程。數(shù)據(jù)的使用從傳統(tǒng)的數(shù)值統(tǒng)計分析等顯性使用到運用關(guān)聯(lián)分析工具進行數(shù)據(jù)挖掘分析的逐步深入發(fā)掘數(shù)據(jù)的潛在價值,提高數(shù)據(jù)的使用效率。數(shù)據(jù)挖掘也成為大數(shù)據(jù)領(lǐng)域數(shù)據(jù)價值提煉的重要方法。而深度使用數(shù)據(jù)導(dǎo)致的一些問題,也讓圖書館等以互聯(lián)網(wǎng)為載體的服務(wù)機構(gòu)有所擔(dān)憂。隨著對數(shù)據(jù)倫理、數(shù)據(jù)隱私、數(shù)據(jù)安全以及數(shù)據(jù)主體(用戶),數(shù)據(jù)控制者(機構(gòu)、組織)以及數(shù)據(jù)處理者(業(yè)務(wù)實施)三者權(quán)利與義務(wù)問題探討的逐漸深入,數(shù)據(jù)研究從傳統(tǒng)技術(shù)方法向人文應(yīng)用方面的轉(zhuǎn)變,實現(xiàn)技術(shù)保障、人文規(guī)范的融合模式。而數(shù)據(jù)挖掘方法的應(yīng)用不斷嵌入場景需求,使得應(yīng)用越來越貼近實際需求。
21? 圖書館等領(lǐng)域常用數(shù)據(jù)挖掘與保護方法
傳感器、業(yè)務(wù)計算機等工具系統(tǒng)不斷收集大量的數(shù)據(jù)。電子商務(wù)、公共服務(wù)等領(lǐng)域可以從數(shù)據(jù)中提取價值、信息、知識而受益。數(shù)據(jù)KDD中的知識發(fā)現(xiàn)與數(shù)據(jù)挖掘兩種術(shù)語模糊不清。KDD的過程是由數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)篩選、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)挖掘、模型評估、知識展現(xiàn)構(gòu)成。其中數(shù)據(jù)挖掘則是以大數(shù)據(jù)集合的提取知識并展示與解釋這些知識的過程。電子商務(wù)、公共服務(wù)領(lǐng)域的數(shù)據(jù)挖掘方法主要分為分類歸并(聚類分析)、關(guān)聯(lián)規(guī)則挖掘和分類組成。
211? 數(shù)據(jù)的聚類分析(分類歸并)
聚類分析也可稱為分類歸并,是根據(jù)研究對象(樣品或者指標等)的特征,對其進行分類的方法,以降低研究對象的數(shù)目。其中該類對象(事物)缺乏可信的文獻資源,無法判斷其類別數(shù)量,而聚類的目的就是將相似特征的事物歸納到一類中。事物特征之間存在著一定的關(guān)聯(lián)性。所以,聚類分析是以未知事物為研究對象,對具有相同特征(同質(zhì))的事物進行統(tǒng)計分析的方法。大數(shù)據(jù)世界的事物具有不確定性,聚類分析的方法能夠幫助人類發(fā)現(xiàn)其中的規(guī)律,進一步提煉數(shù)據(jù)價值。聚類方法由于對象與需求的不同,也分為層次聚類與非層次聚類兩大類方法。傳統(tǒng)聚類能夠解決低維度數(shù)據(jù)的聚類問題,但是大數(shù)據(jù)發(fā)展至今,數(shù)據(jù)的異構(gòu)性、非結(jié)構(gòu)化等多樣性,使得傳統(tǒng)聚類方法不能有效解決大數(shù)據(jù)價值的“提煉”問題。高維度的聚類分析已經(jīng)成為大數(shù)據(jù)價值提煉的重要研究方向。物聯(lián)網(wǎng)、人工智能等運用多樣化的傳感器工具,使得數(shù)據(jù)的收集變得越來越容易與及時,這也導(dǎo)致數(shù)據(jù)存儲從傳統(tǒng)的“數(shù)據(jù)庫”向“數(shù)據(jù)池”“數(shù)據(jù)湖”乃至“數(shù)據(jù)?!鞭D(zhuǎn)變,低維度的數(shù)據(jù)聚類分析已經(jīng)不能夠滿足實際應(yīng)用的需要,而高維度的數(shù)據(jù)聚類在市場調(diào)研分析、信息數(shù)據(jù)安全、金融趨勢分析以及國家安全領(lǐng)域均有廣泛的應(yīng)用前景。
212? 數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)分析又稱為關(guān)聯(lián)挖掘,即以目標數(shù)據(jù)中的信息為載體,找出其中存在的項目集合或者對象集合之間的頻繁模式(關(guān)系)、關(guān)聯(lián)以及相關(guān)性與因果結(jié)構(gòu),通俗來說,就是分析目標對象之間存在的一切聯(lián)系。該類規(guī)則的表示形式一般為:if(條件)、then(結(jié)果)。規(guī)律的發(fā)現(xiàn),存在著一定的概率,即存在前提條件下,結(jié)果發(fā)生的概率。Apriori算法、FP-growth算法等是常用的關(guān)聯(lián)分析方法。關(guān)聯(lián)分析從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間存在的關(guān)聯(lián)與相關(guān)聯(lián)系。在電子商務(wù)領(lǐng)域中,“購物籃分析”就是發(fā)現(xiàn)用戶在放入購物籃中商品之間的聯(lián)系,從中分析用戶的購物習(xí)性。通過對用戶的購物行為的分析,可以從中幫助電子商務(wù)機構(gòu)制定個性化的營銷策略,以提高商品的銷售率。圖書館也是如此。圖書館管理系統(tǒng)可以通過用戶借閱的紙質(zhì)圖書,以及使用的數(shù)字資源信息,分析用戶的圖書館資源使用行為,可以幫助圖書館在學(xué)科的精準服務(wù)中提高資源的推送效率,從而提升圖書館資源服務(wù)的“智慧”性。機構(gòu)、組織可以通過用戶使用互聯(lián)網(wǎng)的行為中發(fā)現(xiàn)其規(guī)律,運用關(guān)聯(lián)分析等方法,挖掘用戶需求、偏好,從而進行資源的推送,達到提升服務(wù)效率的目的。關(guān)聯(lián)分析可以分為關(guān)聯(lián)規(guī)則挖掘、關(guān)聯(lián)規(guī)則分類。關(guān)聯(lián)規(guī)則挖掘是為了尋找數(shù)據(jù)集合中變量之間的關(guān)系,而關(guān)聯(lián)規(guī)則分類則是一種監(jiān)督學(xué)習(xí)問題,其目的是創(chuàng)建一個模型,在一定的條件下,可以識別未知數(shù)據(jù)并進行分類、標簽。關(guān)聯(lián)分析也是一種探索未知數(shù)據(jù)的方式,隨著數(shù)據(jù)集的增大,其分析模型結(jié)構(gòu)也逐漸向適應(yīng)海量數(shù)據(jù)環(huán)境進化。
Edward Bloustein在1964年寫了一篇法律評論文章,對當?shù)匾患覉蠹埧且粡埿律鷥赫掌男袨檫M行了評價,認為無論是醫(yī)院還是報紙都無權(quán)用這種方式介入私人生活[19]。社會對隱私問題的關(guān)注由來已久。而互聯(lián)網(wǎng)時代的隱私事件不斷被媒體披露,例如“棱鏡門”等事件讓已經(jīng)適應(yīng)互聯(lián)網(wǎng)帶來便捷服務(wù)的人們?nèi)鐗舫跣?,重新回歸對個人隱私的認識。大數(shù)據(jù)環(huán)境下的用戶隱私問題不僅僅是靜態(tài)信息(如個人姓名、身份證號、住址、電話號碼等)的數(shù)據(jù)保護,也應(yīng)該關(guān)注動態(tài)信息(如互聯(lián)網(wǎng)使用行為的數(shù)據(jù)、可穿戴傳感設(shè)備的數(shù)據(jù)、消費記錄等)的數(shù)據(jù)保護。匿名化、脫敏技術(shù)等傳統(tǒng)的隱私數(shù)據(jù)保護方法,對于靜態(tài)數(shù)據(jù)保護仍然起到一定的效果,但是對于大數(shù)據(jù)應(yīng)用價值發(fā)掘分析過程,卻顯得捉襟見肘。數(shù)據(jù)隱私問題不僅僅是技術(shù)問題,也應(yīng)該是制度、法律、倫理方面綜合探討的問題[20]。傳統(tǒng)的隱私保護是對數(shù)據(jù)控制者、數(shù)據(jù)處理者加以約束、規(guī)定,忽視對數(shù)據(jù)主體的數(shù)據(jù)素養(yǎng)的培養(yǎng),這就使得數(shù)據(jù)主體(用戶)由于自身原因使得信息泄露事件頻繁發(fā)生,例如從電信詐騙到網(wǎng)絡(luò)詐騙等。不論是傳統(tǒng)的數(shù)據(jù)隱私保護還是大數(shù)據(jù)環(huán)境下的數(shù)據(jù)隱私保護,都應(yīng)該是數(shù)據(jù)主體、數(shù)據(jù)控制者以及數(shù)據(jù)處理者等多方努力,規(guī)范數(shù)據(jù)使用行為,運用技術(shù)保障、制度規(guī)范、法律約束等方法,既保障了數(shù)據(jù)價值的發(fā)掘,又保護了用戶的數(shù)據(jù)隱私,使得大數(shù)據(jù)價值促進社會的發(fā)展。
22? 數(shù)據(jù)的隱私保護方法
互聯(lián)網(wǎng)領(lǐng)域的隱私保護方法很多,包括數(shù)據(jù)存儲安全防護,數(shù)據(jù)傳輸保護以及數(shù)據(jù)使用保護3種場景。其中運用較多的數(shù)據(jù)傳輸與數(shù)據(jù)使用方法,都是圍繞數(shù)據(jù)失真、數(shù)據(jù)加密與限制發(fā)布3種方式設(shè)計不同模型、算法支持不同的業(yè)務(wù)環(huán)境。
221? 數(shù)據(jù)失真法
數(shù)據(jù)失真原指原始數(shù)據(jù)經(jīng)過計算機或者人為的原因,造成了數(shù)據(jù)的結(jié)果與真實數(shù)據(jù)發(fā)生偏差的現(xiàn)象。數(shù)據(jù)失真是一種損失和危害。然而在數(shù)據(jù)隱私保護中,采用一定的規(guī)則將數(shù)據(jù)失真,對真實數(shù)據(jù)進行隱藏保護是一種人為現(xiàn)象。數(shù)據(jù)失真與數(shù)據(jù)加密存在著一定的差異性,數(shù)據(jù)失真擁有一套“失真”規(guī)則,而數(shù)據(jù)加密也存在著“加密”規(guī)則,數(shù)據(jù)加密有一套對稱的加密算法支持。所以,數(shù)據(jù)失真法是一種人為擾亂數(shù)據(jù)的行為,其目的就是為了對特定的數(shù)據(jù)實施保護。差分隱私保護就是在數(shù)據(jù)失真的基礎(chǔ)上建立起來的一種隱私保護方法。
222? 數(shù)據(jù)加密法
數(shù)據(jù)加密法(也叫數(shù)據(jù)加密算法,Data Encryption Algorithm,DEA)是一種對稱的加密算法,目前廣泛應(yīng)用于密鑰系統(tǒng)。其實數(shù)據(jù)加密是一種傳統(tǒng)的技術(shù),一般是指運用加密算法與密鑰將明文轉(zhuǎn)化成密文進行傳輸,接收方在通過解密的算法與密鑰恢復(fù)成明文的過程,其核心就是密碼學(xué)。IBM制定了數(shù)據(jù)加密標準(Data Encryption Standard,簡稱DES),并在1977年成為美國的官方標準。數(shù)據(jù)加密法在計算機等領(lǐng)域已經(jīng)被廣泛使用。在數(shù)字圖書館的業(yè)務(wù)中,用戶身份認證,文獻資源訪問與使用等領(lǐng)域,也運用數(shù)據(jù)加密法對用戶賬號、文獻資源(版權(quán))進行保護。
223? 限制發(fā)布法
限制發(fā)布,顧名思義是數(shù)據(jù)控制者、處理者或者第三方機構(gòu)對業(yè)務(wù)系統(tǒng)中一些核心數(shù)據(jù)或者信息采取限定發(fā)布的措施。一般該類的數(shù)據(jù)或者信息屬于關(guān)鍵數(shù)據(jù)或者包含一定的用戶隱私信息。公布以后會對個人或者組織機構(gòu)造成不利、不良的社會影響。近些年,圖書館熱衷于將業(yè)務(wù)數(shù)據(jù)集中用大屏幕展示出來,如借閱情況、入館情況等。然而涉及到個人借閱、進館信息時,如需展示,也需要匿名化,這就屬于限制發(fā)布一種形式。然而,限制發(fā)布在大數(shù)據(jù)環(huán)境下起到的效果不那么明顯。多維度的數(shù)據(jù)匯聚后進行挖掘、分析,雖然在前期數(shù)據(jù)清洗過程中,已經(jīng)采取了數(shù)據(jù)失真、數(shù)據(jù)加密,但是數(shù)據(jù)的二次挖掘、三次挖掘仍然有可能挖掘出與用戶隱私相關(guān)信息,而數(shù)據(jù)處理者無法及時發(fā)現(xiàn)造成數(shù)據(jù)泄露現(xiàn)象的發(fā)生。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,“智慧”對數(shù)據(jù)的需求也越來越大,數(shù)據(jù)也逐漸成為一種重要的戰(zhàn)略資源,數(shù)據(jù)的真實性、可靠性與穩(wěn)定性也直接影響了智慧服務(wù)的效果。智慧服務(wù)也逐漸被圖書館所關(guān)注,其中既有涉及下一代圖書館系統(tǒng)的業(yè)務(wù)智慧化、功能模塊化,又有專注于數(shù)據(jù)聚合的數(shù)據(jù)決策支持下的智慧服務(wù)系統(tǒng)。無論采用哪種方式實現(xiàn)圖書館服務(wù)的“智慧”性,都離不開圖書館對用戶數(shù)據(jù)的收集、挖掘與分析。以數(shù)據(jù)為基礎(chǔ)的決策系統(tǒng),逐漸成為互聯(lián)網(wǎng)領(lǐng)域服務(wù)機構(gòu)提升服務(wù)效率的重要方法之一,而用戶數(shù)據(jù)隱私等問題也隨著用戶個人數(shù)據(jù)的廣泛使用而備受關(guān)注。用戶數(shù)據(jù)的廣泛使用導(dǎo)致了隱私泄露風(fēng)險的增加,智慧圖書館領(lǐng)域也急需一種適應(yīng)大數(shù)據(jù)應(yīng)用的隱私保護方法對圖書館用戶數(shù)據(jù)加以保護。傳統(tǒng)的隱私保護方法已經(jīng)被廣泛用于數(shù)字圖書館各種業(yè)務(wù)中,無論是圖書館用戶的賬戶保護,數(shù)字資源的版權(quán)保護與規(guī)范化應(yīng)用中,都包括傳統(tǒng)的數(shù)據(jù)安全保護技術(shù)。傳統(tǒng)的常用數(shù)據(jù)挖掘方法,一方面通過降低挖掘?qū)ο蟮臄?shù)目來達到目的(小數(shù)據(jù)挖掘),但是體量的降低也容易造成挖掘獲取信息準確性偏低;另一方面,關(guān)聯(lián)分析挖掘(多源大數(shù)據(jù)挖掘)雖然能夠滿足數(shù)據(jù)挖掘的需要,但是模型的針對性太強,應(yīng)用的場景變換導(dǎo)致結(jié)果存在著很大的差異。雖然傳統(tǒng)的數(shù)據(jù)挖掘與保護方法中包括匿名化、模糊化等方法對原始用戶數(shù)據(jù)進行保護,傳統(tǒng)數(shù)據(jù)挖掘的模式是由小數(shù)據(jù)轉(zhuǎn)變而來,無法滿足大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘與隱私保護要求。PPDM源自于大數(shù)據(jù)環(huán)境,可以被智慧圖書館作為用戶隱私保護的方法加以實踐,同時也能夠兼顧“智慧”數(shù)據(jù)挖掘的需要。
數(shù)據(jù)發(fā)布的隱私保護方法是通過對原始數(shù)據(jù)進行隱私保護模型的修改實現(xiàn),以防止用戶隱私的泄露。不同模型的推論與實施方法各異,在身份與屬性等方面都有各自的優(yōu)缺點。相對于數(shù)據(jù)收集時的隱私保護方法而言,數(shù)據(jù)控制者(數(shù)據(jù)處理者)可以訪問完整的原始數(shù)據(jù),而數(shù)據(jù)發(fā)布隱私模型可以更好的對隱私級別的界定,以達到權(quán)衡數(shù)據(jù)隱私與業(yè)務(wù)實施的目的。
33? 數(shù)據(jù)共享的隱私問題
數(shù)據(jù)共享是數(shù)據(jù)財產(chǎn)使用行為,也是數(shù)據(jù)開發(fā)與再利用的行為,也可能是個人信息的收集、儲存、利用問題[24]。所以,數(shù)據(jù)共享并非單純的數(shù)據(jù)財產(chǎn)的問題,其也涉及用戶個人的信息權(quán)、隱私權(quán)等保護的問題。普及化的數(shù)據(jù)共享現(xiàn)象對人格權(quán)的保護提出了新的挑戰(zhàn),這也是互聯(lián)網(wǎng)技術(shù)創(chuàng)新環(huán)境中大數(shù)據(jù)的發(fā)展所帶來的新問題。原始數(shù)據(jù)集的顯性訪問,是傳統(tǒng)數(shù)據(jù)共享實現(xiàn)的初衷。然而隨著數(shù)據(jù)隱私、數(shù)據(jù)安全問題的顧慮與現(xiàn)實存在,數(shù)據(jù)挖掘算法與實際應(yīng)用的緊密結(jié)合,使得數(shù)據(jù)共享對數(shù)據(jù)敏感信息的查詢、推斷具有一定的啟發(fā)作用。圖書館的資源共享機制的建立,使得文獻資源得到廣泛的傳播,達到知識推廣與服務(wù)的目的。但是,當數(shù)據(jù)共享以服務(wù)于智慧圖書館的目的時候,卻存在著一系列問題,其中用戶數(shù)據(jù)的規(guī)范化使用問題成為關(guān)鍵點。對業(yè)務(wù)系統(tǒng)中匯聚數(shù)據(jù)的挖掘以及結(jié)果輸出,是智慧服務(wù)實施的途徑之一。挖掘結(jié)果數(shù)據(jù)的共享與保護技術(shù)借鑒了多種規(guī)則。例如:關(guān)聯(lián)規(guī)則隱藏、分類器有效性降級、查詢審核與推理控制等。
大數(shù)據(jù)的隱私問題主要是因為大數(shù)據(jù)技術(shù)的“第三只眼”留下的“數(shù)據(jù)足跡”引起的,因此要探討大數(shù)據(jù)隱私,就必須從“第三只眼”和數(shù)據(jù)足跡出發(fā)[25]。數(shù)據(jù)足跡涉及隱私方面的內(nèi)容就是用戶的互聯(lián)網(wǎng)行為。而在關(guān)聯(lián)規(guī)則數(shù)據(jù)的挖掘中,一些規(guī)則的明確性可能對用戶信息披露導(dǎo)致用戶隱私泄露。關(guān)聯(lián)規(guī)則隱藏是一種隱私保護技術(shù):當敏感規(guī)則不被發(fā)現(xiàn)時,挖掘所有非敏感規(guī)則[26]。經(jīng)過多年的實踐,關(guān)聯(lián)規(guī)則隱藏的方案被逐步擴展,其中包括精準的方法,即敏感規(guī)則的隱藏,非敏感規(guī)則的不隱藏,以提升關(guān)聯(lián)數(shù)據(jù)挖掘效率,保障智慧服務(wù)的業(yè)務(wù)實施。例如:圖書館中文獻資源的關(guān)聯(lián)規(guī)則,即一站式檢索,文獻資源的聚合等,涉及較多的非敏感規(guī)則。而智慧服務(wù)涉及用戶的業(yè)務(wù)使用行為日志數(shù)據(jù),以及多系統(tǒng)之間的關(guān)聯(lián)規(guī)則構(gòu)建,屬于敏感規(guī)則,需要隱藏。數(shù)據(jù)挖掘中數(shù)據(jù)分類需要運用到分類器,分類器應(yīng)用程序有可能存在著用戶信息的泄露問題。例如:集合中成員之間存在著推理攻擊,這類攻擊記錄著數(shù)據(jù)訓(xùn)練集(原始數(shù)據(jù))。為了保護分類器應(yīng)用程序中的用戶隱私,一般通過降低分類器精度的方法,這種方法被稱為分類器有效性降級。查詢與審計在數(shù)據(jù)管理中是重要的操作行為。其中查詢推理控制的運用背景是原始數(shù)據(jù)受到干擾。查詢審計則是查詢過程被拒絕。查詢審計問題根據(jù)數(shù)據(jù)呈現(xiàn)的情況分為脫機與聯(lián)機兩種方式。查詢內(nèi)容一般是已經(jīng)產(chǎn)生的結(jié)果,查詢審計的結(jié)果會反饋給數(shù)據(jù)主體(用戶),用以評估查詢行為是否違背了隱私保護原則。查詢審計和推理控制技術(shù)在上下文的統(tǒng)計數(shù)據(jù)庫安全中被廣泛研究。
由于構(gòu)建應(yīng)用程序數(shù)據(jù)的實用性低于原始值,應(yīng)用程序本身被降級或?qū)?shù)據(jù)的訪問受到限制,智慧服務(wù)等應(yīng)用程序效果會受到影響。因此,數(shù)據(jù)隱私保護和業(yè)務(wù)實用性之間也存在著平衡問題。
34? 數(shù)據(jù)分布式隱私問題
數(shù)據(jù)匯聚多維度性能夠提升數(shù)據(jù)挖掘價值。用戶隱私問題背景下,數(shù)據(jù)控制者、處理者尋求以匯總統(tǒng)計數(shù)據(jù)的方法構(gòu)建全局性價值而忽略局部(本地)信息,數(shù)據(jù)分布式隱私保護應(yīng)運而生。這類問題在密碼學(xué)領(lǐng)域研究較為廣泛,其中安全多方計算(SMC)較為典型。SMC的目標是在不向其他各方透露此類輸入的情況下,從各方的隱私輸入中共同計算一個函數(shù)。也就是說,在計算結(jié)束時,所有各方都只會學(xué)習(xí)輸出。這個問題是通過使用安全數(shù)據(jù)傳輸協(xié)議來解決的,該協(xié)議也適用于保護隱私的分布式計算[27]。SMC的情景假設(shè)是在各方都遵守協(xié)議的基礎(chǔ)上,這類情況往往不是真實存在的。并不是所有的攻擊者都遵守規(guī)則。所以,SMC的擴展中定義了兩種攻擊者:惡意攻擊者與半誠實攻擊者。惡意攻擊者則偏離了協(xié)議,甚至可能與其他攻擊者相互勾結(jié)。半誠實攻擊者被稱為誠實但是好奇的模型,這類是遵守協(xié)議規(guī)范,目的就是為了獲取更多的信息(包括隱私信息)。半誠實的情況仍然被認為是一種實體的良好模型。
數(shù)據(jù)挖掘中數(shù)據(jù)分布分為集中式與分布式兩種,其中分布式數(shù)據(jù)集可以分為水平與垂直兩個分區(qū)。水平情況中(宏觀),每個實體中蘊含著相同的屬性集的不同記錄,其目標就是挖掘相關(guān)數(shù)據(jù)的全局狀態(tài)。例如:圖書館文獻資源的用戶使用情況,訪問行為數(shù)據(jù)挖掘,通過該類數(shù)據(jù)決策圖書館下階段的文獻資源建設(shè)、規(guī)劃。垂直情況中(微觀),實體包含著與同一標識相關(guān)的不同屬性記錄。例如:圖書館用戶使用各種系統(tǒng)獲取相應(yīng)的服務(wù)記錄。水平分區(qū)數(shù)據(jù)集的例子是一個圖書館用戶鏈,其中每個站點都有不同的用戶,與每個客戶相關(guān)聯(lián)的屬性對所有站點(如業(yè)務(wù)行為類型和用戶的QID)都是一致的。對于垂直分區(qū)數(shù)據(jù)集,具有互補項的存儲可以由相同的用戶按順序訪問,從而創(chuàng)建每個存儲的數(shù)據(jù)庫中不存在的模式。這兩種分區(qū)都存在分布式隱私保護算法。
數(shù)據(jù)分布分布式集中式隱藏方法數(shù)據(jù)隱藏規(guī)則隱藏數(shù)據(jù)隱藏數(shù)據(jù)挖掘算法聚類、分類關(guān)聯(lián)規(guī)則聚類、分類關(guān)聯(lián)規(guī)則數(shù)據(jù)隱私保護技術(shù)數(shù)據(jù)加密技術(shù)泛化、清洗屏蔽、扭曲圖1? PPDM挖掘算法分類?數(shù)據(jù)挖掘隱私保護問題離不開對數(shù)據(jù)挖掘技術(shù)的分析、探索。SMC作為安全協(xié)議,用于預(yù)先從實體之間的通信和/或計算中披露信息。對于數(shù)據(jù)的集合,描述了不經(jīng)意傳輸協(xié)議和同態(tài)加密。水平與垂直分區(qū)則考慮了一組通常在許多數(shù)據(jù)挖掘算法中使用的原始操作,因此也適用于分布式隱私的保護,其中所描述的操作是安全和、安全集的并集、交集的安全大小、標量積和集交集等流程。第二種類型的協(xié)議也可以使用加密技術(shù),例如:不經(jīng)意的傳輸協(xié)議,以防止實體之間的數(shù)據(jù)信息的泄漏。PPDM方法的特征與具體業(yè)務(wù)實施環(huán)境息息相關(guān),選取合適的PPDM模型與業(yè)務(wù)所需的數(shù)據(jù)挖掘算法結(jié)合,才能夠形成行之有效的用戶隱私與挖掘應(yīng)用環(huán)境,為數(shù)據(jù)決策業(yè)務(wù)以及智慧圖書館業(yè)務(wù)的開展提供安全、高效的基礎(chǔ)條件。
4? PPDM方法對智慧圖書館用戶數(shù)據(jù)使用的啟示
技術(shù)的變革速度已經(jīng)超越法律的先例。大數(shù)據(jù)時代,數(shù)據(jù)源正在激增與互聯(lián),智慧圖書館將獲得更多的數(shù)據(jù),可以發(fā)掘更多有價值的信息。而智慧圖書館的“智慧”需要數(shù)據(jù)挖掘技術(shù)支持,而數(shù)據(jù)中必然涉及到用戶隱私信息。數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)中廣泛使用,而用戶對個人隱私保護意識也越來越強烈。數(shù)據(jù)共享與數(shù)據(jù)隱私的悖論越來越明顯。雖然《網(wǎng)絡(luò)安全法》《公共圖書館法》《信息安全技術(shù)個人信息保護》等法律、法規(guī)與標準被制定與發(fā)布,但是個人隱私保護法以及數(shù)據(jù)隱私保護法尚未立法,圖書館如何規(guī)范化使用數(shù)據(jù),尤其是涉及用戶的數(shù)據(jù)開展智慧服務(wù)的規(guī)則尚未形成統(tǒng)一的規(guī)定。智慧圖書館業(yè)務(wù)的開展伴隨著互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)引入、利用而逐步得以實踐,且其趨勢不可逆轉(zhuǎn)。智慧圖書館業(yè)務(wù)的開展離不開數(shù)據(jù)挖掘技術(shù)的支持。智慧圖書館業(yè)務(wù)包括數(shù)據(jù)的收集、發(fā)布、共享以及數(shù)據(jù)的匯聚過程。而PPDM對智慧圖書館用戶隱私的保護、業(yè)務(wù)的有效實施具有一定的借鑒作用。
41? 智慧圖書館數(shù)據(jù)的收集方面
圖書館文獻建設(shè)一直存在著數(shù)據(jù)的收集、整理,如圖書館的書目數(shù)據(jù)MARC等,只是這些數(shù)據(jù)屬于文獻資源類,包括數(shù)字圖書館的館藏紙本資源的數(shù)字化,以及其他影像、音頻等數(shù)字文獻資源。圖書館文獻資源的收集與保存,關(guān)注度較高的制度是版權(quán)問題。隨著大數(shù)據(jù)技術(shù)的廣泛使用,數(shù)字圖書館也逐漸使用用戶數(shù)據(jù),獲取挖掘、分析用戶需求,開展精準服務(wù)。數(shù)據(jù)決策等方法也被引入圖書館的營銷規(guī)劃與管理層面。數(shù)據(jù)的多維度收集,當然不可避免與用戶數(shù)據(jù)相關(guān)。長期以來“以用戶為中心的服務(wù)理念”成為圖書館服務(wù)宗旨。圖書館人為了更好地服務(wù)于用戶,不斷引入新技術(shù)、新理念以實施滿足用戶個性化需求的智慧服務(wù)。然而近些年來用戶對隱私保護問題的重視,使得越來越多的用戶(數(shù)據(jù)主體)不愿意提供給圖書館(數(shù)據(jù)控制者)自己的數(shù)據(jù)。這就給圖書館等數(shù)據(jù)控制者合理、合法獲取用戶數(shù)據(jù)開展智慧服務(wù)造成了影響。眾所周知,數(shù)據(jù)維度越高,完整性越強,數(shù)據(jù)挖掘與分析的結(jié)果越精確。PPDM在數(shù)據(jù)收集過程中的隨機轉(zhuǎn)換,避免原始數(shù)據(jù)的存儲等方法,在一定程度上能夠為智慧圖書館收集數(shù)據(jù)的完整性和可信度提供保證,也能夠降低原始數(shù)據(jù)泄露造成的數(shù)據(jù)隱私問題。
42? 智慧圖書館數(shù)據(jù)的發(fā)布角度
圖書館一直都在嘗試著運用自有數(shù)據(jù)開展文獻資源建設(shè),例如:圖書館支持數(shù)字人文研究等[28]。傳統(tǒng)圖書館的數(shù)據(jù)發(fā)布采用“匿名化”的方式,如“張三”發(fā)布為“張某”等。而PPDM的數(shù)據(jù)發(fā)布,不僅從展示層面進行匿名化,也從挖掘、分析數(shù)據(jù)層面進行泛化、扭曲、清洗與屏蔽,進而對二次、三次數(shù)據(jù)的使用提供更加安全的隱私保護。智慧圖書館數(shù)據(jù)的發(fā)布,不再局限于文獻資源的多維度、多平臺的發(fā)布、展示與共享,模糊化的數(shù)據(jù)代表了群體信息,而精細化的數(shù)據(jù)發(fā)布則需要進行特殊處理,例如:空間管理數(shù)據(jù)展示,業(yè)務(wù)運行系統(tǒng)展示等也逐漸成為智慧圖書館數(shù)據(jù)發(fā)布、信息公開的常規(guī)化業(yè)務(wù)。智慧圖書館文獻資源的多維度展示,有利于提升資源的利用率。然而管理數(shù)據(jù)、業(yè)務(wù)運行數(shù)據(jù)的發(fā)布與展示,可能存在著用戶隱私泄露的問題。所以,PPDM的泛化、扭曲、清洗與屏蔽等技術(shù)方法的使用,能夠?qū)τ脩魯?shù)據(jù)隱私起到一定的保護作用。
43? 智慧圖書館數(shù)據(jù)的共享層面
互聯(lián)網(wǎng)的信息共享理念,貫穿著圖書館的業(yè)務(wù)。從信息共享到數(shù)據(jù)共享,成為促進經(jīng)濟發(fā)展重要的動力源。然而互聯(lián)網(wǎng)社會復(fù)雜的環(huán)境下,數(shù)據(jù)安全等問題讓組織機構(gòu)與用戶都存在著擔(dān)憂。數(shù)據(jù)控制者、數(shù)據(jù)處理者的責(zé)任更重,首先需要數(shù)據(jù)收集的流程做到規(guī)范性,其次數(shù)據(jù)存儲的安全性保障,第三數(shù)據(jù)共享與挖掘與分析,需要再次考慮到用戶的隱私信息問題。最后,數(shù)據(jù)發(fā)布信息也需要關(guān)注到用戶隱私等問題。數(shù)據(jù)共享與整合才能提升數(shù)據(jù)價值,數(shù)據(jù)的共享也會帶來數(shù)據(jù)隱私不可控,數(shù)據(jù)共享后的數(shù)據(jù)控制者隨之發(fā)生改變。數(shù)據(jù)控制者的數(shù)據(jù)素養(yǎng)高低不同,也增加了數(shù)據(jù)安全風(fēng)險。PPDM規(guī)則中,數(shù)據(jù)共享按需分享、提供數(shù)據(jù),并且根據(jù)安全風(fēng)險評估,適當采用敏感數(shù)據(jù)隱藏、規(guī)則隱藏等方法,以降低數(shù)據(jù)共享帶來的風(fēng)險。
44? 智慧圖書館數(shù)據(jù)的匯聚實踐
用戶個人數(shù)據(jù)作為智慧圖書館大數(shù)據(jù)的重要來源,具有數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜等特征,圖書館應(yīng)該從數(shù)據(jù)管理角度對用戶個人信息采用分類、分級保護的技術(shù)方法。例如:圖書館按照業(yè)務(wù)系統(tǒng)進行數(shù)據(jù)的匯聚,對用戶個人身份信息定位個人信息,包括敏感信息。而額外的信息包括行為方面的,如電子資源訪問、圖書借閱、期刊查閱以及圖書館網(wǎng)站瀏覽等。這些除了公開信息外,其他的類型信息,都需要納入到隱私保護范圍之內(nèi)。圖書館業(yè)務(wù)系統(tǒng)數(shù)據(jù)的匯聚[29],為智慧服務(wù)的開展提供原始的決策素材。數(shù)據(jù)挖掘、分析可以分為兩個層次:宏觀層面與微觀層面。宏觀層面的分析,可以讓圖書館管理者、館員動態(tài)掌握圖書館業(yè)務(wù)運行情況。微觀層面的分析,讓圖書館管理者與館員動態(tài)掌握用戶的文獻資源、空間服務(wù)需求,讓用戶能夠享受到個性化的服務(wù)?;ヂ?lián)網(wǎng)發(fā)展至今,用戶形成了個性鮮明的互聯(lián)網(wǎng)思維,對大千世界的看法、認識各不相同,這也造成了圖書館等服務(wù)行業(yè)難以通過一種或者幾種服務(wù)模式滿足廣大用戶的需求。所以,多維度的數(shù)據(jù)匯聚、挖掘與分析,能夠幫助圖書館感知用戶所需,并因此開展針對性的服務(wù),以提高服務(wù)效率,提高用戶的滿意度乃至忠誠度[30]。PPDM分布式環(huán)境,與圖書館業(yè)務(wù)系統(tǒng)環(huán)境接近,其中水平分區(qū)的數(shù)據(jù)挖掘、數(shù)據(jù)隱私保護,能夠協(xié)助圖書館管理層,從宏觀層面掌握智慧圖書館的空間、資源、服務(wù)等系統(tǒng)運行情況,以便動態(tài)調(diào)整業(yè)務(wù)內(nèi)容與管理方式,提升服務(wù)質(zhì)量。垂直分區(qū)的數(shù)據(jù)挖掘、數(shù)據(jù)隱私保護,則從微觀層面以用戶為分析對象,深度挖掘、分析用戶的所想、所需,從服務(wù)“智慧”性角度,為其提供個性化的文獻資源與空間保障服務(wù)。
數(shù)據(jù)成為資產(chǎn)、產(chǎn)業(yè)垂直整合、泛互聯(lián)網(wǎng)化是大數(shù)據(jù)時代的三大發(fā)展趨勢[31]。以數(shù)據(jù)為基礎(chǔ)的智慧圖書館服務(wù)體系,數(shù)據(jù)價值發(fā)掘的效果與圖書館服務(wù)的“智慧”密切相關(guān)。復(fù)雜多變的互聯(lián)網(wǎng)環(huán)境也給智慧圖書館發(fā)展帶來了一些困惑與危機,例如:數(shù)據(jù)安全、信息安全、數(shù)據(jù)隱私以及數(shù)據(jù)倫理等。如何處理好這些問題成為智慧圖書館發(fā)展道路上重要的課題之一。智慧圖書館運用數(shù)據(jù)開展服務(wù)需要對自己數(shù)據(jù)使用行為加以約束與規(guī)范,這樣既可以對用戶、館員和系統(tǒng)加以保護,也可以獲取到真實、可靠、完整的數(shù)據(jù)以提升“智慧”服務(wù)的效果。現(xiàn)階段PPDM方法雖然不能夠與智慧圖書館數(shù)據(jù)使用做到全面的融合,但也從技術(shù)方法層面給未來智慧圖書館數(shù)據(jù)的規(guī)范化使用提供了一些啟示(如圖2所示),為智慧圖書館有關(guān)數(shù)據(jù)隱私、數(shù)據(jù)倫理、數(shù)據(jù)共享等問題的逐一解決提供一些思路與方法,從而促進智慧圖書館的健康發(fā)展。
智慧圖書館以大數(shù)據(jù)為基礎(chǔ)開展的服務(wù),除了進行知識發(fā)現(xiàn)以外,另一個最重要的用途就是實施感知用戶需求的智慧服務(wù)。既然感知用戶所需,必然涉及用戶的個人信息以及“數(shù)據(jù)足跡”等,而涉及用戶切身利益的數(shù)據(jù)存在著被泄露的風(fēng)險,所以,智慧圖書館數(shù)據(jù)收集、數(shù)據(jù)挖掘、數(shù)據(jù)共享與數(shù)據(jù)發(fā)布等全流程都需要用技術(shù)手段對隱私信息進行匿名化等形式的處理,以保障用戶的隱私安全(如圖3所示),而具體數(shù)據(jù)處理的實施方案需要運用PPDM理念,并與其他隱私保護方法融合,完善智慧圖書館數(shù)據(jù)管理系統(tǒng)的隱私保護與數(shù)據(jù)安全體系。
5? 結(jié)論與展望
智慧圖書館是一個復(fù)雜的系統(tǒng),其中不僅涉及到互聯(lián)網(wǎng)技術(shù)與方案,同時也是圖書館人文精神的一種聚合。智慧圖書館與互聯(lián)網(wǎng)緊密聯(lián)系,互動互鑒。圖書館也由傳統(tǒng)的文獻資源服務(wù)逐漸向空間服務(wù)等互聯(lián)網(wǎng)服務(wù)創(chuàng)新理念的影響而轉(zhuǎn)變。互聯(lián)網(wǎng)用戶的需求呈現(xiàn)多元化的局面,圖書館用戶也是如此。然而圖書館用戶在享受文獻資源服務(wù)便利的同時,也對互聯(lián)網(wǎng)中隱私泄露事件頻繁發(fā)生而日益擔(dān)憂。智慧圖書館為用戶提供文獻服務(wù)的同時,也應(yīng)該對用戶顧慮加以重視。PPDM方法改變了傳統(tǒng)的隱私保護的理念,更加適應(yīng)圖書館在大數(shù)據(jù)環(huán)境下用戶隱私數(shù)據(jù)的保護,同時也滿足了智慧圖書館數(shù)據(jù)使用的需求。智慧圖書館屬于數(shù)字圖書館在互聯(lián)網(wǎng)中的技術(shù)創(chuàng)新、服務(wù)創(chuàng)新,也是圖書館人對下一代圖書館的期盼。智慧圖書館也許并不是一個實體的空間,但是圖書館的智慧服務(wù)、以人為本的精神,是廣大館員時刻銘記于心的理念。雖然PPDM等單一的方法不能夠完全解決智慧圖書館發(fā)展所面臨的困境,維度問題不僅是PPDM和大數(shù)據(jù)挖掘共同存在的問題。構(gòu)建完整的智慧圖書館服務(wù)體系,找出其中關(guān)鍵屬性來降低數(shù)據(jù)的維度以及壓縮屬性,以此提升PPDM與智慧服務(wù)的效率。PPDM與差分隱私保護等方法以及智慧圖書館隱私保護制度共同作用,才能夠構(gòu)建智慧圖書館的用戶隱私數(shù)據(jù)保護體系來促進智慧圖書館的健康發(fā)展。只有通過圖書館領(lǐng)域的專家、學(xué)者以及計算機領(lǐng)域的安全專家不斷探索,才能夠?qū)?shù)據(jù)安全、數(shù)據(jù)隱私、數(shù)據(jù)共享等互聯(lián)網(wǎng)中普遍存在的問題得以逐一解決,集思廣益、共同為智慧圖書館發(fā)展貢獻力量。
參考文獻
[1]嚴棟.基于物聯(lián)網(wǎng)的智慧圖書館[J].圖書館學(xué)刊,2010,32(7):8-10.
[2]王世偉.未來圖書館的新模式——智慧圖書館[J].圖書館建設(shè),2011,(12):1-5.
[3]Langheinrich M.Privacy in Ubiquitous Computing,in Ubiquitous Computing Fundamentals[M].Boca Raton,F(xiàn)L,USA:CRC Press,2009,(3):95-159.
[4]United NationGeneral Assembly.Universal Declaration of Human Rights[EB/OL].Available:http://www.un.org/en/documents/udhr/,2020-02-10.
[5]ALA Privacy Policy[EB/OL].http://www.ala.org/privacypolicy,2020-07-13.
[6]宋吉鑫.網(wǎng)絡(luò)倫理學(xué)研究[M].北京:科學(xué)出版社,2012:42.
[7]Yu S.Big Privacy:Challenges and Opportunities of Privacy Study in Theage of Big Data[M].IEEE Access,2016:2751-2763.
[8]Acquisti A,Brandimarte L,Loewenstein G.Privacy and Humanbehavior in the Age of Information[J].Science,2015,347(6221):509-514.
[9]Banisar D,et al.Privacy and Human Rights:An International Survey of Privacy Laws and Practice[D].Global Internet Liberty Campaign,London,UK.,Tech.Rep.,1999.
[10]Westin A F.Privacy and Freedom[M].Washington Lee Law Rev.,1968,25(1):166.
[11]Bertino E,Lin D,Jiang W.“A Survey of Quantication of Privacypreserving Data Mining Algorithms”,in Privacy-Preserving Data Mining[M].New York,NY,USA:Springer,2008:183-205.
[12]葛燕君.圖書館數(shù)據(jù)開放的內(nèi)涵、價值、實施與隱私保護[J].情報雜志,2019,38(7):166-170,183.
[13]董同強,馬秀峰.融入“雙一流”建設(shè)的高校圖書館智慧型學(xué)科服務(wù)平臺構(gòu)建[J].現(xiàn)代情報,2019,39(5):97-103.
[14]Agrawal R,Srikant R.Privacy-preserving Data Mining[J].ACM Sigmod Record,2000,29(2):439-450.
[15]劉雅輝,張鐵贏,靳小龍,等.大數(shù)據(jù)時代的個人隱私保護[J].計算機研究與發(fā)展,2015,52(1):229-247.
[16]Ilavarasi A,Poorani S.A Survey on Privacy Preserving Data Mining Techniques[J].Int Journal of Computer Science and Business Informatics,2013,7(1):1-12.
[17]Schwartz,Paul M,Property,Privacy,and Personal Data.Harvard Law Review,2004,117(7):2055,Available at SSRN:https://ssrn.com/abstract=721642.
[18]于洪,何德牛,王國胤,等.大數(shù)據(jù)智能決策[J/OL].自動化學(xué)報:1-19.http://h-s.doi.org /10.16383/j.aas.c180861,2019-05-29.
[19]Edward Bloustein,Privacy as an Aspect of Human Dignity:An Answer to Dean Prosser,39 NYULRev.962,1964.
[20]陸康.網(wǎng)絡(luò)信息環(huán)境下讀者隱私保護策略研究[J].現(xiàn)代情報,2016,36(6):119-123,153.
[21]Aggarwal C C,Yu P S.“A General Survey of Privacy-preservingdata Mining Models and Algorithms”,in Privacy-Preserving Data Mining[M].New York,NY,USA:Springer,2008:11-52.
[22]Aggarwal C C.Data Mining:The Textbook[M].New York,NY,USA:Springer,2015.
[23]Dwork C.“Differential Privacy”,in Automata,Languages and Program-ming,vol.4052.Venice[D].Italy:Springer-Verlag,Jul.2006:1-12.
[24]王利明.數(shù)據(jù)共享與個人信息保護[J].現(xiàn)代法學(xué),2019,41(1):45-57.
[25]黃欣榮.大數(shù)據(jù)技術(shù)的倫理反思[J].新疆師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2015,36(3):46-53,2.
[26]Atallah M,Bertino E,Elmagarmid A,et al.“Disclosure Limitation of Sensitive Rules”,in Proc[J].Workshop Knowl.Data Eng.Exchange(KDEX),1999:45-52.
[27]Lindell Y,Pinkas B.Secure Multiparty Computation for Privacypreservingdata Mining[J].JPrivacy Condentiality,2009,1(1):59-98.
[28]肖奕.圖書館支持數(shù)字人文研究進展[J].圖書館論壇,2018,38(4):25-30.
[29]陸康.數(shù)據(jù)圈背景下的智慧圖書館數(shù)據(jù)匯聚研究[J].現(xiàn)代情報,2019,39(10):102-109.
[30]劉慧,陸康.高校圖書館忠誠度體系研究[J].數(shù)字圖書館論壇,2015,(12):69-72.
[31]張?zhí)m廷.大數(shù)據(jù)的社會價值與戰(zhàn)略選擇[D].北京:中共中央黨校,2014:1.
(責(zé)任編輯:郭沫含)