馬曉亭
大數據時代圖書館個性化服務讀者隱私保護研究
馬曉亭
大數據時代,圖書館用戶數據隱私保護成為重要問題。文章分析大數據時代圖書館個性化服務用戶隱私保護的現狀及存在的問題,從法律、技術和數據分析三方面研究圖書館在提供個性化服務過程中潛藏的用戶隱私被侵犯風險,提出大數據環(huán)境下圖書館用戶個性化服務隱私保護的對策與方法。
大數據時代 圖書館 個性化服務 隱私保護
大數據時代給圖書館的運營模式、服務理念、用戶需求和市場環(huán)境帶來巨大變革。如何有效采集讀者閱讀行為、身份特征、個人愛好與習慣和社會關系等隱私數據,并將所收集到的數據進行整合、分析與挖掘,實現對讀者閱讀需求和閱讀行為準確、詳細的跟蹤、挖掘、分析和預測,成為圖書館根據讀者需求轉變服務模式和定制個性化服務內容,提高服務有效性、用戶滿意度和市場競爭力的關鍵。2013年6月,隨著前美國中央情報局雇員斯諾登向媒體提供機密文件,致使包括棱鏡項目在內的美國政府多個秘密情報監(jiān)視項目曝光。信息安全和個人隱私保護引起各國政府、企業(yè)和團體的重視,成為大數據時代普遍存在并關系到人權和用戶利益保護的重要問題。因此,圖書館在利用大數據技術提高用戶服務能力和服務質量的同時,如何有效保護讀者隱私權,已成為加強圖書館與讀者之間信任感、用戶閱讀活動愉悅感和讀者群忠誠度的重要保障[1]。
通過對人類社會行為和社會關系數據的采集、處理和分析,可對原本難以捉摸的人類社會行為、活動和關系,進行有效的解析、描述、量化、預測和控制。比如,在2012年美國總統競選期間,奧巴馬競選團隊利用大數據分析來預測選民的結構組成、政治需求、社交關系、行為特征、生活習慣與興趣愛好,制定出基于大數據驅動的資金籌集和競選決策,籌集到歷史最高的10億美元競選資金,并最終獲得競選勝利。因此,在大數據時代,圖書館根據所收集到的讀者閱讀行為和社會關系數據,準確分析、預測未來讀者閱讀需求和行為發(fā)展,為用戶提供具有較高個性化特征的推送式服務,是圖書館降低運營成本和服務模式復雜度,提高服務效率和用戶滿意度的關鍵。
大數據是推動圖書館服務模式和服務內容變革的重要因素。圖書館大數據信息采集的原則,應堅持與讀者需求、用戶服務模式與內容、圖書館未來發(fā)展與變革、讀者閱讀環(huán)境和行為相關的原則。讀者信息采集的內容主要包括電子郵件、第三方增值服務、相關視頻與圖片信息、存儲服務數據、語音數據、文件傳輸的內容與對象、讀者服務系統訪問與閱讀行為數據、瀏覽習慣等。此外,為保證所收集數據具有較高的價值密度和可用性,在法律允許和征求用戶同意的前提下,還應收集有關讀者年齡、性別、婚姻狀況、教育或者就業(yè)情況、社會關系等隱私數據。
數量和質量問題是關系圖書館大數據分析與應用有效性的兩個關鍵因素。首先,大數據時代如果圖書館數據類型單一或者存儲總量較少,則無法從簡單、有限的數據中獲取具有較高價值的信息。如果數據量過大,則會導致數據總量中垃圾數據比重過高和數據關系過于復雜,造成有價值信息提取困難。因此,只有當圖書館大數據平臺數據總量達到適當的比例,才能真正顯現出大數據的價值,才能根據不同數據之間的關聯性而分析得出有價值信息。其次,數據的質量也是關系大數據應用有效性的關鍵因素。圖書館在數據收集過程中,應加強對所收集數據的服務針對性和質量控制,保證數據具有較高的價值密度和數據可用性[2]。
2.1 讀者處于全天候全方位的監(jiān)控之中
圖書館通過對大數據平臺收集到的數據進行統計性的搜索、比較、聚類和分類等,分析、歸納,進而發(fā)現細微數據之間隱性存在的“相關”特性,為圖書館的運營、管理、服務和未來發(fā)展提供決策依據。因此,圖書館用戶行為和社會關系數據采集的內容、數量、質量和全局有效性,是關系圖書館運營、管理和服務過程決策科學性的關鍵。
為保證圖書館收集到的用戶數據全面、真實、易控和可用,必須對讀者行為實施全天候、全方位的監(jiān)控。大數據時代,圖書館主要對讀者的用戶注冊、服務系統登陸、數字閱讀行為數據、論壇與微博交流互動、服務需求等信息進行監(jiān)控。此外,與第三方增值服務運營商共同為讀者提供移動閱讀、用戶數據管理、個人圖書館服務等增值服務,是大數據時代圖書館服務的又一個亮點。圖書館可與第三方增值服務商實現讀者監(jiān)控數據的共享,更多地掌握讀者的身份特征、地理位置、行動路徑、社會關系和消費習慣等隱私數據,以提高所擁有讀者數據的數量和價值密度。因此,大數據時代,讀者處于圖書館全天候、全方位的監(jiān)控之中而毫無個人隱私可言[3]。
2.2 讀者的思想和行為發(fā)展趨勢被提前暴露
圖書館通過對讀者相關行為及社會關系數據進行海量采集、持久存儲、全景分析和科學決策,能夠精準定位到某個具體的讀者身上,準確預測其思想、行為的未來發(fā)展趨勢。因此,圖書館可利用大數據技術對未來的用戶服務模式和讀者需求發(fā)展趨勢進行準確的預測,為用戶提供基于定制的個性化閱讀服務,確保讀者具有較高的閱讀收益率和滿意度。
但是大數據技術對讀者未來閱讀行為和需求的超強全景洞察,無疑增加了讀者隱私受到威脅和侵犯的概率。第一,圖書館會根據所預測到未來可能會發(fā)生的用戶不安全閱讀行為,提前制定相應的安全跟蹤、防范和控制策略。這種基于所采集數據對用戶未來閱讀行為進行非法和不信任的判定,對于讀者來說是不公平的。第二,圖書館可利用所采集的讀者之間論壇、博客信息交流數據,以及讀者好友圈子的關系數據,而準確預測讀者的親友、同學、同事和其它社會關系,讓讀者毫無個人隱私可言。第三,所采集的讀者信息具有較高的復雜度和海量性,大幅度增加了讀者隱私數據安全管理的難度和可控性。因此,讀者隱私數據在采集、存儲、管理、分析和傳輸過程中都有可能會被泄露[4]。
2.3 圖書館利用大數據分析結果制定的運營、服務策略可能會損害讀者利益
利用大數據技術進行準確的數據分析,為讀者提供安全、高效、經濟和滿意的個性化閱讀服務,是圖書館大數據技術應用的價值體現和最終目的。但是,在一些特定環(huán)境和階段下,圖書館為了獲取最大服務收益,提高市場競爭力和保證擁有較大的讀者群體數量,所制定的管理、經營、服務和發(fā)展策略,可能會侵害部分讀者的個人隱私,損害部分用戶的利益。
最典型的一個案例就是,華爾街有一位股票炒家利用電腦程序分析當時全球3.4億微博賬戶的留言,以此來判斷民眾的投資情緒。如果多數人表現興奮、樂觀就買入股票,如果大家的焦慮情緒上升就拋售股票。這位股票投資者利用這個方法,最終獲得了7%的季度收益率。同樣,當圖書館服務商利益和讀者隱私權利發(fā)生沖突,或者少數讀者合法權益與大多數讀者利益產生沖突時,圖書館很難保證其決策的制定和執(zhí)行,完全從法律角度出發(fā),維護全體用戶的利益。此外,由誰來監(jiān)督和如何監(jiān)督圖書館行為,避免服務過程對讀者隱私和權利造成損害,也是保障讀者合法權利的又一個重要問題[5]。
2.4 讀者個人隱私數據的歸屬權與監(jiān)管問題
對于任何國家、企業(yè)和社會團體而言,讀者個人隱私數據背后可能隱藏著巨大的政治、軍事、社會與經濟利益。因此,在有效采集、整合、分析與挖掘數據的同時,加強數據的安全管理與保密工作,對國家、企業(yè)和社會團體的快速發(fā)展,以及利益保障具有重要的意義。
第一,圖書館在采集、管理和使用用戶隱私數據過程中,采集方法的合法性與監(jiān)管標準、所采集數據的所有權歸屬、利用隱私數據進行分析與決策的限度、隱私數據共享的對象與程度、隱私數據使用監(jiān)管的標準與維權方式等問題,是關系圖書館合法使用個人隱私數據和有效保護讀者隱私的關鍵。第二,當個人隱私保護與國家安全、經濟利益發(fā)生沖突時,各國政府可能會從維護國家利益出發(fā),要求圖書館提供相關讀者的隱私數據。第三,圖書館管理員在服務系統維護和數據管理中,通常會接觸到讀者隱私數據。部分缺少職業(yè)道德和法律意識的管理員,可能會為了獲取非法利益而出賣讀者隱私數據。同時,系統管理員不正確的數據存儲、管理和傳輸方式,也提高了黑客竊取讀者隱私數據的成功率[6]。
3.1 避免對用戶信息無限制的采集和使用
大數據并不完全等同于大價值。只有當圖書館數據的存儲量達到一定數值,并且具有較高的價值密度,才能通過數據的采集、挖掘和相互關系分析,得出具有較高價值的有用信息。因此,圖書館在用戶數據采集、管理和使用過程中,應加強數據的安全管理和監(jiān)控,避免對用戶信息無限制的采集和使用。
第一,如果限制讀者數據的采集,在某種程度上雖然保護了讀者的隱私權利和信息安全,但是,也大幅度降低了數據的價值密度和可用性,最終將會影響決策的科學性和可靠性。因此,在不損害公眾利益和用戶隱私權的前提下,不應該限制圖書館采集讀者數據的對象、內容、數量、方式和途徑,應將數據安全管理的重點從限制數據采集轉移到監(jiān)管數據使用上。第二,圖書館在用戶隱私數據采集和使用中,應保證讀者具有知情權和控制權,對圖書館存儲的用戶隱私數據擁有管理、利用、修改、分發(fā)和刪除的決定權。同時,圖書館應依靠科學技術手段和安全管理系統,在不影響數據可用性的前提下,保證用戶隱私數據的采集、存儲、管理、使用和決策過程具有較高的安全保密性。第三,圖書館應加強相關人員的法律、法規(guī)和職業(yè)道德教育,保證工作人員的行為符合相關法律與道德規(guī)范,避免讀者隱私數據的過度挖掘、分析和使用。第四,圖書館業(yè)應制定相應的讀者隱私保護行業(yè)標準或公約,從行業(yè)道德層面約束圖書館業(yè)的服務行為。同時,通過圖書館行業(yè)聯盟制定科學、詳細的用戶閱讀隱私保護規(guī)范,保證讀者大數據閱讀隱私保護科學、全面、高效、細致[7]。
3.2 通過立法規(guī)范政府、企業(yè)對用戶隱私數據使用的行為
2013年6月,前美國中央情報局雇員斯諾登的叛逃,不但揭示了用戶個人隱私可能受到政府、企業(yè)的監(jiān)控,而且表明當個人隱私權和國家、企業(yè)利益發(fā)生沖突時,政府和企業(yè)可能會從維護全局利益出發(fā),將個體用戶隱私權利的保護放在次要的位置,這可能會對用戶個人隱私數據產生一些新形式的侵犯。
正如美國總統奧巴馬所說,“不能在保證百分之百隱私的情況下,而獲得百分之百的安全”。因此,政府和企業(yè)可能出于維護廣大人民和絕大多數用戶利益的目的,通過立法使自己侵犯個人隱私的行為符合法律規(guī)定,這一行為本身無可厚非。但是,如何通過法律手段限制政府、企業(yè)對用戶隱私的過度侵犯,以及防止這種侵權行為失去控制,是關系用戶隱私權利保護的又一個關鍵問題。
第一,應從國家戰(zhàn)略和維護人民利益的角度出發(fā)制定法律。法律制定的原則應堅持保障國家和人民利益不受侵害的前提下,在數據的采集、使用、分析和決策過程中,充分尊重公民的個人利益和隱私權。第二,圖書館在讀者隱私保護中應規(guī)范自身行為,在為用戶隱私數據管理提供可靠安全技術保障的同時,應加強安全管理制度的安全性和隱私性保障。同時,還可通過參加“用戶隱私權利聯盟”和發(fā)表相關《用戶隱私數據保護自律宣言》的方式,自覺規(guī)范自己的行為并接受社會和用戶監(jiān)督。第三,數據作為國家、企業(yè)的戰(zhàn)略資產,對國家利益和企業(yè)生產有著重要的意義。企業(yè)與企業(yè)之間,企業(yè)與國家之間的數據管理,已從最初的壟斷向多用戶共享發(fā)展。因此,必須制定數據共享的安全管理和讀者隱私保護策略,保證可以對數據的采集、存儲和多用戶共享過程進行監(jiān)控、追蹤和說明[8]。
3.3 圖書館應加強對采集數據的清洗
圖書館在大數據應用過程中,既要保護讀者個人隱私不受侵犯,又不能以降低數據的可用性和價值密度為代價,這樣才能在數據挖掘和發(fā)揮大數據價值的同時,有效維護讀者的隱私權。
在圖書館所采集的數據中,有很大一部分與用戶行為分析、用戶社會關系判定、圖書館建設、系統運營和讀者服務過程是不相關的。這部分數據不僅造成圖書館大數據結構復雜度增加,而且也導致大數據平臺數據處理負載激增。因此,必須通過有效的數據清洗,盡量刪除與圖書館無關的讀者隱私數據,提高圖書館大數據的價值密度和可用性。第一,圖書館應根據讀者服務和運營需求,對所采集的數據進行過濾、清理、刪減、一致化、匹配、連接和診斷。并對清洗后的數據進行價值密度和可用性評估,動態(tài)調整數據清洗的策略。第二,圖書館應根據自身建設和服務需求收集數據,提高數據的準確性和透明度,允許讀者查看、審查、修改和刪除圖書館收集到的有關自己的信息。應利用所收集的大數據信息分析某一讀者群體的行為特征和需求,而不應針對單一讀者進行分析、判斷和決策,努力降低所收集信息的個體相關性。第三,圖書館與第三方進行讀者隱私數據共享時,應先清洗出關系讀者個人隱私和用戶利益的重要數據,避免讀者隱私數據泄露和受到侵犯。同時,應盡量通過圖書館服務開放平臺采集讀者數據,不要主動向讀者索取數據和打擾用戶[9]。
3.4 利用云計算技術保護讀者個人隱私
大數據時代,云計算技術為大數據應用提供了基礎設施平臺和數據處理、分析服務,是幫助圖書館提高生產力和解決大數據問題最有效的手段。但是,大數據環(huán)境下讀者閱讀活動面臨著許多新的安全威脅與問題,現有的云計算安全技術無法完全保護讀者個人隱私。圖書館應根據大數據環(huán)境下自身建設、管理與用戶服務的需求,結合自身特點與實際情況,鼓勵隱私保護技術的研發(fā)、創(chuàng)新和使用,從技術層面來完善用戶隱私保障體系,確保讀者閱讀隱私安全。
為了保證讀者閱讀行為、社會關系和服務需求等個人隱私數據具有較高的可獲取性、價值密度和可用性,圖書館加強了對讀者用戶注冊、服務數據獲取、網頁瀏覽、微博與論壇信息發(fā)布、增值服務商信息交互等活動的數據監(jiān)控、采集、存儲和處理。云計算技術的超級計算、海量存儲、虛擬化和云資源供給動態(tài)伸縮的特點,恰恰是圖書館大數據應用有效性的技術保障。此外,保證云計算技術應用安全和利用云計算安全技術管理大數據平臺,也是圖書館大數據平臺安全管理的必要條件[10]。
第一,圖書館應選擇具有較高安全保障能力和技術水平的云服務商簽署云服務協議。大數據時代,圖書館數據具有體量巨大、數據類型繁多、價值密度低和處理速度快的特點,因此,圖書館必須通過租賃云服務商的云服務,保證數據采集、存儲、處理和分析的效率和質量。圖書館選擇云服務商時,應重點關注云服務商的安全管理水平、信譽度、技術實力和服務可靠性,并確保雙方所簽署協議的內容科學、可控、經濟和可執(zhí)行。第二,云計算平臺在數據管理、處理和分析過程中,應堅持定制、定向和數據節(jié)制的原則,根據圖書館的需求劃分數據范圍和選擇大數據處理方向,避免因過度處理和分析而侵犯讀者隱私。第三,圖書館與服務商簽署云服務協議時,應明確雙方在讀者隱私數據管理、使用過程中的權利、義務與責任。并根據數據敏感性設置不同的保密級別和管理策略,確保讀者隱私數據管理安全、高效、經濟、可靠[11]。
大數據時代,圖書館數據呈現存儲海量、高速增長、結構復雜和品類多樣的特點。通過大數據處理平臺對數據進行采集、存儲和分析,令圖書館有效洞察服務市場的競爭環(huán)境、讀者需求、讀者閱讀行為特點和未來所面臨的挑戰(zhàn)。此外,從大數據中獲得了全新的價值,為圖書館服務模式變革和用戶服務質量保障提供了科學的理論依據和數據支持。為保證大數據具有較高價值密度和數據可用性,圖書館通常會對讀者相關數據進行立體化、全方位的采集、處理、分析和挖掘,這些行為可能會導致讀者個人隱私數據的泄露和侵犯。因此,圖書館必須從保障和維護讀者權益出發(fā),自覺遵守相關的法律、法規(guī),形成保護讀者個人隱私的長效機制。同時,還應提高讀者隱私數據在收集、分析、傳輸和共享過程中安全管理的科學性和技術水平,并加強圖書館的自我約束和自我監(jiān)督,才能為讀者提供大數據時代安全、高效、放心、滿意的個性化服務[12]。
[1]李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012,8(9):8-15.
[2]黃毅,霍崢,孟小峰.一種用戶協作無匿名區(qū)域的位置隱私保護方法[J].計算機學報,2011,34(10):1976-1985.
[3]任建寶,齊勇,戴月華,等.不可信操作系統中用戶隱私數據完整性保護方法[J].計算機科學與探索,2013,(5):1-11.
[4]李建中,劉顯敏.大數據的一個重要方面:數據可用性[J].計算機研究與發(fā)展,2013,50(6):1147-1162.
[5]李寧,朱青.大數據模式分解的隱私保護研究[J].計算機科學與探索,2012,6(11):961-973.
[6]Texas Department of State Health Services. User manual of Texas hospital discharge data public use data file[EB/OL].[2013-07-10].http://www.dshs.state. tx.us/thcic/Hospitals/HospitalData.shtm.
[7]Zhou Zongwei,Gligor V D,Newsome J,et al. Building verifiable trusted path on commodity x86 computers[C]//Proceedings of the 2012 IEEE Symposium on Security and Privacy.Washington,DC,USA:IEEE Computer Society,2012:616-630.
[8]王艷,樂嘉錦,孫捷,等.網絡用戶行為的隱私保護數據挖掘方法[J].計算機工程與應用,2012,48(13):138-143.
[9]Liu Bing.Web數據挖掘[M].余勇,薛貴榮,韓定一,譯.北京:清華大學出版社,2009:327-329.
[10]張逢喆,陳進,陳海波,等.云計算中的數據隱私性保護與自我銷毀[J].計算機研究與發(fā)展,2011,48(7):1155-1167.
[11]霍崢,孟小峰,徐建良.云計算中面向隱私保護的查詢處理技術研究[J].計算機科學與探索,2012,6(5):385-396.
[12]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012.
Study on User Privacy Protection for Library Personalized Service in Big Data Era
MA Xiao-ting
User privacy protection has been one of the main concerns and challenges for library in big data era.This paper first analyzes the current situation and major problems concerning user privacy protection in library personalized service,and then studies the risks for user privacy invasion in law,technology and data analysis.Finally,corresponding strategies and methods are proposed to protect library user privacy in the big data era.
big data era;library;personalized service;privacy protection
格式 馬曉亭.大數據時代圖書館個性化服務讀者隱私保護研究[J].圖書館論壇,2014(2):84-89.
馬曉亭(1974-),女,碩士,蘭州商學院信息工程學院副教授。
2013-07-14