孫海晶
摘? 要:隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大數(shù)據(jù)技術(shù)已普遍融入到了每一個(gè)行業(yè)之中,人們已步入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)技術(shù)的廣泛應(yīng)用會(huì)使圖書館的知識(shí)管理體系進(jìn)行重新構(gòu)建。該文將大數(shù)據(jù)技術(shù)與圖書館的工作相結(jié)合,從各種不同的角度分析了大數(shù)據(jù)技術(shù)在圖書館中的應(yīng)用,同時(shí),也提出了大數(shù)據(jù)背景下,讀者隱私信息的安全問(wèn)題及解決方法,以促進(jìn)圖書館的建設(shè)和發(fā)展,實(shí)現(xiàn)對(duì)讀者的精準(zhǔn)服務(wù)。
關(guān)鍵詞:大數(shù)據(jù)? 大數(shù)據(jù)技術(shù)? 圖書館? 應(yīng)用
中圖分類號(hào):G258.6;G251 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2020)01(b)-0174-03
提到“大數(shù)據(jù)”,每個(gè)人都不陌生。因?yàn)楫?dāng)我們?cè)谶M(jìn)行網(wǎng)絡(luò)購(gòu)物時(shí),會(huì)發(fā)現(xiàn)網(wǎng)站會(huì)根據(jù)我們?yōu)g覽或購(gòu)買過(guò)的商品,個(gè)性化地向我們推薦類似的商品,甚至?xí)谖覀兊碾娔X桌面間斷性地跳出相關(guān)廣告頁(yè)面。這就是典型的商業(yè)網(wǎng)站依據(jù)用戶的行為信息建立個(gè)性化的用戶行為模型,再對(duì)模型中存在的規(guī)則進(jìn)行挖掘,在此基礎(chǔ)上為用戶提供個(gè)性化服務(wù)。而且一旦發(fā)現(xiàn)新的商品數(shù)據(jù)就向用戶及時(shí)通知。在此之外,還對(duì)用戶興趣的轉(zhuǎn)變及時(shí)跟蹤,根據(jù)用戶的最新需要及時(shí)推送[1]。這就是基于大數(shù)據(jù)技術(shù)的應(yīng)用。目前大數(shù)據(jù)技術(shù)已滲透至每一個(gè)行業(yè),而且和我們的生活緊密相連。
如在醫(yī)療行業(yè):在加拿大多倫多的一家醫(yī)院,針對(duì)早產(chǎn)嬰兒,每秒鐘有超過(guò)3000次的數(shù)據(jù)讀取,通過(guò)這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問(wèn)題并且有針對(duì)性地采取措施,避免早產(chǎn)兒夭折?,F(xiàn)在,很多圖書館已經(jīng)開始借鑒這種成功的實(shí)踐經(jīng)驗(yàn),將其應(yīng)用到圖書館建設(shè)和發(fā)展中,為讀者提供了個(gè)性化的精準(zhǔn)服務(wù)。
1? 大數(shù)據(jù)的含義
目前,對(duì)大數(shù)據(jù)還沒(méi)有統(tǒng)一的定義。維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶對(duì)大數(shù)據(jù)的提出定義是:大數(shù)據(jù)(big data,mega data)或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。維基百科對(duì)大數(shù)據(jù)的定義是:所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。
從這些解釋中,我們不難看出所謂大數(shù)據(jù),它是一種信息資產(chǎn)。這里的數(shù)據(jù)只有少數(shù)以儲(chǔ)存在數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)存在,90%是以郵件視頻、微博等產(chǎn)生的大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)存在。并且這些數(shù)據(jù)的價(jià)值不是存儲(chǔ),而是獲取和應(yīng)用。
2? 大數(shù)據(jù)技術(shù)在圖書館中的應(yīng)用
2.1 服務(wù)理念的主動(dòng)性增強(qiáng)
我們工作的目的是盡其所能地幫助讀者解決問(wèn)題,而非做了多少數(shù)量的工作。即解決問(wèn)題為主,基礎(chǔ)工作為輔。
在傳統(tǒng)模式的圖書館管理和服務(wù)中,管理員的工作內(nèi)容主要集中在加工、整理紙質(zhì)書籍、期刊、報(bào)紙等類型文獻(xiàn),定期更新數(shù)據(jù)資源,舉辦各類讀者活動(dòng)、線上線下課堂講座、網(wǎng)上咨詢等服務(wù)。通過(guò)資源共享的方式,在讀者提出問(wèn)題的前提下,然后查找相應(yīng)資源為其提供回復(fù),為讀者提供所需要的信息,管理員處在被動(dòng)模式。這種狀態(tài)已經(jīng)很難適應(yīng)現(xiàn)代社會(huì)信息化快速發(fā)展的需求。但如果采用大數(shù)據(jù)技術(shù),可以利用收集讀者的相關(guān)信息,再把收集的信息進(jìn)行整合處理成具備某些意義的電子信息,為讀者提供個(gè)性化的服務(wù)[2]。通過(guò)這種方式不僅大大提高了館藏資源的利用率,增強(qiáng)了管理員的服務(wù)主動(dòng)性,對(duì)潛在需要服務(wù)的讀者群體也進(jìn)行了有效的擴(kuò)展。
2.2 更加精準(zhǔn)地服務(wù)讀者
在圖書館的日常工作中,可以收集很多類型的數(shù)據(jù)信息,其中比較重要的數(shù)據(jù)有:圖書館在對(duì)讀者進(jìn)行服務(wù)時(shí)產(chǎn)生的業(yè)務(wù)數(shù)據(jù);加工處理文獻(xiàn)產(chǎn)生的文獻(xiàn)數(shù)據(jù)以及讀者群體在自助式閱覽、借閱以及活動(dòng)等方面產(chǎn)生的用戶數(shù)據(jù)。其中用戶使用數(shù)據(jù)是指用戶在使用圖書館信息資源或信息設(shè)施的過(guò)程中可以被計(jì)算機(jī)所記錄的用戶信息行為數(shù)據(jù),既包括網(wǎng)絡(luò)環(huán)境中的信息行為數(shù)據(jù),也包括物理空間中的信息行為數(shù)據(jù)。圖書館通過(guò)統(tǒng)計(jì)讀者的用戶數(shù)據(jù),分析出讀者的閱讀周期和規(guī)律,利用大數(shù)據(jù)技術(shù)為讀者提供精準(zhǔn)、個(gè)性化的服務(wù)。
2.2.1 在文獻(xiàn)資源服務(wù)方面實(shí)現(xiàn)精準(zhǔn)化
隨著信息技術(shù)和網(wǎng)絡(luò)的快速發(fā)展,文獻(xiàn)資源的數(shù)量和種類呈現(xiàn)冪級(jí)增長(zhǎng)的趨勢(shì),數(shù)量大到無(wú)法估量。但這些數(shù)據(jù)卻有很大的冗余度,價(jià)值密度極低。無(wú)論在時(shí)間上還是空間上都大大增加了讀者查閱的難度。為解決這個(gè)問(wèn)題,我們可以通過(guò)對(duì)讀者借閱習(xí)慣、對(duì)館藏資源的點(diǎn)擊率、下載率甚至社交方式等數(shù)據(jù)的統(tǒng)計(jì)與分析,對(duì)館藏資源進(jìn)行文獻(xiàn)信息的分類與排行,預(yù)測(cè)讀者喜好,有針對(duì)性地向不同類型的讀者實(shí)現(xiàn)精準(zhǔn)推送,實(shí)現(xiàn)個(gè)性化的精準(zhǔn)服務(wù)。
有些圖書館已經(jīng)把讀者的年度閱讀情況以報(bào)告的形式向讀者開放。對(duì)于讀者而言,不僅使讀者從宏觀上定期地了解了自己的閱讀情況,而且有助于讀者進(jìn)一步完善自身的知識(shí)體系,根據(jù)需要調(diào)整資源結(jié)構(gòu),提高了讀者的閱讀興趣;對(duì)于圖書館而言,不僅提高了圖書館工作者對(duì)信息處理的服務(wù)技能,合理地利用了圖書館的文獻(xiàn)資源,更增強(qiáng)了讀者對(duì)圖書館的好感度,推進(jìn)了對(duì)讀者更好地進(jìn)行精準(zhǔn)服務(wù)。
2.2.2 在讀者活動(dòng)方面實(shí)現(xiàn)精準(zhǔn)化服務(wù)
現(xiàn)代圖書館為了營(yíng)造社會(huì)文化氛圍,提高公民文化素養(yǎng),不斷提高館舍場(chǎng)地的利用率,已將各類展覽、專題講座、大眾培訓(xùn)等多種服務(wù)內(nèi)容納入到了其重要業(yè)務(wù)范疇。圖書館可以針對(duì)不同的讀者群體、不同的業(yè)務(wù)領(lǐng)域,將大數(shù)據(jù)的分析、預(yù)測(cè)功能,滲入到各項(xiàng)讀者活動(dòng)中。圖書館可采用大數(shù)據(jù)技術(shù)對(duì)參加圖書館各類活動(dòng)的讀者展開數(shù)據(jù)分析,這種分析結(jié)果將成為未來(lái)活動(dòng)策劃的重要依據(jù)?,F(xiàn)場(chǎng)問(wèn)答、讀者意見單等都可以為圖書館獲取有效數(shù)據(jù)提供支持,通過(guò)對(duì)這些數(shù)據(jù)的深層次挖掘和具體分析,我們可以從中獲取有價(jià)值的信息,這對(duì)圖書館各項(xiàng)讀者活動(dòng)的發(fā)展方向、規(guī)模大小等都具有參考價(jià)值。
2.2.3 在資源采購(gòu)方面實(shí)現(xiàn)精準(zhǔn)化
通過(guò)大數(shù)據(jù)技術(shù)在圖書館系統(tǒng)中的運(yùn)用,圖書館可以通過(guò)收集讀者的圖書借閱記錄、數(shù)據(jù)庫(kù)訪問(wèn)、檢索、下載記錄、留言等信息,收集相關(guān)有用數(shù)據(jù),進(jìn)而更加有效地了解與分析讀者對(duì)各種資源的使用情況,特別是通過(guò)挖掘用戶檢索日志,對(duì)那些多次被讀者檢索而本館又缺藏資源的采購(gòu)提供了重要的信息。尤其在一些區(qū)域型中心館分館型圖書館中,通過(guò)網(wǎng)絡(luò)技術(shù)可以全面掌握整個(gè)區(qū)域讀者的需求情況,為圖書館文獻(xiàn)資源的采訪決策、優(yōu)化配置和數(shù)據(jù)庫(kù)的刪選調(diào)整提供科學(xué)的依據(jù),也為圖書館再造文獻(xiàn)采訪模式提供有力的保障。
2.3 利用大數(shù)據(jù)構(gòu)建新型知識(shí)體系引擎
目前的公共圖書館中,幾乎都通過(guò)自己的查詢系統(tǒng)實(shí)現(xiàn)了館藏書目聯(lián)合檢索,但仍無(wú)法做到對(duì)本館資源整體的資源檢索。如讀者檢索某一知識(shí)點(diǎn)時(shí),除了通過(guò)書目檢索系統(tǒng)檢索相關(guān)書目信息外,還需要通過(guò)不同數(shù)據(jù)庫(kù)的不同檢索引擎,經(jīng)過(guò)多次檢索才能獲取此知識(shí)點(diǎn)相關(guān)的完整文獻(xiàn)信息。為避免這一問(wèn)題,可以通過(guò)大數(shù)據(jù)處理技術(shù)的支撐構(gòu)建動(dòng)態(tài)的知識(shí)體系,以供讀者從多視角、全方面地瀏覽相關(guān)資源[3]。在這方面,谷歌知識(shí)圖譜、搜狗知立方、百度知識(shí)圖譜等搜索引擎的推出,為用戶的搜索關(guān)鍵詞返回多種媒體形式、多種知識(shí)點(diǎn)組成的知識(shí)關(guān)聯(lián)結(jié)果,大大擴(kuò)展了用戶搜索的知識(shí)體系,值得圖書館界的學(xué)習(xí)和借鑒。
如“谷歌知識(shí)圖譜”:利用搜索引擎查找一詞多義的詞語(yǔ),“維多利亞”,它既是一位前英國(guó)的女王,又是加拿大的一座城市,還是一部電影的名字。Google會(huì)在搜索結(jié)果的右側(cè)給出維多利亞女王的介紹,在更下面的位置,會(huì)給出維多利亞城市的簡(jiǎn)介,還有維多利亞電影的簡(jiǎn)介等。
借助知識(shí)圖譜,Google在搜索結(jié)果的右側(cè)將這些由同一個(gè)關(guān)鍵詞所表示的不同事物根據(jù)特定的優(yōu)先級(jí)算法羅列出來(lái)。用戶借助這種信息組織形式就能方便地縮小搜索范圍,快速找到真正關(guān)心的內(nèi)容。
知識(shí)圖譜還可以根據(jù)相關(guān)度給用戶做出推薦,例如,當(dāng)用戶搜索一本書時(shí),知識(shí)圖譜知道這本書獲得哪些獎(jiǎng)項(xiàng),就會(huì)把同樣獲得這些獎(jiǎng)項(xiàng)的圖書也推薦給用戶。當(dāng)用戶搜索某個(gè)科學(xué)家時(shí),知識(shí)圖譜會(huì)把和他同一個(gè)年代、同一個(gè)領(lǐng)域的科學(xué)家展示給用戶。除了回答用戶已提出的問(wèn)題,還能根據(jù)其他人的搜索行為預(yù)測(cè)當(dāng)前用戶接下來(lái)會(huì)問(wèn)什么問(wèn)題,直接把這些接下來(lái)用戶可能關(guān)心的問(wèn)題答案擺放在“用戶還搜索了”下面。
3? 大數(shù)據(jù)背景下讀者信息的隱私安全問(wèn)題
通過(guò)大數(shù)據(jù)技術(shù)在圖書館中的應(yīng)用,可以給讀者帶來(lái)個(gè)性化的精準(zhǔn)服務(wù),但在服務(wù)的同時(shí),由于圖書館對(duì)讀者各種信息數(shù)據(jù)的采集、數(shù)據(jù)挖掘、預(yù)測(cè)服務(wù),以及與第三方增值服務(wù)合作等過(guò)程中,難免存在對(duì)讀者隱私數(shù)據(jù)的侵犯問(wèn)題,這給讀者的信息安全帶來(lái)了隱患。據(jù)中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC)提供的2013年《中國(guó)網(wǎng)民信息安全狀況研究報(bào)告》顯示,74.1%的網(wǎng)民在過(guò)去半年內(nèi)遇到過(guò)信息安全問(wèn)題。另?yè)?jù)2012年的調(diào)查,絕大多數(shù)網(wǎng)民對(duì)個(gè)人信息安全處于無(wú)助狀態(tài),有近九成網(wǎng)民在信息泄露后無(wú)任何補(bǔ)救辦法。
3.1 圖書館與第三方增值服務(wù)運(yùn)營(yíng)商合作過(guò)程中出現(xiàn)的讀者信息泄露
圖書館在對(duì)讀者進(jìn)行用戶注冊(cè)信息、讀者借閱數(shù)據(jù)、讀者活動(dòng)數(shù)據(jù)、讀者社交數(shù)據(jù)等信息進(jìn)行采集操作后,還需要與第三方增值服務(wù)運(yùn)營(yíng)商合作,為讀者在移動(dòng)閱讀、用戶數(shù)據(jù)管理、個(gè)人圖書館等方面提供服務(wù)。而有些IT系統(tǒng)的規(guī)劃和建設(shè)過(guò)于注重功能性需求,卻忽略系統(tǒng)在安全、穩(wěn)定、可維護(hù)等方面的非功能性需求,致使大數(shù)據(jù)系統(tǒng)在安全方面防護(hù)能力不足,在系統(tǒng)設(shè)計(jì)、技術(shù)手段和運(yùn)營(yíng)管理等方面存在各種漏洞。還有的系統(tǒng)過(guò)于強(qiáng)調(diào)開放性和便利性,忽視對(duì)數(shù)據(jù)關(guān)鍵信息的保護(hù)。比如代理商可以直接訪問(wèn)系統(tǒng)核心數(shù)據(jù)庫(kù),調(diào)用客戶資料,查閱信息等。這都可能造成讀者隱私數(shù)據(jù)的泄露。
3.2 圖書館在對(duì)讀者管理和服務(wù)過(guò)程中出現(xiàn)的讀者信息泄露
圖書館為了給讀者提供精準(zhǔn)的服務(wù),首先要進(jìn)行信息的收集,如姓名、性別、出生日期、文化程度、工作單位、聯(lián)系方式、職業(yè)等信息;讀者在參加圖書館的各項(xiàng)活動(dòng)和社會(huì)培訓(xùn)中,也會(huì)提交各種相關(guān)信息;讀者在圖書館的閱覽、借閱、上網(wǎng)瀏覽下載、定位、網(wǎng)絡(luò)社交等行為所產(chǎn)生的數(shù)據(jù)信息也會(huì)被在圖書館所記錄。這些讀者信息在收集的過(guò)程中難免存在安全漏洞,導(dǎo)致讀者信息的泄露。
3.3 圖書館自律不足會(huì)使讀者信息泄露
國(guó)內(nèi)圖書館在某些方面對(duì)讀者信息保護(hù)措施還不夠健全,所以很多圖書館員在對(duì)讀者信息的處理問(wèn)題上沒(méi)有準(zhǔn)確的依據(jù)和范圍,不確定哪些信息需要保護(hù)、哪些信息可以公開,存在模糊與漏洞的狀態(tài)。一項(xiàng)針對(duì)我國(guó)151所各種類型圖書館的研究表明,制定并公布隱私權(quán)政策的圖書館僅占13.9%。所以在圖書館員的信息安全方面也存在一定的問(wèn)題。
4? 大數(shù)據(jù)背景下圖書館對(duì)讀者隱私數(shù)據(jù)的保護(hù)措施
4.1 圖書館與第三合作方建立完善的責(zé)任機(jī)制
圖書館在與第三合作方達(dá)成協(xié)議前,應(yīng)根據(jù)需要與其對(duì)信息安全方面達(dá)成書面責(zé)任制約協(xié)議。其內(nèi)容可以包括法律規(guī)定、管理與服務(wù)需要把數(shù)據(jù)劃分為不同等級(jí),嚴(yán)格設(shè)置訪問(wèn)機(jī)制,對(duì)不同人群的訪問(wèn)采取等級(jí)制度,從而達(dá)到保護(hù)讀者數(shù)據(jù)安全的目的。
4.2 按需求嚴(yán)格篩選讀者數(shù)據(jù)
大數(shù)據(jù)具有數(shù)據(jù)量大、冗余密度低的特點(diǎn),針對(duì)這些缺點(diǎn),在對(duì)讀者進(jìn)行數(shù)據(jù)采集的過(guò)程中,應(yīng)盡量避免多余、利用率低的數(shù)據(jù),只采集與讀者管理和相關(guān)服務(wù)有關(guān)的數(shù)據(jù)。在實(shí)現(xiàn)用戶個(gè)性化精準(zhǔn)服務(wù)過(guò)程中,圖書館應(yīng)交付用戶應(yīng)有的數(shù)據(jù)知情權(quán)、擁有權(quán)、選擇權(quán)和使用權(quán),不應(yīng)過(guò)分強(qiáng)調(diào)個(gè)性化精準(zhǔn)服務(wù)的質(zhì)量而侵害用戶隱私。圖書館應(yīng)實(shí)現(xiàn)用戶數(shù)據(jù)的透明采集,并明確告知讀者相關(guān)數(shù)據(jù)采集的內(nèi)容、方式和使用方向。在利用傳感器、監(jiān)控設(shè)備和網(wǎng)頁(yè)搜集用戶數(shù)據(jù)時(shí),應(yīng)通過(guò)技術(shù)手段過(guò)濾掉讀者的姓名、住址、電話,閱讀終端類型、賬戶密碼、職業(yè)、身份、收入等隱私信息。
4.3 加強(qiáng)圖書館自律
圖書館工作人員負(fù)責(zé)采集讀者信息,在讀者的信息安全方面負(fù)有很大的責(zé)任。圖書館在隱私權(quán)法律知識(shí)方面進(jìn)行普及,提高圖書館員和讀者對(duì)個(gè)人信息的自我保護(hù)意識(shí)。比如可以在定期的法律講堂或前臺(tái)服務(wù)處介紹相關(guān)的信息安全知識(shí),對(duì)圖書館的特定崗位進(jìn)行信息安全培訓(xùn),幫助讀者和館員理解法律法規(guī),學(xué)習(xí)圖書館隱私權(quán)政策,提高自我保護(hù)隱私的意識(shí)和能力。
5? 結(jié)語(yǔ)
在《奇葩大會(huì)》中,李開復(fù)說(shuō):“未來(lái),人類有50%的工作將會(huì)被人工智能替代?!薄八械男袠I(yè)都會(huì)顛覆,而且很多的職業(yè)正在慢慢消失。”但文化、娛樂(lè)、文藝、考古學(xué)或者一些跨領(lǐng)域、深度的工作是機(jī)器所不能替代的。特別是服務(wù)者,在未來(lái)是非常有價(jià)值的。所以,我們這些圖書館的服務(wù)者,在看到自己的危機(jī)感的同時(shí),更重要的是提升自身的服務(wù)質(zhì)量。
參考文獻(xiàn)
[1] 王玫.大數(shù)據(jù)在圖書館的應(yīng)用研究[J].管理縱橫,2016(10):49-50.
[2] 徐寅哲.大數(shù)據(jù)在圖書館管理與服務(wù)中的應(yīng)用[J].科技資訊,2017,15(31):254-256.
[3] 陳國(guó)蘭.如何利用大數(shù)據(jù)構(gòu)建圖書館新型知識(shí)服務(wù)體系[J].現(xiàn)代情報(bào),2014,34(9):149-157.