聞洋,李蘭
(1.南京醫(yī)科大學(xué)科研院,江蘇南京 211166;2. 蘇州南醫(yī)大創(chuàng)新中心,江蘇蘇州 215005;3. 南京大學(xué)金陵學(xué)院圖書館,江蘇南京 211166)
根據(jù)《數(shù)字中國發(fā)展報告(2021 年)》[1](以下簡稱《報告》)顯示:“我國的數(shù)據(jù)資源價值正在加快釋放……開放的有效數(shù)據(jù)集由8 398 個增至近25 萬個。 各地積極探索數(shù)據(jù)治理規(guī)則, 培育數(shù)據(jù)要素市場,促進(jìn)數(shù)據(jù)流通交易和開發(fā)利用。 ”《報告》同時也提出未來要推進(jìn)數(shù)據(jù)資源高效利用, 加快激發(fā)數(shù)據(jù)要素活力的展望,主要強(qiáng)調(diào)了“推動數(shù)據(jù)資源的高效流動……創(chuàng)新數(shù)據(jù)要素開發(fā)利用機(jī)制模式……打破數(shù)據(jù)孤島,釋放數(shù)據(jù)紅利,推動公共數(shù)據(jù)、個人數(shù)據(jù)等良性互動、融合應(yīng)用”?!秷蟾妗愤€特別指出,文化產(chǎn)業(yè)要與新一代信息技術(shù)相互融合, 加快推進(jìn)圖書館等文化資源的數(shù)字化,提供方便快捷、資源共享的全國公共文化數(shù)字資源服務(wù)。 在我國產(chǎn)業(yè)信息化發(fā)展升級的過程中,伴隨云計算、區(qū)塊鏈、5G 等新的技術(shù)形態(tài)而釋放的大數(shù)據(jù),具有極高的開發(fā)利用價值。因為大數(shù)據(jù)是人們社會活動的痕跡, 蘊(yùn)藏著若干個體的價值傾向與行為特點及其個體間的隱含關(guān)系,大數(shù)據(jù)還可以將人們在不同平臺中的痕跡重新整合、匯集,實現(xiàn)個人信息的全方位重構(gòu)[2],以便實現(xiàn)“數(shù)據(jù)畫像”。圖書館在業(yè)界和學(xué)界都對大數(shù)據(jù)時代圖書館的發(fā)展走向進(jìn)行了相應(yīng)的實踐, 并且開展了多方面的深入研究。
數(shù)字圖書館建設(shè)或者圖書館智慧化升級議題伴隨信息技術(shù)不斷發(fā)展, 已經(jīng)成為圖情學(xué)術(shù)界不爭的熱點,大部分圖書館已開始嘗試。這既是圖書館應(yīng)對信息化時代挑戰(zhàn)的必要舉措, 也是在數(shù)字時代為用戶提供精準(zhǔn)服務(wù)的重要依靠。 魏大威等認(rèn)為智慧圖書館轉(zhuǎn)型一個重要的目標(biāo)就是從資源內(nèi)容中提取信息價值, 區(qū)塊鏈技術(shù)在智慧圖書館數(shù)字資源管理中可以發(fā)揮重要作用, 即把可無限復(fù)制的圖書館數(shù)字資源轉(zhuǎn)化成可單一標(biāo)識和可追蹤的數(shù)字資產(chǎn)塊,并對上述數(shù)字資源的內(nèi)容進(jìn)行封裝注冊、分布式存儲、知識加工、調(diào)度和侵權(quán)跟蹤溯源等全流程管理服務(wù)[3]。單純從數(shù)字資產(chǎn)的概念而言, 其是指數(shù)字資源的資產(chǎn)化,由相應(yīng)主體所擁有的,預(yù)期可能會產(chǎn)生一定經(jīng)濟(jì)效益的數(shù)字資源。就現(xiàn)狀來看,大多數(shù)數(shù)字資產(chǎn)在于其所具備的文化價值。 圖書館可以被數(shù)字化的內(nèi)容包括圖書館館藏的各類文化實體資產(chǎn)、 各類數(shù)據(jù)庫資產(chǎn)、圖書館用戶行為統(tǒng)計等,還有學(xué)者提出圖書館虛擬數(shù)智人[4]的設(shè)想,也可被視為數(shù)字資產(chǎn)的一部分。 孫銳等則認(rèn)為圖書館中的文獻(xiàn)資產(chǎn)元數(shù)據(jù)才是圖書館對文獻(xiàn)資產(chǎn)進(jìn)行管理的基礎(chǔ)[5]。從圖書館數(shù)字資源現(xiàn)狀來看, 經(jīng)過20 余年的數(shù)字圖書館建設(shè),不論公共圖書館還是高校圖書館, 都積累了海量的數(shù)字資源。 1998 年,康奈爾大學(xué)已經(jīng)基于查詢分析開發(fā)了網(wǎng)絡(luò)個性化圖書推薦系統(tǒng)Mylibrary,可以將圖書館新到資源和各類通知發(fā)送給讀者。 刁羽和薛紅結(jié)合高校圖書館用戶使用電子資源的行為數(shù)據(jù)和問卷調(diào)查收集的用戶滿意度情況, 利用隨機(jī)森林法構(gòu)建了用戶電子資源滿意度畫像模型[6]。但這些數(shù)字資源仍然局限于為館藏服務(wù), 因此被學(xué)者視作彼此之間缺乏聯(lián)系,成為相對獨立的“孤島”。本研究立足學(xué)者已經(jīng)獲得的研究成果, 聚焦圖書館閱讀報告數(shù)據(jù)輸出形式, 以數(shù)字資產(chǎn)的視角對閱讀報告生產(chǎn)與利用的現(xiàn)狀進(jìn)行再思考。
數(shù)字資產(chǎn)是區(qū)塊鏈技術(shù)和加密技術(shù)得以應(yīng)用后的一種具體實踐,通過NFT(Non-Fungible Token,非同質(zhì)化代幣)的加密,數(shù)字資產(chǎn)具備了唯一性、獨一無二和不可復(fù)制的特點。 區(qū)塊鏈技術(shù)能夠給數(shù)字內(nèi)容提供唯一性保證,保護(hù)內(nèi)容生產(chǎn)者的權(quán)益。圖書館的數(shù)字資源也可利用區(qū)塊鏈技術(shù)被封裝成為虛擬數(shù)字資產(chǎn),并實現(xiàn)資產(chǎn)登記、存儲和持有。 從閱讀報告的生成來看, 每一家圖書館的用戶使用數(shù)據(jù)都具有可溯源性,可為讀者提供精準(zhǔn)服務(wù),最為重要的不僅在于它是對用戶過去行為的總結(jié), 而是對未來行動的預(yù)測。
尼葛洛龐蒂在其《數(shù)字化生存》中曾經(jīng)設(shè)想過這樣的一種場景:有一個“界面代理人”,這個人可以閱讀地球上每一種報紙、每一家通訊社的消息,掌握所有廣播電視的內(nèi)容, 然后把資料組合成個人化的摘要,這種報紙每天只制作一個獨一無二的版本[7]。 現(xiàn)在,大數(shù)據(jù)結(jié)合算法的應(yīng)用,已然將尼氏的預(yù)言變?yōu)楝F(xiàn)實。 謝耘耕等在研究人工智能應(yīng)用對圖書出版發(fā)行的影響時提到世界知名的出版集團(tuán)利用大數(shù)據(jù)和算法,精準(zhǔn)捕捉到用戶信息,并且能夠挖掘用戶的社交關(guān)系,對用戶閱讀時間、閱讀軌跡、點贊、評論、收藏等指標(biāo)進(jìn)行分析,建立用戶需求數(shù)據(jù)庫,進(jìn)而實現(xiàn)精準(zhǔn)營銷,同時也可以基于用戶以往的閱讀興趣,向消費(fèi)者自動化推薦書單[8]。
Mayer 認(rèn)為大數(shù)據(jù)可以被視作信息資產(chǎn), 但需要新的處理模式,比如更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力對其進(jìn)行加工, 才能使這些數(shù)據(jù)集合成為海量、 高增長率和多樣化的信息資產(chǎn)。 也就是說,大數(shù)據(jù)本身并無意義,只是通過現(xiàn)代化的信息技術(shù)實現(xiàn)海量數(shù)據(jù)集, 只有對大數(shù)據(jù)進(jìn)行深層次的加工,才能挖掘用戶的價值傾向和行為特征。從閱讀報告所反映出的數(shù)據(jù)加工方式來看, 各高校所選取的指標(biāo)分類維度具有高度的相似性, 比如借閱次數(shù)最多的書籍、借閱量最多的讀者、進(jìn)館次數(shù)最多的讀者等。這些數(shù)據(jù)的呈現(xiàn),能夠從一定層面反映當(dāng)代大學(xué)生使用圖書館的總體特征, 對高校圖書館進(jìn)行管培或者改善服務(wù)具有參考價值。 廈門大學(xué)圖書館自2013 年開始為學(xué)生提供關(guān)于個人圖書館使用記錄的電子賬戶,每個學(xué)生畢業(yè)后還可以永久登錄“圕·時光”,并在上面看到自己與圖書館的交集,該項目在2016 年獲得國際圖聯(lián)(IFLA)大會“營銷獎”的二等獎,這個項目至今仍在為學(xué)生提供服務(wù)。
閱讀這種行為為什么需要被人了解? 閱讀是伴隨文字的產(chǎn)生而出現(xiàn)的一種人類行為, 既可以完全私人化,也可以群體進(jìn)行。 在大數(shù)據(jù)時代,人們的借閱行為會被記錄下來,但其閱讀效果并不能被跟蹤。18 世紀(jì),塞繆爾·約翰遜列出了幾種讀書的方式:苦讀(握筆)、熟讀(尋找某些信息)、好奇心驅(qū)動的閱讀(專注在一本小說中)和簡單的閱讀(瀏覽和略讀)[9]。
閱讀報告是基于大數(shù)據(jù)生成的對閱讀用戶的整體特征的數(shù)據(jù)呈現(xiàn),這些數(shù)據(jù)無法體現(xiàn)個體購買、閱讀某些書籍或者進(jìn)出圖書館空間的具體動機(jī), 需要使用相應(yīng)的算法來推導(dǎo)讀者未來可能發(fā)生的閱讀行為。算法作為一種新的連接方式,不僅可以勾連外在物理世界人類的內(nèi)心世界, 更體現(xiàn)了存在于用戶和實體之間的價值關(guān)系。 喻國明等認(rèn)為算法可以被視為一種“新媒介”,是技術(shù)社會的底層基礎(chǔ),其作用是通過一系列社會關(guān)系的聯(lián)結(jié)、匹配與調(diào)適,重新形塑用戶認(rèn)知并整合社會[10]。 閱讀報告所積累的大量讀者數(shù)據(jù)是基于對群體的特征描述,如果想對用戶提供更有針對性的服務(wù), 需要利用算法技術(shù)完善個體的使用行為軌跡,并預(yù)測其走勢。具體而言,即通過算法推薦技術(shù)滿足用戶的個性化需求,以緩解信息過載的壓力,實現(xiàn)“人找信息”到“信息找人”的模式變化[11]。
算法并非剛剛出現(xiàn)的技術(shù), 可以肯定的是這種技術(shù)經(jīng)過幾十年的更新迭代, 處理數(shù)據(jù)的能力更為強(qiáng)大。 1989 年,在第一屆KDD 專題討論會上,數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)概念被首次采用,即從大量、不完整、有噪聲、模糊合隨機(jī)的數(shù)據(jù)中提取隱含在其中的有價值的信息和知識的過程。 這個概念強(qiáng)調(diào)知識是數(shù)據(jù)發(fā)現(xiàn)的最終產(chǎn)品, 隨之而產(chǎn)生的各類數(shù)據(jù)挖掘軟件也得到了廣泛使用, 用戶也對數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識有所期待,進(jìn)而誕生了個性化推薦系統(tǒng)。推薦系統(tǒng)是用戶地位日益提高的結(jié)果, 尤其是在電子商務(wù)平臺,推薦系統(tǒng)能夠帶來肉眼可見的商業(yè)利益。
但現(xiàn)實情況是, 算法技術(shù)的應(yīng)用依托于對數(shù)據(jù)資源的掌握和強(qiáng)大的運(yùn)算能力, 需要資金和技術(shù)的支持,高校圖書館一般不具有這種規(guī)模的平臺,因此對于所收集到的數(shù)據(jù),只能進(jìn)行初步的整理和呈現(xiàn)。盡管高校圖書館紙本數(shù)量和數(shù)據(jù)庫中數(shù)據(jù)存量的規(guī)模根據(jù)學(xué)校不同有大有小, 但這些館藏紙本和數(shù)據(jù)基本屬于有限資源, 加之用戶在經(jīng)過圖書館所舉辦的信息檢索培訓(xùn)后都已經(jīng)具有一定的信息檢索技能,對自己所要使用的數(shù)據(jù)資源相對清晰,所以高校圖書館不存在數(shù)據(jù)增量超過應(yīng)用軟件的負(fù)載范圍而導(dǎo)致的“信息過載”問題,算法技術(shù)也就沒有發(fā)揮其優(yōu)勢的空間了。
李民等對國內(nèi)116 所“211 工程”院校的圖書館網(wǎng)站進(jìn)行了訪問, 他們發(fā)現(xiàn)所有這些高校給用戶提供的都是非個性化的推薦服務(wù),包括熱門檢索、借閱排行等信息[12]。 陳國青等人在研究大數(shù)據(jù)和小數(shù)據(jù)之間存在的信息不對稱關(guān)系時指出, 只有那些具象的、豐富的、細(xì)節(jié)的、情景化的體驗和感知,才能幫助刻畫人們的心理和人格,解構(gòu)模式和因果[13],也就是使用實例和數(shù)據(jù)相結(jié)合的方式,從整體出發(fā),進(jìn)而探索局部個例,以對個體行為動機(jī)探尋,達(dá)到局部映射整體、個例詮釋數(shù)據(jù)的效果。 有的高校嘗試建立“優(yōu)秀大學(xué)生讀者閱讀清單”案例數(shù)據(jù)庫[14],以學(xué)科專業(yè)進(jìn)行劃分,選擇專業(yè)名次在全年級排名前30%的優(yōu)秀大學(xué)生, 調(diào)取他們曾經(jīng)閱讀的文獻(xiàn)信息資源目錄清單,并輔以面對面訪談,確認(rèn)他們所閱讀的文獻(xiàn)資源與他們專業(yè)學(xué)習(xí)之間的關(guān)系, 然后將清單和館藏數(shù)據(jù)一并進(jìn)行數(shù)據(jù)集成,最終形成“優(yōu)秀大學(xué)生閱讀清單數(shù)據(jù)庫”,以供其他讀者參考。
類似個人書架可以展示自己的書籍存儲量和閱讀品味,圖書館閱讀報告中的館藏數(shù)量和種類、新進(jìn)購置書籍?dāng)?shù)量、進(jìn)出館人數(shù)等數(shù)據(jù),也都具有一定的展示作用。
首先, 閱讀數(shù)據(jù)具有可展示性。 就現(xiàn)有資料來看,圖書館數(shù)據(jù)已應(yīng)用的領(lǐng)域十分廣泛,比較典型的使用場景即做成可供展示的數(shù)據(jù)可視化信息, 不僅顯示實時到館人數(shù)、借閱數(shù)量,還可以將閱讀報告設(shè)計成直觀的可視化圖表在圖書館內(nèi)進(jìn)行展示, 西雅圖公共圖書館的“Making Visible the Invisible”項目在21 世紀(jì)初已經(jīng)開展并實施, 即通過6 個LCD 屏幕組成的大屏幕來展示各類動態(tài)數(shù)據(jù)[15]。
其次,閱讀數(shù)據(jù)報告本身具有新聞性。媒體對于能夠成為新聞的信息有著嚴(yán)格的要求, 其中包括時新性、真實性、重要性、在地性等具體指標(biāo)。每年各個機(jī)構(gòu)最新公布的閱讀數(shù)據(jù),基本符合上述特性,從而成為各級媒體報道的焦點。 在讀秀的報紙類目中以“閱讀報告”為標(biāo)題,可以搜索到1 431 篇相關(guān)報道,發(fā)布在不同級別的紙質(zhì)媒體上。 既有面向?qū)I(yè)領(lǐng)域發(fā)行的,如《圖書館報》《中國出版?zhèn)髅缴虉蟆返?,也有黨報黨刊,如《人民日報》《光明日報》等,還有各級都市報,如《新京報》《半島都市報》等。上述媒體對閱讀報告數(shù)據(jù)的報道, 是對全民閱讀推進(jìn)現(xiàn)狀的公開展示,對報告所涉及的具體的城市、圖書館都能起到正面宣傳效果。
最后, 閱讀報告數(shù)據(jù)具有反應(yīng)動態(tài)變化趨勢的直觀性。 《人民日報》分別在2011 年8 月報道《上海首次發(fā)布 “市民閱讀現(xiàn)狀報告” 數(shù)字化閱讀喜憂參半》,2021 年4 月報道 《上海全民閱讀調(diào)查報告公布》。 以2021 年的報道為例,《2020 年度上海全民閱讀調(diào)查報告》 中的數(shù)據(jù)顯示“上海市民綜合閱讀率(紙質(zhì)閱讀和數(shù)字閱讀)較高,達(dá)97.04%,高出2019年全國國民閱讀調(diào)查15.94 個百分點,其中,紙質(zhì)閱讀率達(dá)96.05%, 高出全國平均水平36.75 個百分點;數(shù)字閱讀率為99.52%,高出全國平均水平20.22個百分點”[16]。 這些數(shù)字直觀反映了上海市民綜合閱讀率在全國所處的位置,并且具有相應(yīng)的權(quán)威性。
不論是公共圖書館還是學(xué)校圖書館, 推出閱讀報告的目的絕不應(yīng)止步于告知讀者或者進(jìn)行宣傳,應(yīng)當(dāng)在可能存在的條件限制中,結(jié)合算法技術(shù),深度挖掘閱讀報告中的數(shù)據(jù)價值, 為閱讀報告開發(fā)更多的使用場景。
通過瀏覽圖書館后臺的借閱數(shù)據(jù), 在增加圖書流動率的同時提高圖書的互動性。 書籍本身就是一種傳播媒介,是凝結(jié)人類智慧的載體。 不僅如此,書籍還可以成為讀者交流互動的介質(zhì)。 Naomi 著重分析了閱讀的社交屬性,其以Kindle 閱讀器中的“流行高亮”功能舉例,每個讀者都能看到其他讀者所做的標(biāo)記,這是一種對用戶與其他讀者,甚至是作者進(jìn)行“對話”的鼓勵,在其看來,“注釋即對話”。 《S.:忒修斯之船》一書出版之際,宣稱“向電子書宣戰(zhàn)”,其在圖書內(nèi)容編排上加入了許多不同顏色的筆所做的標(biāo)注,另外,書頁間還夾雜著信件、便簽、照片、卡片、明信片等小物件, 這種在印刷文字之外增加互動實物的編排即是將書籍視作印刷社交媒體的探索。 盡管事實證明,《S.:忒修斯之船》之后,很少再有出版社進(jìn)行過類似的嘗試,但在學(xué)校圖書館中,圖書的讀者群體都是不同時段的在校生,相對穩(wěn)定,不妨挑選一些流通率高的圖書,進(jìn)行試點,比如建立書籍身份卡。
在前互聯(lián)網(wǎng)時代,每本書上都有借書卡,能夠看到書籍的流通情況。 現(xiàn)在也可以給每本書建立一個獨特的身份碼,當(dāng)一個讀者在借閱這本書的時候,能夠同時看到書籍的流通情況,并且像豆瓣網(wǎng)站那樣,看到之前的讀者對這本書的評價, 也就是讓圖書的后臺數(shù)據(jù)能夠被用戶共享。尤其是在高校圖書館中,針對某些專業(yè)程度高的書籍, 讀者可以把自己對具體問題的思考標(biāo)注下來,后續(xù)讀者如果看到,能對之形成反饋,長此以往,甚至能就某一領(lǐng)域形成認(rèn)知創(chuàng)新點和新的體系。 高校圖書館之間的借閱數(shù)據(jù)可以形成文獻(xiàn)網(wǎng)絡(luò),尤其是一些比較專業(yè)的學(xué)術(shù)讀物,在系統(tǒng)檢測到某用戶的借閱行為后, 不僅可以進(jìn)行同類學(xué)術(shù)讀物的推薦, 還可以鏈接到同樣借閱過這本著作的個體, 也許是對某一個學(xué)術(shù)問題有相似研究興趣的研究人員,形成學(xué)術(shù)共同體。
作為個體, 其實更關(guān)注能夠反映個體變化趨勢的數(shù)據(jù)。閱讀報告所折射的,大多數(shù)是一個圖書館或者一個電商平臺的大數(shù)據(jù)情況, 但大數(shù)據(jù)中的小數(shù)據(jù),才是具體的用戶所關(guān)心的。豆瓣用戶會把自己讀過的書上傳到豆瓣的個人空間, 并且和其他的用戶產(chǎn)生分享等互動行為。 大學(xué)圖書館的用戶相對更加聚焦,這些小數(shù)據(jù)之間如果能產(chǎn)生某些碰撞,也會更有價值。
楊永權(quán)在對圖書推薦系統(tǒng)的協(xié)同過濾技術(shù)進(jìn)行研究時, 設(shè)計并實驗了一種基于歷史借閱數(shù)據(jù)向用戶推薦圖書的系統(tǒng), 該系統(tǒng)包含的3 個主要步驟分別是收集用戶偏好找到相似的用戶或者物品, 尋找最近鄰居,以及產(chǎn)生推薦結(jié)果[17],可以實現(xiàn)的推薦結(jié)果如圖1 所示。
圖1 個性化推薦截圖
也就是說在圖書館實踐方面, 早就已經(jīng)具備了相應(yīng)的技術(shù)基礎(chǔ)。 在知網(wǎng)進(jìn)行相關(guān)搜索,如“協(xié)同過濾”“圖書推薦”,供搜索出415 篇相關(guān)論文,其中學(xué)位論文有206 篇,占總數(shù)的50%,大多數(shù)的學(xué)位論文也是將這種圖書推薦系統(tǒng)作為一種理論上可行的理想模式進(jìn)行試驗和研究, 但真正將此付諸實踐的學(xué)校圖書館少之又少,以商業(yè)應(yīng)用居多。
另外, 書籍的借閱數(shù)據(jù)能夠從一定程度上反映當(dāng)代大學(xué)生心態(tài)的變化。 有的大學(xué)生會把自己4 年的借閱數(shù)據(jù)作為求職時的加分項, 還有的學(xué)生在回看自己以往閱讀書目時能夠?qū)ψ陨硇纬梢粋€“自我民族志”似的回溯體認(rèn),形成更全面的自我認(rèn)知。
圖書館是公共服務(wù)機(jī)構(gòu), 而數(shù)字化對公共服務(wù)發(fā)揮著重要的支撐作用。閱讀報告的編制和發(fā)布,也是圖書館試圖通過數(shù)據(jù)聯(lián)結(jié)的方式拉近與讀者的距離,并為其提供更為精準(zhǔn)高效的服務(wù)。閱讀報告是圖書館寶貴的數(shù)字資產(chǎn),具有極強(qiáng)的數(shù)據(jù)價值和可利用價值。 在數(shù)字技術(shù)日趨精進(jìn)的當(dāng)下,如何深度使用這些數(shù)字資產(chǎn),對于圖書館工作者來說,依然任重道遠(yuǎn)。