圖書館館藏借閱與線上書店圖書消費均為圖書用戶行為,借閱數(shù)據(jù)和網(wǎng)絡銷售口碑是圖書用戶行為的客觀描述。網(wǎng)上書店提供的圖書信息是圖書館圖書采訪的重要信息源,包括基本信息、內(nèi)容信息、作者信息、推薦信息、評價信息、市場信息等6方面[1],是圖書館圖書采訪的重要參考。在這6類信息中,評價信息是比較特殊的圖書信息。圖書網(wǎng)絡銷售產(chǎn)生的口碑數(shù)據(jù),既不屬于圖書的客觀描述信息也不屬于圖書經(jīng)營主體所產(chǎn)生的推介信息,而是由消費者的消費行為和閱讀行為產(chǎn)生的,是圖書用戶行為的客觀描述。
經(jīng)文獻調(diào)研發(fā)現(xiàn),國內(nèi)普遍重視圖書借閱量和館藏利用率研究[2-4],而關于圖書網(wǎng)絡口碑的研究都集中在圖書出版題材選擇、銷量預測、推薦購買等方面[5-7]。有研究將網(wǎng)絡口碑在網(wǎng)上書店薦購服務中的應用延伸到圖書館借閱推薦中[8],但關于圖書館館藏借閱與圖書網(wǎng)絡口碑之間關系的研究仍處于空白狀態(tài),網(wǎng)絡口碑只是作為圖書館選購暢銷書的一個參考指標[9]。本文以中國石油大學(華東)圖書館(以下簡稱“我館”)館藏中2016年出版的圖書為樣本,研究圖書館館藏借閱與圖書網(wǎng)絡口碑之間的關系,為圖書館圖書采訪和館藏結(jié)構(gòu)優(yōu)化提供參考。
以我館館藏中2016年出版圖書為樣本,收集圖書自出版之日至2018年4月30日的借閱數(shù)據(jù)和網(wǎng)絡口碑數(shù)據(jù)。首先通過我館匯文Libsys系統(tǒng)的報表功能獲取館藏中2016年出版圖書的基本信息,共25 030種,然后抓取樣本網(wǎng)絡口碑數(shù)據(jù)。為了數(shù)據(jù)格式的規(guī)范和統(tǒng)一,優(yōu)先選擇自營業(yè)務占主體的當當網(wǎng)和京東網(wǎng)。由于京東網(wǎng)不提供準確的書評數(shù)量數(shù)據(jù),并對每種圖書只提供1 000條非自動回復評論,因此選擇當當網(wǎng)作為信息源。以圖書國際標準書號(ISBN)為依據(jù),獲取當當網(wǎng)上截至2018年4月30日的圖書評論信息。如果書目出版信息與當當網(wǎng)不符,則以當當網(wǎng)為準。數(shù)據(jù)優(yōu)先選擇當當自營,如果并非自營,則選擇銷售量最多的第三方商家數(shù)據(jù)。在25 030種館藏圖書中獲得有效圖書口碑數(shù)據(jù)的圖書共20 205種。為保證研究的有效性,剔除借閱量為0(12 508種)或評論數(shù)量為0(847種)的樣本[5],有效樣本共計7 528種。將這7 528種圖書的定價、出版天數(shù)、當當網(wǎng)口碑信息等特征數(shù)據(jù)與總體樣本進行單樣本t檢驗,結(jié)果表明樣本數(shù)據(jù)除出版天數(shù)、復本量以外大部分數(shù)據(jù)無顯著差異,因此可以認為樣本與總體樣本不存在明顯差異。對于每種圖書,我們收集了以下相關數(shù)據(jù)。
通過匯文Libsys系統(tǒng)的報表功能獲得每種圖書不同復本的借閱次數(shù),然后求和計算每種圖書的總借閱次數(shù)。
當當網(wǎng)評論機制是注冊用戶購買圖書后才可發(fā)表書評,評論包括對圖書進行星級評分和文字評論。星級評論1星為差評,2~3星為中評,4~5星為好評。如果購買后15天沒有發(fā)表評價,則自動生成無文字評論的用戶默認好評。當當網(wǎng)在每種商品頁面上實時顯示平均星級評分、全部評論數(shù)和各種評價的數(shù)量。因此,獲取的數(shù)據(jù)包括每本書的平均星級評分、總評論量、好評數(shù)、中評數(shù)、差評數(shù)、自動評論數(shù),然后根據(jù)相關數(shù)據(jù)計算好評、中評、差評在總評論中所占比例。
收集其他相關變量來控制不同種類和特征的圖書潛在的異質(zhì)性影響,包括以下幾方面。為了控制價格因素對圖書借閱和銷售的影響,收集了圖書的定價;為了控制不同類別圖書借閱評論的區(qū)別,收集圖書的《中國圖書館分類法》(以下簡稱“中圖法”)分類號,并按中圖法分為22個大類;為了控制不同復本數(shù)量對圖書借閱的影響,收集了圖書的館藏復本數(shù)。由于我館保存在單本庫、教材樣本庫及小語種閱覽室的部分圖書復本不能外借,為避免不可流通復本對分析結(jié)果的影響,只將可流通復本數(shù)作為研究對象。
表1為樣本類目分布情況。從表1可看出樣本類目分布非常不均衡,占比最高的兩個類目為文學I類和工業(yè)技術(shù)T類,合計占比超過五成;而部分類目僅為幾十種,S類和V類的樣本數(shù)為0。
表1 圖書類目分布
表2展示了樣本數(shù)據(jù)描述性統(tǒng)計結(jié)果。從表2可看出不同樣本在定價、出版天數(shù)、可流通復本上具有較大差異,說明樣本具有良好的代表性。借閱量和評論數(shù)量的平均數(shù)和中位數(shù)存在較大差異,說明只有少部分圖書獲得大量的借閱和線上評論。消費者對圖書星級評論普遍較高,中值和平均數(shù)均接近滿分5分。
表2 數(shù)據(jù)描述性統(tǒng)計
其他口碑評論數(shù)據(jù)中,好評占總體評論量的比例高達99.52%,中評和差評占總體評論的比例分別為0.34%和0.14%。
分析中所涉及的變量信息見表3。由于數(shù)據(jù)存在較大的量級差距,有的圖書評論數(shù)有幾萬條,而有的僅幾條。為了壓縮變量的量綱,同時將潛在的非線性關系轉(zhuǎn)化為線性關系,以增強回歸結(jié)果的穩(wěn)健性,我們對所有連續(xù)性變量進行對數(shù)化處理,包括借閱量、復本量、定價、出版天數(shù)、總評論數(shù)、自動評論數(shù)、平均評分。好評比例、中評比例、差評比例等百分比數(shù)據(jù)不需要對數(shù)轉(zhuǎn)換,類目為啞變量,同樣不需要對數(shù)轉(zhuǎn)換。
注:類目為啞變量,樣本按照中圖法分為22個大類,由于S和V類樣本數(shù)為0,所以共20類
表4為主要變量相關關系矩陣。從表4可看出借閱量與網(wǎng)絡口碑中的總評論數(shù)、自動評論數(shù)存在顯著的正相關,而與平均評分、好評比例、中評比例、差評比例無明顯的相關關系;與復本量、出版天數(shù)存在顯著的正相關,需要在模型中控制其影響;與定價存在顯著的負相關,同時定價與大多數(shù)網(wǎng)絡口碑數(shù)據(jù)存在顯著的負相關,只與中評比例和差評比例存在顯著的正向關系;出版天數(shù)與借閱量及大多數(shù)網(wǎng)絡口碑數(shù)據(jù)存在顯著的正相關,與差評比例存在顯著的負相關,說明隨著出版天數(shù)的增加,借閱和圖書銷售都會增加,差評比例也會顯著下降。此外,總評論數(shù)與自動評論數(shù)的相關性高達0.998,說明用戶默認好評在總評論數(shù)量中占主要部分,具有文字的用戶主動評論非常少。為了避免多重共線性,我們剔除自動評論數(shù),以意義更全面的總評論數(shù)代表總評論量。
此外,類目作為無序多分類變量,以啞變量的形式進行相關性分析,可以注意到20個類目啞變量與其他變量的相關性并不一致,大部分啞變量與借閱量、復本量顯著負相關,與總評論數(shù)、自動評論數(shù)顯著正相關,與定價、出版天數(shù)顯著相關但正負向不一致,與平均評分、好評比例、中評比例和差評比例無明顯相關。I類和T類兩個啞變量比較特殊,它們與幾乎全部變量存在顯著的相關關系。結(jié)合樣本類目分布(表1)認為具體分類樣本數(shù)量影響了分析結(jié)果,需要在模型中控制其影響。
根據(jù)相關性分析結(jié)果,建立3個獨立的線性模型進行回歸分析。3個模型的不同之處在于模型(1)使用總評論數(shù)來解釋借閱量,而模型(2)在模型(1)的基礎上添加平均星級評分、模型(3)用好評比例和差評比例替換星級評論數(shù)。通過上述模型,我們能夠分析網(wǎng)絡口碑數(shù)據(jù)中不同變量對借閱量的影響。
借閱量i=α0+α1定價i+α2出版天數(shù)i+α3復本量i+α4-22類目i+β0總評論數(shù)i+ε
(1)
借閱量i=α0+α1定價i+α2出版天數(shù)i+α3復本量i+α4-22類目i+β0總評論數(shù)i+β1平均評分i+ε
(2)
借閱量i=α0+α1定價i+α2出版天數(shù)i+α3復本量i+α4-22類目i+β0總評論數(shù)i+β2好評比例i+β3差評比例i+ε
(3)
因變量均為借閱量,模型中用下標i來表示第i本圖書。在控制變量中,類目表示圖書按中圖法分類的啞變量(中圖法類目共22大類,由于S和V類中沒有樣本,所以共20個類目,加入19個啞變量)??傇u論數(shù)、平均評分、好評比例和差評比例是我們關注的網(wǎng)絡口碑數(shù)據(jù)。平均評分表示圖書i的總體評分,好評比例和差評比例分別從正負兩方面說明用戶評論的影響。由于平均評分與好評比例、中評比例、差評比例均存在高度的相關關系,為了避免多重共線性,分別分析它們對借閱量的影響,模型(2)在模型(1)基礎上加入平均評分,在模型(3)中將平均評分替換為好評比例和差評比例。通過計算模型的方差膨脹因子(VIF),所有VIF值均在3以下,表明所有模型的多重共線性均在可接受范圍內(nèi)。 表5為回歸分析結(jié)果匯總。模型(0)為基準模型,包含與借閱量有關的其他控制變量,沒有加入網(wǎng)絡口碑數(shù)據(jù)。模型(0)的作用主要是對比加入網(wǎng)絡口碑數(shù)據(jù)后模型的擬合度是否有明顯的提升,以此判斷網(wǎng)絡口碑數(shù)據(jù)對借閱量的影響。從表5可知,模型(1)、模型(2)和模型(3)加入網(wǎng)絡口碑數(shù)據(jù)后,調(diào)整R方均由0.141增加到0.228,說明在加入網(wǎng)絡口碑變量后,模型的擬合度明顯提高了。但是模型(2)和模型(3)在模型(1)基礎上新加入變量后的調(diào)整R方相同,并未有效提高模型擬合度,F(xiàn)值反下降,由此可以推導出網(wǎng)絡口碑數(shù)據(jù)對借閱量的解釋主要來自模型(1)中加入的總評論數(shù)。
表4 變量相關關系矩陣
注:*代表P<0.10 ;**代表P<0.05 ;***代表P<0.01
在所有模型中,出版天數(shù)和復本量是最重要的控制變量。如在模型(1)中,出版天數(shù)的系數(shù)為顯著的正向相關(α2=0.763,P<0.01),說明圖書出版時間越長,其借閱量越大;而復本量同樣顯著正向相關(α3=0.492,P<0.01),說明復本量越大,其借閱量越高,均符合對圖書借閱的常識認知。
在模型(1)中,我們主要關注總評論數(shù)對借閱量的影響。總評論數(shù)的系數(shù)呈顯著正相關(β0=0.145,P<0.01),說明圖書借閱量隨總評論數(shù)增加而增加,總評論數(shù)每增加1%,借閱量增加約0.15%。在模型(2)和模型(3)中,我們主要關注平均評分、好評比例和差評比例對借閱量的影響。首先,從顯著水平上來看,平均評分和差評比例的P值均大于0.1,只有好評比例的顯著性(P=0.053)具有統(tǒng)計意義,說明用戶平均星級評分和差評對借閱量沒有顯著的影響,只有好評對借閱量存在統(tǒng)計關系。但好評比例的系數(shù)(β2=-1.257)為負,說明好評比例越高,借閱量越小。參考前面相關性分析中總評論數(shù)與平均評分、好評比例的顯著的負相關系數(shù),不符合常識認知。原因在于用戶主動評論比例非常小,隨著圖書的總評論量變大,差評數(shù)量同步增長,導致平均評分和好評比例反而低于總評論量低的圖書。
表5 圖書借閱變量回歸分析匯總
注 :*代表P<0.10 ;**代表P<0.05 ;***代表P<0.01
提高圖書借閱率,避免零借閱現(xiàn)象是圖書館目前工作的重中之重。本文對圖書館圖書借閱量與網(wǎng)絡口碑數(shù)據(jù)之間的關系進行了實證分析,結(jié)果顯示在網(wǎng)絡口碑數(shù)據(jù)中總評論數(shù)與圖書借閱量有顯著的正向相關。由于網(wǎng)絡書店克服了傳統(tǒng)書店的空間、地域和種類數(shù)量等因素限制,能夠滿足社會總需求中的長尾部分,反映了全社會讀者對圖書的總體需求情況。而圖書借閱量則受到圖書館內(nèi)外因素共同限制,內(nèi)部因素包括復本數(shù)量、借閱規(guī)則、入藏時間等,限制了讀者圖書借閱,文中對可流通復本量的分析證明了這一點;外部因素包括專業(yè)分布、學生規(guī)模、教學科研特點、研究領域等,這些因素與圖書館館藏情況無關,只與讀者群體的自身差異有關,即學校個體需求與社會總需求是不同的。圖書館應分析用戶信息需求,明確自身限制借閱因素,提高館藏利用率,減少零借閱現(xiàn)象。
本文對圖書館管理實踐提供了啟示。圖書館可以以網(wǎng)絡書店銷售類目分布特征優(yōu)化館藏圖書類目結(jié)構(gòu),以網(wǎng)絡書店銷售評論的類目特征為依據(jù)建立一個以借閱率為導向的最優(yōu)館藏類目結(jié)構(gòu)和新書采購類目結(jié)構(gòu),提高借閱量和館藏借閱率。如以2016年大學征訂圖書目錄為樣本,獲取圖書在當當網(wǎng)銷售一年的評論數(shù)量,然后以評論數(shù)量中位數(shù)以上的圖書統(tǒng)計類目分布比例。它可以作為面向公眾的公共圖書館的館藏建設類目標準,高校圖書館可以參考自身專業(yè)設置和教學科研需求等因素,對其做相應調(diào)整。其次,圖書采訪應覆蓋類目高書評圖書。高書評圖書是指評論量超過所在類目同期出版圖書的評論量平均數(shù)的圖書,根據(jù)當當網(wǎng)數(shù)據(jù)計算一般不超過所在類目同年出版種數(shù)的20%。具體平均數(shù)指標可以使用上一年度或近兩年的類目總評論數(shù)均值作為參考。覆蓋高評論圖書可以以最少的資源覆蓋借閱量最高的圖書,實現(xiàn)經(jīng)濟效益最大化。高書評書目可以參考網(wǎng)絡書店的銷售排行榜,如當當網(wǎng)以日、周、月、年等周期,按44個大類544個小類提供每一類銷量最高的前500種圖書,基本覆蓋了高評論圖書。我館已經(jīng)開發(fā)相應的爬蟲軟件用于高評論數(shù)量書目抓取。同時,高評論數(shù)圖書應該配置高復本,以防止供應不足。我們可以通過書評數(shù)量計算借閱量,從而得出合適的復本數(shù)量。