鄭云濤 沈晶晶 徐真真 李萍
摘要:隨著信息時(shí)代的到來和數(shù)字化圖書館的興起,大學(xué)生通過手機(jī)和互聯(lián)網(wǎng)獲取大量電子資源,導(dǎo)致了紙質(zhì)圖書借閱規(guī)模持續(xù)下降。為更好地服務(wù)讀者,滿足讀者需求,需對(duì)讀者借閱行為進(jìn)行信息挖掘。本文采用了52萬余條紙質(zhì)圖書有效借閱記錄,應(yīng)用SPSS軟件對(duì)15205名畢業(yè)生做降維因子分析,萃取了8個(gè)綜合決策因素,并創(chuàng)造性的依據(jù)萃取因素做聚類分析。聚類分析和卡方分析綜合結(jié)果表明,讀者群體有專業(yè)學(xué)習(xí)、休閑娛樂、語言文字、畢業(yè)去向、興趣愛好、歷史地理和思政教育等多種需求。借閱行為不僅受專業(yè)、年級(jí)、性別和入學(xué)年份等外在特征影響,還受活躍度、畢業(yè)去向優(yōu)良度、借閱目的和借閱連續(xù)性等內(nèi)在特征影響,但不受校園文化和外部偶發(fā)因素的顯著影響。
關(guān)鍵詞:SPSS;聚類分析;內(nèi)在特征;外在特征;讀者群體;
一、數(shù)據(jù)采集、預(yù)處理及分析工具
從學(xué)校圖書館的圖騰管理系統(tǒng)數(shù)據(jù)庫導(dǎo)出近五屆畢業(yè)生讀者信息和圖書借閱記錄,為保護(hù)讀者隱私和學(xué)校圖書館管理系統(tǒng)的知識(shí)產(chǎn)權(quán),讀者信息表選取的關(guān)鍵字段僅為讀者號(hào)、性別、專業(yè)、入學(xué)年份和學(xué)院,圖書借閱記錄選取的關(guān)鍵字段僅為題名、館藏號(hào)、索書號(hào)、借書日期。篩選出東湖校區(qū)四年制本科應(yīng)屆畢業(yè)生借閱記錄(不含獨(dú)立學(xué)院、專升本、退學(xué)、轉(zhuǎn)學(xué)、休學(xué)、延長學(xué)制和五年制的學(xué)生),最終得到15205名畢業(yè)生的529975條有效借閱記錄。
數(shù)據(jù)預(yù)處理是整個(gè)聚類挖掘中最為基礎(chǔ)的環(huán)節(jié),數(shù)據(jù)預(yù)處理的質(zhì)量直接決定著聚類分析的效果。本文使用了學(xué)院、學(xué)科、專業(yè)、年級(jí)、入學(xué)年份等讀者自身在借書時(shí)所具有的外在特征以及數(shù)據(jù)離散化處理得到的專業(yè)聚類、借閱目、借閱連續(xù)性和活躍度等等預(yù)定義特征,整合借閱記錄和讀者信息得到了43547條讀者借閱信息。其后,為保證A-Z類借閱量的連續(xù)性,根據(jù)箱型圖和PP圖對(duì)借閱量進(jìn)行異常值檢測(cè)、判定,并進(jìn)行初步修正。為能實(shí)現(xiàn)更多SPSS分析,使用LN函數(shù)再次修正借閱量使其收斂于正態(tài)分布或近正態(tài)分布。后期實(shí)踐結(jié)果證實(shí)了上述預(yù)處理的有效性。
本文使用軟件SPSS 22.0,進(jìn)行了相關(guān)性分析和卡方分析多種分析以對(duì)比各類特征對(duì)讀者借閱圖書的分類效果。
二、聚類分析
讀者借閱行為分析有抽樣調(diào)查和大數(shù)據(jù)分析兩類,已有的讀者借閱行為研究表明,少量數(shù)據(jù)的抽樣調(diào)查研究結(jié)果往往受偶然因素影響,具有更多地不確定性;大量數(shù)據(jù)的抽樣調(diào)查和大數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果往往更加具有確定性。在研究中還發(fā)現(xiàn),僅對(duì)圖書大類做借閱統(tǒng)計(jì)容易割裂讀者借閱行為需求,而讀者借閱具往往有復(fù)雜性和多樣性,聚類分析則能更好地體現(xiàn)讀者的借閱需求特征。
以讀者借閱歷史數(shù)據(jù)為基礎(chǔ),利用聚類分析的方法對(duì)讀者群體進(jìn)行細(xì)分,基于不同屬性依據(jù)進(jìn)行聚類可以分別獲得基于不同角度的讀者類型群體。以借閱頻次為屬性依據(jù)進(jìn)行聚類,可以獲得不同活躍度的讀者群體;以讀者借閱圖書類型作為屬性依據(jù),聚類結(jié)果能夠清晰地揭示讀者群體的需求結(jié)構(gòu)。
本文創(chuàng)新性地采用了8個(gè)降維的萃取因素聚類,既體現(xiàn)了讀者需求又體現(xiàn)了活躍度;而且降維萃取因素更側(cè)重讀者內(nèi)在需求,并根據(jù)權(quán)重選擇了最為重要的內(nèi)在需求因素作為聚類的考慮范疇,優(yōu)化了讀者分類。結(jié)果表明,讀者借閱借閱圖書考量的因素往往超過一個(gè),是多因素綜合考量的結(jié)果。對(duì)于聚類得到的8個(gè)讀者類簇,計(jì)算每個(gè)類簇中讀者借閱22個(gè)大類圖書的生均借閱量,做雷達(dá)圖,結(jié)合主要借閱特征做匯總表。
各群讀者借閱圖書大類生均借閱量雷達(dá)圖結(jié)果顯示,圖形均不是圓形或近圓形,表示借閱范圍相對(duì)狹窄,并且8個(gè)讀者群體在借閱圖書的種類和數(shù)量上體現(xiàn)了顯著差異。文學(xué)類圖書幾乎在所有讀者中受歡迎;在文學(xué)和出國型讀者群體最受歡迎,而在工學(xué)型讀者群體受歡迎程度最低。這表明了讀者群體的圖書大類需求不同。
三、讀者特征分析
(一)讀者的內(nèi)在特征
1.活躍度
根據(jù)讀者群體特征結(jié)合分群實(shí)際應(yīng)用效果發(fā)現(xiàn),農(nóng)學(xué)型和管理學(xué)型的讀者生均借閱量一般,與其專業(yè)實(shí)驗(yàn)實(shí)踐多特點(diǎn)有關(guān);一方面實(shí)驗(yàn)實(shí)踐相關(guān)的教輔材料不歸屬圖書館館藏范圍,另一方面也意味著高質(zhì)量的通用全國的實(shí)驗(yàn)實(shí)踐教輔材料匱乏,故大多采用具有地方特色的實(shí)驗(yàn)實(shí)踐教輔材料,因此將其歸類為活躍讀者群體更適合。因此,活躍度分為活躍和不活躍兩類讀者群體即可。統(tǒng)計(jì)結(jié)果表明,活躍讀者群體生均借閱量在10-65區(qū)間內(nèi),讀者占比47.98%;而不活躍讀者群體的生均借閱量在1-9區(qū)間內(nèi),讀者占比高達(dá)52.02%?;钴S讀者群體在22個(gè)大類生均借閱量上均顯著高于不活躍群體。
2. 借閱連續(xù)性
讀者借閱頻次有高有低,將每個(gè)學(xué)期都借閱圖書的讀者認(rèn)定為連續(xù)借閱讀者,其他的則為非連續(xù)借閱讀者。統(tǒng)計(jì)結(jié)果顯示,5646名連續(xù)借閱讀者在大學(xué)四年共借閱了358228冊(cè)圖書,生均借閱63.4冊(cè)圖書;而9559名非連續(xù)借閱讀者則借閱了171747冊(cè)圖書,生均借閱18冊(cè)圖書。兩者借閱量比接近7:2,體現(xiàn)了借閱量的巨大差異。統(tǒng)計(jì)結(jié)果還發(fā)現(xiàn),沉默型讀者群體中不連續(xù)借閱讀者高達(dá)68.7%,以不連續(xù)借閱為主;其余類型讀者群體中不連續(xù)借閱讀者僅介于34.8%-40.8%之間,以連續(xù)借閱讀者為主。說明活躍讀者不僅借閱量高,借閱頻次同樣高于不活躍讀者。
3.借閱目的
從圖書題名分析,發(fā)現(xiàn)讀者需求多種多樣。為了考研借閱O類圖書,為了考取公務(wù)員借閱D類圖書,為了出國深造借閱H類圖書,提高四六級(jí)考試成績借閱H類圖書,為了增強(qiáng)體能訓(xùn)練借閱G類圖書,為了外出旅行借閱K類,為了提高素質(zhì)修養(yǎng)借閱K類人物傳記,為了提高植物養(yǎng)護(hù)技能借閱Q類,為了身體保健借閱R類等等。
根據(jù)聚類特征,結(jié)合本館借閱實(shí)際,發(fā)現(xiàn)本館讀者借閱量排名靠前的七種借閱需求分別是專業(yè)學(xué)習(xí)(C類、F類、J類、P類、Q類、S類、T類和X類)、休閑娛樂(I類)、畢業(yè)去向(D類、N類和O類)、思政教育(A類和B類)、語言文字(H類)、興趣愛好(E類、G類、R類、U類、V類和Z類)和歷史地理(K類)。
讀者在圖書借閱時(shí)綜合考量了7種借閱需求,而不僅僅考量一種需求,故各類圖書均有借閱。每個(gè)類簇中主要需求圖書借閱量顯著高于其他6個(gè)需求借閱量,主要需求借閱比例由高到低依次為專業(yè)學(xué)習(xí)、休閑娛樂、語言文字、畢業(yè)去向、興趣愛好、歷史地理和思政教育,比例從71.52%降至46.37%,讀者占比依次為40.17%、28.20%、13.64%、7.94%、2.19%、3.75%和4.12%,其中專業(yè)學(xué)習(xí)、休閑娛樂和語言文字3個(gè)人數(shù)最多的群體占讀者群體總數(shù)的82%。這說明讀者需求的復(fù)雜性和多樣性。
4.畢業(yè)去向優(yōu)良度
出國、考研、司法考試和考取公務(wù)員等畢業(yè)去向在讀者群體劃分上顯示了顯著的影響效果,因此本文考慮按照畢業(yè)去向考量讀者群體劃分。研究表明,借閱量越高,學(xué)習(xí)成績?cè)胶?。因此,綜合考量借閱量和畢業(yè)去向優(yōu)良度,分為三類讀者群體,出國、考公、司法考試和考研讀者均屬于成績好、學(xué)有余力的讀者,歸納為優(yōu)質(zhì)畢業(yè)去向讀者群體,占讀者總數(shù)的19.35%,生均借閱量23.5本,其中I類和H類圖書生均借閱量最多;沉默型讀者借閱量最低,成績偏低,歸納為一般畢業(yè)去向讀者群體,占讀者總數(shù)的52.02%,生均借閱量僅4.3本;其余讀者歸納為良好畢業(yè)去向讀者群體,占讀者總數(shù)的28.63%,生均借閱量20.5本。
(二)讀者的外在特征
1.專業(yè)
我校本科招生專業(yè)涵蓋經(jīng)、法、文、理、工、農(nóng)、管、藝八大學(xué)科門類的66個(gè)專業(yè)和13個(gè)方向。生均借閱量均值T檢驗(yàn)結(jié)果表明部分專業(yè)之間差異不明顯,如園藝和園藝(觀賞園藝)、國際經(jīng)濟(jì)與貿(mào)易和工商管理、藝術(shù)設(shè)計(jì)(服裝藝術(shù)設(shè)計(jì))和藝術(shù)設(shè)計(jì)(視覺傳達(dá)藝術(shù)設(shè)計(jì)),因此需要聚類以便更好的區(qū)分專業(yè)之間的差別。
本文創(chuàng)新性的采用了SPSS的R聚類專業(yè)劃分方法,計(jì)算各個(gè)聚類的22個(gè)大類圖書生均借閱量,做雷達(dá)圖。生均借閱量結(jié)果顯示,1類主要是工程技術(shù)類專業(yè)學(xué)生,借閱T類書籍最多;2類主要是工程技術(shù)類專業(yè)學(xué)生,借閱I類圖書最多,其次為T類和H類圖書;3類是英語專業(yè)和日語專業(yè)學(xué)生,借閱H類圖書最多,高達(dá)48%以上;4類主要是藝術(shù)設(shè)計(jì)類學(xué)生,借閱量從大到小依次為J類、I類和T類圖書;5類是數(shù)理化類基礎(chǔ)專業(yè),大量借閱了O類和I類圖書;6類是醫(yī)學(xué)類專業(yè)學(xué)生,借閱量從大到小依次為I類、R類和H類圖書;7類是法學(xué)學(xué)生,借閱D類書籍最多,超過借閱總量的60%;8類是漢語言文學(xué)專業(yè),借閱了巨量I類圖書,高達(dá)65%;9類是文科類專業(yè),借閱量從大到小依次為I類和F類圖書;10類是與動(dòng)植物相關(guān)的專業(yè),借閱量從大到小依次為I類、H類和Q類圖書。
總體上,不同專業(yè)群體讀者的閱讀偏好往往比較符合學(xué)校的專業(yè)設(shè)置,借閱專業(yè)相關(guān)圖書及課程輔導(dǎo)資料,體現(xiàn)了不同讀者群體間鮮明的差異;還有一定共性,均大量借閱了H3常用外國語和I2中國文學(xué)。
和傳統(tǒng)的學(xué)院分類或者學(xué)科分類相比,該聚類不僅體現(xiàn)了顯性的專業(yè)聚類,還體現(xiàn)了隱性的專業(yè)聚類。如6類,我校沒有醫(yī)學(xué)院,但生物技術(shù)(生物制藥)和中藥學(xué)專業(yè)顯示了R類借閱量高的特點(diǎn),其他的類似專業(yè)動(dòng)物醫(yī)學(xué)則顯示出2類的特征。8類漢語言文學(xué)專業(yè)則顯示了借閱大類狹窄的顯著特點(diǎn),其他的文科專業(yè)則體現(xiàn)了9類的特點(diǎn)。
2.年級(jí)
2015-2019屆畢業(yè)生生均借閱結(jié)果顯示,隨著年級(jí)增長借閱量在持續(xù)走低,從大一的生均借閱量14.3冊(cè)下降到大二的13.0冊(cè)再降到大三的12.0冊(cè)最后降至大四的7.5冊(cè)圖書。借閱種類各年級(jí)有所不同,大一借閱量最多地依次為I類、T類和H類;大二借閱量最多地依次為I類、T類和J類,其中I類小說借閱量顯著下降,T類和J類等專業(yè)類書籍顯著上升;大三和大二基冊(cè)持平,專業(yè)類圖書略有上升,大四各大類圖書借閱均顯著下降。
讀者群體結(jié)果表明,借閱類型與年級(jí)有關(guān),生均借閱總量受到年級(jí)影響,大四最少且較前三年級(jí)的借閱量有明顯的減少。并且,除了藝術(shù)學(xué)型讀者外,其他讀者群體隨著年級(jí)的演變,增加了專業(yè)相關(guān)圖書的借閱比例和優(yōu)質(zhì)畢業(yè)去向圖書的借閱比例,相應(yīng)地減少了其他各類圖書的借閱比例。大部分專業(yè)相關(guān)圖書和畢業(yè)去向圖書的借閱量體現(xiàn)了低—高—低的總體變化特征;藝術(shù)學(xué)型讀者的J類專業(yè)圖書借閱量則一路走低,顯示了不同的借閱特點(diǎn)??傮w上說明不同專業(yè)讀者群體借閱需求的復(fù)雜性和不均一性。
3.入學(xué)年份
本文采用入學(xué)年份分類統(tǒng)計(jì),使用四年借閱量做生均計(jì)算消除了年級(jí)的影響,統(tǒng)計(jì)結(jié)果發(fā)現(xiàn)五屆學(xué)生圖書借閱類型基本保持一致,但紙質(zhì)圖書借閱量持續(xù)下降,從2011屆的生均每學(xué)年借閱13.9冊(cè)下降到2012屆的13.5冊(cè)再下降到2013屆的11.7冊(cè)直至2014屆的10.8冊(cè)最后到2015屆的10.3冊(cè)。2012屆與2013屆之間的顯著下滑,說明2016年末有一次新網(wǎng)絡(luò)技術(shù)的重大突破導(dǎo)致紙質(zhì)圖書借閱量的迅速下滑;也說明借助紙質(zhì)圖書學(xué)習(xí)的方式正在弱化,其更希望通過手機(jī)和互聯(lián)網(wǎng)等獲取電子資源。意味著讀者借閱行為還是受到了外部大環(huán)境的影響。統(tǒng)計(jì)結(jié)果還表明后三屆入學(xué)學(xué)生借閱的休閑娛樂類圖書比例下降,專業(yè)圖書比例提升。從現(xiàn)有的結(jié)果看,其體現(xiàn)數(shù)字媒體和數(shù)字資源的迅速擴(kuò)張的外部大環(huán)境變化特征;并且就業(yè)壓力變大,讀者對(duì)專業(yè)知識(shí)的需求增加。
(三)讀者特征對(duì)比分析
為進(jìn)一步地了解讀者借閱行為特征的分類效果,本文采用了活躍度、畢業(yè)去向優(yōu)良度、專業(yè)聚類、借閱目的、借閱連續(xù)性、學(xué)院、學(xué)科門類、年級(jí)、性別和入學(xué)年份等盡可能多的特征做卡方檢驗(yàn),交叉表特征檢驗(yàn)結(jié)果表明,各特征的差異檢驗(yàn)SIG值均為0.000,說明均可作為差異變量予以保留。一般來講,卡方值越大說明其影響力越大,分群效果越好。據(jù)此可以認(rèn)定影響力從大到小的特征依次為畢業(yè)去向優(yōu)良度、活躍度、專業(yè)、借閱目的、年級(jí)、借閱連續(xù)性、性別和入學(xué)年份;入學(xué)年份的卡方值最小,而df值又偏大,說明其不同分群間的差異最小。
比較各種分類的借閱量差異,發(fā)現(xiàn)SPSS顯示為顯著差異的最小借閱量之差為3465冊(cè)圖書,占借閱總量的0.8%,意味著小于0.8%的借閱量差值不具有顯著差異。這也間接證實(shí)了外部偶發(fā)因素未有顯著影響的正確性。
正態(tài)分布、聚類分析、卡方分析等均要求筆者能熟練使用SPSS或其他軟件,要求甚高,不容易操作;讀者外部特征分類效果略差,但易操作、易分析是其最顯著的特點(diǎn)。因此,從好學(xué)易用角度來說,內(nèi)在特征分析不宜大范圍拓展使用。
四、結(jié)論
本文為讀者群體研究提供了新的分群特征,即畢業(yè)去向優(yōu)良度、借閱目的和借閱連續(xù)性,一種SPSS的R聚類的專業(yè)分類方式,一種新的聚類思路即萃取因素聚類。這些新思路既拓寬了讀者群體分析的研究思路,又詳細(xì)探究了讀者借閱特征全景分群對(duì)比,對(duì)圖書館的圖書推廣和資源建設(shè)工作來說具有重要的參考價(jià)值。同時(shí)當(dāng)然,本研究還有一定的局限性,希望能更加深刻地理解讀者借閱圖書的內(nèi)在需求,力求更加精準(zhǔn)地服務(wù)好學(xué)生,進(jìn)一步推進(jìn)以讀者為中心、以讀者需求為驅(qū)動(dòng)的一體化服務(wù)。
參考文獻(xiàn)
[1]楊皓珺. 基于數(shù)據(jù)挖掘的學(xué)校圖書館讀者借閱行為研究[D].上海交通大學(xué),2016.
[2]孫娜,姬丹丹,吳婉紅,郭磊.基于學(xué)生行為數(shù)據(jù)和借閱數(shù)據(jù)的圖書借閱量分析[J].中國教育信息化,2018(11):73-77.
[3]王睿,楊晉蘇,彭聚霞.基于流通日志的高校學(xué)生圖書借閱行為分析與對(duì)策研究[J].福建電腦,2018,34(10):12-14+11.
[4]莊小峰,馬凌云.近十年高校圖書館讀者圖書借閱偏好及變化研究——以上海師范大學(xué)為例[J].河北科技圖苑, 2018,31(04):57-62.
基金項(xiàng)目:本文系浙江省教育廳項(xiàng)目“基于大數(shù)據(jù)的紙質(zhì)圖書館讀者借閱行為偏好聚類分析”(編號(hào):Y201942152)和浙江省圖書館學(xué)會(huì)項(xiàng)目“基于大數(shù)據(jù)分析的讀者群借閱畫像”(編號(hào):Ztx2020B-10)的研究成果之一。
(浙江農(nóng)林大學(xué) ?浙江 ?杭州 ?311300)