• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)聚類的讀者借閱特征對(duì)比研究

      2021-07-14 19:42:53鄭云濤沈晶晶徐真真李萍
      錦繡·下旬刊 2021年7期
      關(guān)鍵詞:聚類分析

      鄭云濤 沈晶晶 徐真真 李萍

      摘要:隨著信息時(shí)代的到來和數(shù)字化圖書館的興起,大學(xué)生通過手機(jī)和互聯(lián)網(wǎng)獲取大量電子資源,導(dǎo)致了紙質(zhì)圖書借閱規(guī)模持續(xù)下降。為更好地服務(wù)讀者,滿足讀者需求,需對(duì)讀者借閱行為進(jìn)行信息挖掘。本文采用了52萬余條紙質(zhì)圖書有效借閱記錄,應(yīng)用SPSS軟件對(duì)15205名畢業(yè)生做降維因子分析,萃取了8個(gè)綜合決策因素,并創(chuàng)造性的依據(jù)萃取因素做聚類分析。聚類分析和卡方分析綜合結(jié)果表明,讀者群體有專業(yè)學(xué)習(xí)、休閑娛樂、語言文字、畢業(yè)去向、興趣愛好、歷史地理和思政教育等多種需求。借閱行為不僅受專業(yè)、年級(jí)、性別和入學(xué)年份等外在特征影響,還受活躍度、畢業(yè)去向優(yōu)良度、借閱目的和借閱連續(xù)性等內(nèi)在特征影響,但不受校園文化和外部偶發(fā)因素的顯著影響。

      關(guān)鍵詞:SPSS;聚類分析;內(nèi)在特征;外在特征;讀者群體;

      一、數(shù)據(jù)采集、預(yù)處理及分析工具

      從學(xué)校圖書館的圖騰管理系統(tǒng)數(shù)據(jù)庫導(dǎo)出近五屆畢業(yè)生讀者信息和圖書借閱記錄,為保護(hù)讀者隱私和學(xué)校圖書館管理系統(tǒng)的知識(shí)產(chǎn)權(quán),讀者信息表選取的關(guān)鍵字段僅為讀者號(hào)、性別、專業(yè)、入學(xué)年份和學(xué)院,圖書借閱記錄選取的關(guān)鍵字段僅為題名、館藏號(hào)、索書號(hào)、借書日期。篩選出東湖校區(qū)四年制本科應(yīng)屆畢業(yè)生借閱記錄(不含獨(dú)立學(xué)院、專升本、退學(xué)、轉(zhuǎn)學(xué)、休學(xué)、延長學(xué)制和五年制的學(xué)生),最終得到15205名畢業(yè)生的529975條有效借閱記錄。

      數(shù)據(jù)預(yù)處理是整個(gè)聚類挖掘中最為基礎(chǔ)的環(huán)節(jié),數(shù)據(jù)預(yù)處理的質(zhì)量直接決定著聚類分析的效果。本文使用了學(xué)院、學(xué)科、專業(yè)、年級(jí)、入學(xué)年份等讀者自身在借書時(shí)所具有的外在特征以及數(shù)據(jù)離散化處理得到的專業(yè)聚類、借閱目、借閱連續(xù)性和活躍度等等預(yù)定義特征,整合借閱記錄和讀者信息得到了43547條讀者借閱信息。其后,為保證A-Z類借閱量的連續(xù)性,根據(jù)箱型圖和PP圖對(duì)借閱量進(jìn)行異常值檢測(cè)、判定,并進(jìn)行初步修正。為能實(shí)現(xiàn)更多SPSS分析,使用LN函數(shù)再次修正借閱量使其收斂于正態(tài)分布或近正態(tài)分布。后期實(shí)踐結(jié)果證實(shí)了上述預(yù)處理的有效性。

      本文使用軟件SPSS 22.0,進(jìn)行了相關(guān)性分析和卡方分析多種分析以對(duì)比各類特征對(duì)讀者借閱圖書的分類效果。

      二、聚類分析

      讀者借閱行為分析有抽樣調(diào)查和大數(shù)據(jù)分析兩類,已有的讀者借閱行為研究表明,少量數(shù)據(jù)的抽樣調(diào)查研究結(jié)果往往受偶然因素影響,具有更多地不確定性;大量數(shù)據(jù)的抽樣調(diào)查和大數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果往往更加具有確定性。在研究中還發(fā)現(xiàn),僅對(duì)圖書大類做借閱統(tǒng)計(jì)容易割裂讀者借閱行為需求,而讀者借閱具往往有復(fù)雜性和多樣性,聚類分析則能更好地體現(xiàn)讀者的借閱需求特征。

      以讀者借閱歷史數(shù)據(jù)為基礎(chǔ),利用聚類分析的方法對(duì)讀者群體進(jìn)行細(xì)分,基于不同屬性依據(jù)進(jìn)行聚類可以分別獲得基于不同角度的讀者類型群體。以借閱頻次為屬性依據(jù)進(jìn)行聚類,可以獲得不同活躍度的讀者群體;以讀者借閱圖書類型作為屬性依據(jù),聚類結(jié)果能夠清晰地揭示讀者群體的需求結(jié)構(gòu)。

      本文創(chuàng)新性地采用了8個(gè)降維的萃取因素聚類,既體現(xiàn)了讀者需求又體現(xiàn)了活躍度;而且降維萃取因素更側(cè)重讀者內(nèi)在需求,并根據(jù)權(quán)重選擇了最為重要的內(nèi)在需求因素作為聚類的考慮范疇,優(yōu)化了讀者分類。結(jié)果表明,讀者借閱借閱圖書考量的因素往往超過一個(gè),是多因素綜合考量的結(jié)果。對(duì)于聚類得到的8個(gè)讀者類簇,計(jì)算每個(gè)類簇中讀者借閱22個(gè)大類圖書的生均借閱量,做雷達(dá)圖,結(jié)合主要借閱特征做匯總表。

      各群讀者借閱圖書大類生均借閱量雷達(dá)圖結(jié)果顯示,圖形均不是圓形或近圓形,表示借閱范圍相對(duì)狹窄,并且8個(gè)讀者群體在借閱圖書的種類和數(shù)量上體現(xiàn)了顯著差異。文學(xué)類圖書幾乎在所有讀者中受歡迎;在文學(xué)和出國型讀者群體最受歡迎,而在工學(xué)型讀者群體受歡迎程度最低。這表明了讀者群體的圖書大類需求不同。

      三、讀者特征分析

      (一)讀者的內(nèi)在特征

      1.活躍度

      根據(jù)讀者群體特征結(jié)合分群實(shí)際應(yīng)用效果發(fā)現(xiàn),農(nóng)學(xué)型和管理學(xué)型的讀者生均借閱量一般,與其專業(yè)實(shí)驗(yàn)實(shí)踐多特點(diǎn)有關(guān);一方面實(shí)驗(yàn)實(shí)踐相關(guān)的教輔材料不歸屬圖書館館藏范圍,另一方面也意味著高質(zhì)量的通用全國的實(shí)驗(yàn)實(shí)踐教輔材料匱乏,故大多采用具有地方特色的實(shí)驗(yàn)實(shí)踐教輔材料,因此將其歸類為活躍讀者群體更適合。因此,活躍度分為活躍和不活躍兩類讀者群體即可。統(tǒng)計(jì)結(jié)果表明,活躍讀者群體生均借閱量在10-65區(qū)間內(nèi),讀者占比47.98%;而不活躍讀者群體的生均借閱量在1-9區(qū)間內(nèi),讀者占比高達(dá)52.02%?;钴S讀者群體在22個(gè)大類生均借閱量上均顯著高于不活躍群體。

      2. 借閱連續(xù)性

      讀者借閱頻次有高有低,將每個(gè)學(xué)期都借閱圖書的讀者認(rèn)定為連續(xù)借閱讀者,其他的則為非連續(xù)借閱讀者。統(tǒng)計(jì)結(jié)果顯示,5646名連續(xù)借閱讀者在大學(xué)四年共借閱了358228冊(cè)圖書,生均借閱63.4冊(cè)圖書;而9559名非連續(xù)借閱讀者則借閱了171747冊(cè)圖書,生均借閱18冊(cè)圖書。兩者借閱量比接近7:2,體現(xiàn)了借閱量的巨大差異。統(tǒng)計(jì)結(jié)果還發(fā)現(xiàn),沉默型讀者群體中不連續(xù)借閱讀者高達(dá)68.7%,以不連續(xù)借閱為主;其余類型讀者群體中不連續(xù)借閱讀者僅介于34.8%-40.8%之間,以連續(xù)借閱讀者為主。說明活躍讀者不僅借閱量高,借閱頻次同樣高于不活躍讀者。

      3.借閱目的

      從圖書題名分析,發(fā)現(xiàn)讀者需求多種多樣。為了考研借閱O類圖書,為了考取公務(wù)員借閱D類圖書,為了出國深造借閱H類圖書,提高四六級(jí)考試成績借閱H類圖書,為了增強(qiáng)體能訓(xùn)練借閱G類圖書,為了外出旅行借閱K類,為了提高素質(zhì)修養(yǎng)借閱K類人物傳記,為了提高植物養(yǎng)護(hù)技能借閱Q類,為了身體保健借閱R類等等。

      根據(jù)聚類特征,結(jié)合本館借閱實(shí)際,發(fā)現(xiàn)本館讀者借閱量排名靠前的七種借閱需求分別是專業(yè)學(xué)習(xí)(C類、F類、J類、P類、Q類、S類、T類和X類)、休閑娛樂(I類)、畢業(yè)去向(D類、N類和O類)、思政教育(A類和B類)、語言文字(H類)、興趣愛好(E類、G類、R類、U類、V類和Z類)和歷史地理(K類)。

      讀者在圖書借閱時(shí)綜合考量了7種借閱需求,而不僅僅考量一種需求,故各類圖書均有借閱。每個(gè)類簇中主要需求圖書借閱量顯著高于其他6個(gè)需求借閱量,主要需求借閱比例由高到低依次為專業(yè)學(xué)習(xí)、休閑娛樂、語言文字、畢業(yè)去向、興趣愛好、歷史地理和思政教育,比例從71.52%降至46.37%,讀者占比依次為40.17%、28.20%、13.64%、7.94%、2.19%、3.75%和4.12%,其中專業(yè)學(xué)習(xí)、休閑娛樂和語言文字3個(gè)人數(shù)最多的群體占讀者群體總數(shù)的82%。這說明讀者需求的復(fù)雜性和多樣性。

      4.畢業(yè)去向優(yōu)良度

      出國、考研、司法考試和考取公務(wù)員等畢業(yè)去向在讀者群體劃分上顯示了顯著的影響效果,因此本文考慮按照畢業(yè)去向考量讀者群體劃分。研究表明,借閱量越高,學(xué)習(xí)成績?cè)胶?。因此,綜合考量借閱量和畢業(yè)去向優(yōu)良度,分為三類讀者群體,出國、考公、司法考試和考研讀者均屬于成績好、學(xué)有余力的讀者,歸納為優(yōu)質(zhì)畢業(yè)去向讀者群體,占讀者總數(shù)的19.35%,生均借閱量23.5本,其中I類和H類圖書生均借閱量最多;沉默型讀者借閱量最低,成績偏低,歸納為一般畢業(yè)去向讀者群體,占讀者總數(shù)的52.02%,生均借閱量僅4.3本;其余讀者歸納為良好畢業(yè)去向讀者群體,占讀者總數(shù)的28.63%,生均借閱量20.5本。

      (二)讀者的外在特征

      1.專業(yè)

      我校本科招生專業(yè)涵蓋經(jīng)、法、文、理、工、農(nóng)、管、藝八大學(xué)科門類的66個(gè)專業(yè)和13個(gè)方向。生均借閱量均值T檢驗(yàn)結(jié)果表明部分專業(yè)之間差異不明顯,如園藝和園藝(觀賞園藝)、國際經(jīng)濟(jì)與貿(mào)易和工商管理、藝術(shù)設(shè)計(jì)(服裝藝術(shù)設(shè)計(jì))和藝術(shù)設(shè)計(jì)(視覺傳達(dá)藝術(shù)設(shè)計(jì)),因此需要聚類以便更好的區(qū)分專業(yè)之間的差別。

      本文創(chuàng)新性的采用了SPSS的R聚類專業(yè)劃分方法,計(jì)算各個(gè)聚類的22個(gè)大類圖書生均借閱量,做雷達(dá)圖。生均借閱量結(jié)果顯示,1類主要是工程技術(shù)類專業(yè)學(xué)生,借閱T類書籍最多;2類主要是工程技術(shù)類專業(yè)學(xué)生,借閱I類圖書最多,其次為T類和H類圖書;3類是英語專業(yè)和日語專業(yè)學(xué)生,借閱H類圖書最多,高達(dá)48%以上;4類主要是藝術(shù)設(shè)計(jì)類學(xué)生,借閱量從大到小依次為J類、I類和T類圖書;5類是數(shù)理化類基礎(chǔ)專業(yè),大量借閱了O類和I類圖書;6類是醫(yī)學(xué)類專業(yè)學(xué)生,借閱量從大到小依次為I類、R類和H類圖書;7類是法學(xué)學(xué)生,借閱D類書籍最多,超過借閱總量的60%;8類是漢語言文學(xué)專業(yè),借閱了巨量I類圖書,高達(dá)65%;9類是文科類專業(yè),借閱量從大到小依次為I類和F類圖書;10類是與動(dòng)植物相關(guān)的專業(yè),借閱量從大到小依次為I類、H類和Q類圖書。

      總體上,不同專業(yè)群體讀者的閱讀偏好往往比較符合學(xué)校的專業(yè)設(shè)置,借閱專業(yè)相關(guān)圖書及課程輔導(dǎo)資料,體現(xiàn)了不同讀者群體間鮮明的差異;還有一定共性,均大量借閱了H3常用外國語和I2中國文學(xué)。

      和傳統(tǒng)的學(xué)院分類或者學(xué)科分類相比,該聚類不僅體現(xiàn)了顯性的專業(yè)聚類,還體現(xiàn)了隱性的專業(yè)聚類。如6類,我校沒有醫(yī)學(xué)院,但生物技術(shù)(生物制藥)和中藥學(xué)專業(yè)顯示了R類借閱量高的特點(diǎn),其他的類似專業(yè)動(dòng)物醫(yī)學(xué)則顯示出2類的特征。8類漢語言文學(xué)專業(yè)則顯示了借閱大類狹窄的顯著特點(diǎn),其他的文科專業(yè)則體現(xiàn)了9類的特點(diǎn)。

      2.年級(jí)

      2015-2019屆畢業(yè)生生均借閱結(jié)果顯示,隨著年級(jí)增長借閱量在持續(xù)走低,從大一的生均借閱量14.3冊(cè)下降到大二的13.0冊(cè)再降到大三的12.0冊(cè)最后降至大四的7.5冊(cè)圖書。借閱種類各年級(jí)有所不同,大一借閱量最多地依次為I類、T類和H類;大二借閱量最多地依次為I類、T類和J類,其中I類小說借閱量顯著下降,T類和J類等專業(yè)類書籍顯著上升;大三和大二基冊(cè)持平,專業(yè)類圖書略有上升,大四各大類圖書借閱均顯著下降。

      讀者群體結(jié)果表明,借閱類型與年級(jí)有關(guān),生均借閱總量受到年級(jí)影響,大四最少且較前三年級(jí)的借閱量有明顯的減少。并且,除了藝術(shù)學(xué)型讀者外,其他讀者群體隨著年級(jí)的演變,增加了專業(yè)相關(guān)圖書的借閱比例和優(yōu)質(zhì)畢業(yè)去向圖書的借閱比例,相應(yīng)地減少了其他各類圖書的借閱比例。大部分專業(yè)相關(guān)圖書和畢業(yè)去向圖書的借閱量體現(xiàn)了低—高—低的總體變化特征;藝術(shù)學(xué)型讀者的J類專業(yè)圖書借閱量則一路走低,顯示了不同的借閱特點(diǎn)??傮w上說明不同專業(yè)讀者群體借閱需求的復(fù)雜性和不均一性。

      3.入學(xué)年份

      本文采用入學(xué)年份分類統(tǒng)計(jì),使用四年借閱量做生均計(jì)算消除了年級(jí)的影響,統(tǒng)計(jì)結(jié)果發(fā)現(xiàn)五屆學(xué)生圖書借閱類型基本保持一致,但紙質(zhì)圖書借閱量持續(xù)下降,從2011屆的生均每學(xué)年借閱13.9冊(cè)下降到2012屆的13.5冊(cè)再下降到2013屆的11.7冊(cè)直至2014屆的10.8冊(cè)最后到2015屆的10.3冊(cè)。2012屆與2013屆之間的顯著下滑,說明2016年末有一次新網(wǎng)絡(luò)技術(shù)的重大突破導(dǎo)致紙質(zhì)圖書借閱量的迅速下滑;也說明借助紙質(zhì)圖書學(xué)習(xí)的方式正在弱化,其更希望通過手機(jī)和互聯(lián)網(wǎng)等獲取電子資源。意味著讀者借閱行為還是受到了外部大環(huán)境的影響。統(tǒng)計(jì)結(jié)果還表明后三屆入學(xué)學(xué)生借閱的休閑娛樂類圖書比例下降,專業(yè)圖書比例提升。從現(xiàn)有的結(jié)果看,其體現(xiàn)數(shù)字媒體和數(shù)字資源的迅速擴(kuò)張的外部大環(huán)境變化特征;并且就業(yè)壓力變大,讀者對(duì)專業(yè)知識(shí)的需求增加。

      (三)讀者特征對(duì)比分析

      為進(jìn)一步地了解讀者借閱行為特征的分類效果,本文采用了活躍度、畢業(yè)去向優(yōu)良度、專業(yè)聚類、借閱目的、借閱連續(xù)性、學(xué)院、學(xué)科門類、年級(jí)、性別和入學(xué)年份等盡可能多的特征做卡方檢驗(yàn),交叉表特征檢驗(yàn)結(jié)果表明,各特征的差異檢驗(yàn)SIG值均為0.000,說明均可作為差異變量予以保留。一般來講,卡方值越大說明其影響力越大,分群效果越好。據(jù)此可以認(rèn)定影響力從大到小的特征依次為畢業(yè)去向優(yōu)良度、活躍度、專業(yè)、借閱目的、年級(jí)、借閱連續(xù)性、性別和入學(xué)年份;入學(xué)年份的卡方值最小,而df值又偏大,說明其不同分群間的差異最小。

      比較各種分類的借閱量差異,發(fā)現(xiàn)SPSS顯示為顯著差異的最小借閱量之差為3465冊(cè)圖書,占借閱總量的0.8%,意味著小于0.8%的借閱量差值不具有顯著差異。這也間接證實(shí)了外部偶發(fā)因素未有顯著影響的正確性。

      正態(tài)分布、聚類分析、卡方分析等均要求筆者能熟練使用SPSS或其他軟件,要求甚高,不容易操作;讀者外部特征分類效果略差,但易操作、易分析是其最顯著的特點(diǎn)。因此,從好學(xué)易用角度來說,內(nèi)在特征分析不宜大范圍拓展使用。

      四、結(jié)論

      本文為讀者群體研究提供了新的分群特征,即畢業(yè)去向優(yōu)良度、借閱目的和借閱連續(xù)性,一種SPSS的R聚類的專業(yè)分類方式,一種新的聚類思路即萃取因素聚類。這些新思路既拓寬了讀者群體分析的研究思路,又詳細(xì)探究了讀者借閱特征全景分群對(duì)比,對(duì)圖書館的圖書推廣和資源建設(shè)工作來說具有重要的參考價(jià)值。同時(shí)當(dāng)然,本研究還有一定的局限性,希望能更加深刻地理解讀者借閱圖書的內(nèi)在需求,力求更加精準(zhǔn)地服務(wù)好學(xué)生,進(jìn)一步推進(jìn)以讀者為中心、以讀者需求為驅(qū)動(dòng)的一體化服務(wù)。

      參考文獻(xiàn)

      [1]楊皓珺. 基于數(shù)據(jù)挖掘的學(xué)校圖書館讀者借閱行為研究[D].上海交通大學(xué),2016.

      [2]孫娜,姬丹丹,吳婉紅,郭磊.基于學(xué)生行為數(shù)據(jù)和借閱數(shù)據(jù)的圖書借閱量分析[J].中國教育信息化,2018(11):73-77.

      [3]王睿,楊晉蘇,彭聚霞.基于流通日志的高校學(xué)生圖書借閱行為分析與對(duì)策研究[J].福建電腦,2018,34(10):12-14+11.

      [4]莊小峰,馬凌云.近十年高校圖書館讀者圖書借閱偏好及變化研究——以上海師范大學(xué)為例[J].河北科技圖苑, 2018,31(04):57-62.

      基金項(xiàng)目:本文系浙江省教育廳項(xiàng)目“基于大數(shù)據(jù)的紙質(zhì)圖書館讀者借閱行為偏好聚類分析”(編號(hào):Y201942152)和浙江省圖書館學(xué)會(huì)項(xiàng)目“基于大數(shù)據(jù)分析的讀者群借閱畫像”(編號(hào):Ztx2020B-10)的研究成果之一。

      (浙江農(nóng)林大學(xué) ?浙江 ?杭州 ?311300)

      猜你喜歡
      聚類分析
      基于聚類分析研究貴州省各地區(qū)經(jīng)濟(jì)發(fā)展綜合評(píng)價(jià)
      商情(2016年39期)2016-11-21 08:45:54
      新媒體用戶行為模式分析
      農(nóng)村居民家庭人均生活消費(fèi)支出分析
      基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
      中國市場(2016年33期)2016-10-18 12:16:58
      基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
      科技視界(2016年20期)2016-09-29 12:32:48
      “縣級(jí)供電企業(yè)生產(chǎn)經(jīng)營統(tǒng)計(jì)一套”表輔助決策模式研究
      环江| 奎屯市| 衡山县| 讷河市| 图木舒克市| 富源县| 肇东市| 庐江县| 光山县| 阿图什市| 元谋县| 汝州市| 栾川县| 景谷| 古田县| 嵊泗县| 扎兰屯市| 英吉沙县| 西和县| 江安县| 广昌县| 高邮市| 四子王旗| 神农架林区| 句容市| 昌图县| 河池市| 永和县| 东莞市| 开阳县| 尚志市| 察哈| 互助| 罗平县| 淳安县| 容城县| 古交市| 杭州市| 安岳县| 肇源县| 当涂县|