陳桂菊
摘 要:高校圖書(shū)館圖書(shū)借閱流量受到多種因素的綜合作用,具有十分強(qiáng)烈的隨機(jī)性,而當(dāng)前高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)方法無(wú)法準(zhǔn)確描述隨機(jī)性變化特點(diǎn),使得高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)誤差大,結(jié)果可信度低。為了提高高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)精度,提出了基于數(shù)據(jù)挖掘的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)方法。首先對(duì)高校圖書(shū)館圖書(shū)借閱流量的國(guó)內(nèi)外研究時(shí)展進(jìn)行分析,找到引起高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)誤差大的原因,然后采用混沌理論對(duì)高校圖書(shū)館圖書(shū)借閱流量歷史數(shù)據(jù)進(jìn)行分析,并采用數(shù)據(jù)挖掘技術(shù)對(duì)高校圖書(shū)館圖書(shū)借閱流量變化特性進(jìn)行擬合,建立高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)模型,最后采用實(shí)例對(duì)高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)效果進(jìn)行了測(cè)試。結(jié)果表明,高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)精度超過(guò)95%,遠(yuǎn)遠(yuǎn)高于高校圖書(shū)館管理要求的85%,而且高校圖書(shū)館圖書(shū)借閱流量建模效率得到了大幅度改善。
關(guān)鍵詞: 高校圖書(shū)館; 借閱流量數(shù)據(jù); 組合優(yōu)化技術(shù); 數(shù)據(jù)挖掘; 混沌理論
中圖分類(lèi)號(hào): TP 391
文獻(xiàn)標(biāo)志碼: A
Abstract: The book lending flow of a university library is affected by many factors, and it has a very strong stochastic characteristic. However, the current prediction method of book lending flow of university library cannot accurately describe the stochastic characteristic, which makes the prediction error of book lending flow of university library large and the result credibility low. In order to improve the prediction of book lending flow of university library precision, this paper puts forward a prediction method based on data mining. Firstly, this paper analyzes the research progress at home and abroad on the book lending flow of university library, finds out the reasons that cause the large error in the prediction of the book lending flow of university library, then uses chaos theory to analyze the historical data of the book lending flow, uses data mining technology to fit the changing characteristics of the book lending flow, and establishes the book lending flow of university library. The prediction model of librarys book lending flow is established. Finally, the prediction effect of librarys book lending flow is tested by an example. The results show that the prediction accuracy of the method is more than 95%, which is much higher than 85% of the requirements of university library management. Moreover, the modeling efficiency of library lending flow in university library has been greatly improved.
Key words: university library; borrowing flow data; combinatorial optimization technology; data mining; chaos theory
0 引言
隨著高校不斷的發(fā)展,高校的各項(xiàng)指標(biāo)都得到了大幅度提升,圖書(shū)館的藏書(shū)數(shù)量也來(lái)越大,給圖書(shū)館管理帶來(lái)一定的挑戰(zhàn)[1-3]。圖書(shū)館借流量可以描述大學(xué)生使用圖書(shū)館藏書(shū)頻率,這樣可以幫助圖書(shū)館管理人員采購(gòu)書(shū)籍提供幫助,國(guó)此如何提高高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)精度具有十分重要意義[4-6]。
高校圖書(shū)館圖書(shū)借閱流量受到學(xué)生學(xué)習(xí)習(xí)慣、學(xué)習(xí)時(shí)間、愛(ài)好以及其它因素的影響,是一種具有隨機(jī)性變化比較強(qiáng)的時(shí)間序列數(shù)據(jù),而且具有一定的混沌性[7]。當(dāng)前高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)研究可以劃分為兩個(gè)階段:第一個(gè)階段為線(xiàn)性建模方法,主要有:差分自回歸移動(dòng)平均方法、多元線(xiàn)性回歸方法等,它們認(rèn)為高校圖書(shū)館圖書(shū)借閱流量是一種固定增長(zhǎng)或者下降的變化態(tài)勢(shì),然后對(duì)高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)模型的參數(shù)進(jìn)行估計(jì),從而實(shí)現(xiàn)高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè),由于高校圖書(shū)館圖書(shū)借閱流量不只是一種變化態(tài)勢(shì),尤其對(duì)于現(xiàn)代高校圖書(shū)館,其預(yù)測(cè)誤差比較大[8-9];第二個(gè)階段為非線(xiàn)性建模方法,主要有:模糊算法、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)方法,它們從非線(xiàn)性角度出發(fā),對(duì)高校圖書(shū)館圖書(shū)借閱流量變化態(tài)勢(shì)進(jìn)行跟蹤,高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)精度要高于線(xiàn)性建模方法。在實(shí)際應(yīng)用中,高校圖書(shū)館圖書(shū)借閱流量復(fù)雜多變,單一的模型無(wú)法對(duì)其變化特性進(jìn)行全面描述,因此高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)效果有待進(jìn)一步改善[10-11]。
針對(duì)當(dāng)前高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)誤差大,可信度低缺陷,提出了基于數(shù)據(jù)挖掘的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)方法,并通過(guò)具體高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)實(shí)例分析了本文方法的優(yōu)越性。
1 數(shù)據(jù)挖掘技術(shù)
1.1 極限學(xué)習(xí)機(jī)算法
2 基于數(shù)據(jù)挖掘的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)方法的具體設(shè)計(jì)
2.1 高校圖書(shū)館圖書(shū)借閱流量數(shù)據(jù)的預(yù)處理
高校圖書(shū)館圖書(shū)借閱流量歷史數(shù)據(jù){x(t),t=1,2,…,n}是一個(gè)一維數(shù)據(jù),因此無(wú)法直接進(jìn)行建模,需要將其變一個(gè)多維數(shù)據(jù),結(jié)合高校圖書(shū)館圖書(shū)借閱流量的隨機(jī)和混沌性變化特性,因此本文采用混沌理論的相空間重算法將原始高校圖書(shū)館圖書(shū)借閱流量歷史數(shù)據(jù)變?yōu)橐粋€(gè)多維數(shù)據(jù),如式(12)。
對(duì)式(12)進(jìn)行分析可以發(fā)現(xiàn),重構(gòu)后的高校圖書(shū)館圖書(shū)借閱流量數(shù)據(jù)與原始高校圖書(shū)館圖書(shū)借閱流量數(shù)據(jù)具有同樣的變化軌跡,但是重構(gòu)后的高校圖書(shū)館圖書(shū)借閱流量數(shù)據(jù)更加有利于建模和預(yù)測(cè)。
2.2 高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)方法的工作步驟
(1) 通過(guò)高校圖書(shū)館管理系統(tǒng)統(tǒng)計(jì)高校圖書(shū)館圖書(shū)借閱流量的歷史數(shù)據(jù),對(duì)于缺失的數(shù)據(jù)通過(guò)一定的規(guī)則進(jìn)行補(bǔ)。
(2) 采用混沌分析算法對(duì)高校圖書(shū)館圖書(shū)借閱流量的延遲時(shí)間和嵌入維數(shù)進(jìn)行確定。
(3) 根據(jù)延遲時(shí)間和嵌入維數(shù)對(duì)高校圖書(shū)館圖書(shū)借閱流量歷史數(shù)據(jù)進(jìn)行重構(gòu),從而到一個(gè)多維的高校圖書(shū)館圖書(shū)借閱流量歷史數(shù)據(jù)。
(4) 根據(jù)一定的比例將高校圖書(shū)館圖書(shū)借閱流量歷史數(shù)據(jù)劃分為兩部分:訓(xùn)練樣本集和測(cè)試樣本集,訓(xùn)練樣本集用于訓(xùn)練極限學(xué)習(xí)機(jī)或者最小二乘支持向量機(jī),找到它們的最優(yōu)參數(shù),從而建立相應(yīng)的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)模型。測(cè)試樣本主要對(duì)高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)模型的可行性進(jìn)行分析。
(5) 對(duì)極限學(xué)習(xí)機(jī)的相關(guān)參數(shù)進(jìn)行初始化,極限學(xué)習(xí)機(jī)對(duì)高校圖書(shū)館圖書(shū)借閱流量的訓(xùn)練樣本集進(jìn)行學(xué)習(xí),建立基于極限學(xué)習(xí)機(jī)的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)模型,并對(duì)高校圖書(shū)館圖書(shū)借閱流量的測(cè)試集進(jìn)行預(yù)測(cè),并輸出相應(yīng)的預(yù)測(cè)結(jié)果。
(6) 對(duì)最小二乘支持向量的相關(guān)參數(shù)進(jìn)行初始化,最小二乘支持向量對(duì)高校圖書(shū)館圖書(shū)借閱流量的訓(xùn)練樣本集進(jìn)行學(xué)習(xí),建立基于最小二乘支持向量的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)模型,并對(duì)高校圖書(shū)館圖書(shū)借閱流量的測(cè)試集進(jìn)行預(yù)測(cè),并輸出相應(yīng)的預(yù)測(cè)結(jié)果。
(7) 確定極限學(xué)習(xí)機(jī)和最小二乘支持向量的權(quán)值,并對(duì)它們的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)結(jié)果進(jìn)行組合,從而得到最終的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)結(jié)果。
綜合上述可知,基于數(shù)據(jù)挖掘的高校圖書(shū)館圖書(shū)借閱流量預(yù)預(yù)測(cè)流程,如圖1所示。
3 仿真實(shí)驗(yàn)
3.1 數(shù)據(jù)來(lái)源
為了測(cè)試基于數(shù)據(jù)挖掘技術(shù)的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)效果,采用一個(gè)高校圖書(shū)館圖書(shū)借閱流量歷史數(shù)據(jù)作為應(yīng)用實(shí)例,共得到300個(gè)數(shù)據(jù),如圖2所示。
從圖2可以發(fā)現(xiàn),該高校圖書(shū)館圖書(shū)借閱流量歷史數(shù)據(jù)的變化比較復(fù)雜,為了使數(shù)據(jù)挖掘技術(shù)的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)結(jié)果更具說(shuō)服力,選擇單一的極限學(xué)習(xí)機(jī)高校圖書(shū)館借閱預(yù)測(cè)模型和最小二乘支持向量機(jī)的高校圖書(shū)館借閱預(yù)測(cè)模型進(jìn)行對(duì)照實(shí)驗(yàn)。
3.2 確定延遲時(shí)間和嵌入維數(shù)
采用混沌分析算法對(duì)圖2的高校圖書(shū)館圖書(shū)借閱流量數(shù)據(jù)進(jìn)行處理,得到最優(yōu)延遲時(shí)間為:6,最優(yōu)嵌入維數(shù)為7,如圖3所示。
這樣根據(jù)此結(jié)果得到一個(gè)多維的高校圖書(shū)館圖書(shū)借閱流量數(shù)據(jù)。
3.3 高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)準(zhǔn)確性分析
統(tǒng)計(jì)3種高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)值和實(shí)際值之間的偏差,結(jié)果如圖4所示。
對(duì)圖4進(jìn)行分析可以得到如下結(jié)論。
(1) 極限學(xué)習(xí)機(jī)和支持向量機(jī)的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)偏差比較大,而且變動(dòng)的范圍也很大,出現(xiàn)了許多不穩(wěn)定的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)點(diǎn),這是因?yàn)楦咝D書(shū)館圖書(shū)借閱流量變化復(fù)雜,單一模型只能對(duì)一個(gè)變化特點(diǎn)進(jìn)行建模,無(wú)法全面描述高校圖書(shū)館圖書(shū)借閱流量變化特點(diǎn)。
(2) 本文模型的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)偏差小,而且變化相當(dāng)平穩(wěn),沒(méi)有太大的起伏,這表明本文模型的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)結(jié)果比較穩(wěn)定,而且高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)精度更高,這是因?yàn)楸疚姆椒◤膬蓚€(gè)方向?qū)Ω咝D書(shū)館圖書(shū)借閱流量變化特性進(jìn)行擬合,能夠降低高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)誤差,克服了單一模型的局限性。
3.4 高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)的建模效率分析
由于高校的學(xué)生數(shù)量不斷增加,使得高校圖書(shū)館圖書(shū)借閱頻率不斷上升,這樣校圖書(shū)館圖書(shū)借閱流量建模效率直接影響校圖書(shū)館管理效率,采用高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)的建模時(shí)間分析建模效率,為了體現(xiàn)實(shí)驗(yàn)結(jié)果的公平性,每一種方法均進(jìn)行5次仿真實(shí)驗(yàn),高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)的建模時(shí)間,如表1所示。
從表1可以知道,最小二乘支持向量機(jī)的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)建模時(shí)間最長(zhǎng),其次為極限學(xué)習(xí)機(jī),最短為本文方法,這是因?yàn)楸疚氖紫炔捎没煦绶治鏊惴▽?duì)高校圖書(shū)館圖書(shū)借閱流量數(shù)據(jù)進(jìn)行處理了,有利于后續(xù)的高校圖書(shū)館圖書(shū)借閱流量建模訓(xùn)練,而對(duì)比方法均沒(méi)有采用混沌分析算法對(duì)數(shù)據(jù)進(jìn)行處理,而是直接進(jìn)行建模和預(yù)測(cè),因此本文方法改善了高校圖書(shū)館圖書(shū)借閱流量建模效率。
5 總結(jié)
高校圖書(shū)館圖書(shū)借閱流量受到多種因素的綜合作用,具有十分強(qiáng)烈的隨機(jī)性變化特性,而當(dāng)前高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)方法無(wú)法準(zhǔn)確描述隨機(jī)性變化特點(diǎn),使得高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)誤差大,結(jié)果可信度低,為了提高高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)精度,提出了基于數(shù)據(jù)挖掘的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)方法。首先采用混沌理論對(duì)高校圖書(shū)館圖書(shū)借閱流量歷史數(shù)據(jù)進(jìn)行分析,然后采用極限學(xué)習(xí)機(jī)和最二乘支持向量機(jī)分別對(duì)高校圖書(shū)館圖書(shū)借閱流量進(jìn)行建模和預(yù)測(cè),最后對(duì)極限學(xué)習(xí)機(jī)和最二乘支持向量機(jī)的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)結(jié)果進(jìn)行組合,測(cè)試結(jié)果表明,本文方法的高校圖書(shū)館圖書(shū)借閱流量預(yù)測(cè)精度高,建模效率得到了大幅度改善,具有十分廣泛的應(yīng)用前景。
參考文獻(xiàn)
[1] 雷崇鴿.網(wǎng)絡(luò)新媒體環(huán)境下高校圖書(shū)館提高圖書(shū)借閱量的策略分析——以西安電子科技大學(xué)圖書(shū)館為例[J].教育現(xiàn)代化,2019,6(23):193-194.
[2] 宋楚平.一種改進(jìn)的協(xié)同過(guò)濾方法在高校圖書(shū)館圖書(shū)推薦中的應(yīng)用[J].圖書(shū)情報(bào)工作,2016,60(24):86-91.
[3] 山潔,陳淑英,李新民.基于網(wǎng)絡(luò)和節(jié)點(diǎn)屬性模型的大學(xué)生閱讀傾向分析[J].情報(bào)探索,2016(12):57-61.
[4] 牛秀.基于多參數(shù)指數(shù)平滑的圖書(shū)借閱量預(yù)測(cè)[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2011,21(28):50-51.
[5] 于曦.基于Unicorn和SPSS的圖書(shū)借閱量周期性分析及預(yù)測(cè)[J].山東圖書(shū)館學(xué)刊,2011(1):52-56.
[6] 陳明.一元線(xiàn)性回歸模型預(yù)測(cè)圖書(shū)借閱量[J].大學(xué)教育,2016,21(5):111-112.
[7] 嚴(yán)慧英,朱輝. 閱讀推廣對(duì)高校圖書(shū)館借閱量影響的實(shí)證分析[J]. 圖書(shū)館研究與工作, 2016, 7(2):40-44.
[8] 汪玉杰,劉智立. 基于BP神經(jīng)網(wǎng)絡(luò)對(duì)圖書(shū)借閱量的預(yù)測(cè)研究[J].科技創(chuàng)新與應(yīng)用, 2013, 36(5):25-26.
[9] 鄒梅.利用神經(jīng)網(wǎng)絡(luò)技術(shù)預(yù)測(cè)圖書(shū)借閱量[J].蘭臺(tái)世界,2013(20):135-136.
[10] 張囡,張永梅.基于灰色神經(jīng)網(wǎng)絡(luò)的圖書(shū)館圖書(shū)借閱量預(yù)測(cè)[J].情報(bào)探索, 2013,12(3):133-135.
[11] 劉素兵,劉海明,苗佳晶,等.圖書(shū)借閱量的灰色回歸組合模型研究[J].云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,19(3):170-172.
(收稿日期: 2019.08.27)