預(yù)測模型對多校區(qū)圖書館典藏規(guī)劃的啟示

2014-06-26 20:09:53聶飛霞

河南圖書館學(xué)刊 2014年3期

關(guān)鍵詞：預(yù)測

聶飛霞

關(guān)鍵詞：預(yù)測；多校區(qū)圖書館；典藏規(guī)劃

摘要：隨著高校圖書館的多校區(qū)發(fā)展，圖書館典藏工作迎來了新的挑戰(zhàn)。文章提出了運用預(yù)測技術(shù)對圖書借閱量進行預(yù)測分析，從而使多校區(qū)圖書館的典藏工作更加科學(xué)有效的方法。

中圖分類號：G250.78 文獻標(biāo)識碼：A 文章編號：1003-1588（2014）03-0118-03

進入2012年，“大數(shù)據(jù)”這個專有名詞開始出現(xiàn)在人們的視野中，各行各業(yè)的專家學(xué)者開始提出“大數(shù)據(jù)時代”所帶來的挑戰(zhàn)。那么，何謂“大數(shù)據(jù)”？目前業(yè)內(nèi)對“大數(shù)據(jù)”一詞仍沒有統(tǒng)一的定義，但筆者認(rèn)為，大數(shù)據(jù)（Big Data）就是指隨著某一行業(yè)的發(fā)展而不斷增長的數(shù)據(jù)量，它并不是一種技術(shù)，而是人們對龐大繁雜數(shù)據(jù)的一個稱謂。由于其量的龐大，使得我們經(jīng)常所用到的統(tǒng)計分析功能已經(jīng)無從下手。所以，在“大數(shù)據(jù)”時代，一種技術(shù)再一次得到升溫，那就是數(shù)據(jù)挖掘技術(shù)。

數(shù)據(jù)挖掘（Data Mining）技術(shù)在1998年作為一種數(shù)據(jù)處理技術(shù)概念被提出，并在上世紀(jì)末開始活躍于各個領(lǐng)域[1]。其在圖書館領(lǐng)域的應(yīng)用晚于諸如通信、銀行等其他行業(yè)，但數(shù)據(jù)挖掘技術(shù)在其他領(lǐng)域的廣泛應(yīng)用，給其在圖書館的應(yīng)用打下了良好基礎(chǔ)。作為圖書館工作的重中之重，隨著RFID （Radio Frequency Identification）射頻識別技術(shù)在圖書館的應(yīng)用，使得典藏工作更加科學(xué)系統(tǒng)化。然而，由于國內(nèi)很多大學(xué)圖書館都實行了多校區(qū)辦館，在適應(yīng)了高?，F(xiàn)有的多校區(qū)辦學(xué)的現(xiàn)狀的同時，卻給典藏工作帶來了前所未有的挑戰(zhàn)[2]。面對因為多校區(qū)辦館而激增的流通數(shù)據(jù)，如何從這些龐大的數(shù)據(jù)源中發(fā)現(xiàn)真正有利于多校區(qū)典藏規(guī)劃的信息呢？如何使得多校區(qū)典藏工作更加科學(xué)有效呢？數(shù)據(jù)挖掘的分析方法主要有分類、預(yù)測、關(guān)聯(lián)規(guī)則、聚類分析、回歸、順序規(guī)則、時間序列和決策樹。這些分析方法都可以用來建立一些模型，這些模型可以用來描述數(shù)據(jù)之間的聯(lián)系以及模式[3]。筆者主要介紹如何將數(shù)據(jù)挖掘技術(shù)之一的預(yù)測技術(shù)應(yīng)用于多校區(qū)典藏規(guī)劃中。

1 如何建立多校區(qū)典藏預(yù)測模型

預(yù)測，即Forecast。預(yù)測技術(shù)是通過已知數(shù)據(jù)來了解事物今后發(fā)展情況和走勢的技術(shù)。建立預(yù)測模型的方法有很多，常用的方法有回歸分析預(yù)測、趨勢外推預(yù)測、基于神經(jīng)網(wǎng)絡(luò)的預(yù)測和時間序列預(yù)測等。

1.1 分析預(yù)測目標(biāo)以及確定預(yù)測時間

多校區(qū)辦館導(dǎo)致了圖書館典藏機制面臨重大的挑戰(zhàn)——[KG*4]一類圖書放到哪個學(xué)區(qū)才能使其被充分利用。因此，筆者的分析目標(biāo)就是圖書需要的科學(xué)擺放區(qū)域，而預(yù)測時間選擇為十二年。

1.2 預(yù)測前期的資料采集與調(diào)研

圖書館典藏工作中的圖書擺放模式有兩種，一種是按照內(nèi)容的擺放，例如分類排架；另一種是按照圖書的形式擺放，例如裝訂方式排架等[4]。目前，高校圖書館運用較多的是按照索取號排架的方法。由于索取號是由分類號和著者編號組合而成，因此在進行數(shù)據(jù)挖掘的前期可以對圖書進行分類號的特征采集，這有利于我們下一步預(yù)測方法的選擇。以西北大學(xué)圖書館的借閱數(shù)據(jù)為例，由于西北大學(xué)圖書館有南區(qū)圖書館和北區(qū)圖書館兩個分館，需要預(yù)測某一特征的圖書某一年在南北分館的借閱量，以此來確定典藏地點的分配（見表1）。如表1所示，北校區(qū)圖書館借閱量為Nyi，南校區(qū)圖書館借閱量為Syj，表1為某類特征值圖書兩校區(qū)借閱數(shù)量統(tǒng)計。

1.3 選擇一種適用方法

如表1所示，特征采集過程中兩個校區(qū)的借閱量是我們要預(yù)測的對象。預(yù)測建模的諸多方法中，回歸分析預(yù)測建模中的一元線性回歸預(yù)測方法可以應(yīng)用到多校區(qū)借閱量預(yù)測中。

1.4 對預(yù)測結(jié)果的分析與評估

通過一元線性回歸預(yù)測方法，我們可以預(yù)測到一個分類號在兩校區(qū)的借閱趨勢。這里應(yīng)該對預(yù)測的結(jié)果進行分析與評估，確定結(jié)果是否符合預(yù)測的要求，并運用預(yù)測模型進行檢驗，以此來比較本次預(yù)測的精確度。

[HS2]2 一元線性回歸預(yù)測模型的應(yīng)用

一元線性回歸分析是處理兩個變量x（自變量）和y（因變量）之間關(guān)系的最簡單的模型，研究的是這兩個變量之間的線性相關(guān)關(guān)系[3]。一元回歸的公式為：

yi=a+bxi+ui（i=1，2，…n）

其中u是一個隨機變量，稱為隨機項；a、b是兩個常數(shù)，稱為回歸系數(shù)（參數(shù)）；i表示變量的第i個觀察值，共有n組樣本觀察值。

由于需要預(yù)測某一特征的圖書在兩個分館的借閱量，所以本次預(yù)測因變量y分別設(shè)為y1（北校區(qū)圖書館借閱量）、y2（南校區(qū)圖書館借閱量）。在得到預(yù)測結(jié)果y1和y2后，通過設(shè)計SQL語句來比較y1與y2的結(jié)果值，從而返回典藏地點的推薦值。以下為一元回歸預(yù)測的具體過程（見表2）。

3 預(yù)測模型對多校區(qū)典藏規(guī)劃的啟示

3.1 預(yù)測前期工作簡單化

該預(yù)測模型前期數(shù)據(jù)準(zhǔn)備工作為數(shù)據(jù)的特征提取，這里提取了圖書的分類號作為分析的目標(biāo)。例如：需要分析“數(shù)據(jù)挖掘技術(shù)與應(yīng)用”這一類的書，我們提取到的特征為TP274，以TP274為分析目標(biāo)在圖書館自動化系統(tǒng)中統(tǒng)計出分析范圍內(nèi)（十二年）的借閱量。

3.2 預(yù)測模型應(yīng)用簡單化

預(yù)測模型建立起來后，典藏工作人員只需將分析范圍內(nèi)（十二年）的借閱數(shù)據(jù)輸入模型，系統(tǒng)會自動生成回歸方程（如y1[DD（-*5]∧[DD）]=20.9895+1.217x），只需要選擇需要預(yù)測的年份（如2014年），就可以得到某一類圖書在某一年內(nèi)在各個校區(qū)的借閱量預(yù)測結(jié)果。

3.3 對非典藏領(lǐng)域的啟示

該預(yù)測模型建立起來后，可以預(yù)測某特征類型的圖書的多校區(qū)借閱量，可以指導(dǎo)典藏規(guī)劃實施圖書的具體布局。對于借閱量在某一閾值以下的圖書，典藏部門可以對該類圖書進行剔舊或者下架處理，而采訪部門可以少量購買或者不予購買。同時，對于借閱量大于某一閾值的圖書，典藏部門可以開設(shè)特色化服務(wù)進行推薦，而采訪部門可以通過增加復(fù)本或增加同類書來滿足讀者的要求。

參考文獻：

[1] Han Jiawei，Kamber Micheline.數(shù)據(jù)挖掘：概念與技術(shù)[M].北京：高等教育出版社，2001：42-60.

[2] 賈宇群，李桂祥，劉東燕.多校區(qū)模式下高校圖書館文獻資源的布局與管理[J].情報科學(xué)，2009（3）.

[3] 陳燕.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京：清華大學(xué)出版社，2011：72-80

[4] 林曉玲，楊明華.RFID圖書管理系統(tǒng)中圖書定位排架方式探析[J].圖書館論壇，2012（3）.

（編校：崔萌）endprint

關(guān)鍵詞：預(yù)測；多校區(qū)圖書館；典藏規(guī)劃

中圖分類號：G250.78 文獻標(biāo)識碼：A 文章編號：1003-1588（2014）03-0118-03

1 如何建立多校區(qū)典藏預(yù)測模型

1.1 分析預(yù)測目標(biāo)以及確定預(yù)測時間

1.2 預(yù)測前期的資料采集與調(diào)研

1.3 選擇一種適用方法

1.4 對預(yù)測結(jié)果的分析與評估

[HS2]2 一元線性回歸預(yù)測模型的應(yīng)用

yi=a+bxi+ui（i=1，2，…n）

其中u是一個隨機變量，稱為隨機項；a、b是兩個常數(shù)，稱為回歸系數(shù)（參數(shù)）；i表示變量的第i個觀察值，共有n組樣本觀察值。

3 預(yù)測模型對多校區(qū)典藏規(guī)劃的啟示

3.1 預(yù)測前期工作簡單化

3.2 預(yù)測模型應(yīng)用簡單化

3.3 對非典藏領(lǐng)域的啟示

參考文獻：

[1] Han Jiawei，Kamber Micheline.數(shù)據(jù)挖掘：概念與技術(shù)[M].北京：高等教育出版社，2001：42-60.

[2] 賈宇群，李桂祥，劉東燕.多校區(qū)模式下高校圖書館文獻資源的布局與管理[J].情報科學(xué)，2009（3）.

[3] 陳燕.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京：清華大學(xué)出版社，2011：72-80

[4] 林曉玲，楊明華.RFID圖書管理系統(tǒng)中圖書定位排架方式探析[J].圖書館論壇，2012（3）.

（編校：崔萌）endprint

關(guān)鍵詞：預(yù)測；多校區(qū)圖書館；典藏規(guī)劃

中圖分類號：G250.78 文獻標(biāo)識碼：A 文章編號：1003-1588（2014）03-0118-03

1 如何建立多校區(qū)典藏預(yù)測模型

1.1 分析預(yù)測目標(biāo)以及確定預(yù)測時間

1.2 預(yù)測前期的資料采集與調(diào)研

1.3 選擇一種適用方法

1.4 對預(yù)測結(jié)果的分析與評估

[HS2]2 一元線性回歸預(yù)測模型的應(yīng)用

yi=a+bxi+ui（i=1，2，…n）

其中u是一個隨機變量，稱為隨機項；a、b是兩個常數(shù)，稱為回歸系數(shù)（參數(shù)）；i表示變量的第i個觀察值，共有n組樣本觀察值。

3 預(yù)測模型對多校區(qū)典藏規(guī)劃的啟示

3.1 預(yù)測前期工作簡單化

3.2 預(yù)測模型應(yīng)用簡單化

3.3 對非典藏領(lǐng)域的啟示

參考文獻：

[1] Han Jiawei，Kamber Micheline.數(shù)據(jù)挖掘：概念與技術(shù)[M].北京：高等教育出版社，2001：42-60.

[2] 賈宇群，李桂祥，劉東燕.多校區(qū)模式下高校圖書館文獻資源的布局與管理[J].情報科學(xué)，2009（3）.

[3] 陳燕.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京：清華大學(xué)出版社，2011：72-80

[4] 林曉玲，楊明華.RFID圖書管理系統(tǒng)中圖書定位排架方式探析[J].圖書館論壇，2012（3）.

（編校：崔萌）endprint