林 麗
集美大學圖書館,福建 廈門 361021
高校圖書存在學科種類復雜,學科主題更新快問題。圖書館采訪人員如何從百萬新書中選擇適合本校學科發(fā)展需要的書籍,是一個迫切解決的問題。當前,采訪人員主要根據書目的MARC數據來了解書目信息,而MARC數據中的書名和摘要存在字數多、學科覆蓋面廣、主題詞專業(yè)性強等問題,故單純靠采訪人員一條條判斷選購,是無法滿足高校圖書館的各個學科讀者的知識需求及高校的學科建設需要。
隨著人工智能技術的發(fā)展,運用自然語言處理[1]、數據挖掘技術構建基于高校學科專業(yè)知識的學科主題詞庫,其不僅存儲各個學科領域的專業(yè)主題詞,也能統(tǒng)計各個學科主題詞的學科研究熱度、館藏借閱熱度等指標數據[2]?;趯W科主題庫的采訪模式中,圖書中攜帶的復雜MARC數據會被抽取轉化為若干個學科主題詞及主題詞指標數據,采訪人員不需要學科專業(yè)知識,即可以通過主題詞及其對應的指標數據直觀了解圖書的學術價值、需求價值,也可以通過技術手段和統(tǒng)計方法實現機器自動采選,從而大大提高“訪”的效率和效果。
國內圖書館界在圖書采訪模式的理論研究成果豐碩。包括:
1.讀者薦購采訪模式。樓宇源[3]提出的讀者驅動采購模式,結合深圳大學圖書館實行PDA項目的實際情況,提出如何更好地在國內開展紙本書PDA采購模式的建議。
2.定量決策采購模型。鐘建法[4]提出的基于德爾菲法和層次分析法構建圖書采訪決策評價指標體系和基本模型,模型運行所形成的圖書評價分值和薦藏、適藏、選藏與不藏四種采選策略,作為新書采選和舊書補藏的重要依據。
3.智能圖書采選模式。王紅[5]提出采用人工智能技術,基于館藏數據、采訪數據、借閱數據不斷訓練和學習構建智能采選模型,以取得最優(yōu)化的圖書采訪效果。
學科主題詞庫:指高校按照不同學院不同專業(yè)構建學科主題詞庫。主題詞庫設計如表1所示,存儲的數據包含:學科主題詞和學科主題指標。其中,學科主題指標特征包括:
表1 學科主題詞庫
1.館藏量,包含該主題詞的書目數量,可通過館藏數量了解重復主題詞的書目數量。
2.學科占比,包含該主題詞的館藏量占所屬中文圖分類的館藏量的比例,便于館員采購配比。
3.該主題詞近5年的借閱趨勢比。統(tǒng)計該主題詞的借閱次數年增長率BAGR(式1)。
4.相關論著發(fā)文量5年內的復合增長率。計算方法采用在銷售系統(tǒng)應用的年復合增長率CAGR(Compound Annual Growth Rate)公式計算(式2)。CAGR值表示某主題詞在某個時間段的增長或變遷的潛力和預期。
其中,B表示本年的發(fā)文量,A表示往起始年的發(fā)文量,n表示統(tǒng)計的年份。
基于學科主題庫的圖書采選體系,主要包括數據采集層、數據處理層、數據存儲層、采訪業(yè)務層、數據分析層。圖1所示為基于學科主題詞庫的圖書采訪系統(tǒng)架構。
圖1 圖書采訪系統(tǒng)架構
數據采集主要通過不同數據源收集學科主題詞。通過教材庫、館藏庫、論文期刊庫三種方式收集書目名字作為學科主題詞庫的語料庫。
數據處理層的主要工作為:
1.借助自然語言處理的NLP技術實現書目書名的中文分詞、詞頻統(tǒng)計、相似詞合并及候選主題詞的抽取工作。
2.構建主題詞審核平臺完成候選主題詞的機器核對及人工校對工作。
3.統(tǒng)計學科主題詞的指標數據。
4.存入學科主題詞庫。
1.學科主題詞庫數據庫。存儲學科主題詞及其指標數據。
2.圖書采訪數據庫。要存儲圖書采訪相關數據。
基于學科主題詞的采訪模式是基于學科主題詞庫查找新書對應的學科主題詞及學科主題指標。采訪工作人員通過學科主題指標可直觀了解新書的內容特點、需求價值、學術價值,為采選提供專業(yè)的決策輔助。具體的采訪流程為:
1.對新到的所有書目的書名和書目摘要分別做中文分詞,抽取該書目的學科主題詞。書名的關鍵詞作為一級學科主題,摘要的關鍵詞作為二級學科主題。
2.若新書對應的學科主題詞在學科主題詞庫匹配不到,則該新書標記為“待選”,待選的新書可借助人工采選輔助。同時,新書對應的學科主題詞,作為候選主題詞加入學科主題詞庫,以便專家人工審核是否新興學科主題。
3.若新書對應的學科主題詞在學科主題詞庫已存在,則查詢其對應的主題詞指標數據。按照主題詞的各個指標數據,可設置機器自動采選。
表2所示書目智能采購表中可以看到,機器采選根據學科主題的指標,書名為《Python機器學習教程》,滿足采購條件,自動加入訂單。書名為《Access數據庫創(chuàng)建、使用與管理從新手到高手》借閱比和相關論著發(fā)文量均下降,說明該書的學術價值、課程學習價值都不高,系統(tǒng)自動不采選。書名《C語言程序設計與應用》的學科主題體現為借閱比為正數,但是論著發(fā)文量下降,一般為課程教材或教輔,系統(tǒng)設為“待選”,則需要人工采選,采訪人員根據這類書特點、出版社質量等決定是否采選。
表2 書目智能采購表
數據分析層,主要是基于學科主題詞庫、書目采訪庫的大數據,構建學科主題詞自動抽取模型、圖書智能采訪模型、圖書檢索模型等,高效挖掘館藏資源。
“雙一流”高校學科建設背景下,高校圖書館對文獻資源的專業(yè)性要求更強。基于學科主題詞庫的高校圖書館的采訪模式,應用自然語言處理技術算法、數據分析技術自動抽取圖書的學科主題詞及學科主題指標構建采訪決策模型,不僅能精準提取圖書的學術價值、需求熱度,而且實時掌握高校的學科研究前沿和熱點主題,保障高校圖書館的學科資源建設。但是,本文設計的學科主題詞指標數據還不夠完善,未來隨著更多圖書館數據的融合,主題詞指標可將進一步優(yōu)化,為智能采選提供更多數據支撐。