• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于java圖書批量查重系統(tǒng)的實(shí)現(xiàn)

      2014-07-13 05:53:16陳燕明蔣祥龍
      宿州學(xué)院學(xué)報 2014年3期
      關(guān)鍵詞:查重批量書目

      陳燕明,蔣祥龍

      亳州職業(yè)技術(shù)學(xué)院圖書館,安徽亳州,236800

      查重就是要查找某一圖書在本地館藏中是否存在復(fù)本。一般認(rèn)為,復(fù)本是指預(yù)編圖書和館藏圖書的某一目錄在ISBN、正題名、責(zé)任者、出版時間等著錄信息完全相同[1]。批量查重是使用計算機(jī)來自動完成大批量圖書查重工作,它在圖書采訪中有著重要的意義[2]。

      1 引 言

      當(dāng)前,不少批量查重工作采用的方比較單一(主要使用ISBN、正題名),在查重時,需要靈活使用不同的檢索點(diǎn),才能更好地提高查重的查全率和查準(zhǔn)率[3],同樣批量查重時也需要靈活使用不同的檢索點(diǎn),才能提高采訪人員的工作效率。不少圖書管理系統(tǒng)都集成了批量查重功能,但是往往僅支持marc格式的數(shù)據(jù)查重,查重的結(jié)果很少能符合理想的結(jié)果[4],而且查重后的數(shù)據(jù)格式被修改,不利于下一步的人工篩選。

      常見的圖書批量查重模式主要有兩種:數(shù)據(jù)庫批量查重和文件批量查重[5]。數(shù)據(jù)庫批量查重:在進(jìn)行批量查重前,需要轉(zhuǎn)換查重數(shù)據(jù)格式,因為批量查重系統(tǒng)輸入數(shù)據(jù)的組織形式、字段結(jié)構(gòu)要求嚴(yán)格,另外查重的方式不靈活[6-7];文件批量查重:在圖書外采工作中常見書目數(shù)據(jù)格式有Excel、MDB、TXT[7],當(dāng)不同供應(yīng)商提供的數(shù)據(jù)格式不一致或字段名稱不統(tǒng)一時,需要采訪人員進(jìn)行干預(yù),將不同格式的文件轉(zhuǎn)換成統(tǒng)一的格式,字段名稱進(jìn)行統(tǒng)一處理,文件查重還存在檢索點(diǎn)設(shè)置不靈活的問題。這些無疑都會增加采訪人員的工作量。

      亳州職業(yè)技術(shù)學(xué)院圖書館在以往圖書采訪過程中,使用圖書管理系統(tǒng)中的批量查重工具只支持marc數(shù)據(jù)查重,導(dǎo)致現(xiàn)有館藏圖書出現(xiàn)了一定程度的同書異號、異書同號現(xiàn)象,造成了本館資源的浪費(fèi),如標(biāo)準(zhǔn)編號“7-5059-3092-3”下有299種圖書,而圖書正題名“紅樓夢”下有77個ISBN號。同時還遇到過不同書商提供的書目數(shù)據(jù)格式不一致、查重后書商的目錄字段被修改,不利于下一步的人工篩選等問題。為此,本文使用了Java語言實(shí)現(xiàn)一個跨平臺的圖書批量查重系統(tǒng)。

      Java作為一種當(dāng)前流行的面對對象的高級語言,具有簡單易學(xué)、可移植性高等特點(diǎn)[8]。使用java開發(fā),能增強(qiáng)系統(tǒng)的適用性,為不同軟件環(huán)境下的圖書批量查重提供一個實(shí)現(xiàn)途徑。

      2 圖書查重系統(tǒng)設(shè)計

      2.1 系統(tǒng)功能設(shè)計

      本文建立的批量查重系統(tǒng)主要由6個功能模塊組成:字段名稱映射、查重條件設(shè)置、數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、查重執(zhí)行和可視化界面。

      (1)字段名稱映射。使用一張映射表將不同供應(yīng)商提供的書目字段名稱或數(shù)據(jù)庫中的書目字段名稱進(jìn)行映射處理,如ISBN字段名稱有的使用“標(biāo)準(zhǔn)編號”,有的使用“書號”,在系統(tǒng)中可將它們統(tǒng)一映射為“ISBN”。映射表中包含了常用的檢索字段:ISBN、正題名和責(zé)任者等,還支持自定義查重字段名稱,如同一個供應(yīng)商不同書目文件中的“ID”字段等。使用映射表,既能統(tǒng)一不同數(shù)據(jù)中的字段名稱,又能保持原有數(shù)據(jù)的字段名稱不被修改。

      (2)數(shù)據(jù)輸入輸出。目標(biāo)數(shù)據(jù)(待查重圖書數(shù)據(jù))以Excel表、TXT文件、MDB文件導(dǎo)入到系統(tǒng)中。源數(shù)據(jù)(被查重圖書數(shù)據(jù))可以以Excel表、MDB文件導(dǎo)入,或者使用JDBC API對接到不同的數(shù)據(jù)庫中。查重后的數(shù)據(jù)輸出的格式默認(rèn)與目標(biāo)數(shù)據(jù)的格式一致,也可以自己定義保存格式,這樣便于下一步的人工篩選。

      (3)數(shù)據(jù)預(yù)處理。由于不同的供應(yīng)商在著錄書目數(shù)據(jù)時有不同的著錄方式,著錄數(shù)據(jù)時也會有誤差發(fā)生,所以在查重之前,標(biāo)準(zhǔn)化書目字段是十分有必要的[6]。這里僅對標(biāo)準(zhǔn)書號(ISBN)、正題名、責(zé)任者進(jìn)行標(biāo)準(zhǔn)化處理。

      ①標(biāo)準(zhǔn)書號(ISBN)的處理。圖書采訪中有些供應(yīng)商提供的書號使用EAN-13圖書條碼,有些書號使用ISBN-13,還有很少部分書號使用的是ISBN-10。亳州職業(yè)技術(shù)學(xué)院圖書館的館藏圖書書號就有ISBN-13和ISBN-10兩種,其中ISBN-10的圖書較少。該系統(tǒng)實(shí)現(xiàn)了EAN-13到ISBN-13的轉(zhuǎn)換[9],ISBN-10與ISBN-13的互換。

      ②正題名的處理。由于題名中的標(biāo)點(diǎn)符號、數(shù)字、英文字母容易使用不同的格式,例如來自同一個供應(yīng)商的圖書《世界上最“恐怖”的地方》和圖書《“中國服務(wù)”縱橫談》中的引號就不一樣。該模塊實(shí)現(xiàn)了將正題名中的標(biāo)點(diǎn)符號和其他特殊符號去除;阿拉伯?dāng)?shù)字統(tǒng)一中文數(shù)字;英文字母統(tǒng)一成大寫半角[6]。

      ③責(zé)任者名稱的統(tǒng)一。刪除了責(zé)任者名稱中的責(zé)任方式和作者的限定詞,如常見的責(zé)任方式“主編”“著”等,常見的限定詞“(美)”等。

      (4)查重條件設(shè)置。使用邏輯詞“AND、OR”組合多個字段,構(gòu)成多樣化的查重條件。如可以使用“OR”把常使用的查重檢索點(diǎn)“ISBN+正題名”和“正題名+責(zé)任者+出版時間”組合在一起,作為一個新的查重檢索點(diǎn)。

      圖1 圖書查重系統(tǒng)程序運(yùn)行的主界面

      (5)圖書查重。根據(jù)源數(shù)據(jù)的選擇,該模塊采用了不同的方式進(jìn)行圖書查重。當(dāng)源數(shù)據(jù)在數(shù)據(jù)庫中時,使用SQL語言中的SELECT語句進(jìn)行圖書查重(SELECT語句由目標(biāo)數(shù)據(jù)逐條生成);當(dāng)源數(shù)據(jù)為單個文件時,先將源數(shù)據(jù)讀入到內(nèi)存中,之后,再逐條查看目標(biāo)數(shù)據(jù)是否在源數(shù)據(jù)中重復(fù)。

      (6)可視化界面。使用java swing組件實(shí)現(xiàn)系統(tǒng)的可視化界面,如圖1所示。

      2.2 查重流程

      圖書查重系統(tǒng)執(zhí)行過程如下:

      (1)字段映射表填寫。映射表在系統(tǒng)啟動時,自動加載默認(rèn)的常用查重字段名稱,如需變動,可在這里修改或添加映射的字段名稱。

      (2)設(shè)置檢索點(diǎn)。默認(rèn)選擇的檢索點(diǎn)為“ISBN and正題名”,還可進(jìn)一步增加/刪除檢索字段,并選擇合適的邏輯詞組合所使用的檢索字段名稱。

      (3)導(dǎo)入書目數(shù)據(jù)。目標(biāo)數(shù)據(jù)通過定位的書目文件導(dǎo)入;源數(shù)據(jù)導(dǎo)入可以通過數(shù)據(jù)庫導(dǎo)入或通過定位數(shù)據(jù)文件導(dǎo)入。使用數(shù)據(jù)庫導(dǎo)入,需要詳細(xì)地設(shè)置數(shù)據(jù)庫的連接信息,具體到書目數(shù)據(jù)所在的表格名稱。

      (4)數(shù)據(jù)的預(yù)處理。預(yù)處理通過文件導(dǎo)入的書目數(shù)據(jù),如源數(shù)據(jù)在數(shù)據(jù)庫中,僅處理目標(biāo)數(shù)據(jù)中的ISBN字段;如源數(shù)據(jù)通過文件導(dǎo)入,需處理目標(biāo)文件和源文件中的ISBN、正題名、責(zé)任者字段。

      (5)執(zhí)行查重:系統(tǒng)根據(jù)輸入的文件格式自動執(zhí)行與之相對應(yīng)的查重模塊。

      (6)保存查重結(jié)果:選擇輸出的文件位置后,即可輸出查重的結(jié)果。詳見圖2。

      圖2 圖書查重過程流程圖

      2.3 系統(tǒng)的特點(diǎn)

      該系統(tǒng)采用了多樣化的查重檢索點(diǎn),能適應(yīng)書目數(shù)據(jù)的變化,為采訪人員提供多個供選擇的查重方案;支持常見格式的輸入輸出數(shù)據(jù)并保持原有數(shù)據(jù)的內(nèi)容在查重后不被破壞,有利于下一步的人工篩選和采訪者與圖書供應(yīng)商之間的數(shù)據(jù)交流;數(shù)據(jù)庫的查重和文件查重可以在程序中一次性完成,僅僅需要采訪者修改字段名稱映射表,無需修改文件數(shù)據(jù);該系統(tǒng)既可以通過互聯(lián)網(wǎng)鏈接到遠(yuǎn)程服務(wù)器數(shù)據(jù)庫,又可以通過本地的數(shù)據(jù)庫獲取源數(shù)據(jù),還可以直接導(dǎo)入源數(shù)據(jù)文件,保證了源數(shù)據(jù)的時效性,能進(jìn)一步提高批量查重的靈活性和效率。

      3 系統(tǒng)實(shí)現(xiàn)

      該系統(tǒng)的開發(fā)使用java語言,在myEclipse平臺上實(shí)現(xiàn)。

      數(shù)據(jù)輸入輸出功能的實(shí)現(xiàn)。系統(tǒng)中數(shù)據(jù)的載入通過兩種方式:文件載入、接入數(shù)據(jù)庫,文件輸入輸出的抽象類:

      標(biāo)準(zhǔn)化處理模塊的實(shí)現(xiàn)。EAN-13到ISBN-13的轉(zhuǎn)換采用文獻(xiàn)[9]的方法實(shí)現(xiàn),標(biāo)題的標(biāo)準(zhǔn)化處理代碼如:

      文件查重和數(shù)據(jù)庫查重方法的統(tǒng)一,其抽象類為:

      其他代碼略。

      系統(tǒng)建成后,在圖書采訪應(yīng)用中得到較好的效果,如圖書館分兩批收集圖書書目時,在收集第一批圖書書目中,供應(yīng)商提供的書目和該館數(shù)據(jù)庫中的書目數(shù)據(jù)對比,查出了103個重復(fù)目錄;在收集第二批圖書書目中,和該館數(shù)據(jù)庫中的書目數(shù)據(jù)對比,查出了78個重復(fù)目錄,而與第一批的書目對比查出了783個重復(fù)目錄,整個過程完全在本系統(tǒng)中一次性完成,無需采訪者去修改原始的書目文件以及其中的字段名稱。若使用本館圖書管理系統(tǒng)中的批量查重工具,則不支持書目文件間的相互查重,可能造成重復(fù)訂購。同時,不同格式的書目數(shù)據(jù)都需要轉(zhuǎn)化成統(tǒng)一的marc格式,這些需要人工參與,增加了工作的復(fù)雜度。

      4 結(jié)束語

      本系統(tǒng)的可移植性高,能適應(yīng)移動查重的需求,為圖書外采工作中的書目查重提供了一個實(shí)現(xiàn)途徑。數(shù)據(jù)庫查重和文件查重的統(tǒng)一,方便了圖書采訪者選購書目,減輕了工作量,提高了工作效率。系統(tǒng)在實(shí)際應(yīng)用中獲得了很好的效果,為圖書管理系統(tǒng)中批量查重功能的完善提供了一定參考,推動了圖書管理系統(tǒng)自動化的發(fā)展。

      該系統(tǒng)還存在不足,支持的文件格式需要進(jìn)一步擴(kuò)大,查重方法只能通過檢索點(diǎn)進(jìn)行簡單比對,不能智能地判斷圖書內(nèi)容是否重復(fù)。另外,不重復(fù)的圖書不一定就適合購買,如何判斷一本書在本館的可購買性?希望在下一步工作中,把圖書可購買性的評價指標(biāo)整合到該系統(tǒng)中。

      [1]周愛蓮.計算機(jī)編目查重探討[J].圖書館學(xué)研究,2004(1):64-66

      [2]王春秀,董民輝.計算機(jī)編目查重問題研究[J].圖書館學(xué)研究,2006(5):58-59

      [3]李金慶,卓曉云.論采訪查重的延伸與完善[J].圖書館界,2010(6):13-58

      [4]陳秀紅.淺談怎樣提高圖書查重準(zhǔn)確率[J].甘肅科技縱橫,2013(2):88-89

      [5]王文剛,賀軒.圖書采訪批量查重探析[J].山東圖書館季刊,2006(4):56-63

      [6]余育仁,劉悅?cè)?,陳欣.電子書資源查重系統(tǒng)[J].圖書館雜志,2013(4):39-44

      [7]史軍絨.談圖書采訪工作中的批查重問題——以ILAS系統(tǒng)為例[J].科技信息,2010(29):202-122

      [8]孫瀏毅.JAVA寶典[M].北京:電子工業(yè)出版社,2009:2-5

      [9]李偉.EAN-13圖書條碼與ISBN-13互換、校驗與圖書查重[J].農(nóng)業(yè)圖書情報學(xué)刊,2011(3):61-67

      猜你喜歡
      查重批量書目
      推薦書目《初春之城》
      都市人(2022年3期)2022-04-27 00:44:57
      學(xué)位論文查重亂象引關(guān)注
      科教新報(2021年18期)2021-06-11 13:25:24
      批量提交在配置分發(fā)中的應(yīng)用
      論文查重雜談
      學(xué)術(shù)論文該“查”什么?
      雜文月刊(2018年20期)2018-11-14 21:28:46
      學(xué)術(shù)論文該“查”什么?
      淺議高校網(wǎng)銀批量代發(fā)
      基于AUTOIT3和VBA的POWERPOINT操作題自動批量批改
      考慮價差和再制造率的制造/再制造混合系統(tǒng)生產(chǎn)批量研究
      本刊郵購書目
      京山县| 阿坝| 奉贤区| 汉川市| 临沂市| 万宁市| 大姚县| 喀什市| 乌拉特前旗| 锡林郭勒盟| 永州市| 凤翔县| 盐池县| 新晃| 彰化市| 岢岚县| 库伦旗| 赤城县| 彰化市| 谢通门县| 蒲城县| 呈贡县| 始兴县| 利川市| 中超| 峨眉山市| 云安县| 亳州市| 基隆市| 綦江县| 增城市| 金湖县| 大港区| 安仁县| 淮南市| 英吉沙县| 阳谷县| 西乡县| 温州市| 峨眉山市| 华阴市|