張舒逸
吉林省科學(xué)技術(shù)信息研究所 吉林 長(zhǎng)春 130033
科技文獻(xiàn)信息資源庫(kù)管理系統(tǒng)即是對(duì)建設(shè)的數(shù)據(jù)庫(kù)進(jìn)行使用管理、使用指導(dǎo)等,可在資源庫(kù)創(chuàng)建項(xiàng)目設(shè)定數(shù)據(jù)庫(kù)負(fù)責(zé)人和管理人員,數(shù)據(jù)庫(kù)負(fù)責(zé)人和管理人員就可以隨時(shí)對(duì)數(shù)據(jù)庫(kù)進(jìn)行管理,包括任務(wù)管理及資源管理等,并提供了計(jì)算機(jī)輔助創(chuàng)新中的各種工具集,以及各種統(tǒng)計(jì)分析工具。
該模塊將平臺(tái)擁有的各類(lèi)數(shù)字資源,建成一個(gè)統(tǒng)一整合和檢索的平臺(tái),根據(jù)機(jī)構(gòu)的實(shí)際資源特點(diǎn),整合所有資源實(shí)現(xiàn)“一站式”檢索。可提供所有資源的統(tǒng)一檢索的入口,資源類(lèi)型含期刊、學(xué)位論文、會(huì)議論文、報(bào)紙、專(zhuān)利、標(biāo)準(zhǔn)、成果、機(jī)構(gòu)、政策法律、科技報(bào)告、OA資源等。資源范圍涵蓋中文、英文。中文元數(shù)據(jù)倉(cāng)儲(chǔ)能覆蓋萬(wàn)方、維普、知網(wǎng)、超星等主要中文電子文獻(xiàn)資源;外文元數(shù)據(jù)倉(cāng)儲(chǔ)覆蓋Springer、wiley、
IEEE/IEE、LWW、OUP、BMJ、ACM、ACME、ASME 、IOP、ACS等數(shù)據(jù)庫(kù)。數(shù)據(jù)上線(xiàn)之前還要對(duì)數(shù)據(jù)進(jìn)行清洗、查重處理。將異構(gòu)、分布和海量的科技文獻(xiàn)信息重新組織,形成無(wú)重復(fù)且有序的元數(shù)據(jù)倉(cāng)儲(chǔ),通過(guò)預(yù)索引方式,為我省科研用戶(hù)提供簡(jiǎn)單、快捷的數(shù)字資源發(fā)現(xiàn)、檢索服務(wù)[1]。
對(duì)平臺(tái)的數(shù)據(jù)庫(kù)資源進(jìn)行整合,實(shí)現(xiàn)統(tǒng)一管理、統(tǒng)一搜索、統(tǒng)一登錄、結(jié)果排序、數(shù)據(jù)關(guān)聯(lián)分析等。
無(wú)論是整個(gè)平臺(tái)的數(shù)據(jù)更新還是各行業(yè)領(lǐng)域資源的更新,形成固定規(guī)則,按要求進(jìn)行數(shù)據(jù)更新上線(xiàn)。
MongoDB是一個(gè)介于關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)之間的產(chǎn)品,是非關(guān)系數(shù)據(jù)庫(kù)當(dāng)中功能最豐富,最像關(guān)系數(shù)據(jù)庫(kù)的。它支持的數(shù)據(jù)結(jié)構(gòu)非常松散,是類(lèi)似json的bson格式,因此可以存儲(chǔ)比較復(fù)雜的數(shù)據(jù)類(lèi)型。Mongo最大的特點(diǎn)是它支持的查詢(xún)語(yǔ)言非常強(qiáng)大,其語(yǔ)法有點(diǎn)類(lèi)似于面向?qū)ο蟮牟樵?xún)語(yǔ)言,幾乎可以實(shí)現(xiàn)類(lèi)似關(guān)系數(shù)據(jù)庫(kù)單表查詢(xún)的絕大部分功能,而且還支持對(duì)數(shù)據(jù)建立索引。
基于solr搭建核心文獻(xiàn)檢索服務(wù),可輕松滿(mǎn)足目前500萬(wàn)級(jí)搜索量級(jí)的要求。Solr還具備極強(qiáng)的擴(kuò)展性,結(jié)合硬件的組配,可支撐更大規(guī)模的大數(shù)據(jù)集檢索,為本項(xiàng)目的未來(lái)發(fā)展和數(shù)據(jù)擴(kuò)容提供了強(qiáng)有力的保障。
布爾邏輯檢索:支持非與或布爾邏輯檢索,系統(tǒng)默認(rèn)邏輯運(yùn)算符大寫(xiě),在輸入關(guān)鍵詞后,系統(tǒng)默認(rèn)的關(guān)鍵詞是和的組配關(guān)系,也可通過(guò)檢索式的序號(hào)進(jìn)行布爾邏輯檢索.
截詞檢索:檢索詞里加入適當(dāng)代替符,提高檢索運(yùn)輸成功率。
字段限定檢索:在檢索運(yùn)算中,檢索詞過(guò)長(zhǎng)或過(guò)短都會(huì)影響檢索效果,在檢索詞后加入字段標(biāo)識(shí),通過(guò)字段限定檢索可提高查準(zhǔn)率[2]。
平臺(tái)元數(shù)據(jù)倉(cāng)儲(chǔ)要包含圖書(shū)、期刊、學(xué)位論文、會(huì)議論文、標(biāo)準(zhǔn)、報(bào)紙、專(zhuān)利、科技報(bào)告、法律法規(guī)、學(xué)術(shù)視頻等資源。中文元數(shù)據(jù)倉(cāng)儲(chǔ)能覆蓋萬(wàn)方、維普、同方、超星等主要中文電子文獻(xiàn)資源;外文元數(shù)據(jù)倉(cāng)儲(chǔ)覆蓋Springer、wiley 、IEEE/IEE、ASME 、IOP、ACS等數(shù)據(jù)庫(kù)。
數(shù)據(jù)上線(xiàn)之前還要對(duì)數(shù)據(jù)進(jìn)行清洗、查重處理。將異構(gòu)、分布和海量的科技文獻(xiàn)信息重新組織,形成無(wú)重復(fù)且有序的元數(shù)據(jù)倉(cāng)儲(chǔ),通過(guò)預(yù)索引方式,為我省科研用戶(hù)提供簡(jiǎn)單、快捷的數(shù)字資源發(fā)現(xiàn)、檢索服務(wù)。
面對(duì)異構(gòu)、海量的科技文獻(xiàn),我們需要為用戶(hù)提供統(tǒng)一的檢索界面,統(tǒng)一的檢索語(yǔ)言。可以對(duì)圖書(shū)、期刊、學(xué)位論文、會(huì)議論文、報(bào)紙、視頻等文獻(xiàn)進(jìn)行統(tǒng)一檢索,同時(shí)支持各文獻(xiàn)獨(dú)立檢索。對(duì)不同資源進(jìn)行混合排序,支持按照學(xué)術(shù)性、相關(guān)性、館藏優(yōu)先、出版時(shí)間升降序等多種排序方式。并且登錄打通,形成統(tǒng)一認(rèn)證。
整合多類(lèi)型資源內(nèi)容,包括科技文獻(xiàn)(期刊、會(huì)議、報(bào)紙、學(xué)位論文等)、科技成果、科研項(xiàng)目、專(zhuān)利標(biāo)準(zhǔn)、專(zhuān)家人才等數(shù)據(jù)資源,基于目前的科技資源的共建、共享、共用現(xiàn)狀,針對(duì)分散/異構(gòu)/異種科技資源,通過(guò)建設(shè)區(qū)域科技大數(shù)據(jù)資源池,實(shí)現(xiàn)科技信息資源、科技物質(zhì)資源和科技業(yè)務(wù)服務(wù)的智能連接、快速匹配和有效結(jié)合[3]。
科技文獻(xiàn)資源庫(kù)管理系統(tǒng)將涵蓋國(guó)內(nèi)4000多種期刊,其中核心期刊1500余種,預(yù)計(jì)全文文獻(xiàn)總量將達(dá)到1000多萬(wàn)篇,收錄專(zhuān)題按學(xué)科分120多個(gè),內(nèi)容將逐年累增細(xì)化。數(shù)據(jù)庫(kù)中還會(huì)收錄1000多種重要報(bào)紙,內(nèi)容每日累增。另外還包括1600多種國(guó)內(nèi)的科學(xué)與工程核心期刊的論文將會(huì)在數(shù)據(jù)庫(kù)中體現(xiàn),其中會(huì)議論文400多家。本系統(tǒng)涉及研究機(jī)構(gòu)達(dá)到3萬(wàn)多家,關(guān)鍵詞信息達(dá)到6萬(wàn)余條,包含300多個(gè)學(xué)科層級(jí)分類(lèi)。如此多的數(shù)據(jù)在管理系統(tǒng)完成后將實(shí)現(xiàn)一站式檢索資訊統(tǒng)計(jì)服務(wù)。
數(shù)據(jù)庫(kù)管理系統(tǒng)提供各種評(píng)價(jià)元素影響力指標(biāo)分析及重要文獻(xiàn)資源鏈接??萍假Y源庫(kù)也將涵蓋國(guó)內(nèi)3000余種核心與專(zhuān)業(yè)特色期刊、博碩論文、報(bào)紙、行業(yè)標(biāo)準(zhǔn)、法律法規(guī)、行業(yè)經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)、行業(yè)深度研究報(bào)告、技術(shù)發(fā)展動(dòng)態(tài)、國(guó)外經(jīng)濟(jì)發(fā)展動(dòng)態(tài)等信息,涵蓋企業(yè)技術(shù)創(chuàng)新、經(jīng)營(yíng)決策、企業(yè)管理、行業(yè)動(dòng)態(tài)等專(zhuān)業(yè)資料信息。檢索方式有分類(lèi)檢索、初級(jí)檢索、高級(jí)檢索和專(zhuān)業(yè)檢索四種方式。在每種方式的檢索結(jié)果(包括二次檢索的檢索結(jié)果)里都可以進(jìn)行二次檢索,可以無(wú)數(shù)次的進(jìn)行,逐步縮小檢索范圍,直至檢索結(jié)果為零。
基于整個(gè)系統(tǒng)的目標(biāo)定位和特點(diǎn),開(kāi)發(fā)時(shí)必須滿(mǎn)足系統(tǒng)的先進(jìn)性、可擴(kuò)展性、兼容性、實(shí)用易用、可維護(hù)性、穩(wěn)定性等原則。系統(tǒng)使用分布式部署,有效地平衡各服務(wù)器的壓力,可以保證系統(tǒng)的穩(wěn)定性。