李淳
摘要:針對科技信息檢索過程中存在的問題,本文從數(shù)據(jù)庫的選擇、檢索字段的選取、檢索范圍的調(diào)整及檢索策略的優(yōu)化等幾個方面提出了一些實用的技巧和方法。這些技巧和方法可以有效地解決檢索不到、檢索不全、檢索不準等常見問題,提高檢索效率和效果。
關(guān)鍵詞:信息檢索;檢索技巧;精確檢索;邏輯運算符;位置運算符;通配符
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2017)30-0278-03
一、引言
基于網(wǎng)絡(luò)平臺的科技信息檢索,是現(xiàn)代科技人員獲取信息的主要手段,也是科學(xué)技術(shù)研究的重要前期工作。據(jù)統(tǒng)計,科研人員項目時間的51%都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員一項重要而亟待解決的問題。然而,大數(shù)據(jù)時代,想要在短時間內(nèi)從浩如煙海的資源中搜索出有價值的信息并非易事。原來從100篇里就能搜出10篇有用的信息,而現(xiàn)在可能要從1萬篇里才能搜出。檢索不到、檢索不準、檢索不全,就是目前科技信息檢索中面臨的嚴峻問題。如何找到有價值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復(fù)雜的資料中挖掘出準確、有價值的信息?本文就信息檢索過程中遇到的實際問題,提出了一些實用的技巧和方法。
二、科技信息檢索的技巧
(一)數(shù)據(jù)庫的選擇
數(shù)據(jù)庫的選擇對信息檢索工作的開展具有十分重要的意義和作用。每個數(shù)據(jù)庫都有其傾向的專業(yè)范圍,檢索時如果根據(jù)所需信息的內(nèi)容大致判斷出可以從哪些數(shù)據(jù)庫中獲得,選擇合適的數(shù)據(jù)庫,就能減少查詢時間,提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。
1.中文數(shù)據(jù)庫。目前國內(nèi)使用率最高的三大綜合型中文數(shù)據(jù)庫系統(tǒng)是中國知網(wǎng)(CNKI)、萬方數(shù)據(jù)知識服務(wù)平臺和維普期刊資源整合服務(wù)平臺。三大檢索平臺都有自身特點、收錄范圍及學(xué)科類型。在信息資源上有交叉也有不同,各有特色,各有長短。(1)中國知網(wǎng)(CNKI)的特色。①工具書檢索功能非常強大,涵蓋范圍廣。②資源綜合性強,收錄全面。注重二次加工,提供增值服務(wù),比如提供知識元搜索服務(wù),將文獻中的概念、數(shù)字、圖片、圖表等析出,詳細標引,方便用戶查詢。③強大的整合能力。系統(tǒng)分類細致,清晰有序,兼顧了綜合性和特色性[1]。(2)萬方的特色。①萬方的產(chǎn)品類型優(yōu)勢很明顯,中外專利、中外標準、科技成果、新方志、法律法規(guī)、機構(gòu)、科技名人等都是其重要的延伸產(chǎn)品,種類繁多。②自有特色數(shù)據(jù)庫。萬方自建的方志、科技視頻、中國醫(yī)學(xué)會期刊等數(shù)據(jù)庫特色非常明顯,這是另外兩大數(shù)據(jù)庫公司基本沒有涉獵的,因此萬方有著一定的競爭力。③服務(wù)企業(yè)的商務(wù)信息數(shù)據(jù)庫。與另外兩大數(shù)據(jù)庫比起來,萬方一個很明顯的特色就是有眾多的服務(wù)企業(yè)的數(shù)據(jù)產(chǎn)品,如商務(wù)信息數(shù)據(jù)庫,這也是萬方最早提供的產(chǎn)品服務(wù)之一[2]。(3)維普的特色。①專注期刊文獻的收錄和二次加工。在《中文科技期刊數(shù)據(jù)庫》基礎(chǔ)上,拓展文摘庫、引文庫、行業(yè)資源系統(tǒng)等。其收錄的期刊更全,提供專業(yè)同義詞檢索,為用戶提供高質(zhì)量的題錄和文摘數(shù)據(jù)庫,并基于內(nèi)容價值分析,發(fā)布了2006年以來歷年的中國科學(xué)家影響排名、中國科研機構(gòu)影響力排名、學(xué)科前沿問題導(dǎo)讀等。②商業(yè)化程度高。其專題一般由幾百個精選集構(gòu)成,而每個精選集多為幾十篇論文構(gòu)成,每個精選集標價不等,并做成了類似淘寶的形式;其會議展覽、教育培訓(xùn)這方面的信息資源也都有很強的商業(yè)目的性:維普是三者中唯一在首頁做廣告的數(shù)據(jù)庫公司[3]。
2.外文數(shù)據(jù)庫。常用的外文數(shù)據(jù)庫:INSPEC、EI、Google Scholar。(1)INSPEC:科學(xué)文摘。INSPEC分三個專輯:物理文摘,電氣與電子學(xué)文摘和計算機與控制文摘。該數(shù)據(jù)庫是查找物理、電子工程、電子學(xué)、計算機、自動控制以及信息技術(shù)的重要檢索工具。(2)EI:工程索引。EI收錄的文獻涵蓋了所有工程領(lǐng)域,其中22%為會議文獻,90%的文獻語種是英文。(3)Google Scholar:谷歌學(xué)術(shù)搜索。Google Scholar 的資料主要來源于網(wǎng)絡(luò)免費的學(xué)術(shù)鏈接、開放獲取的學(xué)術(shù)論文期刊網(wǎng)站、付費的學(xué)術(shù)論文電子資源提供商以及圖書館鏈接等。
Google Scholar 的搜索服務(wù)主要針對科學(xué)家和研究人員。其搜索結(jié)果可以濾掉普通搜索中的大量垃圾信息,減少搜索噪聲;同時在搜索結(jié)果中還可以排列出文章的不同版本以及被其他文章所引用的次數(shù),也可以通過引用鏈接方便地找到與搜索結(jié)果關(guān)聯(lián)的其他相關(guān)學(xué)術(shù)資料。
(二)檢索字段的選取與確認
檢索字段的選取應(yīng)遵循“選全、選準”的原則,盡量避免遺漏主題詞。應(yīng)根據(jù)檢索信息的中心內(nèi)容和研究對象進行客觀、細致的主題分析,找出最能表達主題內(nèi)容、最具檢索價值的詞匯。盡量不遺漏文中涉及的新觀點、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞;其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結(jié)論中進行遴選[4]。
(三)檢索范圍的調(diào)整
在檢索結(jié)果不理想的情況下,可以考慮調(diào)整檢索范圍,對檢索字段進行適當?shù)臄U展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應(yīng)從其是否存在同義詞、近義詞、上下位類詞、音、形相近詞、專有名詞、截詞、外來詞等方面進行分析,最后確定檢索字段[5]。
(四)檢索策略的優(yōu)化
采用簡單的檢索字段容易造成檢索結(jié)果不準確,無法滿足檢索需求。為保證檢索結(jié)果的全面性和準確性,在檢索過程中,科研人員應(yīng)充分利用大型數(shù)據(jù)庫檢索系統(tǒng)所提供的“高級檢索”、“專業(yè)檢索”等方法,對關(guān)鍵的檢索字段進行合理組配、擴展、組合,完善檢索途徑,優(yōu)化檢索策略,從而提高檢索字段的檢索效率。檢索要達到最終較高的專指度,檢索字段、檢索范圍及檢索策略等方面都是一個不斷修正、校準、優(yōu)化的過程。
(五)特殊檢索符的巧用
不同的算符組成不同的檢索式,檢索結(jié)果會截然不同。巧妙使用各種算符,編寫恰當?shù)臋z索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1.雙引號。雙引號表示精確匹配。如果輸入一個名稱直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁,大概100多萬條記錄。如果加上雙引號再搜,只剩下兩條!為什么會出現(xiàn)這種狀況?雙引號表示全字符匹配,就是一個字不能差。但如果不加雙引號,“天津”這個詞搜出10萬條,“總后”這個詞搜出10萬條,“軍事”這個詞又搜出10萬條,這樣累加起來,數(shù)量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結(jié)果可以實現(xiàn)精確匹配,而不包括其他演變形式,可以濾掉很多冗余信息。
2.減號。“-”的作用是去除標題中很多不相關(guān)的結(jié)果。找出不相關(guān)結(jié)果的特征關(guān)鍵詞,將它減掉,查詢結(jié)果中將不出現(xiàn)該關(guān)鍵詞。例如,檢索時輸入“超市—家樂福超市”,表示最后的查詢結(jié)果中一定不包含“家樂福超市”。
3.邏輯算符AND。用AND連接兩個關(guān)鍵詞進行搜索時,兩個詞必須同時出現(xiàn)在查詢結(jié)果中,實現(xiàn)有效檢索。例如,導(dǎo)彈的一體化設(shè)計,如果直接將導(dǎo)彈(missile)和一體化設(shè)計(integrated design)兩個詞同時輸入:missile integrated design,則數(shù)據(jù)庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢,則顯示270條記錄??梢姡壿嬤\算符的使用技巧決定著檢索結(jié)果的滿意程度。
4.位置算符。(1)NEAR。表示兩個檢索詞必須緊密相連,兩個檢索詞的詞序可以顛倒,但除了空格和標點符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結(jié)果中同時包含education和technology,也可以technology NEAR education。(2)WITH。表示兩個檢索詞必須按順序出現(xiàn),兩個檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點符號。例如,high(W)class,檢出的匹配詞可能有high class 或high-class。
5.布爾邏輯算符。運用布爾邏輯算符將具有簡單概念的檢索項組配成能完整、準確地表達檢索內(nèi)容的檢索式,運用此檢索式進行檢索,可以剔除不需要的概念,使檢索結(jié)果更加全面、準確。(1)OR。將若干個檢索詞組合起來,檢索結(jié)果中至少包含一個檢索詞,與檢索詞的先后順序和位置無關(guān)。例如,education OR technology 的檢索結(jié)果中必然包含education或technology中的一個。(2)NOT。排除一個檢索詞,檢索結(jié)果中不包含緊跟在NOT后面的檢索詞,可以排除無關(guān)的檢索項。例如,education NOT technology 的檢索結(jié)果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結(jié)果。
6.截詞符。(1)“*”用于通配多個字符,只能用于英文和數(shù)字。例如,使用“aero*”可以檢索到所有包含aero開頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開頭。(2)“?”用于通配單個字符,只能用于英文和數(shù)字。例如,使用“aero???”可以檢索到所有包含aero開頭,共7個字符單詞(如:aerocab,aerobus等)的文獻。
截詞檢索節(jié)省輸入的字符數(shù)目,卻可以有效預(yù)防漏檢,提高查全率。
(六)其他重要檢索事項
1.注意英文檢索詞的選擇。在查找專業(yè)領(lǐng)域的資料時,為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但實際檢索過程中,會發(fā)現(xiàn)英文原文給出的關(guān)鍵詞不準確或不全面,甚至是中文直譯成英文的,這些都可能導(dǎo)致搜集到的資料出現(xiàn)錯誤或不全。例如,查找“小衛(wèi)星”這個詞時,如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2.搜素引擎的靈活應(yīng)用。搜索引擎名目繁多,應(yīng)根據(jù)不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。大多數(shù)搜索引擎都支持元詞(meta words)檢索功能。把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內(nèi)容就具有了明確特征。例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁標題中帶有清華大學(xué)的網(wǎng)頁。另外,百度等搜索引擎都具有高級搜索功能??梢院芎玫叵拗扑阉鞣秶?、搜索時間、搜索格式以及過濾關(guān)鍵詞等。優(yōu)化標題時,還可以靈活使用短線“-”、下滑線“_”、空格“”、豎線“|”或者“——”等符合搜索引擎規(guī)則的間隔符[6]。
三、結(jié)語
檢索技巧的運用,在科技信息檢索中起著非常重要的作用。它直接影響檢索策略,影響檢索效率和檢索效果。在數(shù)據(jù)量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會有很大的幫助。
參考文獻:
[1]馬云彤.中國知網(wǎng)文獻與引文檢索評述[J].西安文理學(xué)院學(xué)報(自然科學(xué)版),2007,(4):112-114.
[2]林豪慧,陳如好.知網(wǎng)、維普、萬方的同質(zhì)化和差異化評析[J].圖書館學(xué)研究,2009,(9):25.
[3]王永敏,施玲琳.萬方、清華同方、維普三個數(shù)據(jù)庫檢索平臺的比較[J].晉圖學(xué)刊,2012,(6):22-34.
[4]張柏秋,吳曉斂.科技查新檢索中的關(guān)鍵詞選擇[J].情報科學(xué),2008,26(9):13-44.
[5]崔林.問題與對策:關(guān)于我國科技查新工作的若干思考[J].科技管理研究,2010,(1):31-17.
[6]張帆,朱紅濤.基于關(guān)鍵詞的網(wǎng)絡(luò)信息檢索優(yōu)化探索[J].情報科學(xué),2005,23(6):37-39.