洪道廣
〔摘 要〕對(duì)2000-2008年檢索結(jié)果進(jìn)行了具體比較與分析,通過(guò)標(biāo)題名Google Scholar可以檢出88%EI中的英文期刊文獻(xiàn)及56%會(huì)議論文;全文檢索可檢出62%的EI英文期刊文獻(xiàn)。
〔關(guān)鍵詞〕Google Scholar;工程索引;標(biāo)題檢索
〔中圖分類號(hào)〕G252.1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)11-0125-03
Comparison Between two Searching Engines:
Google Scholar and Engineering IndexHong Daoguang
(Library,East China University of Science and Technology,Shanghai 200237,China)
〔Abstract〕The article compared and analyzed the literature searching results from 2000 to 2008.By key words in title,Google Scholar gave 88 percent English journal and 56 percent reference literature records retrieved from EI.The English journal records became 62 percent by retriving them in all indexed field.
〔Keywords〕Google Scholar;engineering index;title retriving
2004年底Google公司憑借著其強(qiáng)大的數(shù)據(jù)聚集與處理技術(shù)發(fā)布了基于學(xué)術(shù)內(nèi)容的搜索:Google Scholar(以下簡(jiǎn)稱GS)。如同GOOGLE搜索,GS很快成為學(xué)術(shù)搜索最強(qiáng)有力的工具之一,吸引了廣大讀者使用,也吸引著圖書情報(bào)和信息服務(wù)人員對(duì)其使用性能進(jìn)行比較與評(píng)價(jià)。例如朱佳鳴[1]、陳家翠[2]研究與分析了GS的檢索性能,Koush[3]、夏旭[4]等分別研究了GS的引文檢索并與SCI、Scopus的引文索引進(jìn)行比較。
工程索引(以下簡(jiǎn)稱EI)是檢索世界各國(guó)工程領(lǐng)域內(nèi)學(xué)術(shù)文獻(xiàn)的最主要和最權(quán)威的工具之一。近期Meier[5]通過(guò)將EI的檢索結(jié)果隨機(jī)選擇標(biāo)題在GS的全文檢索中進(jìn)行一一比對(duì),調(diào)查了GS對(duì)EI的覆蓋率,取得了良好的結(jié)果。但作者沒有對(duì)GS與EI的檢索進(jìn)行直接比對(duì),本文從讀者的角度比較這二者的檢索結(jié)果,以便對(duì)基于工程學(xué)科的研究人員提供使用上的指導(dǎo)。
1 檢索方法
對(duì)工程研究人員來(lái)說(shuō),通過(guò)關(guān)鍵詞進(jìn)行相關(guān)課題的檢索是常用的方法,本文選擇標(biāo)題檢索與全文檢索二種方法進(jìn)行比較。GS選用英文版(http:∥scholar.google.com/)作為檢索界面,相比中文版(http:∥scholar.google.cn/),英文版GS在高級(jí)檢索中增加了7個(gè)學(xué)科分類,供讀者進(jìn)行進(jìn)一步的學(xué)術(shù)分類選擇,其中工程學(xué)科與計(jì)算機(jī)科學(xué)、數(shù)學(xué)分為同一學(xué)術(shù)學(xué)科;EI查詢選用其網(wǎng)絡(luò)版在國(guó)內(nèi)的鏡像(http:∥www.engineeringvillage2.com/),我校購(gòu)買了EI的使用權(quán)。
1.1 基于題名檢索
利用關(guān)鍵詞基于標(biāo)題名查詢可得到最接近主題的結(jié)果。EI與GS均具有直接對(duì)題名字段查詢的功能。為了取得較全面的樣本,本文參考Meier[5]選擇的EI中8個(gè)相關(guān)學(xué)科,對(duì)關(guān)鍵詞的選擇作適當(dāng)修改,使結(jié)果數(shù)目控制在10~50之間,以方便比較。表1為對(duì)應(yīng)的學(xué)科及對(duì)應(yīng)的檢索式:
表1中最后一欄為實(shí)際檢索結(jié)果中,標(biāo)題里出現(xiàn)的對(duì)應(yīng)詞根派生詞,缺省情況下EI提供了自動(dòng)取詞根(Autostemming)檢索。GS的題名查詢對(duì)所選關(guān)鍵詞進(jìn)行的是精確查詢,系統(tǒng)不能自動(dòng)對(duì)其詞根的派生詞進(jìn)一步直接查詢。本文為了比較方便,在進(jìn)行對(duì)應(yīng)的GS標(biāo)題檢索中選擇上述出現(xiàn)的所有衍生詞作為檢索,如上表中環(huán)境工程的GS檢索式為:
allintitle:water supply|supplies|supplying|supplied quality|qualities
(GS檢索中空格表示邏輯與,“|”表示邏輯或)
1.2 基于全文檢索
從標(biāo)題查詢的結(jié)果看學(xué)科2(Civil土木工程)檢出率與平均數(shù)最為接近(見表2),這里選擇其作為全文檢索的樣本進(jìn)行進(jìn)一步的結(jié)果比較。這里所指的全文檢索對(duì)EI來(lái)說(shuō)實(shí)際是所有索引字段的檢索,并不包括文獻(xiàn)全文本身。為限制檢索結(jié)果數(shù),對(duì)上述標(biāo)題檢索詞進(jìn)行的限制,EI選擇如下的檢索式進(jìn)行全文檢索:
Buildings AND dynamics AND evaluate AND“reinforced concrete”
實(shí)際研究表明,GS除標(biāo)題外,其它字段的檢索也具有自動(dòng)取字根功能。如在GS中,用上述關(guān)鍵詞的組合檢索,結(jié)果中的非標(biāo)題字段里也查到了Building、dynamic、evaluating、evaluation等相應(yīng)的派生詞。因此這里選用相同檢索式查詢。GS全文檢索的結(jié)果數(shù)目驚人,一般讀者可以考慮增加關(guān)鍵詞、控制年限、學(xué)科分類等進(jìn)行進(jìn)一步限制。這里GS的檢索數(shù)據(jù)按年度、分類分別查詢匯總,并根據(jù)排序取前100條檢索記錄進(jìn)行比較。
2 檢索結(jié)果比較及分析
EI的檢索結(jié)果可以直接批量倒入數(shù)據(jù)庫(kù)處理,GS給出的結(jié)果有字符數(shù)的限制,例如長(zhǎng)標(biāo)題的文獻(xiàn)是帶有省略號(hào)的標(biāo)題名。本文通過(guò)GS設(shè)置中的使用偏好(Scholar Preferences)設(shè)定,將文獻(xiàn)的完整信息導(dǎo)出到文獻(xiàn)管理軟件,借助程序集中導(dǎo)出與處理GS的查詢結(jié)果,并與EI進(jìn)行分析對(duì)比,因?yàn)椴煌臋z索方法有不同的結(jié)果,本文結(jié)果中用對(duì)應(yīng)的檢中率表示以區(qū)別前面文獻(xiàn)中所指的覆蓋率[5]。
2.1 題名檢索結(jié)果比較
上述檢索式進(jìn)行標(biāo)題名查詢,EI共有211篇文獻(xiàn),GS去除重復(fù)有786篇文獻(xiàn)(上述數(shù)據(jù)查詢均為2009年4月15日的結(jié)果),對(duì)應(yīng)的文獻(xiàn)類型分布見表2。
上述EI檢中率指相同結(jié)果數(shù)據(jù)與EI本身的檢出數(shù)據(jù)之比。文獻(xiàn)類型及文獻(xiàn)語(yǔ)種進(jìn)行進(jìn)一步的分類比較得出表3、表4的結(jié)果。表3中括號(hào)里數(shù)據(jù)是相應(yīng)的EI檢中率,EI只包含期刊文章與會(huì)議論文,而GS除二類文獻(xiàn)外還有博士論文、技術(shù)報(bào)告、圖書、專利及其它種類文獻(xiàn)。表4中GS沒有明確的語(yǔ)種標(biāo)記,通常是直接顯示對(duì)應(yīng)的語(yǔ)言或其英文文摘,所以這里沒有統(tǒng)計(jì),只顯示對(duì)應(yīng)的檢中數(shù)。
根據(jù)以上結(jié)果進(jìn)行以下統(tǒng)計(jì)分析與比較。
2.1.1 EI與GS收錄的文獻(xiàn)種類分析比較
EI文獻(xiàn)從檢索的結(jié)果看只有會(huì)議論文與期刊文獻(xiàn),不含其它類型的文獻(xiàn)。本人利用字母S開頭的關(guān)鍵詞對(duì)EI進(jìn)行所有字段檢索[檢索式:((S*)WN All fields)],除2000年有137篇報(bào)告外,2001年起只有期刊文獻(xiàn)與會(huì)議論文,不含技術(shù)報(bào)告、學(xué)位論文等文獻(xiàn),與上述結(jié)果基本相一致。EI目前收錄的會(huì)議文獻(xiàn)主要為英文語(yǔ)種,會(huì)議占所有文獻(xiàn)的23%。非英文文獻(xiàn)中,中文語(yǔ)種比例較高。與其相比GS數(shù)據(jù)來(lái)源廣泛,除期刊文章、會(huì)議論文外還有博士論文、技術(shù)報(bào)告、圖書、專利及其它類型數(shù)據(jù)。其中博士論文、技術(shù)報(bào)告所占的比例較少,進(jìn)一步調(diào)查發(fā)現(xiàn)博士論文中4篇來(lái)自u(píng)mi論文平臺(tái)(http:∥gradworks.umi.com),技術(shù)報(bào)告4篇來(lái)自CSA平臺(tái)(http:∥md1.csa.com),這二類其余的文獻(xiàn)均來(lái)自文獻(xiàn)的引文; GS的專利數(shù)據(jù)來(lái)源于google patents與freepatentsonline.com平臺(tái),其它類型數(shù)據(jù)來(lái)源廣泛。
2.1.2 GS中EI的文獻(xiàn)檢中率分析
統(tǒng)計(jì)顯示GS通過(guò)題名檢索得到的結(jié)果數(shù)據(jù)與EI比平均為3.73∶1,最高比例近6∶1,GS對(duì)EI的文獻(xiàn)檢中率平均為72%,其中英文期刊檢中率為88%,非英語(yǔ)文獻(xiàn)及會(huì)議錄文獻(xiàn)檢中率較低,其中中文文獻(xiàn)51%,其它語(yǔ)種文獻(xiàn)占47%,EI會(huì)議文獻(xiàn)主要是英文(上述48篇文獻(xiàn)中除1篇中文外其余均為英文)GS的檢中率為占56%。
對(duì)應(yīng)學(xué)科的查詢結(jié)果與此前文獻(xiàn)報(bào)道的覆蓋率結(jié)果有較大的差異,例如文獻(xiàn)中土木工程(表1中學(xué)科2),文獻(xiàn)報(bào)道其EI的覆蓋率為100%。將本文EI檢索結(jié)果得到的總數(shù)為34中未檢中的9條標(biāo)題在GS中進(jìn)行全文檢索,發(fā)現(xiàn)有5條沒有查到,按文獻(xiàn)覆蓋率應(yīng)該為85%;另外有2條顯示中文標(biāo)題,1條顯示西班牙文標(biāo)題,1條未顯示年份,上述4篇文獻(xiàn)盡管在GS中存在,但限于上述英文標(biāo)題與相關(guān)年份查詢結(jié)果不屬上述檢中之列,因而結(jié)果低于文獻(xiàn)所指的覆蓋率。
分析表明一些學(xué)科的數(shù)據(jù)較低,主要是由于所占的會(huì)議文獻(xiàn)與非英文的文獻(xiàn)比例較高所致。從表結(jié)果看盡管GS比EI的會(huì)議論文結(jié)果數(shù)多1倍(97∶47),但GS中給出的97篇會(huì)議論文中,有31篇來(lái)自其它文章的引文,帶有文摘的會(huì)議論文主要來(lái)自少數(shù)專業(yè)協(xié)會(huì)的平臺(tái),如ieeexplore.ieee.org平臺(tái)有12篇會(huì)議論文、link.aip.org平臺(tái)有5篇,其余比較分散,一些數(shù)據(jù)來(lái)自圖書。非英文的文獻(xiàn)其顯示的主要是本身語(yǔ)種的標(biāo)題,其英文標(biāo)題通常沒有被GS標(biāo)引,因而影響了其英文標(biāo)題檢索。上述EI中的中文文獻(xiàn),被GS檢中的結(jié)果比較發(fā)現(xiàn),5篇來(lái)自CSA平臺(tái)(CSA.com),其余來(lái)自其它文獻(xiàn)的英文題錄引文,CSA平臺(tái)提供了統(tǒng)一的英文界面包含了許多非英文文獻(xiàn)的英文標(biāo)題與文摘。對(duì)中文學(xué)術(shù)文獻(xiàn),國(guó)內(nèi)萬(wàn)方文獻(xiàn)平臺(tái)(scholar.ilib.cn)及維普期刊平臺(tái)(cqvip.com)提供了較完整的數(shù)據(jù),GS也收錄了這2個(gè)平臺(tái),但從檢索結(jié)果看上述平臺(tái)中的英文題錄沒有作為GS的題名標(biāo)引,所以在上述查詢中來(lái)自這2個(gè)平臺(tái)的中文期刊沒有被檢出。
2.2 全文檢索結(jié)果比較
對(duì)GS與EI的全文檢索結(jié)果如下表5,GS結(jié)果按英文版中高級(jí)查詢的全部學(xué)科及分類中工程學(xué)科分別查詢,表中括號(hào)內(nèi)為對(duì)應(yīng)的EI檢中文獻(xiàn)數(shù),數(shù)據(jù)記錄僅限于英文題錄對(duì)比。
相比EI檢索,GS的給出全文檢索結(jié)果數(shù)目相差具大,如果GS不經(jīng)分類查詢上述結(jié)果數(shù)為之比相差58倍(6976∶121),通過(guò)學(xué)科分類中工程學(xué)科查詢的結(jié)果數(shù)約為全部查詢結(jié)果的一半,相差28.6倍的數(shù)據(jù)量。GS文獻(xiàn)結(jié)果數(shù)多不僅是在于來(lái)源數(shù)據(jù)廣,也在于GS索引來(lái)自一些帶有完整的文獻(xiàn)全文而不僅僅是摘要與標(biāo)題。表5顯示全文查詢的結(jié)果覆蓋力并不高,對(duì)EI的平均檢中率只有54%,其中英文的期刊文獻(xiàn),檢中率為62%,會(huì)議論文檢中率只有31%,比本文通過(guò)標(biāo)題查詢的結(jié)果數(shù)低。對(duì)比發(fā)現(xiàn)主要原因是EI標(biāo)引中另有受控詞(Controlled Terms)或自由詞(Uncontrolled Terms)字段,這二字段中一些關(guān)鍵詞在本身的文獻(xiàn)標(biāo)題與文摘并沒有,如上述EI中有32篇文獻(xiàn)的標(biāo)題或文摘中不含“building”及相字根衍生詞,當(dāng)GS收錄的僅是標(biāo)題與文摘的標(biāo)引時(shí),這些文獻(xiàn)就難以查出。
通過(guò)分年度、選GS前100條記錄、及按分學(xué)科查詢表明,上述EI中的文獻(xiàn)基本上可以通過(guò)學(xué)科分類中查出,二者相差只有9條,而年度對(duì)比中前100條GS文獻(xiàn)其EI平均檢中率30%,相當(dāng)于通過(guò)對(duì)應(yīng)GS全部結(jié)果中檢出EI結(jié)果數(shù)的67%,說(shuō)明GS的結(jié)果排序與EI的結(jié)果有一定的相關(guān)性。
3 結(jié) 論
通過(guò)GS與EI的查詢對(duì)比可以得出如下結(jié)論:
(1)GS數(shù)據(jù)中許多非英文文獻(xiàn)本身帶有英文的題錄及摘要,GS在標(biāo)引時(shí)一般沒有把其英文題錄作為題錄標(biāo)引,而只是在全文中可以查詢到,部分能查詢到英文標(biāo)題的非英文文獻(xiàn)主要來(lái)自英文文獻(xiàn)引文及來(lái)自英文平臺(tái)上的譯文;
(2)標(biāo)題名檢索中,GS可以查出EI中88%的英文期刊文獻(xiàn)及57%的會(huì)議文獻(xiàn)。GS標(biāo)題檢索時(shí)需要在查詢窗口人工輸入相關(guān)的派生詞才能滿意地查詢到完整的結(jié)果,例如通常情況下名詞關(guān)鍵詞要考慮其單復(fù)數(shù);
(3)EI有自己獨(dú)立的受控詞或自由詞字段,其中的一些關(guān)鍵詞不同于文獻(xiàn)本身標(biāo)題及文摘的詞,全文查詢時(shí)影響了GS對(duì)EI中的文獻(xiàn)檢中率;
(4)GS可以部分代替EI進(jìn)行文獻(xiàn)查詢,但相比二者更多的是具有互補(bǔ)性。GS數(shù)據(jù)來(lái)源廣、免費(fèi)檢索,但實(shí)際結(jié)果顯示具有不確定性;EI來(lái)自各工程學(xué)科的核心文獻(xiàn),標(biāo)引數(shù)據(jù)嚴(yán)格規(guī)范,檢索功能強(qiáng)大,檢索結(jié)果具有權(quán)威性,但文獻(xiàn)數(shù)據(jù)收錄相對(duì)狹窄。讀者實(shí)際使用時(shí)可考慮在EI檢索的基礎(chǔ)上,進(jìn)一步進(jìn)行GS查詢,擴(kuò)大文獻(xiàn)范圍。
參考文獻(xiàn)
[1]朱佳鳴.Google Scholar Beta檢索性能的初步分析[J].圖書情報(bào)工作,2005,49(12):115,11.
[2]陳家翠,谷玉榮.Google學(xué)術(shù)搜索檢索性能的分析及評(píng)價(jià)[J].情報(bào)理論與實(shí)踐,2007,30(5):74-78.
[3]Kayvan Kousha and Mike Thelwall,Google Scholar Citations and Google Web/Url Citations:A Multi-discipline Exploratory Analysis,Journal of the American Society for Information Science and Technology,2007,58(7):1055-1065.
[4]夏旭.基于Google學(xué)術(shù)搜索的引文檢索研究[J].情報(bào)理論與實(shí)踐,2006,29(6):697-701.
[5]John J.Meier and Thomas W.Conkling,Google Scholars Coverage of the Engineering Literature:An Empirical Study,The Journal of Academic Librarianship,2008,34(3):196-201.