唐 娜 ,肖 鸝
(湖北科技學(xué)院 圖書館,湖北 咸寧 437100 )
信息檢索技術(shù)的研究
唐 娜 ,肖 鸝
(湖北科技學(xué)院 圖書館,湖北 咸寧 437100 )
通過(guò)傳統(tǒng)檢索系統(tǒng)與網(wǎng)絡(luò)檢索系統(tǒng)的比較揭示傳統(tǒng)信息檢索技術(shù)的局限性,指出網(wǎng)絡(luò)檢索已成為目前信息檢索技術(shù)的發(fā)展主流。在此基礎(chǔ)上討論了瀏覽和網(wǎng)絡(luò)資源指南的網(wǎng)絡(luò)檢索的一般方法以及搜索引擎,分析對(duì)比了第一、第二和第三代搜索引擎的優(yōu)勢(shì)和局限性后,著重論述了第四代搜索引擎的特征。最后展望了網(wǎng)絡(luò)信息檢索技術(shù)的發(fā)展趨勢(shì)。
網(wǎng)絡(luò)信息檢索;搜索引擎;智能化;個(gè)性化;主動(dòng)性
信息檢索技術(shù)經(jīng)過(guò)手工檢索、計(jì)算機(jī)檢索、聯(lián)機(jī)檢索、光盤檢索到今天的網(wǎng)絡(luò)檢索,其發(fā)展經(jīng)歷了由低級(jí)到高級(jí)的過(guò)程,這與計(jì)算機(jī)技術(shù)和通信技術(shù)為代表的現(xiàn)代信息技術(shù)的迅速發(fā)展是分不開(kāi)的,也使傳統(tǒng)信息檢索系統(tǒng)具有了明顯的局限性。
1. 檢索操作
手工檢索以手工方式檢索,費(fèi)時(shí)費(fèi)力;光盤檢索采用人機(jī)對(duì)話方式引導(dǎo)用戶操作,且操作界面友好,易操作,但界面無(wú)法改變;聯(lián)機(jī)檢索操作復(fù)雜,要學(xué)習(xí)和記憶一系列復(fù)雜的檢索指令和檢索規(guī)則,一般用戶只能借助專業(yè)人員的幫助才能使用;而網(wǎng)絡(luò)檢索采用交互式作業(yè)系統(tǒng)透明,利用通用的Windows界面和可操作的個(gè)性化界面使檢索變得簡(jiǎn)單、易行,網(wǎng)絡(luò)用戶一般不需要經(jīng)過(guò)太多的培訓(xùn)就能上網(wǎng)操作。
2. 系統(tǒng)特點(diǎn)
手工檢索系統(tǒng)入口少,檢索速度慢;光盤和聯(lián)機(jī)檢索系統(tǒng)入口較多,檢索速度較快;而網(wǎng)絡(luò)檢索系統(tǒng)使用網(wǎng)絡(luò)數(shù)據(jù)庫(kù),入口最多,但最易掌握,范圍最廣,更新最快,檢索速度最快。
3. 檢索空間
手工檢索受到地域的限制,光盤和聯(lián)機(jī)檢索只能檢索某一臺(tái)、某幾臺(tái)和某一局域網(wǎng)內(nèi)的若干數(shù)據(jù)庫(kù),而網(wǎng)絡(luò)檢索則覆蓋全球性的網(wǎng)絡(luò),信息分布于世界各地。
4. 檢索結(jié)果
手工檢索的查全率最低;光盤和聯(lián)機(jī)檢索準(zhǔn)確率高,誤檢率低,查全率低;而網(wǎng)絡(luò)檢索上的信息資源多,查全率最高,但誤檢率也較高。
5. 檢索內(nèi)容
手工檢索的信息更新速度最慢;光盤檢索信息更新速度較慢,一般在3個(gè)月左右;聯(lián)機(jī)檢索一般在一周或一個(gè)月左右,個(gè)別的數(shù)據(jù)庫(kù)如新聞?lì)惷刻旄?;網(wǎng)絡(luò)檢索更新最快,每天甚至每時(shí)更新。
6. 與網(wǎng)絡(luò)時(shí)代格格不入
因特網(wǎng)的出現(xiàn)使信息環(huán)境發(fā)生了變化,無(wú)論是信息存儲(chǔ)還是存儲(chǔ)傳統(tǒng)的信息檢索工具都已經(jīng)不能滿足用戶的要求,這就出現(xiàn)了新的檢索技術(shù)——網(wǎng)絡(luò)檢索技術(shù)。
總之,網(wǎng)絡(luò)檢索以之不可替代的優(yōu)越性成為目前信息檢索技術(shù)的發(fā)展趨勢(shì),它所具有的操作方便,檢索速度快、更新快、信息資源豐富,都是其他檢索系統(tǒng)無(wú)法比擬的,但網(wǎng)絡(luò)檢索也有自身的缺陷,像查準(zhǔn)率較低,數(shù)據(jù)庫(kù)中數(shù)據(jù)更新速度遠(yuǎn)遠(yuǎn)跟不上因特網(wǎng)中信息更新速度等這些都促使網(wǎng)絡(luò)檢索系統(tǒng)研究的不斷優(yōu)化。
1.瀏覽
用戶要在網(wǎng)上瀏覽獲取信息,需找到提供信息資源的服務(wù)器,因此就要先找到各個(gè)服務(wù)器在網(wǎng)上的地址(URL),然后通過(guò)該地址去訪問(wèn)服務(wù)器提供的信息。
瀏覽就如同走進(jìn)圖書館的書庫(kù),然后在書架上直接翻看一樣。WWW提供的超文本方式可以看作是瀏覽的一種特殊形式。但是瀏覽方式的檢索也帶有盲目性。
(1) 偶遇漫游
偶遇漫游即是用戶在Internet查找其它資料或在網(wǎng)上漫游時(shí),發(fā)現(xiàn)他們感興趣的友好鏈接。由于這種方法具有的偶然性、不確定性和有效性,使那些有明確檢索目的的用戶可以在瀏覽時(shí)意外發(fā)現(xiàn)對(duì)自己很有用的信息。
(2) 順鏈而行
用戶在閱讀網(wǎng)頁(yè)時(shí),利用文檔中的超級(jí)鏈接從一個(gè)網(wǎng)頁(yè)轉(zhuǎn)向另一個(gè)相關(guān)網(wǎng)頁(yè),即所謂的“順鏈而行”。這種檢索方式可以擴(kuò)大檢索范圍,在很短的時(shí)間內(nèi)獲得大量相關(guān)信息,但也有可能在“順鏈而行”中偏離了檢索目標(biāo),或迷失于網(wǎng)絡(luò)信息空間中,因此找到合適的檢索起點(diǎn)也并不容易。
(3) 書簽瀏覽
很多網(wǎng)站推出了網(wǎng)絡(luò)書簽,網(wǎng)絡(luò)書簽也被稱為“便攜式”網(wǎng)址收藏夾。用戶利用網(wǎng)絡(luò)書簽將自己感興趣的網(wǎng)頁(yè)收藏下來(lái),可以方便地使用。如果注意定期整理,按專題或類型進(jìn)行歸類,清除過(guò)時(shí)或無(wú)效的鏈接,用戶就可以將收藏的網(wǎng)頁(yè)組織成目錄建立起自己的網(wǎng)址信息庫(kù)。
2.網(wǎng)上資源指南
為了方便用戶查找某一主題相應(yīng)的信息,Internet上出現(xiàn)了許多資源指南。資源指南(Resource Guide)是專業(yè)人員按照不同的主題和某一嚴(yán)格的標(biāo)準(zhǔn)對(duì)各種網(wǎng)絡(luò)信息資源進(jìn)行采集、組織、評(píng)價(jià),向用戶提供某一主題的瀏覽和檢索。
資源指南的優(yōu)點(diǎn)在它通常是在專業(yè)人員對(duì)網(wǎng)絡(luò)信息資源進(jìn)行選擇、評(píng)價(jià)、組織的基礎(chǔ)上編制而成,資源的有效性、權(quán)威性和質(zhì)量上都有保證,這對(duì)于用戶進(jìn)行有目的的網(wǎng)絡(luò)信息檢索有重要的指導(dǎo)和引導(dǎo)作用。其局限性在于Internet上的信息變化極快,容易造成管理和維護(hù)跟不上信息增長(zhǎng)的速度,導(dǎo)致收錄范圍不夠全面,及時(shí)性和新穎性差強(qiáng)人意,還可能參照的資源指南已經(jīng)過(guò)時(shí)。
3.搜索引擎
第一代搜索引擎以詞頻搜索為原理開(kāi)發(fā)的,主要依靠人工分揀的分類目錄搜索,出現(xiàn)于1994年,以Yahoo為代表,還包括Infoseek、Excite、Lycos等。優(yōu)點(diǎn)在于考慮網(wǎng)頁(yè)構(gòu)建者的感受,給予網(wǎng)頁(yè)建構(gòu)者自行決定代表自己的網(wǎng)站的詞句的權(quán)利,并且允許用戶通過(guò)各種的方式找到想要的網(wǎng)站。缺點(diǎn)只是對(duì)不同屬性網(wǎng)站的一種羅列,無(wú)法針對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行搜索。針對(duì)這一點(diǎn),第二代搜索引擎出現(xiàn)了關(guān)鍵詞搜索引擎。
第二代搜索引擎大約出現(xiàn)于1996年,以超鏈分析的機(jī)器抓取技術(shù)為核心,采用分布式搜索,其特點(diǎn)是只做后臺(tái)技術(shù)的提供者,以Google為代表,還包括Inktomi、Askjeeves、Goto等。第二代搜索引擎做出了很多突破,出現(xiàn)了集成的搜索引擎,以Metacrawter,Savysearch為代表,主要是綜合各種搜索引擎的長(zhǎng)處,盡量減少用戶的檢索過(guò)程,提高檢索效率。但是,第二代搜索引擎也存在缺憾,它的分類準(zhǔn)確率不高,并且,如果分類樹(shù)有變更,如增加、修改或刪除某個(gè)分類節(jié)點(diǎn),整個(gè)分類樹(shù)就必須重新建立。
第三代搜索引擎結(jié)合了人工智能技術(shù),也被稱為智能搜索引擎,出現(xiàn)于1998年,國(guó)內(nèi)代表有:尤里卡、問(wèn)一問(wèn)、21ilink、孫悟空、悠游等;國(guó)外代表有:Askjeevs、Google等。優(yōu)點(diǎn)是對(duì)搜索技術(shù)進(jìn)行了改進(jìn),對(duì)搜索結(jié)果進(jìn)行了優(yōu)化,提高了搜索結(jié)果的準(zhǔn)確性。缺點(diǎn)是屬于綜合性搜索,內(nèi)容包羅萬(wàn)象,卻滿足不了用戶更為精細(xì)的專業(yè)化的需要。
第四代的特征是主題搜索,主要運(yùn)用人工分類以及特征提取等智能化策略,采用大量的人工智能、數(shù)據(jù)挖掘、神經(jīng)網(wǎng)絡(luò)、系統(tǒng)調(diào)度和系統(tǒng)控制等領(lǐng)域的最新技術(shù),對(duì)互聯(lián)網(wǎng)資源進(jìn)行了再次整合。在準(zhǔn)確性方面,采用異構(gòu)數(shù)據(jù)的模式識(shí)別、表格漂移的跟蹤、數(shù)據(jù)源信息的挖掘和網(wǎng)絡(luò)蜘蛛的自演化。在實(shí)時(shí)性方面,采用自適應(yīng)調(diào)度技術(shù)、分布式挖掘技術(shù)和訂閱系統(tǒng)的實(shí)時(shí)分發(fā)。
總之,在搜索引擎的發(fā)展歷程來(lái)看,第一代到第二代搜索引擎是一個(gè)質(zhì)變,搜索技術(shù)由人工轉(zhuǎn)向計(jì)算機(jī);第二代第三代搜索引擎是一個(gè)量變,是檢索技術(shù)的提升;第三代到第四代搜索引擎是搜索結(jié)果和檢索技術(shù)的智能突破,體現(xiàn)了設(shè)計(jì)原則的轉(zhuǎn)變由“人適應(yīng)機(jī)器”到“以人為本”;第四代搜索引擎是專業(yè)化的細(xì)化的搜索,追求的是搜索的效率。
1.智能化
網(wǎng)絡(luò)檢索工具的智能化,主要表現(xiàn)在智能代理、自動(dòng)索引軟件的智能化、智能瀏覽器、知識(shí)共享智能體與智能搜索引擎等。
智能代理有如下特性:
(1) 代理性:是智能代理最基本的功能,對(duì)用戶的查詢計(jì)劃、意圖或興趣進(jìn)行推理,自動(dòng)地將用戶感興趣的信息提交給用戶。
(2) 智能性:是通過(guò)獲取外界信息自覺(jué)地改變自己對(duì)外界變化的適應(yīng)能力。如當(dāng)用戶的需求沒(méi)有明確化時(shí),智能代理能夠推測(cè)用戶的意圖。
(3) 自主性:智能代理本身是一個(gè)獨(dú)立自主的計(jì)算實(shí)體,它能根據(jù)動(dòng)態(tài)變化的環(huán)境狀態(tài),在沒(méi)有人或其他代理直接干預(yù)的情況下獨(dú)立地制定完成任務(wù)。
(4) 交互性:每個(gè)代理都有標(biāo)準(zhǔn)的外部接口,采用統(tǒng)一的通信語(yǔ)言進(jìn)行信息交流,則多個(gè)代理可以通過(guò)相互協(xié)商和協(xié)作來(lái)共同完成復(fù)雜的任務(wù)。
2.個(gè)性化
所謂個(gè)性化,即針對(duì)每一位因特網(wǎng)用戶獨(dú)特的信息需求提供的有針對(duì)性的服務(wù)。個(gè)性化信息服務(wù)的實(shí)質(zhì)在于提供真正適應(yīng)用戶需要的產(chǎn)品。主要形式有5種:
(1) 個(gè)性化內(nèi)容服務(wù):是用戶根據(jù)自己的興趣和需求來(lái)定制內(nèi)容本身及其展示方式,滿足用戶信息需求。
(2) 個(gè)性化信息檢索服務(wù):是用戶在檢索策略、檢索方法和檢索結(jié)果處理上實(shí)現(xiàn)個(gè)性化。
(3) 個(gè)性化界面服務(wù):是根據(jù)用戶需求對(duì)用戶個(gè)體所需的系統(tǒng)界面、資源集合、檢索工具與技術(shù)、檢索利用服務(wù)過(guò)程、檢索結(jié)果等進(jìn)行定制。
(4) 個(gè)性化主頁(yè)定制服務(wù):是指在會(huì)員制登錄的基礎(chǔ)上,用戶根據(jù)各自的個(gè)人喜好,改變網(wǎng)頁(yè)內(nèi)容,在每次登陸后,只看到自己感興趣的內(nèi)容。
(5) 個(gè)性化信息推薦服務(wù):是通過(guò)了解用戶的需求和興趣,采用網(wǎng)絡(luò)信息的挖掘,為用戶提供個(gè)性化的實(shí)時(shí)信息推薦服務(wù)。
3.多媒體化
隨著網(wǎng)上多媒體資源的巨增, 基于內(nèi)容的多媒體信息檢索是研究熱點(diǎn),它是根據(jù)媒體和媒體對(duì)象的內(nèi)容及上下文聯(lián)系在大規(guī)模多媒體數(shù)據(jù)中進(jìn)行檢索,通過(guò)動(dòng)畫、音頻、視頻等動(dòng)態(tài)媒體給用戶營(yíng)造一個(gè)自然、多元的檢索方式,使用戶獲取信息或知識(shí)變得更方便,提高了檢索效率。多媒體信息檢索的研究涉及到多個(gè)領(lǐng)域,如圖像處理、計(jì)算機(jī)視覺(jué)、圖像理解、認(rèn)知心理學(xué)、人工智能、人機(jī)交互、信息檢索等。
4.可視化
可視化是將抽象概念轉(zhuǎn)換成一種符號(hào),最終是用戶看到過(guò)去不能看到的東西??梢暬瘷z索是運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)將數(shù)據(jù)庫(kù)中不可見(jiàn)的語(yǔ)義關(guān)系用圖形或圖像形式在屏幕上顯示,傳遞給用戶的檢索過(guò)程。
5.多樣化
(1) 檢索信息形態(tài)多樣化。網(wǎng)絡(luò)信息檢索呈現(xiàn)的信息形態(tài)有文本、聲音、圖像、動(dòng)畫等,其中文本信息是主體,目前多媒體信息在逐漸應(yīng)用。
(2) 檢索工具多元化。網(wǎng)絡(luò)的迅速發(fā)展,使世界各地上網(wǎng)人數(shù)的不斷增多,語(yǔ)言障礙就越來(lái)越明顯。針對(duì)這一問(wèn)題,檢索工具向多國(guó)化、多語(yǔ)種化方向發(fā)展,多語(yǔ)種引擎誕生了。用戶在網(wǎng)上檢索時(shí),可以直接使用漢語(yǔ),提高了網(wǎng)絡(luò)信息資源的利用率,外文信息的檢索為科研、教學(xué)、生活提供科學(xué)依據(jù)。
(3) 服務(wù)范疇多面化。網(wǎng)絡(luò)檢索工具已不僅僅單純地用于檢索[1],還推出了許多網(wǎng)絡(luò)服務(wù),如天氣預(yù)報(bào)、新聞報(bào)道、股票點(diǎn)評(píng)等。網(wǎng)絡(luò)信息檢索還可間接地服務(wù)于其他行業(yè),如數(shù)據(jù)挖掘技術(shù)可用于分析歷史數(shù)據(jù)的變化趨勢(shì),預(yù)測(cè)未來(lái)發(fā)展方向。
6.共享性
共享性主要體現(xiàn)在P2P技術(shù),P2P檢索打破了在互聯(lián)網(wǎng)檢索信息要通過(guò)服務(wù)器這一界限,它的本質(zhì)是以用戶為中心而不是以服務(wù)器為中心,所有的用戶都是平等的,所以P2P被譯為“端對(duì)端”或“點(diǎn)對(duì)點(diǎn)”,不同PC用戶之間,不需要經(jīng)過(guò)服務(wù)器就可以直接交換數(shù)據(jù)或信息,而且共享不受信息文檔格式的限制,還允許網(wǎng)絡(luò)用戶直接使用對(duì)方的文件。
P2P優(yōu)勢(shì)在于可擴(kuò)展性強(qiáng)、容錯(cuò)性好、成本低、充分利用分布資源。但是它存在一個(gè)很大的問(wèn)題:搜索信息時(shí)所產(chǎn)生的網(wǎng)絡(luò)通信量巨大。
[1] 楊海濤. 網(wǎng)絡(luò)信息檢索的困境及發(fā)展趨勢(shì)[J]. 科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2008,(11):13~15.
2095-4654(2015)05-0119-03
2015-02-02
2013年湖北科技學(xué)院校級(jí)項(xiàng)目“構(gòu)建圖書館參考咨詢服務(wù)模式的研究”( KY13035)
G354
A
湖北科技學(xué)院學(xué)報(bào)2015年5期