摘 要:在網(wǎng)絡(luò)開放的環(huán)境下,人們越來越離不開互聯(lián)網(wǎng),人們開始在網(wǎng)絡(luò)上通過信息檢索獲取自己想要的信息,這樣可以節(jié)省人們的時間,并且還能夠更準確的獲得其他相關(guān)知識,這一便捷的技術(shù)受到了人們的廣泛關(guān)注,針對于此,本文就網(wǎng)絡(luò)環(huán)境下的信息檢索技術(shù)進行分析,以供參考。
關(guān)鍵詞:網(wǎng)絡(luò)環(huán)境;信息檢索;檢索技術(shù);方法
中圖分類號:TP391.3
在現(xiàn)代化社會發(fā)展中,計算機技術(shù)、網(wǎng)絡(luò)技術(shù)、通信技術(shù)等在社會各行各業(yè)中得到了廣泛的應(yīng)用?;ヂ?lián)網(wǎng)是世界上規(guī)模最大、資源最豐富的網(wǎng)絡(luò)平臺,人們可以通過互聯(lián)網(wǎng)查詢、檢索信息,不僅方便快捷,還能夠獲取更多其他相關(guān)知識。但是從另一個方面來講,正因為網(wǎng)絡(luò)環(huán)境開放,導(dǎo)致網(wǎng)絡(luò)信息資源出現(xiàn)了異構(gòu)、分散的特性,極不利于人們深入開發(fā)、利用信息資源。這就需要我們在開放的網(wǎng)絡(luò)環(huán)境之下對信息檢索技術(shù)進行深入的研究,從而提高網(wǎng)絡(luò)信息資源的利用率。
1 在開放的網(wǎng)絡(luò)環(huán)境之下所采取的信息檢索方法
1.1 信息瀏覽
在互聯(lián)網(wǎng)中,信息瀏覽是最原始的信息檢索方法,信息瀏覽也就是進行超文本文件結(jié)構(gòu)的信息瀏覽,也就是在文檔中通過建立超鏈接,用戶也就可以從一個網(wǎng)頁轉(zhuǎn)到另一個相關(guān)的網(wǎng)頁進行瀏覽,從而獲取知識及相關(guān)知識。達到這種檢索目的的主要原因是由于網(wǎng)頁提供了相應(yīng)的超鏈接,這就可以提高信息檢索的效果。但是也需要清楚的知道,這種檢索方法極容易讓人們點擊更多相關(guān)網(wǎng)頁,偏離了最初的知識檢索目標。
1.2 目錄型網(wǎng)絡(luò)資源檢索工具
所謂目錄型網(wǎng)絡(luò)資源檢索工具也就是通過專業(yè)的技術(shù)人員對網(wǎng)絡(luò)信息資源進行鑒別、選擇與整理,從而開發(fā)出既可以網(wǎng)絡(luò)瀏覽又可以實現(xiàn)信息資源的檢索的一個軟件。達到這一檢索目的的主要原因是由于專業(yè)人員在后臺建立了一個大型的檢索數(shù)據(jù)庫,然后將網(wǎng)絡(luò)信息資源進行分析、整理之后錄入數(shù)據(jù)庫當中,以供人們的檢索。隨著社會的發(fā)展,技術(shù)人員在錄入網(wǎng)絡(luò)信息資源的過程中,目錄類范圍不斷縮小,這就更能夠讓自己獲得想要的知識或者信息。這種檢索方法正因為有技術(shù)人員的設(shè)定,因此其檢索結(jié)果的相關(guān)性也有了一定的提高,但是受到條件的限制,建立的數(shù)據(jù)庫依然比較小,這就在很大程度上限制了信息資源的數(shù)量,也不能夠有效的提高系統(tǒng)管理人員的工作效率。
1.3 索引型網(wǎng)絡(luò)信息資源檢索工具
索引型網(wǎng)絡(luò)信息資源檢索工具是當前最常見的一種檢索方式,也就是用戶在搜索引擎中輸入關(guān)鍵詞就能夠獲得相關(guān)知識,使用戶通過選擇找到自己想要的知識。這種檢索工具相對于上述兩種檢索工具而言具有明顯的優(yōu)越性,方便快捷,并且搜索的范圍廣,讓用戶獲得更多的知識及相關(guān)知識。
2 信息檢索時存在的問題
目前,用戶在檢索網(wǎng)絡(luò)信息資源的過程中,大多都會通過搜索引擎獲取。根據(jù)相關(guān)調(diào)查顯示,搜索引擎有利于幫助用戶得知更多新網(wǎng)站,現(xiàn)已成為人們檢索信息的主要手段。由此看來,網(wǎng)民在信息獲取等各種服務(wù)中已經(jīng)離不開搜索引擎,但是也不得不知的是,大多數(shù)網(wǎng)民在利用搜索引擎檢索信息的過程中還存在著許多問題,主要體現(xiàn)在以下幾個方面:
2.1 長時間只適用1~2個搜索引擎
目前,隨著計算機技術(shù)、網(wǎng)絡(luò)技術(shù)的進一步發(fā)展,互聯(lián)網(wǎng)中出現(xiàn)了多種多樣的搜索引擎,并且每一種搜索引擎都具有不同的功能。但是很多用戶在上網(wǎng)的過程中,一般都指揮采用1~2個搜索引擎進行簡單的信息檢索,而不能夠更深入的認識,達不到最佳的檢索效果。
2.2 很少使用或者并不了解布爾運算符號和高級搜索語法
一般情況下,用戶在進行信息檢索之前,都需要編寫一個檢索提問式,要求其不僅能夠滿足用戶對信息檢索的需求,還必須要經(jīng)過計算機的識別。在編寫這一檢索提問式的過程中,我們就需要采用布爾運算符號對這些檢索的關(guān)鍵詞進行組合與搭配,從而更快的找到自己想要檢索的信息,但是目前,大多數(shù)用戶對此并不了解,很少將這種檢索功能運用在信息檢索當中。
2.3 粗略查看已搜索到的信息資源
用戶在利用搜索引擎檢索信息時,一般都會出現(xiàn)成百上千條信息,此時絕大部分的用戶只是粗略的查看排列在前面的幾條信息,這就忽視了后面多數(shù)有價值的信息。
3 搜索引擎的工作原理
搜索引擎的工作原理可以簡單概括為:從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。
從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider(又名為:Robot,Crawler,Worms,Wanders)系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。
在索引數(shù)據(jù)庫中搜索排序當用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。
檢索技巧:
(1)科學(xué)選擇關(guān)鍵詞。由于搜索引擎智能化程度的影響,它只能在現(xiàn)存的數(shù)據(jù)庫中查找匹配的關(guān)鍵詞,因此,這種匹配相對比較盲目,我們在選擇關(guān)鍵詞時,要盡量使用布爾運算符號和高級搜索語法,只有這樣才能夠得到較好的搜索效果。
(2)使用雙引號進行精確查詢。若是用戶需要查找一個詞組,那么用戶可以將這一詞組采用引號或者括號將其括起來,從而保證檢索結(jié)果的準確性。
(3)使用加號(+)、減號(﹣)限定查找。很多搜索引擎都支持在搜索詞前冠以加號(+)限定搜索結(jié)果中必須包含的詞匯,用減號(﹣)限定搜索結(jié)果不能包含的詞匯。
(4)使用邏輯詞輔助查找。比較大的搜索引擎都支持使用邏輯詞進行更復(fù)雜的搜索界定,常用的有:AND(和)、OR(或)、NOT(否)及NEAR(兩個單詞的靠近程度),恰當應(yīng)用它們可以使搜索結(jié)果非常精確。另外,也可以使用括號將搜索詞分別組合。
(5)有針對性地選擇搜索引擎。用不同的搜索引擎進行查詢得到的結(jié)果常常有很大的差異,這是因為它們的設(shè)計目的和發(fā)展走向存在著許多的不同,比如:Download.com是針對軟件類的搜索引擎,可搜尋大量的自由軟件和共享軟件。驅(qū)動之家主要是提供查找驅(qū)動程序及硬件廠商信息。
(6)使用元詞檢索。大多數(shù)搜索引擎都支持“元詞”(metawords)功能,用戶把元詞放在關(guān)鍵詞的前面,就可以告訴搜索引擎你想要檢索的內(nèi)容具有哪些明確的特征。
(7)細化查詢。目前,技術(shù)人員所研究出的搜索引擎還新增了細化及在查詢的功能,即用戶在信息檢索的過程中,可以通過這一功能對所需要的結(jié)果進行細化查詢,這樣才能夠更細的查詢到所需要的信息。
(8)靈活運用使用通配符。很多搜索引擎支持通配符號,如“*”代表任意個字符、“?”代表單個字符。
(9)盡可能將搜索范圍限制在特定的領(lǐng)域里。
4 網(wǎng)絡(luò)環(huán)境下信息檢索技術(shù)
4.1 選擇合適搜索引擎
在現(xiàn)代化社會發(fā)展中,隨著技術(shù)水平的不斷提高,搜索引擎也越來越多,并且其功能各部相同,那么我們應(yīng)該選擇怎樣的搜索引擎呢?很多用戶都認為只需要選擇一個搜索引擎就能夠達到信息檢索的目的,其實不然。在互聯(lián)網(wǎng)中,由于每一種搜索引擎都有其各自不同的功能,甚至有些大型搜索引擎所建立的數(shù)據(jù)庫中錄入了大量的信息資源,達到了幾千甚至上萬G。但盡管如此,大型的搜索引擎的數(shù)據(jù)庫在互聯(lián)網(wǎng)上所占據(jù)的空間還不到30%,因此我們可以使用多個搜索引擎,通過其不同的功能來達到最佳的檢索效果。
4.2 編制正確合理的檢索表達式
當前,大部分用戶在進行信息檢索的過程中,所使用的搜索引擎都是以輸入關(guān)鍵詞而基礎(chǔ)而達到信息檢索的目的的,為了能夠更快獲得更準確的檢索結(jié)果,我們就需要正確編制一個檢索表達式。一般來說,正確的檢索表達式是由主題詞、輔助詞、外部特征限制這三個部分構(gòu)成。其中主題詞也就是對某一次檢索進行描述的詞,便于計算機的識別;輔助詞對于信息檢索并沒有特別的意義,它僅僅是主題詞的形容詞或者量詞等;而外部特征限制主要包括兩個方面,一是對詞的外部特征進行限制;二是對網(wǎng)頁的外部特征限制。通過合理的編制檢索表達式,就能夠更快的檢索出自己想要的信息,也能夠避免偏離檢索目標。
4.3 通過不斷學(xué)習了解搜索引擎法則
在搜索引擎實際使用過程中,用戶可以通過各種手段了解搜索引擎的語法規(guī)則,然后將布爾運算符號與高級搜索語法應(yīng)用在其中,從而使用戶獲得更多知識及相關(guān)知識。其主要措施有:首先,要會使用諸如AND、OR、NOT這樣的布爾邏輯操作符,在特定的情況下,比如要求特定單詞是否包含在索引文檔中時,正確使用“+”,“-”連接號,這種高級檢索往往會帶來更精確的搜索結(jié)果。再者,要學(xué)會使用高級搜索語法,很多有價值的資料,在互聯(lián)網(wǎng)上并非是普通的網(wǎng)頁,而是以Word、PowerPoint、PDF等格式存在。有些搜索引擎支持對Office文檔(包括Word、Excel、Powerpoint)、Adobe PDF文檔、RTF文檔進行了全文搜索。要搜索這類文檔,在普通的查詢詞后面,加一個“filetype”文檔類型限定詞,在其后跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有這些文件類型。例如要搜索信息檢索的課件,我們知道課件一般以PPT的格式存在,所以我們設(shè)計檢索式:信息檢索filetype:ppt,檢索結(jié)果即全為PPT格式的文檔,點擊即可下載,提高了檢索速度。
4.4 靈活使用搜索引擎的特色服務(wù)
目前,在互聯(lián)網(wǎng)中不同的搜索引擎具有不同的特點,也加入了天氣查詢、貨幣換算等多種功能,這些都有效的提高了我們對知識的檢索速度。
5 結(jié)束語
信息檢索是互聯(lián)網(wǎng)中的最大的服務(wù)項目之一。在現(xiàn)代化社會發(fā)展中,用戶一般都會采用搜索引擎來檢索自己所需要的信息,但是從當前實際情況來看,大多數(shù)用戶只會應(yīng)用簡單的搜索引擎來獲取信息,并不能夠更準確、更快的獲得信息。本文對搜索引擎的工作原理及技巧進行了全面的分析,相信大家已有所了解。在未來的社會發(fā)展中,必定還會出現(xiàn)更多的搜索引擎,因此用戶可以通過各種手段對其加以學(xué)習與了解,充分利用互聯(lián)網(wǎng)為我們帶來的優(yōu)勢,獲得自己所需要掌握的信息。
參考文獻:
[1]孫成福.網(wǎng)絡(luò)搜索引擎的技巧與使用[J].福建電腦,2008(02):180.
[2]魏力更.高校網(wǎng)絡(luò)用戶信息需求與信息行為研究[J].情報資料工作,2005(05):103-105.
[3]何慧英.網(wǎng)絡(luò)搜索引擎的技巧與使用[J].江西化工,2004(09):49:-51.
作者簡介:李海秋(1971-),女,廣東梅州人,現(xiàn)任學(xué)院計算機室實驗師。
作者單位:廣東惠州衛(wèi)生職業(yè)技術(shù)學(xué)院,廣東惠州 516025