楊 娜 王 巖
(1:吉林建筑工程學院計算機科學與工程學院,長春 130118;2:吉林建筑工程學院學生工作處,長春 130118)
近年來,隨著互聯(lián)網的普及和快速發(fā)展,信息資源與站點越來越多,而且信息的組織方式也非常自由.當網上的信息越來越多,單純地通過傳統(tǒng)、手工的獲取信息方式,達到快速而且準確地獲取信息顯然不太可能.現(xiàn)在,在互聯(lián)網上人們用來查詢信息的工具是搜索引擎.據統(tǒng)計,搜索引擎是排在電子郵件之后的第2個人們用的最多的網絡工具[1].但隨著網絡信息增長的速度越來越快,而且人們對知識的要求也更為精確,現(xiàn)在的搜索引擎已遠遠不能滿足人們的需要,需要更為智能化、個性化的搜索引擎.如何快速、準確地從浩瀚的信息海洋中找到自己需要的信息,已成為互聯(lián)網應用中一個極為重要的研究課題.目前,現(xiàn)有的搜索引擎存在的問題是:
(1)現(xiàn)有的搜索引擎仍存在著高覆蓋率和低查全率的問題;
(2)用于表示Web信息的數據類型的多樣性、數據格式的松散性,導致了這些信息之間的格式轉換成為了挖掘中的一個瓶頸,從而阻礙了挖掘和搜索的速度,延長了響應時間[2];
(3)搜索引擎在用戶接口設計方面和互動性方面存在的缺陷,使用戶無法準確地定義檢索條件,檢索結果偏離用戶的意圖,降低了搜索結果的準確率.
(4)對搜索的結果無法按照用戶的個性特征進行一定的排序,使用戶需要用大量的時間在搜索的結果中尋找自己最想獲取的信息[3].
為了有效描述搜索路徑,這里引入了“路標”網頁的概念.所謂“路標”網頁,就是指該網頁的存在對指導搜索路徑目標網頁起著積極的引導作用.接著,將會看到引入“路標”網頁,對有效約束可能發(fā)生的搜索路徑以及確認搜索路徑的有效性都起到了很好的促進作用.如圖1中,各菱形框代表與搜索過程密切相關的各基本網頁,這些基本網頁或其中部分信息可能包含在最終的信息搜索結果中,或標志著搜索過程的一個重要階段,或它能夠被較為容易地識別出來.
圖1 多層知識表示方法的示意描述
例如,由于在大學計算機系教員信息網頁搜索過程中,所獲得的大學主頁和計算機系教員信息網頁搜索過程中,所獲得的大學生主頁和計算機系主頁中的一部分信息內容,最后將與教員的有關信息結合在一起,作為最終的搜索結果反饋給用戶.因此,在描述大學計算機系教員信息網頁搜索知識時,大學主頁和計算機系主頁全部都將作為基本網頁參與描述有關的搜索路徑.
所示搜索知識的基本含義就是:從一個基本網頁1搜索到下一個基本網頁2時,中間最多可能存在3條基本搜索路徑,這3條基本搜索路徑分別是:
(1)通過基本網頁1中的某個網鏈,就可直接(到達)獲得基本網頁2;
(2)經過基本網頁1中的某個網鏈,以及一個中間網鏈(一個過渡網頁中的某個網鏈),便可(到達)獲得基本網頁2;
(3)經過基本網頁1中的某個網鏈,以及兩個中間網鏈(分別經過兩個過渡網頁中的各自一個網鏈),方可(到達)獲得基本網頁2.
多層知識表示方法是通過兩個層面來描述進行網頁準確搜索所需的有關搜索知識.這兩個層面分別是:與網站內部組織結構密切相關的搜索路徑知識的相關描述,以及與網站內容(網頁)密切相關的搜索基本單元(網頁或網鏈)知識的相關描述.采用這種以搜索路徑對象描述為搜索知識的表示主體,網頁或網鏈對象(搜索基本單元)描述為搜索知識基本組成的多層知識表示方法,不僅能夠幫助準確有效搜索出所需要的目標網頁,而且也有助于實現(xiàn)搜索知識的自我完善.
利用前面所介紹搜索知識表示方法,及其所表示的具體知識,采用深度優(yōu)先的啟發(fā)搜索策略,從事先指定的若干網站和教育資源數據庫中,分別搜索出所需要的各目標網站的整個處理流程.此外,在搜索的過程中,還可根據已完成的搜索過程及結果,不斷地進行完善目前所擁有的搜索知識,以便能夠不斷地提高自己的搜索能力.
我們用從B網頁到C網頁搜索的部分過程進行實驗,
BC11:Faculty(2,2)
BC21:Faculty(2,2)+Title(2,2)+Staff(2,2)
BC22:Faculty(2,2)
搜索知識中基本網頁共有兩個B和C,前者無需再識別;后者則是利用標題內容中的兩個特征就可加以識別.其中特征類型說明所使用的T和L分別表示該特征為網頁的標題(title)內容和超級鏈接(anchor text)內容.在實際操作時,一般都是將以上所描述的人工智能搜索所需的搜索知識用3個知識對象,即搜索路徑、基本網頁和搜索路徑基本單元(網鏈),結合在一起來加以描述.
圖2 某學校網站
①用戶提出搜索請求;②據當前的搜索狀態(tài)和搜索知識以及當前所獲得的網頁,推斷下一步網址;③根據前一步分析結果決定是繼續(xù)搜索數據庫還是搜索已失敗或成功;④在當前網站搜索結果結束;⑤不斷重復上述4個步驟,直到事先給定的網站均被搜索完畢為止;⑥將搜索到的符合用戶標準的結果返回給用戶.
圖3 基于智能搜索的教育資源搜索引擎結構
人工智能搜索算法所采取的主要處理步驟如圖3所示.
①用戶提出搜索請求,根據給出的網址獲取相應的主頁;②在教育資源數據庫,網絡以及用戶的網絡日志中搜索,根據當前的搜索狀態(tài)和搜索知識,以及當前所獲得的網頁,推斷下一步搜索網址;③根據前一步分析結果,決定是繼續(xù)搜索教育資源數據庫,網絡以及用戶的網絡日志,還是搜索已失敗或成功;④在當前網站搜索結果結束(無論搜索失敗或者成功),對本次搜索所經歷的所有搜索路徑進行分析總結,以完善自己的搜索知識;⑤不斷重復上述4個處理步驟,直到事先給定的網站均被搜索完畢為止;⑥將搜索到的符合用戶標準的結果返回給用戶.
在這個新的模型中,不僅能夠對網站中網頁進行深度優(yōu)先的人工智能搜索,而且還能夠通過對其搜索過程和結果的自我學習來獲取更多更好的搜索知識.在新模型的設計過程中,使用了一種有效的搜索知識的新型表示方法,并且為了有效描述搜索路徑,在搜索路徑中引入了“路標”網頁的概念.通過路標網頁不僅可以搜索出存在的網頁,而且對指導搜索路徑確定目標網頁起到了積極的引導作用.
[1]趙夷平.傳統(tǒng)搜索引擎與語義搜索引擎服務比較研究[J].情報科學,2010,10(2):10-13.
[2]張培榮.元搜索引擎與獨立搜索引擎比較研究[J].現(xiàn)代圖書情報技術,2004(11):35-37.
[3]李觀金.基于搜索引擎自然檢索的搜索引擎優(yōu)化[J].硅谷,2011,3(7):48-50.