語義分析在網(wǎng)頁信息檢索中的應(yīng)用研究

2011-08-15 00:52:53趙曉麗

科技傳播 2011年24期

趙曉麗

臨沂大學(xué)費(fèi)縣分校，山東臨沂 273400

1 網(wǎng)頁信息檢索

搜索引擎是因特網(wǎng)上最常見的一種信息檢索工具。它分為定期搜索和提交網(wǎng)站搜索兩類。定期搜索就是每隔一段固定的時(shí)間，搜索引擎就自動開啟搜索的專門程序。這種程序通過執(zhí)行語句來對固定的局域網(wǎng)的網(wǎng)絡(luò)地址進(jìn)行掃描，從而發(fā)現(xiàn)新的網(wǎng)絡(luò)地址，進(jìn)而對新網(wǎng)址對應(yīng)的網(wǎng)站的信息進(jìn)行吞吐，最終加入到自己的數(shù)據(jù)庫中。提交網(wǎng)站搜索是指網(wǎng)站自動的將自己擁有的信息發(fā)送給搜索引擎，搜索引擎每隔一段固定的時(shí)間就利用編寫好的程序?qū)W(wǎng)站上的信息進(jìn)行掃描，發(fā)現(xiàn)有新的信息就自動將其儲存在備用的數(shù)據(jù)庫空間中。

2 語義分析

從語言學(xué)的角度看，語義分析就是對句子中用到的詞匯、動詞搭配、形容詞的運(yùn)用、語法進(jìn)行分析。語義學(xué)就是在對語言進(jìn)行研究時(shí)形成的學(xué)科。語言學(xué)的語義研究主要是找出語義表達(dá)的規(guī)律、內(nèi)在含義、內(nèi)在解釋、不同語言的寓意表達(dá)方面的個性及其共性。邏輯學(xué)的予以研究就是找到對邏輯關(guān)系的解釋，憑借真值條件進(jìn)行判斷。如何分析網(wǎng)頁中信息的語義呢，下面我們將從實(shí)際的例子中得到答案。我們知道大多數(shù)的文字都是通過文本的形式被存儲起來的，但是對于不同地方的文本要表示的意義是不一樣的。例如我們通常會將比較重要的文本文件設(shè)置在標(biāo)題處，網(wǎng)頁上的文本根據(jù)不同的標(biāo)簽分為了主標(biāo)題-一級標(biāo)題-二級標(biāo)題-三級標(biāo)題-四級標(biāo)題-五級標(biāo)題等等。網(wǎng)頁信息的檢索就是通過這些一級一級的標(biāo)簽進(jìn)行語法的分析的。利用這些標(biāo)簽就能很快的準(zhǔn)確的找到自己要尋找的文本及其段落，由于這項(xiàng)分析要求檢索系統(tǒng)能自動完成，準(zhǔn)確的算法是設(shè)計(jì)檢索程序的基礎(chǔ)。我們在對網(wǎng)頁上文本進(jìn)行分析時(shí)，程序就對有關(guān)的主標(biāo)題進(jìn)行搜索，這項(xiàng)搜索主要是對網(wǎng)頁中重復(fù)出現(xiàn)該關(guān)鍵字的標(biāo)題進(jìn)行一個一個的檢索，對于頻數(shù)比較大的標(biāo)題就根據(jù)算法進(jìn)行排列，然后根據(jù)優(yōu)先級的大小進(jìn)行下一層檢索，在分析出每個句子的模式，根據(jù)它所在的文本特征區(qū)域，首先計(jì)算出該語義模式的加權(quán)相關(guān)度，然后再對所有的語義模式的加權(quán)相關(guān)度求和，計(jì)算出全文語義相關(guān)度。

3 語義分析在網(wǎng)頁信息檢索中的應(yīng)用分析

對于有固定鏈接的網(wǎng)頁信息的檢索分析可以直接通過網(wǎng)站來訪問網(wǎng)頁。使用該方法就要求搜索人必須知道信息所在網(wǎng)頁的地址或是網(wǎng)絡(luò)實(shí)名，該方法很快的就能找到自己想要的信息，但是我們在平時(shí)的搜索中很少知道自己要搜索信息的網(wǎng)絡(luò)地址，這就要求我們先運(yùn)用搜索引擎進(jìn)行關(guān)鍵字的搜索，等到快要接近自己尋找的信息時(shí)在轉(zhuǎn)到具體的網(wǎng)頁的搜索。例如我們經(jīng)常要到網(wǎng)頁上看新聞，我們可以直接進(jìn)入搜狐網(wǎng)；要在網(wǎng)上買東西可以直接進(jìn)入淘寶網(wǎng)進(jìn)行shopping.

對于就像中國知網(wǎng)這樣的數(shù)據(jù)庫就可以直接在數(shù)據(jù)庫中進(jìn)行在線查詢。在我們的網(wǎng)絡(luò)上有許多數(shù)據(jù)庫，里面收錄的大量的數(shù)據(jù)信息。如果我們想要了解中國目前大學(xué)生就業(yè)問題，我們就可以直接進(jìn)入中國科學(xué)院科學(xué)數(shù)據(jù)庫：http://www.sdb.ac.cn來進(jìn)行搜索。目前在我國各大高校圖書館都有自己的數(shù)據(jù)庫，學(xué)生可以經(jīng)過直接就如數(shù)據(jù)庫搜索自己所需的文獻(xiàn)和資料。

我們通過具體的實(shí)例來分析一下在網(wǎng)頁視頻中語義的分析和校對。我們知道對于網(wǎng)頁上的視頻主要是通過ASR來識別視頻腳本進(jìn)而進(jìn)行詞語的處理和檢測，這里以動畫片視頻為例子。首先我們是將視頻分成不同的語種，我們要子視頻中找到漢語版的《喜羊羊與灰太狼》，對于不同的語種我們有專門的是識別程序，它是根據(jù)不同的語言組織形式、不同的語法、不同的發(fā)音等等進(jìn)行搜索等的。例如對于漢語我們的語法就規(guī)定動詞放在主語的后面、形容詞放在名詞的前面、讀的時(shí)候從左向右依次進(jìn)行等等，而對于英語就是從后向前進(jìn)行讀，根據(jù)這點(diǎn)的不同程序就可以利用語法的不同進(jìn)行很好的邏輯判斷。當(dāng)然語言的判斷還只是簡單的起步，我們還要編寫腳本程序來對具有同樣作者的視頻進(jìn)行檢索和歸類，例如我們可以利用邏輯電路來進(jìn)行仿真模擬，當(dāng)我們將簡單的燈亮的小程序拷到芯片里的時(shí)候我們看到了預(yù)期的現(xiàn)象，接著我們對每個腳本進(jìn)行設(shè)置使得產(chǎn)生不同的現(xiàn)象，這樣就很好的區(qū)分了作者。由于目前信息量快速地增加，每一時(shí)刻大量的信息進(jìn)進(jìn)入到網(wǎng)站，傳統(tǒng)的提交網(wǎng)站搜索法已經(jīng)不能滿足信息的快速增加，這就要求新的方法來解決出現(xiàn)的問題，這時(shí)候外鏈接就應(yīng)運(yùn)而生。外鏈接主要是將原來一個頁面出現(xiàn)的信息分成了幾個頁面，這樣一來搜索引擎就有足夠的時(shí)間將數(shù)據(jù)收錄到自己的數(shù)據(jù)庫中。我們在進(jìn)行信息檢索時(shí)通常是使用關(guān)鍵字來進(jìn)行檢索的，當(dāng)你輸入關(guān)鍵字進(jìn)行搜索時(shí)搜索引擎就會在數(shù)據(jù)中進(jìn)行掃描，對于出現(xiàn)頻率較高的相關(guān)鏈接就出現(xiàn)在網(wǎng)頁的最上方，按照頻度依次向下排列。

4 結(jié)論

網(wǎng)絡(luò)信息組織是將具有共同關(guān)鍵字、共同語法、共同研究對象等等的雜亂信息進(jìn)行分類整理，使其形成以一套完整的系統(tǒng)的過程。網(wǎng)頁信息檢索就是人們對整理好的信息的搜索過程，語義分析就是我們用到的一種關(guān)鍵的獲取信息的方法。該方法快速的檢索分類算法，使得我們的網(wǎng)頁信息整理有章可循。

[1]袁穎，趙捧未.基于語義網(wǎng)的數(shù)字圖書館信息檢索模型研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì)，2010(7)：1-3.

[2]張愛文，樊紅蓮.半離散矩陣分解改進(jìn)算法在網(wǎng)頁信息檢索中的應(yīng)用研究[J].黑龍江工程學(xué)院學(xué)報(bào)，2007，21(2)：55-57.

[3]陳星光.基于語義Web的信息檢索系統(tǒng)的研究[D].鎮(zhèn)江：江蘇科技大學(xué)碩士學(xué)位論文，2010.

[4]張鐵虎，朱嘉鋼.基于本體語義教務(wù)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].淮海工學(xué)院學(xué)報(bào)，2011，20(2)：3.