趙曉麗
臨沂大學(xué)費(fèi)縣分校,山東臨沂 273400
搜索引擎是因特網(wǎng)上最常見的一種信息檢索工具。它分為定期搜索和提交網(wǎng)站搜索兩類。定期搜索就是每隔一段固定的時(shí)間,搜索引擎就自動開啟搜索的專門程序。這種程序通過執(zhí)行語句來對固定的局域網(wǎng)的網(wǎng)絡(luò)地址進(jìn)行掃描,從而發(fā)現(xiàn)新的網(wǎng)絡(luò)地址,進(jìn)而對新網(wǎng)址對應(yīng)的網(wǎng)站的信息進(jìn)行吞吐,最終加入到自己的數(shù)據(jù)庫中。提交網(wǎng)站搜索是指網(wǎng)站自動的將自己擁有的信息發(fā)送給搜索引擎,搜索引擎每隔一段固定的時(shí)間就利用編寫好的程序?qū)W(wǎng)站上的信息進(jìn)行掃描,發(fā)現(xiàn)有新的信息就自動將其儲存在備用的數(shù)據(jù)庫空間中。
從語言學(xué)的角度看,語義分析就是對句子中用到的詞匯、動詞搭配、形容詞的運(yùn)用、語法進(jìn)行分析。語義學(xué)就是在對語言進(jìn)行研究時(shí)形成的學(xué)科。語言學(xué)的語義研究主要是找出語義表達(dá)的規(guī)律、內(nèi)在含義、內(nèi)在解釋、不同語言的寓意表達(dá)方面的個性及其共性。邏輯學(xué)的予以研究就是找到對邏輯關(guān)系的解釋,憑借真值條件進(jìn)行判斷。如何分析網(wǎng)頁中信息的語義呢,下面我們將從實(shí)際的例子中得到答案。我們知道大多數(shù)的文字都是通過文本的形式被存儲起來的,但是對于不同地方的文本要表示的意義是不一樣的。例如我們通常會將比較重要的文本文件設(shè)置在標(biāo)題處,網(wǎng)頁上的文本根據(jù)不同的標(biāo)簽分為了主標(biāo)題-一級標(biāo)題-二級標(biāo)題-三級標(biāo)題-四級標(biāo)題-五級標(biāo)題等等。網(wǎng)頁信息的檢索就是通過這些一級一級的標(biāo)簽進(jìn)行語法的分析的。利用這些標(biāo)簽就能很快的準(zhǔn)確的找到自己要尋找的文本及其段落,由于這項(xiàng)分析要求檢索系統(tǒng)能自動完成,準(zhǔn)確的算法是設(shè)計(jì)檢索程序的基礎(chǔ)。我們在對網(wǎng)頁上文本進(jìn)行分析時(shí),程序就對有關(guān)的主標(biāo)題進(jìn)行搜索,這項(xiàng)搜索主要是對網(wǎng)頁中重復(fù)出現(xiàn)該關(guān)鍵字的標(biāo)題進(jìn)行一個一個的檢索,對于頻數(shù)比較大的標(biāo)題就根據(jù)算法進(jìn)行排列,然后根據(jù)優(yōu)先級的大小進(jìn)行下一層檢索,在分析出每個句子的模式,根據(jù)它所在的文本特征區(qū)域,首先計(jì)算出該語義模式的加權(quán)相關(guān)度,然后再對所有的語義模式的加權(quán)相關(guān)度求和,計(jì)算出全文語義相關(guān)度。
對于有固定鏈接的網(wǎng)頁信息的檢索分析可以直接通過網(wǎng)站來訪問網(wǎng)頁。使用該方法就要求搜索人必須知道信息所在網(wǎng)頁的地址或是網(wǎng)絡(luò)實(shí)名,該方法很快的就能找到自己想要的信息,但是我們在平時(shí)的搜索中很少知道自己要搜索信息的網(wǎng)絡(luò)地址,這就要求我們先運(yùn)用搜索引擎進(jìn)行關(guān)鍵字的搜索,等到快要接近自己尋找的信息時(shí)在轉(zhuǎn)到具體的網(wǎng)頁的搜索。例如我們經(jīng)常要到網(wǎng)頁上看新聞,我們可以直接進(jìn)入搜狐網(wǎng);要在網(wǎng)上買東西可以直接進(jìn)入淘寶網(wǎng)進(jìn)行shopping.
對于就像中國知網(wǎng)這樣的數(shù)據(jù)庫就可以直接在數(shù)據(jù)庫中進(jìn)行在線查詢。在我們的網(wǎng)絡(luò)上有許多數(shù)據(jù)庫,里面收錄的大量的數(shù)據(jù)信息。如果我們想要了解中國目前大學(xué)生就業(yè)問題,我們就可以直接進(jìn)入中國科學(xué)院科學(xué)數(shù)據(jù)庫:http://www.sdb.ac.cn來進(jìn)行搜索。目前在我國各大高校圖書館都有自己的數(shù)據(jù)庫,學(xué)生可以經(jīng)過直接就如數(shù)據(jù)庫搜索自己所需的文獻(xiàn)和資料。
我們通過具體的實(shí)例來分析一下在網(wǎng)頁視頻中語義的分析和校對。我們知道對于網(wǎng)頁上的視頻主要是通過ASR來識別視頻腳本進(jìn)而進(jìn)行詞語的處理和檢測,這里以動畫片視頻為例子。首先我們是將視頻分成不同的語種,我們要子視頻中找到漢語版的《喜羊羊與灰太狼》,對于不同的語種我們有專門的是識別程序,它是根據(jù)不同的語言組織形式、不同的語法、不同的發(fā)音等等進(jìn)行搜索等的。例如對于漢語我們的語法就規(guī)定動詞放在主語的后面、形容詞放在名詞的前面、讀的時(shí)候從左向右依次進(jìn)行等等,而對于英語就是從后向前進(jìn)行讀,根據(jù)這點(diǎn)的不同程序就可以利用語法的不同進(jìn)行很好的邏輯判斷。當(dāng)然語言的判斷還只是簡單的起步,我們還要編寫腳本程序來對具有同樣作者的視頻進(jìn)行檢索和歸類,例如我們可以利用邏輯電路來進(jìn)行仿真模擬,當(dāng)我們將簡單的燈亮的小程序拷到芯片里的時(shí)候我們看到了預(yù)期的現(xiàn)象,接著我們對每個腳本進(jìn)行設(shè)置使得產(chǎn)生不同的現(xiàn)象,這樣就很好的區(qū)分了作者。由于目前信息量快速地增加,每一時(shí)刻大量的信息進(jìn)進(jìn)入到網(wǎng)站,傳統(tǒng)的提交網(wǎng)站搜索法已經(jīng)不能滿足信息的快速增加,這就要求新的方法來解決出現(xiàn)的問題,這時(shí)候外鏈接就應(yīng)運(yùn)而生。外鏈接主要是將原來一個頁面出現(xiàn)的信息分成了幾個頁面,這樣一來搜索引擎就有足夠的時(shí)間將數(shù)據(jù)收錄到自己的數(shù)據(jù)庫中。我們在進(jìn)行信息檢索時(shí)通常是使用關(guān)鍵字來進(jìn)行檢索的,當(dāng)你輸入關(guān)鍵字進(jìn)行搜索時(shí)搜索引擎就會在數(shù)據(jù)中進(jìn)行掃描,對于出現(xiàn)頻率較高的相關(guān)鏈接就出現(xiàn)在網(wǎng)頁的最上方,按照頻度依次向下排列。
網(wǎng)絡(luò)信息組織是將具有共同關(guān)鍵字、共同語法、共同研究對象等等的雜亂信息進(jìn)行分類整理,使其形成以一套完整的系統(tǒng)的過程。網(wǎng)頁信息檢索就是人們對整理好的信息的搜索過程,語義分析就是我們用到的一種關(guān)鍵的獲取信息的方法。該方法快速的檢索分類算法,使得我們的網(wǎng)頁信息整理有章可循。
[1]袁穎,趙捧未.基于語義網(wǎng)的數(shù)字圖書館信息檢索模型研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2010(7):1-3.
[2]張愛文,樊紅蓮.半離散矩陣分解改進(jìn)算法在網(wǎng)頁信息檢索中的應(yīng)用研究[J].黑龍江工程學(xué)院學(xué)報(bào),2007,21(2):55-57.
[3]陳星光.基于語義Web的信息檢索系統(tǒng)的研究[D].鎮(zhèn)江:江蘇科技大學(xué)碩士學(xué)位論文,2010.
[4]張鐵虎,朱嘉鋼.基于本體語義教務(wù)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].淮海工學(xué)院學(xué)報(bào),2011,20(2):3.