河北農(nóng)業(yè)大學(xué)信息學(xué)院 徐 琳 尹 悅 趙曉卓
隨著當(dāng)今社會的發(fā)展,被計算機存儲設(shè)備攜帶的電子類的信息越來越多。專利文獻特征:1.明顯的知識產(chǎn)權(quán)特性2.實用性非常強3.著錄格式規(guī)范4.將科技與法律融為一體。5.有很多重復(fù)信息,而且數(shù)量巨大。
從狹義上理解信息檢索,就是說從信息集合中尋找所需信息的過程,即我們經(jīng)常說的信息搜索。
檢索大致過程如下圖所示:
用戶任務(wù)——信息需求——問題——問題提煉——搜索引擎——結(jié)果——數(shù)據(jù)庫
1.2.1 原理示意圖
為了滿足檢索的需要,需要收集大量的數(shù)據(jù)并對其進行處理,以滿足檢索者快速準(zhǔn)確檢索的需要。下面是信息檢索原理的示意圖:
1.2.2 檢索模型
(1)檢索模型引出:
所有索引基本上分為三個部分:文檔表示部分、查詢表示部分和匹配功能部分。文獻表示部分體現(xiàn)的是文獻的存儲形式,文獻表示部分可以是一些關(guān)鍵詞或者標(biāo)引詞,它也可以是一些數(shù)據(jù);查詢表示部分是指用戶表達(dá)信息的愿望。匹配功能部分用于將處理后的文檔表示部分和查詢表示部分放入系統(tǒng)中進行匹配,并通過使用不同的匹配函數(shù)獲得不同的輸出結(jié)果。
(2)標(biāo)引詞權(quán)重
標(biāo)引詞的權(quán)重,用于描述標(biāo)引詞和文獻內(nèi)容相關(guān)程度。
(3)三種模型及其簡單函數(shù)
A.布爾模型
檢索X由邏輯運算符和/或非邏輯運算組成。檢索系統(tǒng)的索引系統(tǒng)中的每個索引在文檔中只有兩種狀態(tài):出現(xiàn)和不出現(xiàn)。索引字的權(quán)重是q_ij屬于{0,1}。
B.向量空間模型
對于向量空間模型,二元組(Di,Kj)的權(quán)值是正非二值數(shù)。文件Kj的向量可以表示為。其中,表示第i標(biāo)引詞Di在文檔Kj中權(quán)重。的取值范圍是[0,1],這樣某文檔就可轉(zhuǎn)為高維空間中一點。
標(biāo)引詞權(quán)值主要由于標(biāo)引詞的頻率統(tǒng)計,即:局部權(quán)值和全局權(quán)值。
全局權(quán)值(IDFi):是指第i個標(biāo)引詞在整個系統(tǒng)中文檔集的權(quán)值,IDFi=log(N / ni)。
N——系統(tǒng)中文檔總數(shù);ni——系統(tǒng)含標(biāo)引詞Ki的文檔數(shù);FREqij為標(biāo)引詞Ki在文檔Dj中的出現(xiàn)的次數(shù); MAXTfj表示文檔Dj中所用標(biāo)引詞出現(xiàn)次數(shù)最大的值。
C模糊模型
用模糊數(shù)學(xué)語言描述標(biāo)引詞的權(quán)重和其他關(guān)系而建立的模型。
1.3.1 分詞意義
無論是文檔還是查詢,都要變成標(biāo)引項的某種形式,文檔可以用多個標(biāo)引項的集合來表示,一般用詞來表示,還可以用其他形式的語言單位表示,還有一種特殊的標(biāo)引詞就是關(guān)鍵詞。這就需要我們將文檔進行分詞來找到標(biāo)引詞及其數(shù)目來作為每篇文章的特性。
1.3.2 中文詞法分析
1.3.3 停用詞消除
1.3.4 中文重疊詞還原
檢索的使用方法分成單項檢索和組合檢索兩種
1.4.1 單項檢索
單項檢索將需要檢索的檢索詞輸入即可
如:想了解金銀花,檢索“金銀花”
1.4.2 多項檢索技術(shù)
多個檢索技術(shù)有兩種方式,第一種是單個檢索中的一些單詞或單詞的組合,第二種是一些檢索點的組合檢索,也就是說在同一搜索點中設(shè)置多個檢索詞,或者同時設(shè)置多個不同的檢索點再加以不同的條件,在這之后再執(zhí)行檢索。
如:關(guān)鍵詞=(磁流體and(密閉or泄露))not(華東理工大學(xué)or華東化工學(xué)院)
搜索引擎。說起搜索引擎,都清楚它需要具備內(nèi)容全面、查詢內(nèi)容準(zhǔn)確、查找速度快等作用。此外,搜索引擎需要對各種文本進行分類。
信息采集。
下載從因特網(wǎng)收集的信息通常被稱為機器人、蜘蛛和爬蟲,它們被下載、預(yù)先組織和在線。
投入大規(guī)模硬件進行采集和存儲
2.2.1 相似度計算
將查詢轉(zhuǎn)換為向量,將文檔轉(zhuǎn)換為向量,將其更改為向量,然后求向量的相似性。相似性的計算被認(rèn)為是三個因素:文檔中出現(xiàn)的單詞的數(shù)量,出現(xiàn)在單詞中的文檔的數(shù)量,以及接近度的比較。
2.2.2 鏈接分析
被越多網(wǎng)頁指向,而且被越重要的網(wǎng)頁指向,它就越重要。PageRank較大的網(wǎng)頁才會被檢索,保證了結(jié)果。
2.3.1 倒排索引
建立倒排文件、使用倒排表搜索,使檢索速度更快。
2.3.2 計算剪枝技術(shù)
由于很多用戶只會看前兩頁,所以并不是所有網(wǎng)頁都會參與運算,因此,根據(jù)某種規(guī)則預(yù)先刷掉很多網(wǎng)頁或者分級。通過減少數(shù)量來加快速度。
2.3.3 緩存技術(shù)
將常用的放在內(nèi)存,如檢索結(jié)果、索引等,加快檢索速度。
大量的按人力分類的文件作為學(xué)習(xí)資料(稱為訓(xùn)練集),由人力分類的一批文件的成本遠(yuǎn)遠(yuǎn)低于從這些文件中總結(jié)準(zhǔn)確規(guī)則的成本。
計算機主動從原來給出的大量人力分類資料中(即訓(xùn)練集),提取有效的分類規(guī)則。這個過程稱為訓(xùn)練,而這個總結(jié)出來的規(guī)則集就叫做分類器。
訓(xùn)練完成之后,用分類器對未知文檔進行分類。