趙冰漫
摘 要 隨著計算機(jī)系統(tǒng)性能的提高和網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步,如何在互聯(lián)網(wǎng)這個龐大的信息資源中提供高效的搜索服務(wù),幫助用戶在海量的數(shù)據(jù)中快速找到需要的信息是搜索引擎亟待解決的問題。通常用戶只關(guān)心返回的排在前面的結(jié)果,然而當(dāng)前搜索引擎返回的查詢結(jié)果與用戶需求的相關(guān)性并不高。于是搜索引擎的相關(guān)性設(shè)計--按照與用戶查詢的相關(guān)程度對搜索引擎的索引文檔進(jìn)行排序,成為當(dāng)前研究的重點。
關(guān)鍵詞 搜索引擎 相關(guān)性 用戶查詢 索引
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
0引言
本文對搜索引擎的相關(guān)性進(jìn)行了深入的研究,主要工作歸納為以下幾點:
(1)文本搜索引擎的相關(guān)性排序模型,采用向量空間模型。
(2)文本搜索引擎數(shù)據(jù)源采用網(wǎng)絡(luò)爬蟲實現(xiàn)。
(3)文本搜索引擎數(shù)據(jù)分類采用樸素貝葉斯算法。
1相關(guān)性分析與實現(xiàn)
TF-IDF:是一種常用的檢索系統(tǒng)的加權(quán)技術(shù)。
基本思想:是每個字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比,與在其他文件中出現(xiàn)的次數(shù)成反比。
TF:Term Frequency:關(guān)鍵詞詞頻,是指一篇文章中關(guān)鍵詞出現(xiàn)的頻率,比如在一篇M個詞的文章中有N個該關(guān)鍵詞,則: TF=為該關(guān)鍵詞在這篇文章中的詞頻。
IDF:Inverse Document Frequency :逆向文本頻率,是用于衡量關(guān)鍵詞權(quán)重的指數(shù),由:IDF=log()計算而得。
D:表示文章總數(shù),DW:表示關(guān)鍵詞出現(xiàn)過的文章數(shù)。
2基于向量空間的余弦算法
算法步驟:預(yù)處理→文本特征項選擇→加權(quán)→生成向量空間模型后計算余弦。
(1)預(yù)處理。預(yù)處理主要是進(jìn)行中文分詞和去停用詞。然后按照停用詞表中的詞語將語料中對文本內(nèi)容識別意義不大但出現(xiàn)頻率很高的詞、符號、標(biāo)點、及亂碼去掉。例如:“這,的,和,會,為”等詞出現(xiàn)在任何一篇中文文本中,但是他們對這個文本所表達(dá)的意思幾乎沒有任何貢獻(xiàn)。使用停用詞表來剔除停用詞的過程,就是一個查詢過程,對每一個詞條,看其是否位于停用詞表中,如果是則將其從詞條串中刪除。
(2)文本特征性選擇與加權(quán)。過濾掉常用副詞、助詞等頻率高的詞之后,根據(jù)剩下詞的頻度確定若干關(guān)鍵詞。頻度計算參照TF公式。
(3)加權(quán)是針對每個關(guān)鍵詞對文本特征的體現(xiàn)效果小大不同而設(shè)置的機(jī)制,權(quán)值計算參照IDF公式。
(4)向量空間模型VSM及余弦計算。向量空間模型的基本思想是把文檔簡化為以特征項(關(guān)鍵詞)的權(quán)重為分量的N維向量表示。
假設(shè)一篇文檔中有a、b、c、d四個特征項,那么這篇文檔就可以表示為D(a,b,c,d),對于其他要與之比較的文本,也將遵從這個特征項順序。對含有n個特征項的文本而言,通常會給每個特征項賦予一定的權(quán)重表示其重要程度,即D=D(T1,W1;T2,W2;…;Tn,Wn)簡記為D=D(W1,W2,…,Wn)把他叫做文本D的權(quán)值向量表示,其中Wk是Tk的權(quán)重,1≤k≤N。
兩個文本D1和D2之間的內(nèi)容相關(guān)度SIM(D1,D2)常用向量之間夾角的余弦值表示,即
式中W1k、W2k表示文本D1和D2第k個特征項的權(quán)值,1≤k≤N。
3樸素貝葉斯算法設(shè)計與實現(xiàn)
樸素貝葉斯的思想基礎(chǔ)是:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認(rèn)為此待分類項屬于哪個類別。
文本分類在搜索引擎中屬于必備語言處理模塊,每篇文章都由成百上千個詞語組成,可以當(dāng)做個向量集W=(w1,w2,w3,…,wn),其中wi即表示其中第i個詞語。文章的分類也可以視為一個分類標(biāo)記集合C=(c1,c2,c3,…,cm)。在wi出現(xiàn)的情況下,文本是文本分類C的概率,可根據(jù)貝葉斯計算,公式為:
在文本分類的角度理解貝葉斯公式為:在wi詞出現(xiàn)的情況下是否是文本類別取決于在文本分類cj情況下wi出現(xiàn)的概率,以及wi在所有詞中出現(xiàn)的概率。p(w)的意義在于如果這個詞在所有文檔中出現(xiàn),那么用wi去判定是否是cj的概率越低,越不具備代表性。
樸素貝葉斯是一種有監(jiān)督的學(xué)習(xí)方式,可以利用伯努利模型以文件為粒度進(jìn)行文本分類??梢詺w納樸素貝葉斯大致分為數(shù)據(jù)準(zhǔn)備、分類器訓(xùn)練及分類識別三個階段。
(1)數(shù)據(jù)準(zhǔn)備。語料庫的準(zhǔn)備工作階段,這個階段的任務(wù)是為樸素貝葉斯分類做必要的準(zhǔn)備,主要工作是根據(jù)具體情況確定屬性特征,并對每個屬性特征進(jìn)行適當(dāng)劃分,然后由人工對一部分待分類項進(jìn)行分類,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個過程將有重要影響,分類器的質(zhì)量很大程度上是由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定的。
(2)分類器訓(xùn)練。這個階段的任務(wù)是生成分類器,主要工作是計算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。這一階段是機(jī)械階段,根據(jù)前面討論的公式可以由程序自動計算完成。
(3)分類識別。這個階段的任務(wù)是使用分類器對待分類項進(jìn)行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關(guān)系。這一階段也是機(jī)械性階段,由程序完成。
4結(jié)語
搜索引擎相關(guān)性的研究在未來還將是研究熱點,學(xué)者將會從更加全面的角度剖析相關(guān)性的影響因素,增加用戶習(xí)慣、需求等因素;檢索功能也將不斷得到補充,多媒體檢索、移動檢索等檢索技術(shù)將成為未來各個搜索引擎企業(yè)重點研究的檢索功能;同時,除了檢索效率、網(wǎng)頁相關(guān)性的評價研究外,檢索結(jié)果排序、檢索信息重復(fù)率、網(wǎng)頁死鏈或響應(yīng)時間等問題也將成為下一階段亟待研究解決的重要問題。
參考文獻(xiàn)
[1] 王黎.搜索引擎的相關(guān)性排序算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2010.
[2] 王亮.搜索引擎及其相關(guān)性排序研究[D].武漢:武漢大學(xué),2004.
[3] 孫靖.基于云平臺的數(shù)據(jù)庫搜索引擎實現(xiàn)方法的研究[D].南京:南京郵電大學(xué),2014.