摘 要:在傳統(tǒng)的元搜索引擎中采用了Borda排序算法,即根據(jù)成員引擎檢索結(jié)果的相關(guān)位置賦予一定分值,求和后按總分遞減排序。這對各個成員引擎檢索結(jié)果重疊度較高的檢索排序非常有效,但對獨立的搜索結(jié)果效果不好,速度較慢。另有根據(jù)檢索字符串和檢索結(jié)果的標(biāo)題、摘要等相似度進行排序,這種排序快速,實現(xiàn)簡單,但返回的信息簡單,可能導(dǎo)致摘要信息多的排在前面,而不是內(nèi)容相關(guān)的高的排在前面。針對這兩種算法的不足,提出了一種改進的綜合Borda排序算法,計算檢索字符串和結(jié)果標(biāo)題、摘要的相似度,再把相似度作為相關(guān)分值進行排序,它綜合了兩種算法。實驗結(jié)果表明,他的查準(zhǔn)率優(yōu)于傳統(tǒng)的Borda算法。
關(guān)鍵詞:元搜索;摘要排序;相似度計算;Borda算法
中圖分類號:TP391.3
元搜索引擎是包含了多個搜索引擎的特殊搜索引擎。用戶輸入查詢請求后,元搜索引擎向各個成員搜索引擎并行發(fā)送檢索請求,檢索完成后,檢索結(jié)果通過去重排序處理后返回給用戶。將多個搜索引擎的結(jié)果放到一起,這樣可以擴大檢索范圍,提高查全率。但是要將這么海量的數(shù)據(jù)融合到一起,這就需要一個較好的排序算法,才能夠把用戶最想要的結(jié)果展示在前面。因此,排序算法是影響元搜索引擎性能的關(guān)鍵技術(shù)之一。
1 傳統(tǒng)Borda排序算法
Borda排序算法首先對成員搜索引擎的搜索結(jié)果根據(jù)位置關(guān)系賦予一定的相關(guān)分值,檢索結(jié)果位置越靠前,它的相關(guān)分值越大,反之,它的相關(guān)分值越小。實際過程如下描述如下:
2 對Borda排序算法的改進
傳統(tǒng)Borda排序算法的關(guān)鍵是根據(jù)檢索結(jié)果在各個搜索引擎的相關(guān)分值的總和進行降序排列,對于多個搜索引擎檢索到的結(jié)果都能排在前面。實驗表明,只要查詢結(jié)果重疊率較高,Borda排序算法的查準(zhǔn)率就比較高。但對于獨立的搜索結(jié)果排序處理不太好,特別是獨立搜索結(jié)果較多的情況下,很多檢索結(jié)果的相關(guān)分值都是一樣的,Borda排序算法是采用隨機排列的,這與實際用戶期望結(jié)果有一定的偏差,導(dǎo)致排在前面卻未必是用戶最需要的結(jié)果信息。基于此,我們提出了一種改進的Borda排序算法,核心思想是引進檢索字符串與檢索結(jié)果的標(biāo)題、摘要的相似度。并將相似度作為檢索結(jié)果的相關(guān)分值。
3 相似度的計算
相似度是指檢索字符串與檢索結(jié)果之間的關(guān)聯(lián)程度。相似度的計算方法有很多種,由于檢索結(jié)果 主要是由網(wǎng)址,標(biāo)題,摘要,內(nèi)容組成。我們采用計算檢索字符串和標(biāo)題、摘要之間的相似度。最后根據(jù)相關(guān)分值的大小進行排序。
我們采用的頻率統(tǒng)計來計算相似度,先計算檢索字符串p與結(jié)果標(biāo)題ri之間的相似度,對于檢索字符串中詞條pj,有pj和ri的相似度
5 結(jié)束語
目前,搜索引擎的技術(shù)已經(jīng)日趨成熟,在查全率和查準(zhǔn)率都有很大的提高,但是元搜索引擎在這些方面更具優(yōu)勢。本文提出的改進算法提高了查全率和查準(zhǔn)率。相信未來是結(jié)合多種算法的排序是元搜索引擎的未來的發(fā)展趨勢。
參考文獻:
[1]shifu Zheng,ting Liu,Bing Qin.Overview of Question-Answering.Journal of Chinese Information Processing.Vol 6,No.16,pp.46-52,June.2002.
[2]Dell Zhang,Wee sun Lee.A Web-based Question Answering system[A].In:Proceedings of the sMA Annual symposium 2003[C],Nus,Singapore,Jan 2003.
[3]lemal H.Abawajy and M.1.Hu,school of Information technology,Deakin university,Geelong,Victoria 3217 Australia——A New Internet Meta-search Engine and Implementation.
[4]Hongmei Li,Zhenguo Ding,shuisheng Zhou,Lihua Zhou.simearch on simults Merging in Meta search Engine.Vo1.3I,No.s,pp:78-81,Oct 2008.
[5]萬保.元搜索引擎關(guān)鍵技術(shù)研究[D].西北工業(yè)大學(xué),2007.
[6]曹林,韓立新,吳勝利.元搜索引擎排序技術(shù)綜述[J].計算機應(yīng)用研究,2009(02).
[7]郭海風(fēng),曹林.元搜索引擎中Borda算法的改進[J].計算機工程,2011(01).
[8]董樂,謝紅薇.元搜索引擎中排序融合算法的優(yōu)化研究[J].計算機應(yīng)用與軟件,2012(10).
[9]周小平,梁一平,鄧左祥.元搜索引擎研究[C].2009年中國高校通信類院系學(xué)術(shù)研討會論文集,2009.
[10]王曉艷,劉春雙,劉光華.經(jīng)典搜索引擎排序算法的比較和分析[J].產(chǎn)業(yè)與科技論壇,2012(24).
[11]楊春明,何天翔.元搜索引擎的結(jié)果去重及排序研究[J].軟件,2012(06).
[12]林欣,溫傳林,韓立新.一種元搜索主題偏好的排序算法[J].計算機技術(shù)與發(fā)展,2013(02).
作者簡介:李兵(1991-),男,湖南祁陽人,在校學(xué)生,軟件工程專業(yè),本科,主要研究方向:Web開發(fā)技術(shù)。
作者單位:吉首大學(xué) 軟件服務(wù)外包學(xué)院,湖南張家界 427000
基金項目:大學(xué)生研究性學(xué)習(xí)和創(chuàng)新性實驗計劃項目(JSU-CX-2012-54)。