• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

      2013-05-30 04:52:44呂夢(mèng)瑩
      關(guān)鍵詞:分詞搜索引擎

      呂夢(mèng)瑩

      【摘 要】隨著互聯(lián)網(wǎng)的出現(xiàn)和伴隨著它的高速發(fā)展,人們獲得信息的方式也越來(lái)越依靠網(wǎng)絡(luò)的存在,但是隨著網(wǎng)絡(luò)資源的不斷豐富,人們搜索一個(gè)信息的難度也在增加,搜索引擎就是在這種情況下發(fā)展而來(lái),本文在分析了搜索引擎的研究現(xiàn)狀的基礎(chǔ)上,對(duì)傳統(tǒng)分詞算法加以改進(jìn),在一定程度上提高搜索的精確率和識(shí)別率。

      【關(guān)鍵詞】全文搜索;搜索引擎;分詞

      隨著互聯(lián)網(wǎng)資源的飛速增長(zhǎng),搜索引擎的發(fā)展在很大程度上決定了互聯(lián)網(wǎng)資源的使用率,只有不斷增強(qiáng)搜索引擎的技術(shù)才能使我們更好的利用網(wǎng)絡(luò)資源?;ヂ?lián)網(wǎng)的使用率也代表著一個(gè)國(guó)家網(wǎng)絡(luò)的使用水平,而搜索引擎在很大程度就制約著網(wǎng)絡(luò)資源的利用?,F(xiàn)在的搜索引擎技術(shù)還存在著很多的問(wèn)題,需要我們不斷的去改進(jìn)。

      目前的搜索引擎尚有很多的缺陷,主要體現(xiàn)在,網(wǎng)絡(luò)資源的質(zhì)量控制不足,由于缺乏一個(gè)系統(tǒng)的控制,所以資源的完整性和可靠性都不能得到保證,導(dǎo)致搜索引擎的無(wú)效搜索。其次就是搜索引擎占用著太多的資源,由于采用的是鏈接是把資源站的信息傳回本地,無(wú)疑會(huì)使網(wǎng)絡(luò)的流量增加傳輸?shù)睦щy,使網(wǎng)絡(luò)限于癱瘓。再次即使是做好的搜索引擎也不能做到對(duì)全網(wǎng)的一個(gè)覆蓋,而且各搜索引擎沒(méi)有明確的分工,重復(fù)搜索,造成資源的浪費(fèi),沒(méi)有專(zhuān)門(mén)性的搜索引擎,大家都在做全面的搜索引擎,多而不精。同時(shí)因?yàn)樗阉饕娴募夹g(shù)發(fā)展還不是很完善,對(duì)于一些信息的檢測(cè)會(huì)出現(xiàn)漏檢,不能明確的標(biāo)記要搜索的對(duì)象。各搜索引擎也不能實(shí)現(xiàn)交叉覆蓋。需要用不同的搜索引擎檢測(cè)才行。搜索引擎技術(shù)是由信息檢索技術(shù)發(fā)展而來(lái)的。作為一種計(jì)算機(jī)本身的技術(shù)在網(wǎng)絡(luò)上的使用,搜索引擎所要搜索的就是網(wǎng)頁(yè)的集合,所以要做好一個(gè)搜索引擎也是相當(dāng)困難和需要技術(shù)的,首先因?yàn)閿?shù)據(jù)的分布是分散的,沒(méi)有系統(tǒng)的整理,只是凌亂的存儲(chǔ)在服務(wù)器上,對(duì)網(wǎng)絡(luò)和平臺(tái)的需求特別高,其次就是,網(wǎng)絡(luò)信息的更新是飛速的,需要我們不斷的去刷新數(shù)據(jù),對(duì)技術(shù)的依托就更為強(qiáng)烈。再次就是數(shù)據(jù)并不是只有一種結(jié)構(gòu),而是各種結(jié)構(gòu)存在在網(wǎng)絡(luò)上,形式不同,就需要有能處理不同形式的處理器,所以一個(gè)好的搜索引擎必須具備高效的性能和大量的內(nèi)存和處理不同數(shù)據(jù)類(lèi)型的能力。

      全文搜索引擎也稱(chēng)為爬蟲(chóng)式的搜索引擎,是利用spider程序在訪問(wèn)網(wǎng)絡(luò)時(shí),提取站點(diǎn)的信息,并根據(jù)搜索的關(guān)鍵詞通過(guò)鏈接跳轉(zhuǎn)到其他站點(diǎn),從而獲取需要的信息和網(wǎng)頁(yè),基于對(duì)關(guān)鍵詞的檢索,分詞的問(wèn)題也就顯現(xiàn)出來(lái)了,尤其是在中文的分詞技術(shù)上還有很大的問(wèn)題,這這主要是因?yàn)橹形牡膹?fù)雜程度決定的,中文只能在字,句和段落之間做具體的劃分,對(duì)詞的劃分卻沒(méi)有明顯的界定,這無(wú)疑就對(duì)我們的搜索增加了難度。對(duì)語(yǔ)言的分析是一項(xiàng)龐大的工程,而不能僅僅作為一項(xiàng)技術(shù)來(lái)看待。目前,主要的分詞技術(shù)主要有基于詞庫(kù)的分詞和無(wú)詞典的分詞技術(shù),其中詞庫(kù)的分詞采用的有正向最大匹配和正向最小匹配等方法,這類(lèi)算法的設(shè)計(jì)要求較低,搜索也比較容易實(shí)現(xiàn),但是它過(guò)分依賴(lài)已經(jīng)建立的詞庫(kù),詞庫(kù)越豐富,搜索的結(jié)果就越簡(jiǎn)單,準(zhǔn)確率也就越高。而無(wú)詞典的分詞技術(shù),是在文章中的相鄰字進(jìn)行統(tǒng)計(jì),在文中出現(xiàn)的次數(shù)高,就會(huì)作為一個(gè)詞的索引幾率就大,從而提煉出關(guān)鍵詞,這類(lèi)技術(shù)的優(yōu)點(diǎn)就是可以節(jié)約建立詞庫(kù)的內(nèi)存,也避免了對(duì)分詞的把握不當(dāng)造成搜索困難,全文搜索引擎主要是通過(guò)收集站點(diǎn),過(guò)濾器,分詞程序,搜索引擎,和結(jié)果排序程序等幾步聯(lián)結(jié)起來(lái)來(lái)的,主要就是信息的采集,到信息的篩選和信息結(jié)果的查詢(xún)。

      在本文設(shè)計(jì)的搜索引擎中,他的整個(gè)運(yùn)行過(guò)程是這樣設(shè)定的,通過(guò)爬蟲(chóng)采集放在網(wǎng)絡(luò)上的站點(diǎn),并加以匯總,以天網(wǎng)格式的數(shù)據(jù)形式存儲(chǔ)在本地站點(diǎn),過(guò)濾器通過(guò)自身設(shè)定的程序?qū)Υ娣旁诒镜卣军c(diǎn)上的網(wǎng)頁(yè)進(jìn)行索引,通過(guò)對(duì)用戶關(guān)鍵詞的比較,查詢(xún)出需要的網(wǎng)頁(yè)傳輸給本地,并通過(guò)架構(gòu)小型的搜索引擎,使爬蟲(chóng)系統(tǒng)可以多線操作,保證網(wǎng)速的高速運(yùn)轉(zhuǎn),讓站點(diǎn)可以持續(xù)的鏈接,同時(shí)過(guò)濾不能訪問(wèn)的網(wǎng)站,本搜索引擎的另一個(gè)優(yōu)點(diǎn)就是采用天網(wǎng)格式的輸出,不僅容錯(cuò)性更高,而且他采用正向匹配,支持關(guān)鍵詞的查詢(xún)。本引擎基于Linux平臺(tái),編程語(yǔ)言c++,爬蟲(chóng)在采集信息的時(shí)候可以來(lái)回爬取,同時(shí)保持兩條線路,已經(jīng)訪問(wèn)和未訪問(wèn)的,并不斷的對(duì)新的站點(diǎn)和已經(jīng)訪問(wèn)過(guò)的站點(diǎn)做對(duì)比,不斷選取新的信息,進(jìn)行在本地站點(diǎn)上的存取。在索引方面本設(shè)計(jì)采用的是通過(guò)幾個(gè)中間的文件轉(zhuǎn)換來(lái)實(shí)現(xiàn)的,在分詞算法程序中,采用正向匹配最小窗口法,采用詞庫(kù)是TSE中的中文詞典,在基于詞庫(kù)的分詞算法中,詞匯的收集和詞典的內(nèi)部結(jié)構(gòu)的設(shè)計(jì)會(huì)影響著最終的搜索結(jié)果,一個(gè)詞庫(kù)的詞匯收集的越多,詞庫(kù)的結(jié)構(gòu)越合理,也就說(shuō)對(duì)我們搜索的結(jié)果也就越有幫助,即搜索的信息也就越全面和精確,這也不能說(shuō)就一直去擴(kuò)充詞庫(kù)就好了,一旦詞庫(kù)的詞越多,對(duì)切詞的要求就會(huì)更高,導(dǎo)致效率下降,甚至影響搜索的準(zhǔn)確率,所以在詞庫(kù)中最重要的是分詞的算法??梢哉f(shuō)分詞詞典就是一個(gè)人的大腦,只有對(duì)信息進(jìn)行擴(kuò)充和分類(lèi),這樣在用到的時(shí)候才能很快的提取出來(lái),不加以分類(lèi)就會(huì)快速的遺忘,這點(diǎn)不通過(guò)于計(jì)算機(jī),計(jì)算機(jī)只是增加了索引的難度。同時(shí)采用自動(dòng)分詞模塊,即采用正向最大匹配中文自動(dòng)匹配分詞算法對(duì)為登錄詞進(jìn)行召回,同時(shí)對(duì)未登錄詞的切分也是一個(gè)設(shè)計(jì),在這個(gè)模塊中實(shí)現(xiàn)了數(shù)據(jù)庫(kù)的分詞功能,并且實(shí)現(xiàn)了添加功能,查詢(xún)程序通過(guò)對(duì)關(guān)鍵詞的提取和對(duì)網(wǎng)頁(yè)站點(diǎn)的匹配得出需要的站點(diǎn),采用的是倒派所引查詢(xún)程序。在通過(guò)傳輸?shù)接脩舻谋镜卣军c(diǎn),實(shí)現(xiàn)信息的獲得。本文通過(guò)前人技術(shù)的研究和經(jīng)驗(yàn)的吸取,通過(guò)對(duì)各個(gè)模塊的分析最終實(shí)現(xiàn)了對(duì)一個(gè)全文搜索引擎的設(shè)計(jì),實(shí)現(xiàn)了信息的收集和信息的索引存儲(chǔ)和最后信息的查詢(xún)和導(dǎo)出,設(shè)計(jì)得以實(shí)現(xiàn)。面對(duì)現(xiàn)代信息的高度發(fā)達(dá),信息的更新周期越來(lái)越短,可以說(shuō)網(wǎng)絡(luò)速度的更新是我們所不能想象的,信息的激增對(duì)搜索引擎來(lái)說(shuō)是一種新的挑戰(zhàn),如何對(duì)信息進(jìn)行更好的過(guò)濾和存儲(chǔ)是本設(shè)計(jì)的一個(gè)重點(diǎn),對(duì)分詞的算法加以改進(jìn),實(shí)現(xiàn)對(duì)未登錄詞的收錄。都使我們使用搜索引擎時(shí)更加的便捷和快速。不過(guò)由于對(duì)分詞我們采用一次性讀取,會(huì)瞬間占用大量的磁盤(pán)和空間,影響計(jì)算機(jī)的運(yùn)行速度,所以這一模塊的增加對(duì)硬件的設(shè)備要求較高,同時(shí)采用二元分詞避免了因?yàn)閿?shù)據(jù)更新速度過(guò)快導(dǎo)致不能自動(dòng)識(shí)別新的詞匯,可以在一定程度上對(duì)這種情況進(jìn)行緩解。同時(shí)因?yàn)榧夹g(shù)要求,分詞器不能做到對(duì)新詞匯的自動(dòng)鑒別,詞庫(kù)的更新還需要更長(zhǎng)的反應(yīng)時(shí)間。

      搜索引擎從當(dāng)初信息搜索的需要,到現(xiàn)在已經(jīng)經(jīng)過(guò)了飛速的發(fā)展,不僅搜索的范圍越來(lái)越廣泛,而且搜索的項(xiàng)目也越來(lái)越多,功能比原來(lái)更加的強(qiáng)大,現(xiàn)在的搜索引擎大多是商業(yè)引擎,為了獲得利潤(rùn),很多搜索引擎不單單做簡(jiǎn)單的搜索功能,而是作為一個(gè)訪問(wèn)點(diǎn),去獲得點(diǎn)擊量,為用戶提供各式各樣的服務(wù),不僅可以看經(jīng)濟(jì),娛樂(lè),更有的發(fā)展為網(wǎng)上的購(gòu)物平臺(tái),為搜索引擎平臺(tái)獲取利益。網(wǎng)絡(luò)的飛速發(fā)展在帶來(lái)信息繁榮的同時(shí),也會(huì)加劇我們對(duì)信息的搜索需求,只有在信息激增的同時(shí),不斷的去完善搜索的工具,我們才能更好的去獲取信息,去第一時(shí)間了解事件,雖然現(xiàn)在的搜索引擎已經(jīng)有了好大的發(fā)展,可以相對(duì)便捷的提供服務(wù),但是在系統(tǒng)的穩(wěn)定性和信息的質(zhì)量的審核等相關(guān)方面還是需要進(jìn)一步的提升,對(duì)搜索引擎的改進(jìn)還是必然的。搜索引擎的技術(shù)的發(fā)展依然是電子信息化時(shí)代的需求,只有更新才能發(fā)展。

      【參考文獻(xiàn)】

      [1]盧亮,張博文.搜索引擎原理、時(shí)間與應(yīng)用.電子工業(yè)出版社,2007.

      [2]李曉明,劉建國(guó).搜索引擎技術(shù)及趨勢(shì).大學(xué)圖使館學(xué)報(bào),2006.

      猜你喜歡
      分詞搜索引擎
      分詞在英語(yǔ)教學(xué)中的妙用
      結(jié)巴分詞在詞云中的應(yīng)用
      值得重視的分詞的特殊用法
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
      基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
      廣告主與搜索引擎的雙向博弈分析
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      知識(shí)漫畫(huà)
      論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
      洛川县| 岐山县| 乌拉特前旗| 天气| 确山县| 双流县| 黄山市| 绥化市| 清镇市| 乌拉特后旗| 靖安县| 香港 | 龙里县| 马龙县| 新沂市| 盐源县| 张家港市| 乌苏市| 静乐县| 衡山县| 金塔县| 土默特左旗| 安龙县| 大城县| 湘潭县| 雷山县| 互助| 怀来县| 图们市| 清流县| 广宁县| 正安县| 资源县| 大冶市| 西峡县| 五莲县| 安溪县| 图们市| 钟祥市| 石台县| 鸡西市|