馮佳捷 王瑞
摘要:隨著我國科學技術的進步,網絡信息化的快速發(fā)展,搜索引擎成為了人們查找數據的最主要工具。在搜索引擎中,為了提高用戶查找所需要數據信息的準確性和全面性,可以使用中文分詞技術,中文分詞技術在中文搜索引擎中占據了重要的地位。用戶在使用中文分詞技術對中文搜索引擎的查準率及查全率有著深刻的影響。
關鍵詞:搜索引擎;中文分詞技術;查準率;查全率;深刻影響
中圖分類號:TP391.3文獻標識碼:A文章編號:1007-9599 (2013) 06-0000-02
隨著網絡信息化的飛速發(fā)展,搜索引擎成為了人們的主要查找信息數據的工具后,科技人員為了讓人們查找信息能夠更加方便,便積極研究新的技術。在中文分詞技術得到發(fā)展后,它能夠推動中文搜索引擎的發(fā)展,也極大的方便了人們的生活方式和節(jié)省了人們搜索信息所需要的時間。中文分詞技術的應用方法會對搜索引擎造成怎樣的影響,是需要專業(yè)的技術人員能夠更好的分析,尤其是中文搜索引擎的查準率與查全率。
1中文分詞技術的應用方法
1.1在中文分詞技術的應用當中可以使用字符串匹配的方法。字符串匹配是將待切分的字串與涵蓋內容全面的詞條使用一定的策略進行匹配。如果在一個詞典中,沒有找到其中一個字符串,就表示著匹配不成功,不能夠進行切分。而在經常使用中文分詞技術中人們常用正向最大匹配法以及逆向最大匹配法進行字符串匹配。但是運用這兩種方法在搜索引擎中有一定的優(yōu)勢與局限性。
1.2、理解的中文分詞方法是通過計算機對中文句子結構進行自動分詞的過程。在一個中文句子中,計算機利用中文中的詞組、語義等等來對這個句子進行分析評價,然后找出與原句意思最接近的句子。理解中文分詞方法在搜索引擎中并沒有得到實際的應用,它需要巨大的工作量,對一個句子的理解力也是及其復雜的,所以,它在搜索引擎中得到應用還需要進一步的研究與驗證。
1.3利用統(tǒng)計的中文分詞方法是根據在搜索引擎系統(tǒng)中,分詞中的詞組出現(xiàn)的次數進行統(tǒng)計,然后根據次數來決定該字符串是否能夠成為一個詞組。在使用統(tǒng)計的中文分詞方法時,是不需要對中文進行理解以及切分詞典,只需要對分詞所出現(xiàn)的次數進行統(tǒng)計,然后,我們也可以稱這種方法為無詞典分詞方法圈。同時,統(tǒng)計中文分詞法也可以對字符串相鄰的字符出現(xiàn)的次數進行一定的統(tǒng)計分析,然后確定這些相鄰字符的關系,然后確定它們是否可以組成詞組。
2中文搜索引擎的查準率及查全率的缺點
2.1在中文搜索引擎當中,查準率與查全率有著一定的局限性,這就需要我們要對此有著一個準確的認識。在查全率當中,對相關的信息量和全部的相關信息量進行對比。但是,在搜索引擎的系統(tǒng)當中所包含的信息量是巨大的并且人們是不可獲知的,只能對這些相關的信息量進行大致的估計;還有的就是查全率由于一定的不確定性,導致有許多假設的可能出現(xiàn),而這些假設的出現(xiàn),認為搜索出來的信息與用戶所需要的信息是具備著相同的價值,而這種假設的認為恰恰是不正確的,用戶永遠就是認為信息的相關程度越高對自己的用處也是越高的。
即使是在一些發(fā)達的國家,擁有著比我國更高的技術水平,也會有一些網頁不能讓搜索引擎很好的檢索出來。作為發(fā)展中國家,我國的大部分網站都是由網絡管理者提供瀏覽方式顯示內容,雖然有些網站經過設計者科學合理的組織和安排,但是還有百分之七十到百分之八十不能讓搜索引擎檢索出來。
我國所具備的引擎技術不管是在網絡信息化上還是在應用的環(huán)節(jié)上都存在著一定的缺陷性,沒有統(tǒng)一規(guī)范的管理措施以及技術水平。另外,搜索引擎在進行檢索時,因為檢索體系不能很好的相互配合,導致,用戶在進行檢索時會遇到一定的操作障礙。
2.2在中文搜索引擎當中,查準率也是具備著一定的局限性。用戶在搜索所需要的信息時,要進行題錄式搜索,而題錄式的內容是非常簡單的,用戶在看見自己所檢索的信息時是不能很好的判斷與自己所需要的信息是否有著密切的聯(lián)系;這樣,用戶就得找出搜索出來信息的全文,才能保證是否只自己所需要的信息,而這就浪費了用戶的大部分時間。同樣,查準率在搜索出來的相關信息當中也具有著與查全率一樣的假設可能的局限性。
有些搜索引擎沒有對信息進行相關的統(tǒng)計和分類,導致系統(tǒng)內的信息都混亂不清,各個信息之間的邏輯性沒有進行一定的明確分析;搜索引擎中沒有科學知識體系進行一定的聯(lián)系與溝通,通常都會造成搜索引擎與檢索的信息出現(xiàn)錯誤。在搜索引擎當中,由于沒有適當的檢索詞,導致檢索的查準率降低。
3中文分詞技術對中文搜索引擎的查準率及查全率的影響
3.1中文分詞技術的準確性對搜索引擎的影響是十分重大的。在搜索引擎當中,如果由于中文分詞的速度太慢,即使分詞的準確性再高,都是不可用的,對檢索的查準率會產生一定的影響。搜索引擎當中,都需要處理數以萬計的網頁,如果在中文分詞中耗用過長的時間,然后會影響搜索引擎中不斷更新內容的速度,這時,就會嚴重影響到檢索的查全率。
3.2在搜索引擎當中,利用理解的分詞方法,需要大量的語言知識和信息。然而,一直由于中文的語言知識一直是比較復雜的,每個詞都有好幾種意識,基于理解的分詞方法難以將各種的語言組織成一定的詞組,導致中文分詞技術對搜索引擎的查準率有一定的局限作用。
3.3基于字符串的中文分詞方法在搜索引擎當中有著一定的優(yōu)點,能夠在一定的程度上促進檢索的查全率。但是由于在對字符進行匹配時,由于中文語言的復雜性,會在一定程度上限制了用戶所需要信息的準確性,這時對檢索的查準率產生了一定的阻礙。
3.4中文分詞技術中,利用統(tǒng)計的分詞方法,將詞組在搜索引擎中出現(xiàn)的次數進行統(tǒng)計,然后可以出現(xiàn)新的詞組,然后對分詞進行切分,利用它們的語言特征進行統(tǒng)計,從而,能夠提高搜索引擎中檢索的查準率。
3.5中文分詞的各種技術都會對搜索引擎產生或大或小或優(yōu)或劣的影響。這就需要科研人員以及相關的技術人員對中文分詞進行一定的分析,將那些不好的影響運用相關的技術加以改善,讓中文分詞技術在搜索引擎中發(fā)揮出最大的良好的影響。雖然,依照我國目前的現(xiàn)狀看來,中文分詞技術沒有很好的研究隊伍,讓這項技術服務于更多的產品還有很長的路走,但是,現(xiàn)代的分詞技術對搜索引擎中的查準率還有查全率都有著一定的促進作用。
4總結
在網絡信息化高速發(fā)展的時代,給人們的生活方式、生產方式帶來了極大的方便。尤其是中文分詞技術在搜索引擎中的應用,不僅提高了人們的生活水平,也推動了信息化的發(fā)展。在搜索引擎當中,查準率與查全率只能存其一,不能夠同時存在。在利用中文分析技術后,對搜索引擎的查全率與查準率有著一定的推動作用,這就需要研究人員要全面的發(fā)展中文分詞技術,改善搜索引擎中出現(xiàn)的問題,保證查全率與查準率能夠同時出現(xiàn),全面發(fā)展。
參考文獻:
[1]曹羽中,曹勇剛,金茂忠,劉超.支持智能中文分詞的互聯(lián)網搜索引擎的構建[J].計算機工程與設計,2006,27(23):36-39.
[2]何莘,王琬蕪.自然語言檢索中的中文分詞技術研究進展及應用[J].情報科學,2008,26(05):03-05.
[3]鄭京華.提高搜索引擎檢索準確率的策略[J].科技情報開發(fā)與經濟,2007,21(17):67-69.
[作者簡介]馮佳捷(1990.8-),男,河北省石家莊人,研究方向:計算機算法應用,工程實踐;單位:華中師范大學 軟件工程 2010級;王瑞(1991.1-),男,重慶市人,研究方向:計算機網絡安全,華中師范大學 軟件工程 2010級。