• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向藏文檢索結(jié)果的聚類研究

      2014-12-31 00:00:00蔚承剛韓爭艷戴玉剛
      數(shù)字化用戶 2014年21期

      【摘 要】隨著信息的迅猛發(fā)展,針對(duì)檢索系統(tǒng)的改進(jìn)已逐漸成為研究的熱點(diǎn)。通過對(duì)檢索結(jié)果的進(jìn)一步處理已成為研究的熱點(diǎn)領(lǐng)域。采取聚類算法的研究是一種有效的改進(jìn)策略,通過對(duì)檢索結(jié)果進(jìn)行聚類,將檢索結(jié)果進(jìn)行分類,這方便用戶快速找到自己所需信息。本文是將傳統(tǒng)的聚類算法運(yùn)用到信息檢索系統(tǒng)中,對(duì)檢索得到的結(jié)果進(jìn)行聚類,達(dá)到對(duì)結(jié)果分類區(qū)分。

      【關(guān)鍵詞】信息檢索;藏文;聚類

      一、引言

      隨著IT技術(shù)的發(fā)展,我們處于一個(gè)信息爆炸的時(shí)代。目前人們對(duì)信息索取的需要也變得越來越嚴(yán)格,如何從海量數(shù)據(jù)中高效、準(zhǔn)確地獲得自己所需的信息,是目前國內(nèi)外專家學(xué)者亟需研究的熱點(diǎn)。信息檢索是指從信息資源的集合中查找所需文獻(xiàn)或查找所需文獻(xiàn)中包含的信息內(nèi)容的過程。藏文信息檢索技術(shù)對(duì)于促進(jìn)藏文信息處理技術(shù)的發(fā)展及廣大藏語區(qū)的信息化程度的發(fā)展意義重大。藏文信息檢索技術(shù)近年來在各個(gè)方面也取得了一些進(jìn)展,目前已完成了基本的搜索功能,包括分詞、去停用詞、編碼轉(zhuǎn)換、建立索引、以及查詢等關(guān)鍵技術(shù)[1]。為使用戶能夠從大量的檢索信息中快速地找到自己感興趣的內(nèi)容,可以將聚類技術(shù)應(yīng)用于搜索引擎中,通過對(duì)檢索返回的信息進(jìn)行聚類,可以使用戶快速地定位到自己感興趣的信息所在的類別,方便用戶的查詢。

      二、藏文檢索關(guān)鍵技術(shù)

      藏文信息處理中的非常重要的工作就是藏文分詞,目前很多專家對(duì)藏文分詞作了研究并開發(fā)了相關(guān)分詞系統(tǒng),如何切分緊緊相連的字符又能最大程度保持原意,目前對(duì)于藏文的切分主要是BCCF(基于格助詞和接續(xù)特征的分詞)法[2]。

      Lucene是一個(gè)用Java寫的全文檢索引擎工具包,可以方便地嵌入到實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引檢索功能。源碼中核心類包主要有3個(gè): analysis、index、search。其中, analysis主要用于切分詞,切分詞的工作由Analyzer的擴(kuò)展類來實(shí)現(xiàn)。由于Lucene默認(rèn)不支持藏文分詞,因此需要擴(kuò)展接口以實(shí)現(xiàn)藏文分詞。利用擴(kuò)展藏文分詞是實(shí)現(xiàn)基于Lucene的藏文信息檢索的重要一步

      支持藏文分詞以后,基于Lucene的藏文信息檢索以后的工作與漢語中的操作一致,還要對(duì)文檔建立倒排索引表、相似度計(jì)算等。

      三、檢索結(jié)果聚類算法研究

      聚類是在未知數(shù)據(jù)情況下尋找自然分組的過程,可以提高結(jié)果相關(guān)度,增加搜索結(jié)果針對(duì)性。對(duì)本文,聚類是針對(duì)檢索結(jié)果形成不同分類,縮小用戶搜索范圍,只要用戶選定某一話題就可針對(duì)該話題搜索,給用戶一個(gè)選擇范圍彌補(bǔ)搜索的不相關(guān)性。聚類結(jié)果會(huì)以層次.關(guān)系形成導(dǎo)航欄,用戶根據(jù)自己需求來選擇要瀏覽的類別或下面的子類。目前,對(duì)檢索結(jié)果進(jìn)行聚類的算法主要有兩大類。第一類是對(duì)現(xiàn)有的傳統(tǒng)聚類算法進(jìn)行使用或者改進(jìn),以適應(yīng)信息檢索結(jié)果的聚類,現(xiàn)有聚類算法主要以k均值為主;第二類是對(duì)檢索信息的聚類技術(shù)是主題分析方法,首先獲得結(jié)果集包含的多類信息,并抽取相應(yīng)的特征,然后合并相關(guān)文檔以形成一個(gè)類別,此方法描述每個(gè)類別所反映的主題[4]。由于傳統(tǒng)聚類算法實(shí)現(xiàn)起來簡單,本文擬采用傳統(tǒng)的聚類算法對(duì)信息檢索結(jié)果的聚類。

      傳統(tǒng)聚類算法有劃分法、層次法等,目前最常用的是劃分法中的k均值算法,由于此算法具有速度快等優(yōu)點(diǎn),本文擬采用此算法。在檢索的過程中,將所有包括查詢項(xiàng)的文檔進(jìn)行建模,然后執(zhí)行k均值算法對(duì)檢索結(jié)果分類。

      k均值算法的基本過程為:(1) 從 n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類中心;(2) 根據(jù)每個(gè)聚類對(duì)象的均值,計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象劃分;(3) 重新計(jì)算每個(gè)聚類的均值;(4)計(jì)算標(biāo)準(zhǔn)測度函數(shù),當(dāng)滿足一定條件,如函數(shù)收斂時(shí),則算法終止;如果條件不滿足則回到步驟(2)。

      聚類過程中,對(duì)每個(gè)文檔利用向量空間模型建模,從而將每一個(gè)文檔表示成一個(gè)向量模型,向量上的每一個(gè)值對(duì)應(yīng)的都是一個(gè)詞在某一個(gè)文檔中的文檔頻率-逆文檔頻率值。Tf值,公式如下:

      四、總結(jié)

      本文在基于藏文信息檢索的上對(duì)結(jié)果進(jìn)行聚類,以提高檢索效率,將最終結(jié)果展現(xiàn)為目錄分類形式。由于傳統(tǒng)的聚類算法原理簡單,實(shí)現(xiàn)起來高效快速,故本文選擇了傳統(tǒng)的聚類算法k均值算法進(jìn)行聚類。本文目前的研究還很有限,算法的效率有待提高,或者使用更高效的算法以達(dá)到提高聚類效率以及準(zhǔn)確率的目的。藏文信息檢索技術(shù)將是未來藏文信息化處理的重要方向,具有很大價(jià)值,對(duì)于檢索結(jié)果的聚類研究將是未來的熱點(diǎn)研究領(lǐng)域。

      參考文獻(xiàn):

      [1]蘇譚英,等.一種基于 LUCENE 的中文全文檢索系統(tǒng)[J].計(jì)算機(jī)工程,2007.

      [2]陳玉忠,李保利,俞士汶,等.基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[J].語言文字應(yīng)用,2003,1:75-82.

      [3]萬德穩(wěn). 藏文搜索和搜索結(jié)果聚類研究及系統(tǒng)實(shí)現(xiàn)[D].西南交通大學(xué),2013.

      [4]劉銘,劉秉權(quán),劉遠(yuǎn)超. 面向信息檢索的快速聚類算法[J]. 計(jì)算機(jī)研究與發(fā)展,2013,07:1452-1463.

      作者簡介:蔚承剛,男,碩士研究生,研究方向?yàn)榫W(wǎng)絡(luò)與應(yīng)用;韓爭艷,女,碩士研究生,研究方向?yàn)樵朴?jì)算;戴玉剛,男,教授,方向?yàn)樽匀徽Z言處理;

      項(xiàng)目名稱:西北民族大學(xué)中央專項(xiàng)資金資助研究生項(xiàng)目(項(xiàng)目號(hào):ycx14031)

      理塘县| 张家口市| 隆回县| 北京市| 军事| 新泰市| 开远市| 珠海市| 双流县| 武隆县| 夹江县| 五原县| 八宿县| 双峰县| 汕尾市| 富平县| 台中市| 石家庄市| 惠水县| 津市市| 常德市| 永德县| 隆林| 日喀则市| 达尔| 英吉沙县| 化州市| 江城| 江北区| 新宁县| 安新县| 紫阳县| 锦州市| 塔河县| 潜江市| 洪雅县| 尼勒克县| 绥德县| 大城县| 库尔勒市| 六枝特区|