• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      跨語(yǔ)言查詢擴(kuò)展技術(shù)研究進(jìn)展

      2018-01-17 09:23:22蘭慧紅
      電子技術(shù)與軟件工程 2017年23期
      關(guān)鍵詞:本體

      摘 要 跨語(yǔ)言查詢擴(kuò)展是改善和提高跨語(yǔ)言信息檢索系統(tǒng)檢索性能的核心技術(shù)之一。本文以跨語(yǔ)言查詢擴(kuò)展技術(shù)的發(fā)展為主線,將目前的研究方法主要分為三類:基于相關(guān)反饋的跨語(yǔ)言查詢擴(kuò)展、基于潛在語(yǔ)義的跨語(yǔ)言查詢擴(kuò)展和基于本體的跨語(yǔ)言查詢擴(kuò)展。對(duì)這三類跨語(yǔ)言查詢擴(kuò)展技術(shù)的研究進(jìn)展進(jìn)行了詳細(xì)的介紹和闡述,并對(duì)它們的優(yōu)缺點(diǎn)進(jìn)行分析,最后對(duì)其發(fā)展前景進(jìn)行展望。

      【關(guān)鍵詞】跨語(yǔ)言信息檢索 查詢擴(kuò)展 相關(guān)反饋 潛在語(yǔ)義分析 本體

      隨著互聯(lián)網(wǎng)的迅速發(fā)展和用戶需求的提高,單一語(yǔ)種檢索的局限性越來(lái)越明顯,人們已不再滿足于在單一語(yǔ)種中進(jìn)行檢索,而是迫切希望能檢索到更多其它語(yǔ)種的相關(guān)信息。由于用戶所掌握語(yǔ)言的有限性和網(wǎng)絡(luò)語(yǔ)言的多樣化導(dǎo)致當(dāng)前用戶從互聯(lián)網(wǎng)自由獲取多種語(yǔ)言信息的困難。為了消除語(yǔ)言障礙,將網(wǎng)絡(luò)信息資源提供給不同的用戶,跨語(yǔ)言信息檢索應(yīng)運(yùn)而生,并已成為突破信息存取語(yǔ)言障礙的關(guān)鍵。

      跨語(yǔ)言信息檢索(Cross-Language Information Retrieval, CLIR)是指用戶以一種語(yǔ)言檢索出另一種或多種語(yǔ)言信息的方法??缯Z(yǔ)言信息檢索涉及至少兩種以上語(yǔ)言,其關(guān)鍵問(wèn)題是如何實(shí)現(xiàn)源語(yǔ)言與目標(biāo)語(yǔ)言之間翻譯匹配的問(wèn)題。目前跨語(yǔ)言信息檢索方法主要有查詢翻譯、文檔翻譯、中間語(yǔ)言翻譯和基于同源匹配等四種方法??梢?jiàn),翻譯可以說(shuō)是跨語(yǔ)言信息檢索技術(shù)的核心問(wèn)題,然而,翻譯的歧義性和多義性問(wèn)題常常導(dǎo)致跨語(yǔ)言信息檢索性能低下。

      跨語(yǔ)言查詢擴(kuò)展(Cross-Language Query Expansion) 是解決跨語(yǔ)言信息檢索中查詢翻譯歧義和多義性問(wèn)題的核心技術(shù)之一,它通過(guò)對(duì)用戶的初始查詢進(jìn)行擴(kuò)展和重構(gòu),把與原查詢相關(guān)的詞或者與原查詢語(yǔ)義相關(guān)的詞添加到原查詢,構(gòu)建更明確清晰的新查詢,然后再次檢索,以彌補(bǔ)原查詢信息的不足,提高跨語(yǔ)言檢索性能。跨語(yǔ)言查詢擴(kuò)展按其發(fā)生的先后,可以分為翻譯前查詢擴(kuò)展、翻譯后查詢擴(kuò)展和結(jié)合翻譯前翻譯后查詢擴(kuò)展三種。與單語(yǔ)言查詢擴(kuò)展類似,跨語(yǔ)言查詢擴(kuò)展詞的來(lái)源主要有三種:一是來(lái)自于初檢結(jié)果相關(guān)文檔;二是基于語(yǔ)料庫(kù)的方法;三是利用聚類技術(shù)或文本挖掘技術(shù)從文檔集中獲取查詢擴(kuò)展詞。目前跨語(yǔ)言查詢擴(kuò)展研究主要集中在基于相關(guān)反饋、基于潛在語(yǔ)義和基于本體的方法。本文主要對(duì)這三類跨語(yǔ)言查詢擴(kuò)展技術(shù)的研究進(jìn)展進(jìn)行詳細(xì)的介紹和闡述,以期對(duì)感興趣的同行有一定的參考作用。

      1 基于相關(guān)反饋的跨語(yǔ)言查詢擴(kuò)展

      相關(guān)反饋是一種查詢重構(gòu)技術(shù),其在跨語(yǔ)言信息檢索過(guò)程中利用跨語(yǔ)言初檢結(jié)果的前列文檔作為擴(kuò)展詞的來(lái)源,實(shí)現(xiàn)跨語(yǔ)言查詢擴(kuò)展,然后再進(jìn)行二次檢索。相關(guān)反饋技術(shù)按照用戶是否參與可分為用戶相關(guān)反饋(也稱為交互式相關(guān)反饋)和偽相關(guān)反饋(也稱為自動(dòng)相關(guān)反饋)。

      1.1 用戶相關(guān)反饋

      基于用戶相關(guān)反饋的跨語(yǔ)言查詢擴(kuò)展融入了用戶的參與,用戶不僅能夠?qū)Τ鯔z結(jié)果文檔進(jìn)行相關(guān)性判斷,而且還可以控制和修改查詢。其基本思想是:由用戶對(duì)初檢結(jié)果的文檔進(jìn)行相關(guān)性判斷,系統(tǒng)根據(jù)這些判定重新構(gòu)建更接近用戶需求的查詢,然后再次檢索文檔。

      國(guó)內(nèi)外學(xué)者對(duì)基于用戶相關(guān)反饋的跨語(yǔ)言查詢擴(kuò)展都作了一些研究,Orengo等[1]基于用戶相關(guān)反饋進(jìn)行了英語(yǔ)-葡萄牙語(yǔ)跨語(yǔ)言查詢擴(kuò)展實(shí)驗(yàn),由27位葡萄牙語(yǔ)志愿者對(duì)檢索結(jié)果列表的前10篇文檔進(jìn)行相關(guān)性判斷,然后再進(jìn)行跨語(yǔ)言查詢擴(kuò)展,研究成果表明該方法有效的提高跨語(yǔ)言檢索性能。吳丹[2]將用戶相關(guān)反饋應(yīng)用于跨語(yǔ)言信息檢索全過(guò)程,由54位志愿者分別采用三種方法對(duì)檢索主題進(jìn)行跨語(yǔ)言信息檢索并對(duì)檢索結(jié)果進(jìn)行相關(guān)性判斷與反饋,根據(jù)反饋結(jié)果進(jìn)行查詢擴(kuò)展,實(shí)驗(yàn)結(jié)果表明用戶的參與有助于提高查詢準(zhǔn)確率,能夠獲得較好的檢索效果。但該方法的主要缺陷是需要大量的用戶參與,給用戶帶來(lái)很大的負(fù)擔(dān),成本較高。

      1.2 偽相關(guān)反饋

      基于偽相關(guān)反饋的跨語(yǔ)言查詢擴(kuò)展方法不需要用戶參與,完全自動(dòng)進(jìn)行,是一種相對(duì)簡(jiǎn)單實(shí)用的自動(dòng)優(yōu)化策略,被大量應(yīng)用于相關(guān)反饋實(shí)驗(yàn)中。其基本思想是:通過(guò)假定檢索結(jié)果列表的前n篇文檔為相關(guān)文檔并將其作為擴(kuò)展詞來(lái)源進(jìn)行查詢擴(kuò)展,再進(jìn)行二次檢索。

      其典型算法是微軟亞洲研究院提出的兩步偽相關(guān)反饋法[3]。該方法首先使用源語(yǔ)言查詢式進(jìn)行檢索,然后從檢索結(jié)果的前n篇文檔中選出出現(xiàn)頻率最高的m個(gè)詞作為查詢擴(kuò)展詞,再用雙語(yǔ)詞典將源語(yǔ)言查詢?cè)~翻譯為目標(biāo)語(yǔ)言查詢?cè)~進(jìn)行二次檢索,實(shí)驗(yàn)結(jié)果表明該方法能夠較好的提高跨語(yǔ)言檢索性能。但其主要缺點(diǎn)是過(guò)分依賴于前n篇文檔的精確度,當(dāng)檢索到的前n篇文檔與查詢式無(wú)關(guān)時(shí),會(huì)連帶造成擴(kuò)展偏差。

      Paul McNamee[4]以及吳丹等[5]在文獻(xiàn)[3]基礎(chǔ)上對(duì)基于偽相關(guān)反饋的跨語(yǔ)言查詢擴(kuò)展進(jìn)行了深入研究,并對(duì)翻譯前查詢擴(kuò)展、翻譯后查詢擴(kuò)展以及兩者不同的組合進(jìn)行了一系列的實(shí)驗(yàn)。吳丹[6]還通過(guò)偽相關(guān)反饋實(shí)驗(yàn)比較4種跨語(yǔ)言信息檢索查詢翻譯優(yōu)化技術(shù),取得較好的研究成果。

      為了解決翻譯歧義性問(wèn)題,Abdelghani Bellaachia[7]等結(jié)合WordNet和偽相關(guān)反饋的方法進(jìn)行英語(yǔ)-阿拉伯語(yǔ)跨語(yǔ)言查詢擴(kuò)展研究,通過(guò)偽相關(guān)反饋獲得候選擴(kuò)展詞后,利用WordNet對(duì)候選擴(kuò)展詞進(jìn)行共現(xiàn)檢查,以達(dá)到消歧的目的。

      近年來(lái),基于主題模型的跨語(yǔ)言偽相關(guān)反饋查詢擴(kuò)展方法也受到了研究者的青睞。王序文等[8-11]先后進(jìn)行了基于潛在狄利克雷分配主題模型、基于雙語(yǔ)主題模型以及基于弱相關(guān)主題對(duì)齊的跨語(yǔ)言偽相關(guān)反饋查詢擴(kuò)展進(jìn)行研究,利用主題層進(jìn)行相關(guān)反饋,減少無(wú)關(guān)主題的干擾,提高跨語(yǔ)言檢索性能。文獻(xiàn)[12-13]利用主題模型對(duì)相關(guān)文檔的主題進(jìn)行劃分,并將其用于偽相關(guān)反饋查詢擴(kuò)展詞的選取,提高跨語(yǔ)言檢索準(zhǔn)確率。

      2 基于潛在語(yǔ)義的跨語(yǔ)言查詢擴(kuò)展

      為了解決1.2節(jié)中的缺陷,一些學(xué)者提出了基于潛在語(yǔ)義的跨語(yǔ)言查詢擴(kuò)展方法。其基本思想是:利用潛在語(yǔ)義分析技術(shù)建立不同語(yǔ)言之間的對(duì)應(yīng)關(guān)系,然后從擴(kuò)展雙語(yǔ)文本集合中找出與原查詢相關(guān)的目標(biāo)語(yǔ)言特征詞作為查詢擴(kuò)展詞,實(shí)現(xiàn)跨語(yǔ)言查詢擴(kuò)展。endprint

      潛在語(yǔ)義分析法是由S.T.Dumais[14]等人提出的,它假設(shè)文本集中詞與詞、詞與文本、文本與文本之間存在著某種潛在語(yǔ)義結(jié)構(gòu),通過(guò)統(tǒng)計(jì)計(jì)算的方法對(duì)文本集進(jìn)行分析,提取出這種潛在的語(yǔ)義信息,從而達(dá)到消除詞之間的相關(guān)性,簡(jiǎn)化文本向量的目的。他們將潛在語(yǔ)義索引(Latent Semantic Indexing,LSI)模型應(yīng)用于法語(yǔ)-英語(yǔ)跨語(yǔ)言信息檢索中,利用奇異值分解技術(shù)對(duì)雙語(yǔ)檢索詞-文檔關(guān)聯(lián)矩陣進(jìn)行奇異值分解,構(gòu)造出法-英雙語(yǔ)潛在語(yǔ)義空間,實(shí)現(xiàn)無(wú)需翻譯的跨語(yǔ)言查詢擴(kuò)展,實(shí)驗(yàn)結(jié)果表明該方法能夠獲得較好的檢索結(jié)果。

      國(guó)內(nèi)學(xué)者對(duì)基于潛在語(yǔ)義的跨語(yǔ)言查詢擴(kuò)展也進(jìn)行了一系列的研究。閉劍婷等[15]結(jié)合文本聚類和潛在語(yǔ)義分析的方法進(jìn)行了中英跨語(yǔ)言查詢擴(kuò)展研究,利用k-means聚類提高擴(kuò)展文本集合的精度,并用潛在語(yǔ)義分析實(shí)現(xiàn)無(wú)需翻譯的跨語(yǔ)言查詢擴(kuò)展,提高查詢準(zhǔn)確率。魏露等[16]對(duì)文獻(xiàn)[15]進(jìn)行改進(jìn),采用奇異值分解和非負(fù)矩陣分解相結(jié)合的方法建立雙語(yǔ)空間,實(shí)現(xiàn)查詢擴(kuò)展優(yōu)化,改善跨語(yǔ)言檢索性能。寧健等[17]利用改進(jìn)的潛在語(yǔ)義分析方法實(shí)現(xiàn)生物醫(yī)學(xué)雙語(yǔ)摘要跨語(yǔ)言信息檢索,實(shí)驗(yàn)結(jié)果表明該方法能夠提高跨語(yǔ)言檢索的準(zhǔn)確率。羅遠(yuǎn)勝等[18]通過(guò)雙語(yǔ)平行語(yǔ)料庫(kù)構(gòu)造每種語(yǔ)言的潛在語(yǔ)義空間,提取不同語(yǔ)言之間的語(yǔ)義對(duì)信息,改善和提高跨語(yǔ)言檢索性能。郭文等[19]把語(yǔ)義詞典和馬爾可夫隨機(jī)域的潛在語(yǔ)義擴(kuò)展相結(jié)合,將查詢?cè)~的近義詞、同義詞、上位詞和潛在語(yǔ)義相關(guān)詞作為查詢擴(kuò)展詞進(jìn)行查詢擴(kuò)展,較好地解決跨語(yǔ)言信息檢索翻譯歧義性問(wèn)題,改善檢索性能。

      基于潛在語(yǔ)義的跨語(yǔ)言查詢擴(kuò)展的缺點(diǎn)是:實(shí)驗(yàn)所需的雙語(yǔ)訓(xùn)練文檔較難獲得,奇異值分解技術(shù)的計(jì)算所花費(fèi)的時(shí)間較長(zhǎng)。

      3 基于本體的跨語(yǔ)言查詢擴(kuò)展

      本體是對(duì)概念及概念之間關(guān)系規(guī)范化、明確化、形式化、可共享的一種描述,其目標(biāo)是捕獲相關(guān)領(lǐng)域知識(shí)中詞與詞之間相互關(guān)系的明確定義?;诒倔w的跨語(yǔ)言查詢擴(kuò)展的基本思想是:通過(guò)對(duì)本體概念的描述,將源語(yǔ)言與目標(biāo)語(yǔ)言在該概念下進(jìn)行統(tǒng)一,并根據(jù)含義建立雙語(yǔ)映射。當(dāng)用戶輸入源語(yǔ)言查詢?cè)~時(shí),系統(tǒng)根據(jù)本體的概念內(nèi)涵及概念關(guān)系找出對(duì)應(yīng)的目標(biāo)語(yǔ)言查詢?cè)~,實(shí)現(xiàn)跨語(yǔ)言查詢擴(kuò)展。

      王進(jìn)等[20]利用本體在知識(shí)表示和語(yǔ)義描述方面的優(yōu)勢(shì),提出了一種基于本體的跨語(yǔ)言信息檢索模型,解決查詢?cè)趶脑凑Z(yǔ)言到目標(biāo)語(yǔ)言轉(zhuǎn)換過(guò)程中出現(xiàn)的語(yǔ)義損失和曲解等問(wèn)題,改善跨語(yǔ)言檢索性能。吳芳等[21]提出了一種基于雙語(yǔ)本體的跨語(yǔ)言查詢擴(kuò)展,利用旅游領(lǐng)域本體實(shí)現(xiàn)基于概念的智能查詢擴(kuò)展,取得了較好的效果。

      該方法的缺陷是:對(duì)語(yǔ)義信息的利用完全依賴于本體庫(kù),因此本體庫(kù)的語(yǔ)義完整性將很大程度上決定了跨語(yǔ)言信息檢索性能。

      4 結(jié)束語(yǔ)

      本文以跨語(yǔ)言查詢擴(kuò)展技術(shù)的發(fā)展為主線,將目前的研究方法主要分為三類,對(duì)這三類研究方法進(jìn)行了詳細(xì)的介紹和闡述,并對(duì)它們的優(yōu)缺點(diǎn)進(jìn)行分析。由于跨語(yǔ)言查詢擴(kuò)展受到語(yǔ)詞匹配、翻譯資源類型、翻譯資源質(zhì)量及語(yǔ)種等問(wèn)題的影響,跨語(yǔ)言查詢擴(kuò)展技術(shù)的研究將是一個(gè)長(zhǎng)期的、值得探討的研究課題。用戶是信息需求的主體,如何通過(guò)用戶行為更好地提取用戶的查詢語(yǔ)義從而進(jìn)行跨語(yǔ)言查詢擴(kuò)展將是未來(lái)的一個(gè)研究方向。

      參考文獻(xiàn)

      [1]Orengo V M,Huyck C.Relevance feedback and cross-language information retrieval[J].Information Processing and Management,2006,42(05):1203-1217.

      [2]吳丹.交互式跨語(yǔ)言信息檢索中用戶行為研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2012,38(199):78-90.

      [3]Gao J F,et a1.TREC-9 CLIR Experiments at MSRCN[C]// Proceedings of the 9th Text Retrieval Evaluation Conference,2001:343-353.

      [4]McNamee P,Mayfield J.Comparing cross-language query expansion techniques by degrading translation resources[C].Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2002:159-166.

      [5]吳丹,何大慶,王惠臨.基于偽相關(guān)反饋的跨語(yǔ)言查詢擴(kuò)展[J].情報(bào)學(xué)報(bào),2010,29(02):232-239.

      [6]吳丹,何大慶,王惠臨.一種基于相關(guān)反饋的跨語(yǔ)言信息檢索查詢翻譯優(yōu)化技術(shù)研究[J].情報(bào)學(xué)報(bào),2012,31(04):398-406.

      [7]Abdelghani Bellaachia and Ghita AmorTijani.Enhanced Query Expansion in English-Arabic CLIR[C]//Proc of the 19th IEEE International Conference on Database and Expert Systems Application,IEEE Computer Society Washington,DC,USA,2008.

      [8]Wang X W,Zhang Q,Wang X J,et a1. LDA Based PSEUDO Relevance Feedback for Cross Language Information Retrieval[C].Proceedings of the 2nd International Conference on Cloud Computing and Intelligence Systems.IEEE,2012.endprint

      [9]Wang X W,Wang X J,Zhang Q,et al.A Web-Based CLIR System with Cross-Lingual Topical Pseudo Relevance Feedback[C].Proceedings of the 4th International Conference on Conference and Labs of the Evaluation Forum (CLEF) Initiative,ValenciaSpain.2013.

      [10]王序文,王小捷,孫月萍.雙語(yǔ)主題跨語(yǔ)言偽相關(guān)反饋[J].北京郵電大學(xué)學(xué)報(bào),2013,36(04):81-84.

      [11]Wang X W,Zhang Q,Wang X J,et al.Cross-lingual Pseudo Relevance Feedback Based on Weak Relevant Topic Alignment[C].Proceedings of the 29th Pacific Asia Conference on Language,Information and Computation Shanghai,China.2015:529-534.

      [12]張博,張斌,高克寧.一種用于查詢擴(kuò)展詞選取的主題模型[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,34(03):348-350.

      [13]高璐.基于主題模型的藏漢跨語(yǔ)言信息檢索查詢擴(kuò)展研究[D].北京:中央民族大學(xué),2017.

      [14]Dumais S T,Letsche T A,Littman M L,et al.Automatic cross-language retrieval using latent semantic indexing[J].Aaai Symposium on Cross language Text & Speech Retrieval,1997:51-62.

      [15]閉劍婷,蘇一丹.基于潛在語(yǔ)義分析的跨語(yǔ)言查詢擴(kuò)展方法[J].計(jì)算機(jī)工程,2009,35(10):49-53.

      [16]魏露,李書(shū)琴,李偉男等.跨語(yǔ)言查詢擴(kuò)展優(yōu)化[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(08):2785-2788,2803.

      [17]寧健,林鴻飛.基于改進(jìn)潛在語(yǔ)義分析的跨語(yǔ)言檢索[J].中文信息學(xué)報(bào),2010,24(03):105-111.

      [18]羅遠(yuǎn)勝,王明文,勒中堅(jiān)等.跨語(yǔ)言信息檢索中的雙語(yǔ)主題相關(guān)模型[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(12):2758-2763.

      [19]郭文,陳毅東,趙欣.跨語(yǔ)言信息檢索中的查詢擴(kuò)展[J].心智與計(jì)算,2009,3(0l):1-8.

      [20]王進(jìn),陳恩紅,張振亞等.基于本體的跨語(yǔ)言信息檢索模型[J].中文信息學(xué)報(bào),2004,18(03):1-8,60.

      [21]吳芳,丁玲,張杰等.跨語(yǔ)言信息檢索中基于本體的查詢擴(kuò)展模型研究[J].計(jì)算機(jī)教育,2009(17):122-124.

      作者簡(jiǎn)介

      蘭慧紅(1985-),女,廣西壯族自治區(qū)河池市人。碩士學(xué)位?,F(xiàn)為廣西教育學(xué)院教師,講師。主要研究方向?yàn)閿?shù)據(jù)挖掘和信息檢索。

      作者單位

      廣西教育學(xué)院 廣西壯族自治區(qū)南寧市 530023endprint

      猜你喜歡
      本體
      Abstracts and Key Words
      灰鑄鐵缸體本體抗拉強(qiáng)度提升的研究
      眼睛是“本體”
      對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
      領(lǐng)域本體的查詢擴(kuò)展和檢索研究
      山東冶金(2019年3期)2019-07-10 00:54:02
      本體在產(chǎn)品設(shè)計(jì)知識(shí)管理中的應(yīng)用研究
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      一種基于本體的語(yǔ)義檢索設(shè)計(jì)與實(shí)現(xiàn)
      媒介生存:關(guān)于新聞史研究本體的思考
      專題
      准格尔旗| 绥化市| 炉霍县| 正安县| 密云县| 洱源县| 元江| 泰兴市| 洪江市| 门头沟区| 恩施市| 吴桥县| 五指山市| 秀山| 东阿县| 工布江达县| 如东县| 开封县| 邵武市| 上犹县| 屯门区| 永和县| 通海县| 香格里拉县| 莆田市| 绥阳县| 林芝县| 绥棱县| 卓尼县| 余干县| 香格里拉县| 巴青县| 宁河县| 常宁市| 津南区| 怀安县| 穆棱市| 洛川县| 柳州市| 沙湾县| 集安市|