葉 雪,梁 娟
(陜西財(cái)經(jīng)職業(yè)技術(shù)學(xué)院,陜西 咸陽(yáng) 712099)
信息時(shí)代中出現(xiàn)了大量的數(shù)字信息,文本信息為最常用、最基本的方式,為了能夠在海量文本信息中尋找自己所需要的,人們需要高效檢索工具。如何能夠?qū)Ψ墙Y(jié)構(gòu)數(shù)據(jù)進(jìn)行存儲(chǔ)與查詢(xún),屬于重點(diǎn)研究?jī)?nèi)容[1]。上世紀(jì)90年代,人們對(duì)信息檢索的要求越來(lái)越高,不再滿(mǎn)足同個(gè)語(yǔ)種檢索,要在檢索結(jié)果中具備多語(yǔ)種信息。在國(guó)際互聯(lián)網(wǎng)不斷發(fā)展的過(guò)程中,Internet中信息資源數(shù)量與類(lèi)型越來(lái)越豐富,語(yǔ)言也具備不平衡性與多樣性。網(wǎng)絡(luò)用戶(hù)數(shù)量也越來(lái)越多,掌握語(yǔ)言也多樣化。因?yàn)榫W(wǎng)絡(luò)資源語(yǔ)種多樣性與網(wǎng)絡(luò)用戶(hù)對(duì)語(yǔ)言掌握的差異化,導(dǎo)致人們通過(guò)網(wǎng)絡(luò)對(duì)信息檢索出現(xiàn)語(yǔ)言障礙,為非英語(yǔ)國(guó)家用戶(hù)使用網(wǎng)絡(luò)信息帶來(lái)了不便[2]。因此,英漢跨語(yǔ)言信息檢索設(shè)計(jì)的研究具有重要意義。
跨語(yǔ)言信息檢索(CLIR)中的查詢(xún)根據(jù)長(zhǎng)度劃分為長(zhǎng)查詢(xún)、短查詢(xún)與標(biāo)題查詢(xún),查詢(xún)翻譯已經(jīng)成為針對(duì)跨語(yǔ)言信息檢索最流行的技術(shù),性能達(dá)到單純檢索效率的50%~75%;并且創(chuàng)建查詢(xún)翻譯處理模塊和創(chuàng)建文檔翻譯處理模塊對(duì)比,前者比較容易實(shí)現(xiàn)[3]。所以,將基于平行語(yǔ)料庫(kù)的查詢(xún)翻譯作為跨越源語(yǔ)和目標(biāo)語(yǔ)的語(yǔ)言界限方法,并且用英語(yǔ)雙語(yǔ)詞典作為主體的知識(shí)源實(shí)現(xiàn)查詢(xún)翻譯處理。在創(chuàng)建的面向英漢跨語(yǔ)言信息檢索系統(tǒng)中,重點(diǎn)為漢語(yǔ)IR與查詢(xún)翻譯。實(shí)現(xiàn)系統(tǒng)的思想為:使初始源語(yǔ)(英語(yǔ))查詢(xún)翻譯成為目標(biāo)語(yǔ)(漢語(yǔ))單詞列表,之后通過(guò)翻譯處理進(jìn)行查詢(xún),利用漢語(yǔ)IR技術(shù)和概率方法得到相應(yīng)文檔列表。通過(guò)全自動(dòng)的方式實(shí)現(xiàn)全部查詢(xún)處理,包括短查詢(xún)、長(zhǎng)查詢(xún)的翻譯處理[4],圖1為英漢跨語(yǔ)言信息檢索系統(tǒng)的結(jié)構(gòu)。
圖1 英漢跨語(yǔ)言信息檢索系統(tǒng)的結(jié)構(gòu)
英漢跨語(yǔ)言信息檢索的翻譯算法主要包括預(yù)處理、預(yù)分析和翻譯處理,其中預(yù)處理指的是英語(yǔ)查詢(xún)分詞、大小寫(xiě)變換、標(biāo)記標(biāo)點(diǎn)符號(hào)等預(yù)處理過(guò)程;翻譯處理為實(shí)現(xiàn)英語(yǔ)查詢(xún)短語(yǔ)層、詞匯層兩層翻譯的處理過(guò)程;預(yù)分析指的是實(shí)現(xiàn)英語(yǔ)查詢(xún)中單詞形態(tài)恢復(fù)、禁用詞標(biāo)記、詞性分析等處理的過(guò)程[5]。
2.1.1 預(yù)處理
英語(yǔ)分詞查詢(xún)過(guò)程中,要利用不同標(biāo)點(diǎn)符號(hào)啟發(fā)式方法分割句子,以空格作為標(biāo)志,將每個(gè)句子字符切割成為單詞流;針對(duì)通過(guò)分詞處理得到的單詞流,使其中的標(biāo)點(diǎn)符號(hào)實(shí)現(xiàn)標(biāo)注處理;因?yàn)橛⒄Z(yǔ)查詢(xún)大部分都是新聞報(bào)道標(biāo)題,首字母都是大寫(xiě)形式的詞匯,所以要正確判斷,針對(duì)單詞首字母進(jìn)行大小寫(xiě)變換處理,為后續(xù)操作提供正確信息[6]。
2.1.2 預(yù)分析
英語(yǔ)查詢(xún)通過(guò)預(yù)處理之后,預(yù)分析要標(biāo)注其中的禁用詞,并且恢復(fù)變換形勢(shì)的單詞。一個(gè)詞可能會(huì)具有多種不同的詞性,在不同句子中的語(yǔ)法性能各有不同。所以,要決定一個(gè)詞的詞類(lèi)需在具體句子中以其他詞的語(yǔ)法功能進(jìn)行判定?;陔[馬爾可夫模型HMM詞性標(biāo)注器實(shí)現(xiàn)正確地標(biāo)注詞類(lèi)[7]。
因?yàn)橛⒄Z(yǔ)查詢(xún)中具備變化形式的單詞,不利于得到正確的翻譯結(jié)果,所以,要通過(guò)英漢雙語(yǔ)詞典,利用不規(guī)則形態(tài)恢復(fù)表和規(guī)則變化啟發(fā)式實(shí)現(xiàn)單詞形態(tài)恢復(fù)處理,得到相應(yīng)的原形[8]。
2.1.3 翻譯處理
詞匯層翻譯是通過(guò)英漢雙語(yǔ)詞典的基本詞典部分進(jìn)行逐詞翻譯,其中包括詞義消歧問(wèn)題。語(yǔ)境條件為語(yǔ)法語(yǔ)義參數(shù),在具體詞選擇的過(guò)程中,對(duì)詞義進(jìn)行標(biāo)記,此標(biāo)記表示一定的語(yǔ)義、語(yǔ)法特征,即概念碼[9]。
短語(yǔ)層翻譯是通過(guò)英漢雙語(yǔ)詞典成語(yǔ)部分實(shí)現(xiàn),涉及遠(yuǎn)距離、近距離短語(yǔ)識(shí)別的問(wèn)題,重點(diǎn)為近距離短語(yǔ)識(shí)別和翻譯處理過(guò)程,使用正向最大匹配法,過(guò)程為:
1)通過(guò)英漢雙語(yǔ)詞典得到以目前查詢(xún)?cè)~作為領(lǐng)頭詞的短語(yǔ)集合;
2)創(chuàng)建基于目前查詢(xún)?cè)~,并且具有詞匯數(shù)和短語(yǔ)集合各成員的短語(yǔ)。
對(duì)比所創(chuàng)建的短語(yǔ)和短語(yǔ)集合的各成員,假如有一對(duì)成功匹配,就進(jìn)行短語(yǔ)標(biāo)記,若除了處理部分以外第一個(gè)單詞屬于當(dāng)前查詢(xún)?cè)~,則重復(fù)匹配過(guò)程;假如有多對(duì)成功匹配,就要選擇長(zhǎng)度最大的進(jìn)行短語(yǔ)標(biāo)記,并將其作為目前查詢(xún)?cè)~,重復(fù)匹配過(guò)程;假如沒(méi)有匹配成功,使目前查詢(xún)?cè)~相鄰的下個(gè)單詞成為目前查詢(xún)?cè)~,重復(fù)匹配過(guò)程[10]。
在處理過(guò)程中,利用式(1)進(jìn)行翻譯處理和排序:
以式(2)定義語(yǔ)項(xiàng)權(quán)重:
式(2)中的q(t)為語(yǔ)項(xiàng)t權(quán)重,一般為查詢(xún)頻率:
式(3)中,di(t)為語(yǔ)項(xiàng)t在文檔Di中出現(xiàn)的次數(shù),k為語(yǔ)料庫(kù)不同的語(yǔ)項(xiàng)數(shù)目,n為文檔集文檔數(shù)目。
對(duì)于p(t)中Turing-Good的估計(jì),利用pat(t)=pr(t)r*/N得到:
式中,r為語(yǔ)項(xiàng)t在文檔集中出現(xiàn)的次數(shù),Nr為文檔集中r次語(yǔ)項(xiàng)數(shù)目,N為文檔集觀(guān)察得出的全部語(yǔ)項(xiàng)數(shù)目。針對(duì)每篇文檔,能夠通過(guò)以上公式實(shí)現(xiàn)處理和排序。
索引模塊在分析預(yù)處理純文本文件之后,創(chuàng)建倒排索引生成索引文件在磁盤(pán)中寫(xiě)入,從而實(shí)現(xiàn)全文索引,圖2為索引用例圖,圖3為索引模塊圖。在開(kāi)始索引時(shí),要得到待索引文檔集路徑,需保存索引文件路徑,并分析是否要重建索引參數(shù)[11]。之后,新建索引對(duì)象、分詞模塊加載分詞詞典,對(duì)文檔進(jìn)行讀取。如果文檔為中文,就調(diào)用分詞模塊實(shí)現(xiàn)分詞處理;如果是英文,則不需要分詞,通過(guò)解析器對(duì)文檔進(jìn)行解析,以此為索引對(duì)象增加此文檔對(duì)象,最后利用寫(xiě)索引機(jī)制使詞語(yǔ)單詞等信息寫(xiě)入到索引中,并且生成索引文件保存在磁盤(pán)中[12]。
圖2 索引用例圖
圖3 索引模塊圖
在開(kāi)始索引時(shí),要將待索引文本路徑根據(jù)掃描的文本文件實(shí)現(xiàn)內(nèi)容的讀入,之后創(chuàng)建寫(xiě)索引對(duì)象,加載分詞詞典,調(diào)用分詞模塊并實(shí)現(xiàn)分詞處理,將得到的詞用空格分開(kāi)[13]。最終,將此詞寫(xiě)入索引,通過(guò)分析器分析。之后調(diào)用IndexEriter類(lèi)中的addDocument對(duì)CLucene調(diào)用實(shí)現(xiàn)索引,用directory類(lèi)對(duì)CLucene索引存儲(chǔ)的位置進(jìn)行描述。其屬于抽象類(lèi),有兩個(gè)子類(lèi),能夠提供特定的存取索引方法。對(duì)于待索引大量文檔集,將文檔存儲(chǔ)路徑告知CLucene,實(shí)現(xiàn)Directory實(shí)例的生成,并且將此實(shí)例傳遞給構(gòu)造函數(shù)[14]。然后,利用Directory實(shí)現(xiàn)IndexWrieer,在某個(gè)指定目錄中創(chuàng)建索引文件,并存儲(chǔ)在磁盤(pán)中。
在跨語(yǔ)言檢索過(guò)程中,用戶(hù)輸入索引式、索引文件路徑與查詢(xún)相關(guān)度范圍之后,系統(tǒng)能夠進(jìn)一步處理檢索式,如果為中文檢索式,則通過(guò)分詞處理之后利用翻譯構(gòu)成最終英文檢索式;如果為英文檢索式就直接翻譯,轉(zhuǎn)變?yōu)橹形臋z索式[15-16]。
因?yàn)闈h語(yǔ)查詢(xún)集都是通過(guò)Big5字符集實(shí)現(xiàn)編碼,漢語(yǔ)處理工具以基于GB字符編碼為主,所以針對(duì)初始漢語(yǔ)查詢(xún)集,要通過(guò)Big5碼-GB碼轉(zhuǎn)換器,使其朝著GB字符集編碼方式轉(zhuǎn)變。文中選擇3個(gè)新聞集合作為案例,一共有242 918篇文檔,表1為相關(guān)英語(yǔ)語(yǔ)料庫(kù)的統(tǒng)計(jì)數(shù)據(jù)。
表1 相關(guān)英語(yǔ)語(yǔ)料庫(kù)的統(tǒng)計(jì)數(shù)據(jù)
針對(duì)目前信息檢索系統(tǒng),利用準(zhǔn)確率與查全率對(duì)系統(tǒng)檢索性能進(jìn)行衡量。在檢索過(guò)程中使用以下方法進(jìn)行評(píng)價(jià):利用多個(gè)檢索系統(tǒng)對(duì)同個(gè)查詢(xún)檢索之后,將其返回的最相關(guān)的前100篇文檔合并,并且對(duì)比文檔集進(jìn)行人工相關(guān)性評(píng)價(jià)。該方法能夠降低評(píng)價(jià)工作量,還能夠使評(píng)價(jià)準(zhǔn)確度得到提高[17]。
在訓(xùn)練英語(yǔ)語(yǔ)料庫(kù)過(guò)程中,得到最好的結(jié)果平均查準(zhǔn)率為0.386 9,在漢語(yǔ)查詢(xún)集和除了訓(xùn)練部分之外的英語(yǔ)語(yǔ)料庫(kù)測(cè)試過(guò)程中,自動(dòng)查詢(xún)模式通過(guò)分詞方式實(shí)現(xiàn)索引處理,最后單語(yǔ)使用基于n元組的切分方法實(shí)現(xiàn)索引處理。圖4為測(cè)試結(jié)果,表2為漢英跨語(yǔ)言信息檢索運(yùn)行結(jié)果和平均中值對(duì)比。通過(guò)對(duì)比表明,漢英CLIR的運(yùn)行中C-ECLIR1性能是最佳的。
表2 漢英跨語(yǔ)言信息檢索運(yùn)行結(jié)果和平均中值對(duì)比
圖4 測(cè)試結(jié)果
目前,所創(chuàng)建的跨語(yǔ)言信息檢索系統(tǒng)已經(jīng)初成規(guī)模。通過(guò)系統(tǒng)運(yùn)行情況和測(cè)試評(píng)估可知,查詢(xún)翻譯器和漢語(yǔ)搜索引擎的系統(tǒng)性能滿(mǎn)足要求[18]。
跨語(yǔ)言信息檢索技術(shù)屬于全新信息處理技術(shù),此技術(shù)為計(jì)算語(yǔ)言學(xué)信息處理帶來(lái)全新的解決途徑。文中設(shè)計(jì)面向英漢的跨語(yǔ)言信息檢索系統(tǒng)屬于機(jī)器翻譯技術(shù)在信息檢索領(lǐng)域中使用的全新嘗試,能夠有效促進(jìn)跨語(yǔ)言信息檢索問(wèn)題的解決。在英漢查詢(xún)翻譯中,主要將英漢雙語(yǔ)詞典作為主體的知識(shí)源。但是,除了詞典完整性問(wèn)題,還要通過(guò)詞典中選擇單詞最佳翻譯。以此,文中創(chuàng)建了英漢翻譯處理模式和短語(yǔ)層翻譯處理模式,與詞類(lèi)標(biāo)記等信息結(jié)合,得到正確的翻譯結(jié)果。