• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      海量互聯(lián)網(wǎng)數(shù)據(jù)中英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系統(tǒng)設(shè)計(jì)

      2017-07-08 03:42:16羅霞
      現(xiàn)代電子技術(shù) 2017年13期
      關(guān)鍵詞:英語(yǔ)翻譯術(shù)語(yǔ)

      羅霞

      摘 要: 針對(duì)海量的互聯(lián)網(wǎng)數(shù)據(jù)經(jīng)常產(chǎn)生翻譯歧義的問(wèn)題,設(shè)計(jì)英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系統(tǒng)。所設(shè)計(jì)系統(tǒng)的工作模型從海量互聯(lián)網(wǎng)數(shù)據(jù)中收集英語(yǔ)翻譯術(shù)語(yǔ),搜索模型構(gòu)造映射線程來(lái)剖析目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)的基本概念和學(xué)科范圍,通過(guò)搜索鏈接來(lái)驅(qū)動(dòng)工作模型進(jìn)行搜索。工作模型分5條路徑采集搜索結(jié)果中英語(yǔ)翻譯術(shù)語(yǔ)的結(jié)構(gòu)特征,提取相關(guān)比率高的結(jié)果并存儲(chǔ)于搜索鏈接中,將相似度小的搜索結(jié)果排列在搜索鏈接前端,反饋給搜索模型供用戶查看。實(shí)驗(yàn)測(cè)評(píng)顯示,系統(tǒng)的查全率和查準(zhǔn)率等級(jí)很高,也可保證搜索效率。

      關(guān)鍵詞: 海量互聯(lián)網(wǎng)數(shù)據(jù); 英語(yǔ)翻譯; 術(shù)語(yǔ); 高效搜索

      中圖分類號(hào): TN911?34; TP391.3 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)13?0134?03

      Abstract: Since the massive Internet data often produces the translation ambiguity, the English translation term efficient search system was designed. The working model of the designed system collects the English translation term in the massive Internet data. The mapping thread is constructed with search model to analyze the basic concept and subject scope of the target English translation term. The working model is driven by search link for search. Five paths are divided in the working model to acquire the structure feature of the English translation term in search results. The result with high correction ratio is extracted, and stored in the search link. The search result with low similarity is arranged in the front end of search link, and feed back to the search model for user viewing. The experimental evaluation results show that the recall ratio and precision ratio of the system are both high, and can ensure the search efficiency.

      Keywords: massive Internet data; English translation; term; efficient search

      科學(xué)技術(shù)的日益發(fā)展帶來(lái)了海量的專業(yè)術(shù)語(yǔ),國(guó)際間多領(lǐng)域的溝通離不開(kāi)英語(yǔ)翻譯,英語(yǔ)翻譯術(shù)語(yǔ)使用越發(fā)頻繁。專業(yè)術(shù)語(yǔ)在日常生活中并不常用,術(shù)語(yǔ)數(shù)量每天都在不斷增加,專業(yè)的英語(yǔ)翻譯人員也無(wú)法完全掌握術(shù)語(yǔ)釋義,因此,逐漸產(chǎn)生了英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系統(tǒng),這種系統(tǒng)合理利用了互聯(lián)網(wǎng)數(shù)據(jù),適合專業(yè)翻譯和普通人群使用。海量的互聯(lián)網(wǎng)數(shù)據(jù)是動(dòng)態(tài)的,數(shù)據(jù)結(jié)構(gòu)和評(píng)價(jià)標(biāo)準(zhǔn)欠缺,數(shù)據(jù)雜亂無(wú)章,經(jīng)常產(chǎn)生術(shù)語(yǔ)翻譯歧義,英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系統(tǒng)的設(shè)計(jì)難點(diǎn)在于如何提高系統(tǒng)查全率及查準(zhǔn)率等級(jí)。

      1 海量互聯(lián)網(wǎng)數(shù)據(jù)中英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系

      統(tǒng)結(jié)構(gòu)設(shè)計(jì)

      英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系統(tǒng)并非直接在互聯(lián)網(wǎng)數(shù)據(jù)中進(jìn)行搜索,而是當(dāng)用戶輸入一個(gè)目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)后,系統(tǒng)自動(dòng)向海量互聯(lián)網(wǎng)數(shù)據(jù)集群中發(fā)送搜索指令,采集目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)特征,通過(guò)特殊方式在集群中匹配到目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ),一般來(lái)講,含有目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)的有效互聯(lián)網(wǎng)數(shù)據(jù)都會(huì)被顯示在系統(tǒng)頁(yè)面上。對(duì)顯示內(nèi)容進(jìn)行篩選,選擇一些數(shù)據(jù)之間相似度[1]低且相關(guān)比率[2]高的搜索結(jié)果輸出。相似度和相關(guān)比率的計(jì)算公式如下:

      避免產(chǎn)生術(shù)語(yǔ)翻譯歧義的前提是構(gòu)造一個(gè)工作模型,對(duì)英語(yǔ)翻譯術(shù)語(yǔ)特征進(jìn)行高精度采集,要求必須時(shí)刻保持工作模型的高效處理能力。此外,還需重點(diǎn)構(gòu)造一個(gè)搜索模型,要求搜索模型的更新能力強(qiáng),易于維護(hù)[3]。圖1是設(shè)計(jì)的英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系統(tǒng)組成,系統(tǒng)由用戶模塊、互聯(lián)網(wǎng)機(jī)器翻譯模塊、工作模型和搜索模型組成,4個(gè)模塊的工作數(shù)據(jù)統(tǒng)一生成行為日志,供開(kāi)發(fā)者查看和分析,以維護(hù)系統(tǒng)功能。

      系統(tǒng)的互聯(lián)網(wǎng)機(jī)器翻譯模塊接入互聯(lián)網(wǎng),按照網(wǎng)頁(yè)中URL(Uniform Resource Locator,統(tǒng)一資源定位器)[4]的指引方向,以蜘蛛式延伸到其他網(wǎng)頁(yè),從海量互聯(lián)網(wǎng)數(shù)據(jù)中收集英語(yǔ)翻譯術(shù)語(yǔ),存儲(chǔ)到工作模型中。以上介紹的是系統(tǒng)前期準(zhǔn)備過(guò)程,當(dāng)用戶通過(guò)用戶模塊登錄到系統(tǒng)中搜索英語(yǔ)翻譯術(shù)語(yǔ)時(shí),搜索模型向互聯(lián)網(wǎng)機(jī)器翻譯模塊發(fā)送搜索指令,互聯(lián)網(wǎng)機(jī)器翻譯模塊建立搜索鏈接傳給工作模型。工作模型對(duì)收集到的英語(yǔ)翻譯術(shù)語(yǔ)進(jìn)行解釋,剖析術(shù)語(yǔ)結(jié)構(gòu)特征,提取相關(guān)比率高的互聯(lián)網(wǎng)數(shù)據(jù)并按照相似度進(jìn)行排序,將相似度小的搜索結(jié)果排列在前端,并存儲(chǔ)到搜索鏈接中,反饋給搜索模型供用戶查看。

      2 工作模型介紹

      設(shè)計(jì)的英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系統(tǒng)的工作模型負(fù)責(zé)進(jìn)行海量互聯(lián)網(wǎng)數(shù)據(jù)加工,模型分5條路徑采集英語(yǔ)翻譯術(shù)語(yǔ)結(jié)構(gòu)特征,如圖2所示。

      由圖2可知,每條互聯(lián)網(wǎng)數(shù)據(jù)都會(huì)經(jīng)歷5次采集,最終得到最具代表性的英語(yǔ)翻譯術(shù)語(yǔ)搜索結(jié)果。為滿足系統(tǒng)的高效搜索能力,5次采集過(guò)程同時(shí)進(jìn)行,將5次采集結(jié)果匯總在一起進(jìn)行去重,只保留一個(gè)重復(fù)結(jié)果,在權(quán)重比例最大的采集路徑上輸出[5]。再對(duì)比目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)的語(yǔ)境給出搜索結(jié)果。

      前4條采集路徑通過(guò)查閱互聯(lián)網(wǎng)上的專業(yè)英語(yǔ)翻譯文獻(xiàn)、整合內(nèi)部知識(shí)和外部知識(shí),對(duì)數(shù)據(jù)結(jié)構(gòu)特征進(jìn)行挖掘,第5條采集路徑給出的數(shù)據(jù)結(jié)構(gòu)特征則完全由內(nèi)部知識(shí)決定。內(nèi)部知識(shí)指專業(yè)術(shù)語(yǔ)發(fā)源地給定的參考釋義,這種釋義受到地域、文化和專業(yè)差異的約束,并非百分百準(zhǔn)確,但能夠指引英語(yǔ)翻譯方向[6]。外部知識(shí)指專業(yè)的英語(yǔ)翻譯人員給出的參考釋義,考慮到英語(yǔ)翻譯人員對(duì)專業(yè)術(shù)語(yǔ)的領(lǐng)域知識(shí)儲(chǔ)備不多,外部知識(shí)的指導(dǎo)性不及內(nèi)部知識(shí),錯(cuò)誤率稍高一些[7]。各條采集路徑對(duì)英語(yǔ)翻譯術(shù)語(yǔ)的指導(dǎo)性排列順序?yàn)椋?/p>

      根據(jù)指導(dǎo)性排列順序確定每條采集路徑的數(shù)據(jù)結(jié)構(gòu)特征權(quán)重,設(shè)總權(quán)重為1,那么第1條采集路徑的權(quán)重最大,為0.4,第4條為0.35,第2條為0.15,第3條和第5條的權(quán)重均為0.1。

      3 搜索模型介紹

      搜索模型的主要作用是剖析用戶自然語(yǔ)言的結(jié)構(gòu)特征,提純出術(shù)語(yǔ)的基本概念和學(xué)科范圍,模擬人腦記憶保留方式,不斷維護(hù)、更新結(jié)構(gòu)特征,必要時(shí)可采用邏輯分析技術(shù)。搜索模型結(jié)構(gòu)如圖3所示。

      設(shè)計(jì)的英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系統(tǒng)以用戶要求為導(dǎo)向,用戶要求涵蓋在用戶輸入的自然語(yǔ)言中,用戶輸入何種自然語(yǔ)言結(jié)構(gòu),系統(tǒng)反饋給用戶的大部分搜索結(jié)果就是何種結(jié)構(gòu),這與系統(tǒng)進(jìn)行的相關(guān)比率計(jì)算有關(guān)。進(jìn)行目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)特征提取時(shí),搜索模型將構(gòu)造一個(gè)映射線程,分析目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)表達(dá)的基本概念和學(xué)科范圍。可見(jiàn),搜索模型的映射線程為一個(gè)一對(duì)多線程,線程上的每一個(gè)映射點(diǎn)都坐落在目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)的學(xué)科范圍之上,與基本概念相近的學(xué)科也連接在線程上,可避免因用戶自然語(yǔ)言表述不清晰而不能輸出標(biāo)準(zhǔn)搜索結(jié)果[7]。映射線程要表達(dá)出目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)的詞性,名詞與名詞對(duì)應(yīng),動(dòng)詞與動(dòng)詞對(duì)應(yīng),以此類推。

      映射線程將目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)的基本概念和學(xué)科范圍混合顯示,對(duì)結(jié)構(gòu)特征表述不清楚,搜索模型構(gòu)造語(yǔ)料庫(kù)進(jìn)行映射點(diǎn)分類和分層,父節(jié)點(diǎn)為頂點(diǎn),表述特征類別,按照相關(guān)比率向下依次連接子節(jié)點(diǎn)[8]。分析父、子節(jié)點(diǎn)的范化特征矢量,對(duì)特征進(jìn)行聚類,獲取目標(biāo)英語(yǔ)翻譯術(shù)語(yǔ)想要表達(dá)的基本概念和學(xué)科范圍,給出搜索指令。

      指令擴(kuò)展并非搜索模型的必經(jīng)處理步驟,在圖3中用虛線表示。如果一次搜索的搜索結(jié)果沒(méi)能給出用戶滿意答案,用戶行為傾向于進(jìn)行二次搜索。當(dāng)行為日志監(jiān)測(cè)到用戶有連續(xù)兩次或兩次以上的相同術(shù)語(yǔ)搜索行為,系統(tǒng)自動(dòng)擴(kuò)大映射線程映射點(diǎn)范圍,給予用戶不同種類的搜索結(jié)果。

      4 實(shí) 驗(yàn)

      4.1 實(shí)驗(yàn)步驟介紹

      在如圖4所示的某高校大型計(jì)算機(jī)實(shí)驗(yàn)室中,依次對(duì)本文英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系統(tǒng)的查全率和查準(zhǔn)率進(jìn)行測(cè)評(píng),查全率體現(xiàn)出的是在特定數(shù)據(jù)集群中,搜索系統(tǒng)與海量互聯(lián)網(wǎng)數(shù)據(jù)中對(duì)目標(biāo)英語(yǔ)術(shù)語(yǔ)的搜索效果,查準(zhǔn)率用于衡量搜索結(jié)果的重復(fù)率。由于在查全率的測(cè)評(píng)中需要考慮響應(yīng)時(shí)間,因此查全率也間接表述了系統(tǒng)搜索效率。

      實(shí)驗(yàn)先使用2個(gè)互聯(lián)網(wǎng)搜索引擎(百度和谷歌)搜索英語(yǔ)術(shù)語(yǔ),目標(biāo)英語(yǔ)術(shù)語(yǔ)包括金融、計(jì)算機(jī)網(wǎng)絡(luò)、醫(yī)學(xué)和體育四個(gè)領(lǐng)域的485個(gè)專用術(shù)語(yǔ),為節(jié)省實(shí)驗(yàn)時(shí)間,不采用人工輸入目標(biāo)英語(yǔ)術(shù)語(yǔ)的方法進(jìn)行實(shí)驗(yàn),而是通過(guò)Java語(yǔ)言編寫(xiě)一個(gè)自動(dòng)輸入程序。百度和谷歌引擎對(duì)每項(xiàng)英語(yǔ)術(shù)語(yǔ)的搜索結(jié)果都達(dá)到上千甚至上萬(wàn)條,將搜索結(jié)果組成海量互聯(lián)網(wǎng)數(shù)據(jù)集群,在此環(huán)境下進(jìn)行實(shí)驗(yàn)。

      對(duì)本文搜索系統(tǒng)、Web垂直優(yōu)化搜索系統(tǒng)和鄰域搜索系統(tǒng)進(jìn)行初始化,在海量互聯(lián)網(wǎng)數(shù)據(jù)集群中搜索上文中的485個(gè)專用術(shù)語(yǔ),獲取三個(gè)搜索系統(tǒng)的響應(yīng)時(shí)間、搜索結(jié)果數(shù)量、漏選結(jié)果數(shù)量和搜索結(jié)果重復(fù)率等項(xiàng)目,測(cè)評(píng)本文搜索系統(tǒng)的有效性。

      4.2 結(jié)果與討論

      實(shí)驗(yàn)前分析用戶行為習(xí)慣,得知用戶在使用搜索系統(tǒng)時(shí)通常只查看前幾頁(yè)的搜索結(jié)果,因此實(shí)驗(yàn)采用Java語(yǔ)言編寫(xiě)一個(gè)自動(dòng)求取平均值的程序,對(duì)本文搜索系統(tǒng)、Web垂直優(yōu)化搜索系統(tǒng)和鄰域搜索系統(tǒng)的前15頁(yè)英語(yǔ)術(shù)語(yǔ)搜索結(jié)果進(jìn)行統(tǒng)計(jì),搜索結(jié)果統(tǒng)計(jì)表見(jiàn)表1。

      搜索結(jié)果中的重復(fù)結(jié)果和漏選結(jié)果在原則上都是不容許存在的,但在海量互聯(lián)網(wǎng)數(shù)據(jù)集群中,重復(fù)結(jié)果之間也存在一定的數(shù)據(jù)結(jié)構(gòu)特征差異,想要完全排除重復(fù)結(jié)果是不可能的,只能極度縮減。如表1所示,Web垂直優(yōu)化搜索系統(tǒng)雖然無(wú)漏選,但重復(fù)結(jié)果過(guò)多,查全率高、查準(zhǔn)率低。鄰域搜索系統(tǒng)的查全率和查準(zhǔn)率均比較中庸。本文搜索系統(tǒng)的重復(fù)結(jié)果比例為1%,無(wú)漏選現(xiàn)象,查全率和查準(zhǔn)率整體等級(jí)偏高,但確切結(jié)論仍不能給出,因?yàn)楸?中響應(yīng)時(shí)間和重復(fù)結(jié)果的數(shù)據(jù)過(guò)于籠統(tǒng),為保證測(cè)評(píng)結(jié)果的有效性,將響應(yīng)時(shí)間利用計(jì)算機(jī)仿真手段進(jìn)行圖表繪制,輸出如圖5所示的單項(xiàng)響應(yīng)時(shí)間仿真結(jié)果。結(jié)合表1和圖5能夠明顯看出,本文搜索系統(tǒng)的響應(yīng)時(shí)間最短,搜索效率高,提高了系統(tǒng)的查全率等級(jí)。

      通過(guò)相關(guān)比例分析法統(tǒng)計(jì)出前30條搜索結(jié)果的相似度和相關(guān)比率,如表2所示,可以看出,本文搜索系統(tǒng)的前30條搜索結(jié)果相似度最低、相關(guān)比率最高,提高了系統(tǒng)的查準(zhǔn)率等級(jí)。

      綜上所述,本文搜索系統(tǒng)搜索結(jié)果的有效性最好,查全率和查準(zhǔn)率等級(jí)很高,并可保證系統(tǒng)的搜索效率。

      5 結(jié) 論

      本文設(shè)計(jì)的英語(yǔ)翻譯術(shù)語(yǔ)高效搜索系統(tǒng)包括用戶模塊、互聯(lián)網(wǎng)機(jī)器翻譯模塊、工作模型和搜索模型,要求工作模型能夠進(jìn)行高精度的海量互聯(lián)網(wǎng)數(shù)據(jù)采集和高效搜索,搜索模型具備更新能力強(qiáng)且易于維護(hù)的優(yōu)勢(shì)。使用Java語(yǔ)言編寫(xiě)實(shí)驗(yàn)測(cè)評(píng)程序,實(shí)驗(yàn)結(jié)果顯示,從查全率、查準(zhǔn)率和搜索效率來(lái)看,本文系統(tǒng)的搜索結(jié)果均有效。

      參考文獻(xiàn)

      [1] 張弘弦,田玉玲.Web垂直搜索引擎實(shí)現(xiàn)過(guò)程的研究[J].現(xiàn)代電子技術(shù),2016,39(8):55?59.

      [2] 郭猛,胡秀香,邵國(guó)金,等.混合語(yǔ)義相似度計(jì)算優(yōu)化模糊查詢的智能信息檢索算法[J].科學(xué)技術(shù)與工程,2014,14(23):97?102.

      [3] 戴圣法,魏慶國(guó),魏中海.基于回溯搜索算法的導(dǎo)聯(lián)選擇腦機(jī)接口研究[J].現(xiàn)代電子技術(shù),2016,39(13):10?14.

      [4] 馮愛(ài)芬.基于模式搜索方法的解不等式約束優(yōu)化問(wèn)題的算法設(shè)計(jì)[J].科技通報(bào),2016,32(5):5?10.

      [5] 吳彪,陳南.基于模式搜索的自適應(yīng)干擾抵消器算法的研究[J].計(jì)算機(jī)測(cè)量與控制,2016,24(2):235?238.

      [6] 王琳,劉伍穎,梁曉波.英漢雙向哲學(xué)社科術(shù)語(yǔ)詞典系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].中國(guó)科技術(shù)語(yǔ),2014,16(2):18?21.

      [7] 賈瑞玉,馬文華.基于鄰域搜索的改進(jìn)最大最小蟻群算法[J].計(jì)算機(jī)仿真,2014,31(12):261?264.

      [8] 任雪婷,賀興時(shí).一種改進(jìn)的粒子群與差分進(jìn)化混合算法[J].西安工程大學(xué)學(xué)報(bào),2016,30(3):380?387.

      猜你喜歡
      英語(yǔ)翻譯術(shù)語(yǔ)
      疫情報(bào)道高頻術(shù)語(yǔ)(十一)
      翻譯轉(zhuǎn)換理論指導(dǎo)下的石油英語(yǔ)翻譯
      中國(guó)諺語(yǔ)VS英語(yǔ)翻譯
      評(píng)《科技英語(yǔ)翻譯》(書(shū)評(píng))
      透視高校英語(yǔ)翻譯教學(xué)
      試論如何提高英語(yǔ)翻譯能力
      高中英語(yǔ)翻譯教學(xué)研究
      翻譯適應(yīng)選擇論下中醫(yī)術(shù)語(yǔ)翻譯探討
      有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
      從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
      全椒县| 桑日县| 吉隆县| 盘山县| 瑞安市| 汶上县| 宣汉县| 凤庆县| 府谷县| 贵南县| 南充市| 名山县| 黄冈市| 武胜县| 南靖县| 江西省| 永嘉县| 广平县| 武清区| 阿合奇县| 安岳县| 六安市| 织金县| 金寨县| 财经| 梅州市| 奉化市| 荣昌县| 饶河县| 清涧县| 鸡东县| 子洲县| 乌审旗| 东乡| 定安县| 柏乡县| 开平市| 张家口市| 廉江市| 东兰县| 同心县|