摘要:為了構(gòu)建面向電力行業(yè)信息系統(tǒng)的漢維哈自動(dòng)翻譯引擎,需要構(gòu)建大量的漢維哈語(yǔ)種的平行語(yǔ)料庫(kù)。該文中,設(shè)計(jì)與實(shí)現(xiàn)了漢維哈平行語(yǔ)料庫(kù)構(gòu)建系統(tǒng)的文檔導(dǎo)入及對(duì)齊功能。文檔導(dǎo)入登記文檔的屬性,并對(duì)文檔進(jìn)行拼寫檢查等編輯操作,文檔對(duì)齊對(duì)漢語(yǔ)文檔與維吾爾語(yǔ)或哈薩克語(yǔ)文檔建立對(duì)齊關(guān)系。
關(guān)鍵詞: 電力; 漢語(yǔ); 維吾爾語(yǔ);哈薩克語(yǔ);文檔對(duì)齊
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8657-02
新疆維吾爾自治區(qū)的電力系統(tǒng)員工及用電群眾中都有漢語(yǔ)水平較差的少數(shù)民族群眾,為了給各族員工和群眾提供多語(yǔ)種的信息系統(tǒng)服務(wù),新疆電力公司要求面向用戶的信息產(chǎn)品必須提供漢、維、哈語(yǔ)種的操作界面。為了提高系統(tǒng)開發(fā)速度、充分利用已翻譯的資源和統(tǒng)一電力術(shù)語(yǔ)的譯文,設(shè)計(jì)與開發(fā)了面向電力系統(tǒng)的信息系統(tǒng)漢語(yǔ)菜單、提示自動(dòng)翻譯引擎。
1 漢維哈文檔對(duì)齊工具的設(shè)計(jì)與實(shí)現(xiàn)
文檔是所有語(yǔ)料庫(kù)建設(shè)工作的基礎(chǔ),也是目前自然語(yǔ)言處理能夠考慮的最大的單元。為了構(gòu)建機(jī)器翻譯系統(tǒng)需要構(gòu)建大量的平行語(yǔ)料庫(kù)。因?yàn)榫S吾爾文在線平行語(yǔ)料庫(kù)不多,所以需要從出版社、日?qǐng)?bào)社、有關(guān)行業(yè)單位收集圖書、雜志或文件等,對(duì)其進(jìn)行文檔、句子級(jí)別的對(duì)齊處理,所以本文中設(shè)計(jì)與實(shí)現(xiàn)了整理文檔、編輯文檔及對(duì)齊文檔的工具軟件。
1.1 文檔導(dǎo)入
文檔導(dǎo)入模塊主要功能是完成各種文件的導(dǎo)入。文件成功導(dǎo)入到數(shù)據(jù)庫(kù)之后,等待文件編輯員檢查是否合理,若合理就提交給文件審核員,否則就修改并保存然后提交給審核員。如果需要導(dǎo)入新文檔,單擊“瀏覽”按鈕選擇你要導(dǎo)入的文檔。選擇文檔后你所選擇的文檔的部分信息將會(huì)顯示在下面的文本框中,如圖1所示。再選擇你所導(dǎo)入文檔的語(yǔ)種、領(lǐng)域和作者信息。然后單擊“提交文檔”按鈕,會(huì)彈出一個(gè)消息框,提示是否確認(rèn)提交。單擊“確定”按鈕則完成該次文檔導(dǎo)入;如果需要重新寫入文檔信息,則可單擊“重寫信息”按鈕,重新選擇要導(dǎo)入的文檔;如果不需要導(dǎo)入文檔,則點(diǎn)擊“退出程序”按鈕,退出該模塊。單擊“已經(jīng)導(dǎo)入的文檔”按鈕,即可進(jìn)入查看已經(jīng)導(dǎo)入的文檔界面。用戶可以根據(jù)導(dǎo)入時(shí)間和審核狀態(tài)來(lái)查詢,也可以選擇“顯示全部”按鈕來(lái)查詢所有已審核或未審核的文檔。
1.2文檔編輯模塊
該模塊的主要功能是對(duì)成功導(dǎo)入的文檔進(jìn)行編輯。該模塊默認(rèn)的功能界面是“查看新導(dǎo)入文檔”。單擊“查看新導(dǎo)入文檔”按鈕,可以選擇兩個(gè)對(duì)應(yīng)的雙語(yǔ)文檔右鍵單擊彈出快捷菜單,如圖3所示。
選擇“文檔編輯”即可對(duì)所選擇的文檔進(jìn)行編輯,如圖4所示。在編輯狀態(tài)可以加載原始文檔、進(jìn)行字體設(shè)置、維文校對(duì)、提交文檔、保存并更新等操作,還可以對(duì)已編輯的文本內(nèi)容進(jìn)行替換和查找操作。
1.3 文檔對(duì)齊文檔
該模塊的主要功能是找出所選擇文檔對(duì)應(yīng)的另一種語(yǔ)言的文檔,必須是審核成功的文檔才能分配給用戶進(jìn)行文檔對(duì)齊。文檔對(duì)齊是對(duì)兩種不同語(yǔ)種的文檔進(jìn)行對(duì)齊,建立它們的對(duì)照關(guān)系。界面左邊是“維語(yǔ)文檔”,右邊是“漢文文檔”。如果用戶被系統(tǒng)管理員分配文檔對(duì)齊任務(wù),則文檔對(duì)齊界面顯示給用戶所安排文檔的第一個(gè)文檔。如圖5所示。
對(duì)齊:首先要選擇對(duì)應(yīng)的兩個(gè)文檔(維語(yǔ)文檔一個(gè)或多個(gè),漢語(yǔ)文檔一個(gè)或多個(gè)),然后右鍵單擊彈出快捷菜單選擇“對(duì)齊”子菜單,或者單擊界面下面的“對(duì)齊”按鈕,都可以建立所選擇的兩個(gè)文檔的對(duì)齊關(guān)系。
取消對(duì)齊:取消對(duì)齊只能在已建立對(duì)齊的兩個(gè)文檔之間進(jìn)行操作,取消對(duì)齊前確定所取消的文檔,選擇一個(gè)文檔系統(tǒng)會(huì)自動(dòng)選擇給另一個(gè)語(yǔ)種對(duì)應(yīng)的文檔。
2 結(jié)論
本文中對(duì)文檔導(dǎo)入、編輯及對(duì)齊進(jìn)行了介紹,并實(shí)現(xiàn)了該工具軟件。該軟件提高了文獻(xiàn)整理工作的效率,質(zhì)量,避免了以前的語(yǔ)料庫(kù)存儲(chǔ)松散及重復(fù)工作的問題。今后,繼續(xù)研究自動(dòng)對(duì)齊漢維哈文檔算法,進(jìn)一步提高語(yǔ)料庫(kù)的建設(shè)速度。
參考文獻(xiàn):
[1] 武毅.基于 Lucene.Net 的全文檢索研究與應(yīng)用[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2011.
[2] 李穎,李志蜀,鄧歡.基于 Lucene 的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)[J].四川大學(xué)學(xué)報(bào),2008,45(5):1095-1098.
[3] 陳震明.智能機(jī)器翻譯前后端處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,1998.
[4] 尼加提·納吉米,席小剛,馬斌,買合木提·買買提.多語(yǔ)種輔助翻譯系統(tǒng)研究與實(shí)現(xiàn)[J]. 電腦知識(shí)與技術(shù),2012,8(2):345-350.
[5] 黃河燕,陳肇雄.一種智能譯后編輯器的設(shè)計(jì)及其實(shí)現(xiàn)算法[J].軟件學(xué)報(bào),1995,6(3):129-135
[6] 王克非.雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù)研制與應(yīng)用[J].外語(yǔ)教學(xué)與研究,2004(4).endprint
摘要:為了構(gòu)建面向電力行業(yè)信息系統(tǒng)的漢維哈自動(dòng)翻譯引擎,需要構(gòu)建大量的漢維哈語(yǔ)種的平行語(yǔ)料庫(kù)。該文中,設(shè)計(jì)與實(shí)現(xiàn)了漢維哈平行語(yǔ)料庫(kù)構(gòu)建系統(tǒng)的文檔導(dǎo)入及對(duì)齊功能。文檔導(dǎo)入登記文檔的屬性,并對(duì)文檔進(jìn)行拼寫檢查等編輯操作,文檔對(duì)齊對(duì)漢語(yǔ)文檔與維吾爾語(yǔ)或哈薩克語(yǔ)文檔建立對(duì)齊關(guān)系。
關(guān)鍵詞: 電力; 漢語(yǔ); 維吾爾語(yǔ);哈薩克語(yǔ);文檔對(duì)齊
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8657-02
新疆維吾爾自治區(qū)的電力系統(tǒng)員工及用電群眾中都有漢語(yǔ)水平較差的少數(shù)民族群眾,為了給各族員工和群眾提供多語(yǔ)種的信息系統(tǒng)服務(wù),新疆電力公司要求面向用戶的信息產(chǎn)品必須提供漢、維、哈語(yǔ)種的操作界面。為了提高系統(tǒng)開發(fā)速度、充分利用已翻譯的資源和統(tǒng)一電力術(shù)語(yǔ)的譯文,設(shè)計(jì)與開發(fā)了面向電力系統(tǒng)的信息系統(tǒng)漢語(yǔ)菜單、提示自動(dòng)翻譯引擎。
1 漢維哈文檔對(duì)齊工具的設(shè)計(jì)與實(shí)現(xiàn)
文檔是所有語(yǔ)料庫(kù)建設(shè)工作的基礎(chǔ),也是目前自然語(yǔ)言處理能夠考慮的最大的單元。為了構(gòu)建機(jī)器翻譯系統(tǒng)需要構(gòu)建大量的平行語(yǔ)料庫(kù)。因?yàn)榫S吾爾文在線平行語(yǔ)料庫(kù)不多,所以需要從出版社、日?qǐng)?bào)社、有關(guān)行業(yè)單位收集圖書、雜志或文件等,對(duì)其進(jìn)行文檔、句子級(jí)別的對(duì)齊處理,所以本文中設(shè)計(jì)與實(shí)現(xiàn)了整理文檔、編輯文檔及對(duì)齊文檔的工具軟件。
1.1 文檔導(dǎo)入
文檔導(dǎo)入模塊主要功能是完成各種文件的導(dǎo)入。文件成功導(dǎo)入到數(shù)據(jù)庫(kù)之后,等待文件編輯員檢查是否合理,若合理就提交給文件審核員,否則就修改并保存然后提交給審核員。如果需要導(dǎo)入新文檔,單擊“瀏覽”按鈕選擇你要導(dǎo)入的文檔。選擇文檔后你所選擇的文檔的部分信息將會(huì)顯示在下面的文本框中,如圖1所示。再選擇你所導(dǎo)入文檔的語(yǔ)種、領(lǐng)域和作者信息。然后單擊“提交文檔”按鈕,會(huì)彈出一個(gè)消息框,提示是否確認(rèn)提交。單擊“確定”按鈕則完成該次文檔導(dǎo)入;如果需要重新寫入文檔信息,則可單擊“重寫信息”按鈕,重新選擇要導(dǎo)入的文檔;如果不需要導(dǎo)入文檔,則點(diǎn)擊“退出程序”按鈕,退出該模塊。單擊“已經(jīng)導(dǎo)入的文檔”按鈕,即可進(jìn)入查看已經(jīng)導(dǎo)入的文檔界面。用戶可以根據(jù)導(dǎo)入時(shí)間和審核狀態(tài)來(lái)查詢,也可以選擇“顯示全部”按鈕來(lái)查詢所有已審核或未審核的文檔。
1.2文檔編輯模塊
該模塊的主要功能是對(duì)成功導(dǎo)入的文檔進(jìn)行編輯。該模塊默認(rèn)的功能界面是“查看新導(dǎo)入文檔”。單擊“查看新導(dǎo)入文檔”按鈕,可以選擇兩個(gè)對(duì)應(yīng)的雙語(yǔ)文檔右鍵單擊彈出快捷菜單,如圖3所示。
選擇“文檔編輯”即可對(duì)所選擇的文檔進(jìn)行編輯,如圖4所示。在編輯狀態(tài)可以加載原始文檔、進(jìn)行字體設(shè)置、維文校對(duì)、提交文檔、保存并更新等操作,還可以對(duì)已編輯的文本內(nèi)容進(jìn)行替換和查找操作。
1.3 文檔對(duì)齊文檔
該模塊的主要功能是找出所選擇文檔對(duì)應(yīng)的另一種語(yǔ)言的文檔,必須是審核成功的文檔才能分配給用戶進(jìn)行文檔對(duì)齊。文檔對(duì)齊是對(duì)兩種不同語(yǔ)種的文檔進(jìn)行對(duì)齊,建立它們的對(duì)照關(guān)系。界面左邊是“維語(yǔ)文檔”,右邊是“漢文文檔”。如果用戶被系統(tǒng)管理員分配文檔對(duì)齊任務(wù),則文檔對(duì)齊界面顯示給用戶所安排文檔的第一個(gè)文檔。如圖5所示。
對(duì)齊:首先要選擇對(duì)應(yīng)的兩個(gè)文檔(維語(yǔ)文檔一個(gè)或多個(gè),漢語(yǔ)文檔一個(gè)或多個(gè)),然后右鍵單擊彈出快捷菜單選擇“對(duì)齊”子菜單,或者單擊界面下面的“對(duì)齊”按鈕,都可以建立所選擇的兩個(gè)文檔的對(duì)齊關(guān)系。
取消對(duì)齊:取消對(duì)齊只能在已建立對(duì)齊的兩個(gè)文檔之間進(jìn)行操作,取消對(duì)齊前確定所取消的文檔,選擇一個(gè)文檔系統(tǒng)會(huì)自動(dòng)選擇給另一個(gè)語(yǔ)種對(duì)應(yīng)的文檔。
2 結(jié)論
本文中對(duì)文檔導(dǎo)入、編輯及對(duì)齊進(jìn)行了介紹,并實(shí)現(xiàn)了該工具軟件。該軟件提高了文獻(xiàn)整理工作的效率,質(zhì)量,避免了以前的語(yǔ)料庫(kù)存儲(chǔ)松散及重復(fù)工作的問題。今后,繼續(xù)研究自動(dòng)對(duì)齊漢維哈文檔算法,進(jìn)一步提高語(yǔ)料庫(kù)的建設(shè)速度。
參考文獻(xiàn):
[1] 武毅.基于 Lucene.Net 的全文檢索研究與應(yīng)用[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2011.
[2] 李穎,李志蜀,鄧歡.基于 Lucene 的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)[J].四川大學(xué)學(xué)報(bào),2008,45(5):1095-1098.
[3] 陳震明.智能機(jī)器翻譯前后端處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,1998.
[4] 尼加提·納吉米,席小剛,馬斌,買合木提·買買提.多語(yǔ)種輔助翻譯系統(tǒng)研究與實(shí)現(xiàn)[J]. 電腦知識(shí)與技術(shù),2012,8(2):345-350.
[5] 黃河燕,陳肇雄.一種智能譯后編輯器的設(shè)計(jì)及其實(shí)現(xiàn)算法[J].軟件學(xué)報(bào),1995,6(3):129-135
[6] 王克非.雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù)研制與應(yīng)用[J].外語(yǔ)教學(xué)與研究,2004(4).endprint
摘要:為了構(gòu)建面向電力行業(yè)信息系統(tǒng)的漢維哈自動(dòng)翻譯引擎,需要構(gòu)建大量的漢維哈語(yǔ)種的平行語(yǔ)料庫(kù)。該文中,設(shè)計(jì)與實(shí)現(xiàn)了漢維哈平行語(yǔ)料庫(kù)構(gòu)建系統(tǒng)的文檔導(dǎo)入及對(duì)齊功能。文檔導(dǎo)入登記文檔的屬性,并對(duì)文檔進(jìn)行拼寫檢查等編輯操作,文檔對(duì)齊對(duì)漢語(yǔ)文檔與維吾爾語(yǔ)或哈薩克語(yǔ)文檔建立對(duì)齊關(guān)系。
關(guān)鍵詞: 電力; 漢語(yǔ); 維吾爾語(yǔ);哈薩克語(yǔ);文檔對(duì)齊
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8657-02
新疆維吾爾自治區(qū)的電力系統(tǒng)員工及用電群眾中都有漢語(yǔ)水平較差的少數(shù)民族群眾,為了給各族員工和群眾提供多語(yǔ)種的信息系統(tǒng)服務(wù),新疆電力公司要求面向用戶的信息產(chǎn)品必須提供漢、維、哈語(yǔ)種的操作界面。為了提高系統(tǒng)開發(fā)速度、充分利用已翻譯的資源和統(tǒng)一電力術(shù)語(yǔ)的譯文,設(shè)計(jì)與開發(fā)了面向電力系統(tǒng)的信息系統(tǒng)漢語(yǔ)菜單、提示自動(dòng)翻譯引擎。
1 漢維哈文檔對(duì)齊工具的設(shè)計(jì)與實(shí)現(xiàn)
文檔是所有語(yǔ)料庫(kù)建設(shè)工作的基礎(chǔ),也是目前自然語(yǔ)言處理能夠考慮的最大的單元。為了構(gòu)建機(jī)器翻譯系統(tǒng)需要構(gòu)建大量的平行語(yǔ)料庫(kù)。因?yàn)榫S吾爾文在線平行語(yǔ)料庫(kù)不多,所以需要從出版社、日?qǐng)?bào)社、有關(guān)行業(yè)單位收集圖書、雜志或文件等,對(duì)其進(jìn)行文檔、句子級(jí)別的對(duì)齊處理,所以本文中設(shè)計(jì)與實(shí)現(xiàn)了整理文檔、編輯文檔及對(duì)齊文檔的工具軟件。
1.1 文檔導(dǎo)入
文檔導(dǎo)入模塊主要功能是完成各種文件的導(dǎo)入。文件成功導(dǎo)入到數(shù)據(jù)庫(kù)之后,等待文件編輯員檢查是否合理,若合理就提交給文件審核員,否則就修改并保存然后提交給審核員。如果需要導(dǎo)入新文檔,單擊“瀏覽”按鈕選擇你要導(dǎo)入的文檔。選擇文檔后你所選擇的文檔的部分信息將會(huì)顯示在下面的文本框中,如圖1所示。再選擇你所導(dǎo)入文檔的語(yǔ)種、領(lǐng)域和作者信息。然后單擊“提交文檔”按鈕,會(huì)彈出一個(gè)消息框,提示是否確認(rèn)提交。單擊“確定”按鈕則完成該次文檔導(dǎo)入;如果需要重新寫入文檔信息,則可單擊“重寫信息”按鈕,重新選擇要導(dǎo)入的文檔;如果不需要導(dǎo)入文檔,則點(diǎn)擊“退出程序”按鈕,退出該模塊。單擊“已經(jīng)導(dǎo)入的文檔”按鈕,即可進(jìn)入查看已經(jīng)導(dǎo)入的文檔界面。用戶可以根據(jù)導(dǎo)入時(shí)間和審核狀態(tài)來(lái)查詢,也可以選擇“顯示全部”按鈕來(lái)查詢所有已審核或未審核的文檔。
1.2文檔編輯模塊
該模塊的主要功能是對(duì)成功導(dǎo)入的文檔進(jìn)行編輯。該模塊默認(rèn)的功能界面是“查看新導(dǎo)入文檔”。單擊“查看新導(dǎo)入文檔”按鈕,可以選擇兩個(gè)對(duì)應(yīng)的雙語(yǔ)文檔右鍵單擊彈出快捷菜單,如圖3所示。
選擇“文檔編輯”即可對(duì)所選擇的文檔進(jìn)行編輯,如圖4所示。在編輯狀態(tài)可以加載原始文檔、進(jìn)行字體設(shè)置、維文校對(duì)、提交文檔、保存并更新等操作,還可以對(duì)已編輯的文本內(nèi)容進(jìn)行替換和查找操作。
1.3 文檔對(duì)齊文檔
該模塊的主要功能是找出所選擇文檔對(duì)應(yīng)的另一種語(yǔ)言的文檔,必須是審核成功的文檔才能分配給用戶進(jìn)行文檔對(duì)齊。文檔對(duì)齊是對(duì)兩種不同語(yǔ)種的文檔進(jìn)行對(duì)齊,建立它們的對(duì)照關(guān)系。界面左邊是“維語(yǔ)文檔”,右邊是“漢文文檔”。如果用戶被系統(tǒng)管理員分配文檔對(duì)齊任務(wù),則文檔對(duì)齊界面顯示給用戶所安排文檔的第一個(gè)文檔。如圖5所示。
對(duì)齊:首先要選擇對(duì)應(yīng)的兩個(gè)文檔(維語(yǔ)文檔一個(gè)或多個(gè),漢語(yǔ)文檔一個(gè)或多個(gè)),然后右鍵單擊彈出快捷菜單選擇“對(duì)齊”子菜單,或者單擊界面下面的“對(duì)齊”按鈕,都可以建立所選擇的兩個(gè)文檔的對(duì)齊關(guān)系。
取消對(duì)齊:取消對(duì)齊只能在已建立對(duì)齊的兩個(gè)文檔之間進(jìn)行操作,取消對(duì)齊前確定所取消的文檔,選擇一個(gè)文檔系統(tǒng)會(huì)自動(dòng)選擇給另一個(gè)語(yǔ)種對(duì)應(yīng)的文檔。
2 結(jié)論
本文中對(duì)文檔導(dǎo)入、編輯及對(duì)齊進(jìn)行了介紹,并實(shí)現(xiàn)了該工具軟件。該軟件提高了文獻(xiàn)整理工作的效率,質(zhì)量,避免了以前的語(yǔ)料庫(kù)存儲(chǔ)松散及重復(fù)工作的問題。今后,繼續(xù)研究自動(dòng)對(duì)齊漢維哈文檔算法,進(jìn)一步提高語(yǔ)料庫(kù)的建設(shè)速度。
參考文獻(xiàn):
[1] 武毅.基于 Lucene.Net 的全文檢索研究與應(yīng)用[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2011.
[2] 李穎,李志蜀,鄧歡.基于 Lucene 的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)[J].四川大學(xué)學(xué)報(bào),2008,45(5):1095-1098.
[3] 陳震明.智能機(jī)器翻譯前后端處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,1998.
[4] 尼加提·納吉米,席小剛,馬斌,買合木提·買買提.多語(yǔ)種輔助翻譯系統(tǒng)研究與實(shí)現(xiàn)[J]. 電腦知識(shí)與技術(shù),2012,8(2):345-350.
[5] 黃河燕,陳肇雄.一種智能譯后編輯器的設(shè)計(jì)及其實(shí)現(xiàn)算法[J].軟件學(xué)報(bào),1995,6(3):129-135
[6] 王克非.雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù)研制與應(yīng)用[J].外語(yǔ)教學(xué)與研究,2004(4).endprint