王全蕊,李艷翠
(河南科技學(xué)院,河南新鄉(xiāng)453003)
基于醫(yī)學(xué)領(lǐng)域的漢英子句對齊語料庫檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
王全蕊,李艷翠
(河南科技學(xué)院,河南新鄉(xiāng)453003)
漢英平行語料庫檢索系統(tǒng)在自動(dòng)文摘、問答系統(tǒng)、機(jī)器翻譯等領(lǐng)域的重要性越來越突出.為了提高漢英互譯的精確性,系統(tǒng)采用JSP技術(shù)作為后臺(tái)開發(fā)語言,以MySQL為后臺(tái)數(shù)據(jù)庫,設(shè)計(jì)并開發(fā)了基于醫(yī)學(xué)領(lǐng)域的漢英子句對齊語料庫檢索系統(tǒng).語料庫檢索平臺(tái)具有良好的用戶界面,充分利用已有標(biāo)注結(jié)果,滿足用戶在子句層面上的對齊查詢、統(tǒng)計(jì)分析等功能.系統(tǒng)既可用于漢英子句的對比、翻譯、教學(xué)等研究,為融合子句信息的機(jī)器翻譯研究奠定基礎(chǔ),又可有效的輔助醫(yī)學(xué)專業(yè)學(xué)生的翻譯教學(xué).
醫(yī)學(xué)語料庫;對齊技術(shù);JSP;數(shù)據(jù)庫;檢索系統(tǒng)
近年來,人們在漢英平行語料庫理論研究的基礎(chǔ)上開發(fā)了相應(yīng)的語料檢索系統(tǒng),不僅可以用于提高機(jī)器自動(dòng)翻譯的性能,而且能加強(qiáng)機(jī)器翻譯中的人機(jī)交互.哈工大信息檢索研究機(jī)構(gòu)構(gòu)建的具有50萬對齊句對的漢英雙語語料庫檢索系統(tǒng),能夠?qū)崿F(xiàn)句子、短語、詞匯3種粒度上的對齊.中科院計(jì)算機(jī)技術(shù)研究所構(gòu)建了跨語言語料庫檢索系統(tǒng),數(shù)據(jù)庫中含有18萬漢英句對,支持漢英句子、句子來源等查詢.當(dāng)然國內(nèi)還有很多大規(guī)模的漢英雙語語料庫檢索系統(tǒng),但這些語料庫主要是在篇章、句子或詞匯層面上對齊檢索,而很少有子句的層面上進(jìn)行對齊檢索和分析的,這就直接影響力漢英互譯的精確性,甚至?xí)霈F(xiàn)“斷章取義”的現(xiàn)象.
本文根據(jù)醫(yī)學(xué)領(lǐng)域的篇章分析任務(wù)和語料庫建設(shè)實(shí)踐,采用JSP技術(shù)作為后臺(tái)開發(fā)語言,以MySQL為后臺(tái)數(shù)據(jù)庫,設(shè)計(jì)開發(fā)一個(gè)能在子句層面上實(shí)現(xiàn)對齊的漢英平行語料庫檢索系統(tǒng),為融合子句信息的機(jī)器翻譯研究奠定基礎(chǔ),又可有效的輔助醫(yī)學(xué)專業(yè)英語學(xué)生的翻譯教學(xué).
1.1 語料庫構(gòu)建技術(shù)
在自然語言處理領(lǐng)域中,構(gòu)建漢英平行語料庫在推動(dòng)機(jī)器翻譯的發(fā)展中發(fā)揮了巨大的作用.文獻(xiàn)[1]通過自動(dòng)抽取、自動(dòng)映射加人工標(biāo)注相結(jié)合的方法,構(gòu)建了可以實(shí)現(xiàn)中英文在實(shí)體和關(guān)系級別上的對齊中英文平行語料庫;文獻(xiàn)[2]提出的基于單詞間粘合度與松弛度的語塊劃分評分方法以及雙語語塊劃分的雙向約束算法,可以提高句子對齊的準(zhǔn)確率;當(dāng)然還有其他的一些理論研究成果[3-7],也都是在句子或詞匯層面上對對齊技術(shù)進(jìn)行分析和研究的.
本文采用文獻(xiàn)[8]中的子句定義,先對漢語醫(yī)學(xué)篇章按照“源語優(yōu)先”的對齊策略,進(jìn)行手工切分.在獲得的413篇醫(yī)學(xué)領(lǐng)域的實(shí)際語料中,把與典型子句在結(jié)構(gòu)、功能、形式上類似的特殊短語在特定的語境下也作為子句處理.接著對切分后的結(jié)果利用對齊標(biāo)注工具實(shí)現(xiàn)篇章子句標(biāo)注,標(biāo)注結(jié)果保存到數(shù)據(jù)庫中作為語料庫內(nèi)容.標(biāo)注內(nèi)容包括文獻(xiàn)[9]中給出的子句、連接詞、中心、篇章結(jié)構(gòu)層次等信息.然后通過段落號和段內(nèi)關(guān)系號體現(xiàn)出醫(yī)學(xué)語料在子句層面上的對齊關(guān)系.
1.2 JSP技術(shù)
JSP,全稱為Java Server Pages,中文名叫java服務(wù)器頁面,是由SUN公司和其他公司創(chuàng)建的一種網(wǎng)站開發(fā)語言,可以動(dòng)態(tài)生成HTML、XML或其他各格式文檔的Web網(wǎng)頁,可以將其簡單的理解為是Servlet的另一種表現(xiàn)形式.使用JSP技術(shù)開發(fā)檢索平臺(tái)具有獨(dú)特的優(yōu)勢,能夠保持內(nèi)容生成和頁面顯示的分離性,使得基于Web的應(yīng)用程序的開發(fā)變的快速和簡單.通過獲取網(wǎng)頁前端用戶的請求,以特定的Java Beans組件對數(shù)據(jù)庫進(jìn)行訪問,并以HTML頁面的形式顯示結(jié)果,不僅具備了Java的簡單易用、功能強(qiáng)大、面向?qū)ο蟮膬?yōu)點(diǎn),而且具有平臺(tái)無關(guān)性與安全可靠性.
1.3 多庫檢索技術(shù)
由于醫(yī)學(xué)是一個(gè)龐大的學(xué)科,其中的多個(gè)分支還與其他學(xué)科有交叉,使得該領(lǐng)域的知識體系較為繁雜,當(dāng)然所要構(gòu)建的語料庫也將會(huì)非常大.為了使構(gòu)建的醫(yī)學(xué)語料庫具有可擴(kuò)展性,本檢索系統(tǒng)將數(shù)據(jù)庫按醫(yī)學(xué)的不同學(xué)科劃分為多個(gè)子數(shù)據(jù)庫.多個(gè)子數(shù)據(jù)庫可能會(huì)存在一定的交叉性,為了確保檢索的一致性和不重復(fù)性,采用多庫檢索技術(shù)以提高醫(yī)學(xué)子句檢索系統(tǒng)的精準(zhǔn)率.
利用Web瀏覽器的訪問請求接口,根據(jù)每個(gè)數(shù)據(jù)庫的檢索格式將用戶的查詢請求自動(dòng)生成多個(gè)對應(yīng)的查詢請求,再將查詢請求傳送到對應(yīng)的數(shù)據(jù)庫中等待檢索結(jié)果的返回,最后當(dāng)數(shù)據(jù)庫返回查詢結(jié)果時(shí),由系統(tǒng)對結(jié)果進(jìn)行分析綜合并排序,以統(tǒng)一的格式呈現(xiàn)給用戶.
2.1 系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì)
在設(shè)計(jì)的醫(yī)學(xué)領(lǐng)域漢英子句對齊語料庫檢索系統(tǒng)中,用戶提交檢索請求,系統(tǒng)會(huì)將其請求根據(jù)相應(yīng)的查詢格式進(jìn)行轉(zhuǎn)換,并到語料庫中進(jìn)行全醫(yī)學(xué)學(xué)科查詢或是分科查詢.當(dāng)查詢結(jié)果返回時(shí),再利用自動(dòng)對齊功能將所查詢的漢英子句以固定對齊格式顯示在系統(tǒng)頁面上.通過頁面對齊結(jié)果,用戶可以對比分析前期所做的手工標(biāo)注是否規(guī)范、切分規(guī)則是否完善等問題,根據(jù)可能存在的問題,用戶可以再次修改手工標(biāo)注文檔并上傳,更新語料庫.
子句對齊語料庫檢索系統(tǒng)的總體設(shè)計(jì)圖如圖1所示.
圖1 在線醫(yī)學(xué)漢英平行語料檢索系統(tǒng)的總體設(shè)計(jì)Fig.1 Conceptual diagrams of Chinese-English parallel corpus retrieval system
2.2 系統(tǒng)開發(fā)環(huán)境
在線醫(yī)學(xué)漢英平行語料檢索系統(tǒng)采用B/S架構(gòu),使用Java語言進(jìn)行編程,以MyEclipse工具和JSP技術(shù)開發(fā),使用MySQL作為系統(tǒng)的后臺(tái)數(shù)據(jù)庫,在Windows平臺(tái)上進(jìn)行系統(tǒng)設(shè)計(jì).
2.3 數(shù)據(jù)庫設(shè)計(jì)
按照醫(yī)學(xué)學(xué)科分類,將系統(tǒng)的語料組成12個(gè)子數(shù)據(jù)庫.分別為其建立對應(yīng)的數(shù)據(jù)庫物理文件,并將急診科文件作為主數(shù)據(jù)庫文件,擴(kuò)展名為MDF,其他為次數(shù)據(jù)庫文件,擴(kuò)展名為NDF,然后將這個(gè)多個(gè)子數(shù)據(jù)庫文件放在磁盤不同的邏輯盤中,由此可以極大地提高語料庫的檢索速度,并且使得在后期不斷增加醫(yī)學(xué)語料時(shí),依然能夠保持高效的檢索效率.
每個(gè)醫(yī)學(xué)分學(xué)科的子數(shù)據(jù)對應(yīng)兩個(gè)表單,一個(gè)是以對應(yīng)學(xué)科名命名的漢語XML文檔,另一個(gè)是以對應(yīng)學(xué)科名命名的漢語XML文檔.在進(jìn)行漢英子句對齊時(shí)我們根據(jù)前期所做的層次結(jié)構(gòu)標(biāo)注(StructureType字段)、連接詞標(biāo)注(ConnectiveType字段)、關(guān)系標(biāo)注(RelationType字段)、角色分布標(biāo)注(RoleLocation字段)、中心標(biāo)注(Center字段)等工作建立數(shù)據(jù)庫表單,見表1.
表1 語料數(shù)據(jù)庫的表單Tab.1 Form of corpus database
2.4 系統(tǒng)功能描述
檢索系統(tǒng)主要由語料庫、手工切分模塊、自動(dòng)標(biāo)注模塊、自動(dòng)對齊模塊、跨庫檢索模塊和統(tǒng)計(jì)分析模塊6大模塊組成.
語料庫主要用于存儲(chǔ)醫(yī)學(xué)領(lǐng)域包括內(nèi)科、外科、神經(jīng)科、兒科、急診科、家庭醫(yī)學(xué)、影像醫(yī)學(xué)等12個(gè)醫(yī)學(xué)學(xué)科的英漢子句語料.
手工切分模塊主要是對前期收集到的醫(yī)學(xué)12個(gè)學(xué)科的413篇源語料進(jìn)行預(yù)處理,將其中的一些噪聲去除;然后根據(jù)文獻(xiàn)[7]給出的基本篇章單位(子句)的定義對源預(yù)料進(jìn)行切分和手工標(biāo)注.
自動(dòng)標(biāo)注模塊可以實(shí)現(xiàn)對手工切分后的12個(gè)學(xué)科的漢英篇章在子句、連接詞、中心、篇章結(jié)構(gòu)側(cè)層次等篇章結(jié)構(gòu)信息進(jìn)行標(biāo)注,漢英雙語的對齊關(guān)系可通過段落號和段內(nèi)關(guān)系號體現(xiàn).標(biāo)注結(jié)果被保存為XML格式的文件,且漢英雙語標(biāo)注和切分后的結(jié)果各自獨(dú)立保存在不同的本地磁盤中,以便后期在擴(kuò)展數(shù)據(jù)庫時(shí)提高數(shù)據(jù)庫的查詢速度.
多庫檢索模塊根據(jù)用戶提出的請求對各個(gè)子數(shù)據(jù)庫進(jìn)行檢索并將檢索結(jié)果提交給自動(dòng)對齊模塊,由自動(dòng)對齊模塊對將根據(jù)對齊原則檢索結(jié)果對齊后顯示在前端頁面上.
統(tǒng)計(jì)分析模塊可以通過圖和表兩種不同的形式顯示英語小句的漢語對齊分析中最小對齊單位出現(xiàn)的頻率和所占百分比.
2.5 漢英子句對齊檢索系統(tǒng)的實(shí)現(xiàn)
為了能夠?qū)崿F(xiàn)醫(yī)學(xué)領(lǐng)域篇章漢英子句的全面檢索和有針對性的檢索,該漢英子句對齊語料庫檢索系統(tǒng)可以實(shí)現(xiàn)子語料庫檢索,即分學(xué)科進(jìn)行子句對齊查詢.同時(shí)各個(gè)學(xué)科之間會(huì)有一定的交叉性,因此為了提高該系統(tǒng)的查全率,還設(shè)置了全語料庫檢索,可以在系統(tǒng)中對所有學(xué)科進(jìn)行檢索,如圖2所示.
圖2 系統(tǒng)總語料庫檢索界面Fig.2 Retrieval interface of total system corpus
在檢索頁面用戶既可以提交中文查詢關(guān)鍵詞,也可以提交英文查詢關(guān)鍵詞.系統(tǒng)通過相應(yīng)正則表達(dá)式匹配對應(yīng)的漢英查詢條件,然后將查詢條件拼接到SQL語句中進(jìn)行模糊查詢,其關(guān)鍵代碼如下:
該系統(tǒng)具有文件上傳的功能,可以將已標(biāo)注好的漢英XML語料文檔同時(shí)上傳至系統(tǒng),以擴(kuò)充語料庫內(nèi)容,幫助用戶獲取更多的信息,對應(yīng)圖3中的直接上傳模塊;同時(shí)還可以將手工切分好的DOC源語料文檔上傳至系統(tǒng),再由系統(tǒng)的自動(dòng)標(biāo)注模塊將其轉(zhuǎn)換為XML文檔保存至語料庫中,對應(yīng)圖3的間接上傳模塊.
圖3 DOC源語料庫文檔上傳界面Fig.3 Upload interface of DOC source corpus files
上傳DOC源語料文檔之前,用戶需對源語料進(jìn)行一些預(yù)處理,然后再按照切分規(guī)則對篇章進(jìn)行手工標(biāo)注,并保存為DOC文檔.通過間接上傳的功能可以利用標(biāo)注工具將源語料標(biāo)注為帶有特定格式的XML文檔,并將該文檔保存至指定的目錄下.用戶可以查看該文檔自動(dòng)標(biāo)注的結(jié)果,如果存在問題,可人工進(jìn)行適當(dāng)修改,再保存為XML文檔,并通過直接上傳功能上傳至語料數(shù)據(jù)庫中.
3.1 檢索模塊測試
以分科檢索功能為例,在兒科學(xué)信息檢索頁面中,設(shè)置查詢條件為“患兒”,可將查詢結(jié)果快速地返回在頁面的下方,以漢英對照的方式同時(shí)顯示,并且能夠顯示漢英子句的切分位置,且以漢語優(yōu)先的規(guī)則對齊英文子句,檢索界面結(jié)果如圖4所示.
圖4 兒科子語料庫檢索結(jié)果Fig.4 Retrieval results of pediatrics corpus
由圖4可以看出,以“患兒”為關(guān)鍵字進(jìn)行檢索時(shí),系統(tǒng)會(huì)將語料庫中包含該關(guān)鍵字的所有段落或句子以切分和對齊的形式顯示出來,在此基礎(chǔ)上,可以通過人工排查和統(tǒng)計(jì)工具對其中少數(shù)切分不合理以及漢英沒有對齊的情況進(jìn)行進(jìn)一步的分析和研究.
3.2 統(tǒng)計(jì)分析測試
系統(tǒng)可以通過圖和表兩種不同的形式顯示英語小句的漢語對齊分析中最小對齊單位出現(xiàn)的頻率和所占百分比,我們選取兒科的兩篇文檔進(jìn)行統(tǒng)計(jì)分析后的結(jié)果如圖5所示.
圖5 英語小句的漢語對齊分析中最小對齊單位出現(xiàn)的頻率和所占百分比Fig.5 Frequency and percentage of atomic alignment unit in the Chinese alignment analysis of English
醫(yī)學(xué)領(lǐng)域漢英子句對齊語料庫檢索系統(tǒng)能實(shí)現(xiàn)在子句層面上進(jìn)行漢英雙語自動(dòng)標(biāo)注和對齊,同時(shí)還可以根據(jù)提供的關(guān)鍵詞檢索相關(guān)漢英子句對齊情況,并能根據(jù)特定條件進(jìn)行統(tǒng)計(jì)分析.該漢英子句語料庫以及檢索系統(tǒng)既可用于漢英子句的對比、翻譯、教學(xué)等研究,為融合子句信息的機(jī)器翻譯研究奠定基礎(chǔ),又可有效的輔助醫(yī)學(xué)專業(yè)學(xué)生的翻譯教學(xué).
[1]惠浩添,李云建,錢龍華,等.一個(gè)面向信息抽取的中英文平行語料庫[J].計(jì)算機(jī)工程與科學(xué),2015,37(12):2331-2338.
[2]俞敬松,王惠臨,吳勝蘭.高正確率的雙語語塊對齊算法研究[J].中文信息學(xué)報(bào),2015,29(1):67-74.
[3]宋柔,葛詩利.面向篇章機(jī)器翻譯的英漢翻譯單位和翻譯模型研究[J].中文信息學(xué)報(bào),2015,29(5):125-135.
[4]王嵐,嚴(yán)燦勛.軍事英漢漢英平行語料庫建設(shè)存在的問題及對策[J].解放軍外國語學(xué)院學(xué)報(bào),2015,38(5):33-39.
[5]倪傳斌,魏俊彥,徐曉東,等.基于句子層面的雙語詞匯轉(zhuǎn)換研究:來自眼動(dòng)的證據(jù)[J].解放軍外國語學(xué)院學(xué)報(bào),2015,38(1):19-28.
[6]陳松菁.語料庫在大學(xué)英語寫作教學(xué)中的應(yīng)用初探[J].長春大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,21(8):107-111.
[7]XUE N W,YANG Y Q.Chinese sentence segmentation as comma classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Portland,2011:631 635.
[8]李艷翠,馮文賀,周國棟,等.基于逗號的漢語子句識別研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(1):7-14.
[9]LI Y C,FENG W H,SUN J,et al.Building Chinese discourse corpus with connective-driven dependency tree structure[C] //Association for Computational Linguistics(ACL).2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014,Doha,Qatar:2105 2114.
(責(zé)任編輯:盧奇)
Design and realization of the Chinese-English clause alignment corpus retrieval system
WANG Quanrui,LI Yancui
(Henan Institute of Science and Technology,Xinxiang 453003,China)
Over recent years,Chinese-English clause alignment corpus retrieval system is more and more important in the field of automatic summarization,question answering system,machine translation and so on.In order to improve the accuracy of the Chinese and English translation,exploiting a small online Chinese-English clause alignment corpus retrieval system in the medical field,using JSP as the foreground and background of the development of language,MySQL database as a background.The corpus retrieval platform has good user interface that can meet the user's query,statistical analysis at the clause level.By building the Chinese-English clause corpus and the retrieval systems that can not only be used for comparison clauses,translation,teaching and research both Chinese and English clause comparison,translation,teaching and research,but also effectively assists medical students in English translation and teaching.
medical corpus;clause alignment;JSP;database;the retrieval system
TP391
A
1008-7516(2016)06-0057-06
10.3969/j.issn.1008-7516.2016.06.014
2016-10-12
國家自然科學(xué)基金(61502149)
王全蕊(1981―),女,河南新鄉(xiāng)人,碩士,講師.主要從事數(shù)據(jù)挖掘與信息處理研究.