• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Python的中英政治語料構(gòu)建

    2021-07-16 10:15:40劉蜜蜜
    讀書文摘(下半月) 2021年4期
    關(guān)鍵詞:翻譯語料庫

    劉蜜蜜

    [摘? 要:隨著中國在國際舞臺上影響力的提升,中國的對外宣傳也愈加重要。政治文本要求翻譯忠實、準(zhǔn)確,切合時政熱點,這也要求翻譯工作中大量參考已有翻譯。本文重點介紹如何利用Python中的Requests庫進行文本的抓取,以及通過在線語料對齊平臺進行語料對齊,從而利用網(wǎng)頁上的文本信息構(gòu)建可以為我們所用的語料信息。

    關(guān)鍵詞:Python;政治文本;翻譯;語料庫]

    “一帶一路”倡議之后,國內(nèi)外關(guān)于中國政治的研究越來越多,政治文本翻譯也成為了一個強需求。面對如此海量的政治文本,語料庫和翻譯技術(shù)成為一個重要工具。

    1政治文本的特點

    政務(wù)文本主要有兩個特點:一是準(zhǔn)確性,二是實時性。政治文本直接牽涉到政治立場和觀點,所以翻譯此類文本應(yīng)用詞準(zhǔn)確,避免引起不必要的誤解,外宣翻譯傾向于完全“忠實”于原文。最行之有效的方式就是找已有的官方譯文進行借鑒。除了對于準(zhǔn)確性的要求,政治文本的內(nèi)容往往具有很強的實時性,往往需要結(jié)合時事熱點,例如,2019年之后外宣文本中出現(xiàn)“綠水青山就是金山銀山”的表述,是近些年才被熱議的話題。

    2信息時代翻譯的特點

    當(dāng)今的翻譯工作越來越多的受到科技發(fā)展的驅(qū)使,人工智能、大數(shù)據(jù)、云的發(fā)展,都極大地改變了人們的工作方式和狀態(tài)。此外,在全球化與本地化加速發(fā)展的現(xiàn)在,翻譯的需求量加大 ,翻譯效率也成為了重中之重。這種情況下,計算機技術(shù)也就成為了我們的必然選擇。

    譯員對于信息化的需求主要有3個層面:首先,譯員之間需要橫向合作,需要翻譯協(xié)作和大型翻譯項目管理軟件。其次,還需要借助眾多譯員的長期雙語語料積累,譯者之前翻譯和求證過的翻譯也是重要參考。最后,不同的譯員之間需要語料共享。

    3利用Python抓取政治文本語料

    利用Python手段抓取政治文本語料的過程主要分為4步:

    3.1確定目標(biāo).由于政治文本對于實時熱點的要求比較高,此次任務(wù)中選擇英語點津網(wǎng)站的新聞播報欄目的內(nèi)容進行抓取。在爬蟲之前,其robots協(xié)議(反爬蟲規(guī)則)顯示英語點津網(wǎng)站是沒有robots文件的,也就是說不對爬蟲加以限制;

    3.2頁面分析。下一步我們調(diào)出開發(fā)者工具進行頁面分析。從代碼中,我們可以看到我們可以知道,版面目錄存放在一個 class = “gy_box” 的 div 標(biāo)簽下,每一個 div 表示一個版面,而版面的鏈接就在 target = “_blank”, class=”gy_box_img”, shape=”rect” 的 a 標(biāo)簽中;

    3.3利用requests庫獲取文本。

    3.3.1安裝requests庫

    Requests庫是一個Python第三方庫,處理URL資源特別方便。在Pycharm中的安裝方式是打開 PyCharm,單擊“File”(文件)菜單,選擇“Setting for New Projects...”命令,選擇“Project Interpreter”(項目編譯器)命令,確認(rèn)當(dāng)前選擇的編譯器,然后單擊右上角的加號,添加Requests庫。如果使用Python自帶的編輯器,只需要在命令提示符中輸入:

    pip install requests

    3.3.2 用get獲取信息

    使用Python第三方庫requests的get (URL) 方法獲取網(wǎng)頁信息。

    import requests

    r=requests.get(“https://language.chinadaily.com.cn/a/202003/03/WS5e5e5121a31012821727c044.html”)

    r.status_code

    r.text[:100]

    得到源文本的代碼之后,還需要用正則表達(dá)式或者lxml去除網(wǎng)頁內(nèi)容中的特殊字符,得到只有中英文字符的新聞原文。

    3.3.3將文本信息存儲

    使用with open (‘文件名, 方式) as變量名, 對獲取的網(wǎng)頁文本信息存儲到本地txt文件。

    3.3.4利用語料商城進行語料對齊

    我們還需要將得到的語料制作成符合CAT軟件要求的格式??梢岳胻mxmall的在線對齊功能進行調(diào)整,選擇“單語文檔對齊”即可很快捷地完成對齊。

    4小結(jié)

    翻譯過程中,譯員們常常尋求專業(yè)網(wǎng)站支持,但是這種簡單的搜索還存在著問題。首先,站內(nèi)搜索效率不高,網(wǎng)頁加載對網(wǎng)速有要求,同時打開網(wǎng)頁太多也會給電腦帶來壓力。其次,政治文本的查詢需要參考來自多個平臺的內(nèi)容,多次搜索的動作,比較費時費力。

    而這種基于Python的方式就可以很好的解決這兩個問題,避免了打開多個網(wǎng)頁的繁雜的查詢過程,可以同時爬取多個頁面,提高了查詢的效率。此外,這種爬取的方式靈活方便,可以即時添加新的語料信息,保證了語料的實時性。

    參考文獻(xiàn)

    [1]趙振國.基于Python的網(wǎng)絡(luò)語料獲取和文本提取方法探索[J].教育現(xiàn)代化,2019,6(14):188-190.

    [2]楊麗,孫昂,劉俐.論個人翻譯語料庫的建立和使用[J].企業(yè)家天地下半月刊(理論版),2007(11):200-201.

    [3]庚庚911. python基礎(chǔ)-文件讀寫with open as語句[EB/OL].https://blog.csdn.net/yetugeng/article/details/83870197?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source= distribute.pc_relevant.none- task. 2018-11-08.

    浙江大學(xué)? 浙江? 杭州? 310058

    猜你喜歡
    翻譯語料庫
    《語料庫翻譯文體學(xué)》評介
    把課文的優(yōu)美表達(dá)存進語料庫
    商務(wù)英語翻譯在國際貿(mào)易中的重要性及其應(yīng)用
    小議翻譯活動中的等值理論
    考試周刊(2016年77期)2016-10-09 10:36:47
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    語料庫語言學(xué)未來發(fā)展趨勢
    县级市| 太原市| 古浪县| 阳曲县| 宣武区| 西盟| 开远市| 安龙县| 远安县| 丹江口市| 衡水市| 德令哈市| 马山县| 霍林郭勒市| 佳木斯市| 封开县| 舒兰市| 贵南县| 安顺市| 焦作市| 陇西县| 西盟| 台东市| 晋中市| 溧阳市| 炉霍县| 顺平县| 宕昌县| 新田县| 武平县| 甘洛县| 萨迦县| 华安县| 剑阁县| 临高县| 安岳县| 昌图县| 库车县| 铜梁县| 永仁县| 于田县|