公文范文

基于Python的中英政治语料构建

2021-11-04 13:00:08公文范文

刘蜜蜜[摘要：随着中国在国际舞台上影响力的提升，中国的对外宣传也愈加重要。政治文本要求翻译忠实、准

刘蜜蜜

[摘要：随着中国在国际舞台上影响力的提升，中国的对外宣传也愈加重要。政治文本要求翻译忠实、准确，切合时政热点，这也要求翻译工作中大量参考已有翻译。本文重点介绍如何利用Python中的Requests库进行文本的抓取，以及通过在线语料对齐平台进行语料对齐，从而利用网页上的文本信息构建可以为我们所用的语料信息。

关键词：Python;政治文本;翻译;语料库]

“一带一路”倡议之后，国内外关于中国政治的研究越来越多，政治文本翻译也成为了一个强需求。面对如此海量的政治文本，语料库和翻译技术成为一个重要工具。

1政治文本的特点

政务文本主要有两个特点：一是准确性，二是实时性。政治文本直接牵涉到政治立场和观点，所以翻译此类文本应用词准确，避免引起不必要的误解，外宣翻译倾向于完全“忠实”于原文。最行之有效的方式就是找已有的官方译文进行借鉴。除了对于准确性的要求，政治文本的内容往往具有很强的实时性，往往需要结合时事热点，例如，2019年之后外宣文本中出现“绿水青山就是金山银山”的表述，是近些年才被热议的话题。

2信息时代翻译的特点

当今的翻译工作越来越多的受到科技发展的驱使，人工智能、大数据、云的发展，都极大地改变了人们的工作方式和状态。此外，在全球化与本地化加速发展的现在，翻译的需求量加大，翻译效率也成为了重中之重。这种情况下，计算机技术也就成为了我们的必然选择。

译员对于信息化的需求主要有3个层面：首先，译员之间需要横向合作，需要翻译协作和大型翻译项目管理软件。其次，还需要借助众多译员的长期双语语料积累，译者之前翻译和求证过的翻译也是重要参考。最后，不同的译员之间需要语料共享。

3利用Python抓取政治文本语料

利用Python手段抓取政治文本语料的过程主要分为4步：

3.1确定目标.由于政治文本对于实时热点的要求比较高，此次任务中选择英语点津网站的新闻播报栏目的内容进行抓取。在爬虫之前，其robots协议（反爬虫规则）显示英语点津网站是没有robots文件的，也就是说不对爬虫加以限制;

3.2页面分析。下一步我们调出开发者工具进行页面分析。从代码中，我们可以看到我们可以知道，版面目录存放在一个 class = “gy_box” 的 div 标签下，每一个 div 表示一个版面，而版面的链接就在 target = “_blank”， class=”gy_box_img”， shape=”rect” 的 a 标签中;

3.3利用requests库获取文本。

3.3.1安装requests库

Requests库是一个Python第三方库，处理URL资源特别方便。在Pycharm中的安装方式是打开 PyCharm，单击“File”（文件）菜单，选择“Setting for New Projects...”命令，选择“Project Interpreter”（项目编译器）命令，确认当前选择的编译器，然后单击右上角的加号，添加Requests库。如果使用Python自带的编辑器，只需要在命令提示符中输入：

pip install requests

3.3.2 用get获取信息

使用Python第三方库requests的get （URL）方法获取网页信息。

import requests

r=requests.get（“https：//language.chinadaily.com.cn/a/202003/03/WS5e5e5121a31012821727c044.html”）

r.status_code

r.text[：100]

得到源文本的代码之后，还需要用正则表达式或者lxml去除网页内容中的特殊字符，得到只有中英文字符的新闻原文。

3.3.3将文本信息存储

使用with open （‘文件名，方式） as变量名，对获取的网页文本信息存储到本地txt文件。

3.3.4利用語料商城进行语料对齐

我们还需要将得到的语料制作成符合CAT软件要求的格式。可以利用tmxmall的在线对齐功能进行调整，选择“单语文档对齐”即可很快捷地完成对齐。

4小结

翻译过程中，译员们常常寻求专业网站支持，但是这种简单的搜索还存在着问题。首先，站内搜索效率不高，网页加载对网速有要求，同时打开网页太多也会给电脑带来压力。其次，政治文本的查询需要参考来自多个平台的内容，多次搜索的动作，比较费时费力。

而这种基于Python的方式就可以很好的解决这两个问题，避免了打开多个网页的繁杂的查询过程，可以同时爬取多个页面，提高了查询的效率。此外，这种爬取的方式灵活方便，可以即时添加新的语料信息，保证了语料的实时性。

参考文献

[1]赵振国.基于Python的网络语料获取和文本提取方法探索[J].教育现代化，2019，6（14）：188-190.

[2]杨丽，孙昂，刘俐.论个人翻译语料库的建立和使用[J].企业家天地下半月刊（理论版），2007（11）：200-201.

[3]庚庚911. python基础-文件读写with open as语句[EB/OL].https：//blog.csdn.net/yetugeng/article/details/83870197？depth_1-utm_source=distribute.pc_relevant.none-task&utm_source= distribute.pc_relevant.none- task. 2018-11-08.

浙江大学浙江杭州 310058

猜你喜欢语料库翻译思辨型大学英语翻译教学模式研究课程教育研究(2020年13期)2020-07-04明清时期来华传教士的西学中译研究外国语文研究(2020年1期)2020-05-11《红楼梦》译本中“红”色翻译的归化与异化神州·中旬刊(2020年1期)2020-02-03基于语料库翻译学的广告翻译平行语料库问题研究知识文库(2019年22期)2019-11-11运用语料库辅助高中英语写作师道·教研(2017年11期)2017-12-10语料库与译者培养探索改革与开放(2010年6期)2010-06-04

推荐访问:语料中英构建

枫林范文网

公文范文

基于Python的中英政治语料构建

初二英语英语动词时态知识点总结附解析推荐

展会总结报告

相关文章