各位同学大家好,欢迎来到计算机辅助翻译原理与实践课程。
本周我们将学习诸位期待已久的内容——翻译记忆了。
在前几周的学习中,我们已经学习了相当多的 这个各种各样的这个网络资源,互联网工具,
这个语料库工具来帮助大家做翻译。
那么今天开始我们将学习如何使用翻译技术, 来提高工作效率。
那么首先要讲而且必须要讲的肯定就是这个翻译记忆了。
那么翻译记忆我们第一节首先讲讲它的历史。
这也是所有讲课的惯例,对吧。
但是这个从 翻译记忆这件事来说,这个首先提出来的
不是这个为译员这个工作 而准备好的这个翻译记忆这种工具,而是机器翻译。
机器翻译不是译员们的理想,是所有 这个计算机工作者,当他面临着这个语言问题的时候,
脑子中很自然而然的浮现出来的一个梦想,或者说一个理想。
在计算机还没有诞生之前,就有人发明过用两条纸带
这个记录这个词典,然后用马达带着这个纸带运转来快速定位,代替人
这个翻字典的这样子的一些尝试,但显然这个太不靠谱了。
计算机产生之后,从上这50年代开始起就有人尝试着用计算机来做翻译。
那么当时这个美国人和苏联人正在冷战, 那么俄文的翻译就是
自然而然的这是第一种这个机器翻译的语言对儿,英语对俄语。
很可惜的是,这种早期的尝试非常不成功。
那么关于机器翻译的这些工作呢,我们会在未来 这个机器翻译的这个章节中再去进行详细的讨论。
今天我们只告诉大家,机器翻译太难了, 这个难到了这个想做出
一个真实可用的这样一个译文,直到今天 都还没有这个成为现实。
当然了,你说这个 Google 记忆翻译
这个获得一些信息,这个很容易,但是对我们译员说来 还是没有什么太大用处的。
那么机器 翻译这个不好用,这个译员们却没有
因为机器翻译这个不好用而丧失信心。
我们总要在信息技术中找到一种工具来帮助我们提高工作效率吧。
那么机器翻译这个,翻译记忆就是我们一个首先的选择了。
翻译记忆这档子事很简单, 但是虽然它简单,虽然它很单纯,
远没有机器翻译那么复杂,那么激动人心,但是它却扎扎实实的
成为了译员们工作这个环境,工作的首选。
那么什么是翻译记忆?在维基百科中告诉我们,
这个定义是这样子的:当你在
做翻译工作的时候,会有先译好一些这个文字。
那么这些文字可能是以这个句子为单位,或者以这个更长的就是多个句子
段落为单位,也可能比句子单位要更短一些为单位, 存储起来。
那么在你在做下面的这个翻译的时候, 计算机去查找这些已经做好的这些翻译 工作。
如果发现这个就是重复了,或者是近似重复了, 那么就把过去的翻译输出出来,让译员进行挑选。
这个如果译员认为过去翻译可以用,那么直接就引用就好了。
这样来节省这个工作效率。
这个事情听起来这个非常简单呀,但是它怎么来的呢?
这个又不能不说这个和我们整个这个翻译工作的发展 是联系在一起的。
翻译这个行业的发展早期,显然是这个文学翻译 和一些这个文化艺术这种翻译工作居多。
那么随着这个经济 的发展,特别是二战以后,经济技术的发展,工程技术的发展,国际交往的增多,
这个工程文档,这种类科技文献。
那么这样子的翻译工作 工作量就明显的增加了,特别是对工程技术这种性质的文档说来,重复是很自然的事情。
这个很容易想象啊,比如说一个这个机器,当它升级换代的时候,
这个说明书肯定是部分的这个修改了,
不,增加了这个新功能,过去老功能这个基础的这个说明有必要修改吗?没有必要。
那么这个法律的这个严谨,
要求这个一个机器要向用户提供很多的这种
这个说明书,让用户尽力的,就帮助用户去学好用好这些机器,这些软件。
那么就可能会有所谓的什么快速导引啊,这个
这个用户手册啊,这个故障排除指南啊,
那么在这些不同的文档中间,显然有部分内容也是重复的。
所以啊,这个重复这个问题就是很明显了。
于是大家就开始想,这事儿应该由软件来帮助我们解决。
所以翻译记忆如果用一句话来说就是:做过的事情不要再做了。
这个我们已经告诉过大家。
那么围绕 着这一点,我们可以想象到,对于个人译员说来,
这个它的很大的好处是提高工作效率,过去做过的事情不用再做了嘛。
那么对翻译公司来说,这个效率和质量的提高, 特别是一致性的改善。
这个在大规模的翻译工程中间, 一致性这个问题,一直是大家非常在意的问题,
这个没有一致性就没有大规模翻译工程的这个成功。
那么不管怎么说,还有一个就是需要提示大家
的,这个翻译记忆,当它积累更多的时候,会成为这个翻译公司的一个资产。
不管怎么说,这个翻译记忆,对我们而言它就是一个效率和质量的问题。
有了翻译记忆,我们就有了翻译工程的效率,有了翻译工程的质量。
好,下面我们从翻译记忆发展的这个 历史来跟大家讲讲这个历史上发生的故事。
这个说起这个译员们 享受这个信息技术带来的好处,
首先要追溯到这个字处理软件。
这个译员们每天辛辛苦苦的在输入文字, 那么对欧洲语言说来,比较好一些,可以使用打字机。
那么对于汉语, 这样子的译员说来,输入文字就是一件蛮辛苦的工作了,所谓
爬格子是也,对吧?那么这个当随着计算机的发展
越来越快,这个大型的计算机逐渐的变成了个人的大玩具, 个人的工作平台。
这个早期的这个计算机大家可以看看, 比如说非常著名的苹果二型,
Apple-II, Apple-IIe, 这个是我自己用的这个第一台计算机,
TRS80,这个 MZ2000。
然后是 IBM 的 PC , PC-XT。
到了 PC-XT 的时候,这个已经可以 非常肯定的说,这个
personal computer, PC 成为人们工作所不可离开的东西了。
那么在这个字处理软件 这个走向人们日常工作的时候,
这个这是第一代字处理软件, wordstar。
大家看看,还是纯黑白的这个单色 屏幕上呢。
那么到了多色屏幕上它也没有改善太多, 依然是这个全部是以这个,不是像现在的
word 那样所见所得方式, 而是插入各种排版指令,来改善,来做这个排版工作。
但不管怎么说, 有了这些工具之后,译员们在录入文字的时候,这个工作效率
是得到非常明显的改善和提高了。
那么这个译员在录入的时候, 这个工作改善提高了,他们发现了这种大量的重复的这种现象,那怎么办呢?
这个有人想出一方法来,把 自己发现这个句段重复了,或者段落重复了,
这个再起一个新的文件,比如放在剪贴板上,或者把这个
重复性内容复制到另外 一个这个 wordstar 里面去。
然后在翻译新文件的时候,他记住这个句子我翻译过,到刚才这个存储这个文件
去寻找一下,把译文 copy 过来。
那时候还不是用的 Ctrl C, Ctrl V,但是也是可以用快捷键
很快的很迅速的把这个文字在两个这个文件中进行复制,就粘贴复制的。
这个这样子工作效率就比这个打字显然快了一大截。
但是这个方法显然不大好用啊, 这个第一,这个句子术少的时候,
这个方法可以,句子术语多,这个人脑的记忆变得不太可能,
如果要是每翻译一个句子,都是人工地,就是去阅读刚才做的这个翻译记忆的这个文件的话, 那也太慢了。
幸好地是我们还有其他的力气也在同时产生了。
看看这个, 是所谓的这个LOTUS 1-2-3,
这个电子表格软件。
而这个就是我们的非常著名的 Database,那么这个是在PC上的这个
这个数据库工具。
那么这两者结合, 字处理软件和这个数据库这些软件结合在一起, 就给我们很多的想象空间。
我们可以把这个所有这个译过的句子, 所有译过的这些翻译单元存到这个数据库里面去,然后
查询这个数据库接口,这个获取这个译文。
这样子很简单了,但是每翻译一个句子,都要让人工去查询一个数据库, 这也有点扯。
那么得到很自然地把它们这些想法
全部连接在一起的时候,就产生了我们第一代的翻译记忆工具,用这个 人工,用机器、
数据库代替人工的这个查询。
用这个字处理软件代替手工的打字机,录入这个译文。
那么整个在有了这些技术基础之后, 这个产生翻译记忆也就是很自然的事情了,
那么翻译技术这个,翻译机技术的推动者们 这个早期最大的贡献,这些人和项目,
都列举在这个屏幕上,我就不一一给大家解释了。
如果诸位对这个早期历史有兴趣的话,查阅相关的这个论文。
欣赏一下早期的这些技术前辈们 给我们,他们的这个奇思妙想,他们的创意,
相信对大家呢会是一个很好的教育。
但是课时有限,我们继续往前。
这个第一代的这个,或者说最早的、 商业化的
这个翻译记忆工具显然是这个Trados,现在它已经和这个SDL合并了,
成为这个公司名称叫做SDL Trados了。
这是早期的Trados的这个工作的画面。
这是它在嵌入在早期的Word版本中间,
工作的场景,大家可以很明显地看到,这个上面显示的是这个翻译记忆库,
而下面,在这个Word这个工作区里面,
用蓝色和黄色分别指出来了这个原文和正在翻译的译文。
那么随着这个翻译的进展,这个译文 会越来越多,而这个原文可以根据需要把它隐藏起来。
那么工作,这个阅读,如果把这个隐藏的译文 打开就可以进行校对,把这个原文隐藏起来就可以让
画面呢更清楚,直接一目了然地去读这个译文。
这种工作模式这个现在 还有一些软件在继续沿用着。
好,我们总结一下子翻译记忆的工作流程, 首先读取待翻译的句子,
第二,把这个待翻译句子送到翻译记忆库中检索看看有没有翻译过,
如果不存在这个已翻译过句子,那么译员就必须自己,自己进行翻译并打字输入。
这个翻译结束后,就 把这个原文和译文存到这个记忆库里面去。
如果发现这个待翻译的句子在这个记忆库中存在,
那么就输出既往的这个译文,供译员使用。
或给与这个适当订正后,继续使用。
如此循环往复,直到整个工作结束。
那么听起来很简单的一件事情, 这个还是会有很多问题需要我们进行研究的。
比如说首先, 我们刚才为了讲课简单起见,都说的是句子,但在定义的时候,说这个维基百科定义的时候提到
这个翻译单元其实是有很多单位的。
那么即使 不管别的单元,这个句子怎么划分显然就是一个问题。
第二,检索。
怎么检索? 怎么叫做发现了这个存在已经翻译过的句子了?
是不是只有逐字母地这个一致,才能这个检索匹配到? 那么部分的这个一致算不算检索到?
如果是部分一致也算检索到的话,怎么进行排序? 更让译员这个看起来更轻松、 更简单。
那么这个就是一个我们必须要解决的问题了。