我的思想随着这些闪耀的绿叶而闪耀;我的心灵因了这日光的抚触而歌唱;

人工智能在翻译领域的应用

技术专栏 致远 181℃ 0评论

人工智能在翻译领域的应用

(机器翻译的现状和前景)

在20世纪30年代初,法国科学家G B Arjuna提出是否可以通过机器来辅助翻译的想法。 之后,苏维埃科学家 P•P•Troyesky 在1933 年总结出了机器翻译的具体实践方法,并设计了一个由轨道和平板组合而成的原型,依靠机械原理简单的翻译工作。但是,P.P. 特罗扬斯基最终未能按照样机制作出具有实用功能的翻译机器。

此后的几十年时间里, 随着个人计算机的普及、计算机操作系统环境的不断增强改善,机器翻译的文字处理能力随之加强,寄托于机器的机器翻译软件开始趋向于单机操作方式, 并且由DOS 版本迅速向 Window 版本过渡。在20 世纪末期,计算机辅助翻译( CAT : Computer-Aided Translation) 随之诞生并有了飞快发展。[1]

1 机器翻译的种类

1.1 基于实例的机器翻译

目前,机器翻译的主要原理之一是基于实例的机器翻译 EBMT(Example Based machine translation) 方法,其实现过程简单概述如下:给定源语言输入句子S,在双语语料库C 中匹配查找一个最相近的句子S’则S‘的译文T 就被接受为S 的译文。其翻译的过程一般就是查找和复现类似的例子,发现和记起特定的源语言表达或相似的表达在过去是如何翻译的,把以前的翻译实例作为主要知识源[2] 。

应用和影响范围较广的是基于实例的机器翻译方法,该方法于1981 年由日本的长尾真提出,并于 1984 年发表。其基本思想是在已经搜集的双语实例库中找出与待翻译部分最类似的翻译实例,再对实例的译文经过串替换、串删除以及串增加等一系列变形操作,完成翻译[2]。基于实例的机器翻译思想也可以理解 为,在对源语言进行翻译时,先对其进行分解,分解为若干个片段,然后根据相应的存储片段最终重组合成目标语言。

1.2 基于语料库的机器翻译

20 世纪 90 年代,随着计算机存储容量的增大、计算速度的加快和电子双语语料的出现,语料库翻译研究的兴起又创造了一种全新的翻译研究范式。它不仅为纯译研究提供了一种高效有力的工具,而且在应用翻译研究方面也取得了巨大的成功。因此,基于语料库的机器翻译系统大大提高了机器翻译系统的性能。

基于语料库的机器翻译方法,根据给出的真实语言材料, 按照概率分析的方法,对语料库本身的语料进行测试解析,在统计分析的基础上求出语言的概率信息,再反之以概率信息为依据分析真实的语言材料[3]。从数学解的角度来看,以语料库为基础的方法并不要求在对目标语言进行分析后给出唯一的一个确定解,而是在众多可能解中选择概率最大的一个解作为最终合理的解。

语料库按照不同研究目的设计翻译分为三类:平行语料库(parallel corpus) 、多语语料库(multilingual corpus) 、可比语料库(comparable corpus) 。

平行语料库是搜集某种语言的原创文本和对应不同语言文本的译文,用来进行语言对比研究。语言学家可对两种文本在词汇、句子和文体上的差异或相同点进行比较分析。通过比较原文文本和译文文本在词汇、句子和文体上的差异, 可以从词汇和结构上找到两个文本之间的对应关系[4] 。平行语料库的语料内容丰富,检索功能强大, 可以对双语搭配、双语对译等进行全面考查, 揭示出双语转换之间繁杂的对应关系,其建立对机器翻译、翻译培训、双语词典编撰、双语词汇教学等研究带来了巨大的实际应用价值。

多语语料库依照相似设计规范建立两个或以上不同语言单语种语料原文文本,而非翻译文本所组成的复合语料库。一定程度而言, 多语语料库才是真正的“平行”语料库, 而不是翻译语料库。

可比语料库,以英语为例,搜集该种语言的原文文本, 与此同时也搜集从其他语言对应英语翻译的文本。但这两种文本语料在语言变体、应用领域和时间跨度上具备相似性, 并且在长度上也应具有一定的可比性。

1 机器翻译的发展现状及问题

机器翻译从出现至今,历经了数十年的曲折发展,其理论原理在不断更新,技术不断升级换代,虽然翻译的质量目前来看只是差强人意。然而随着Internet 的出现以及普遍应用,世界经济一体化与经济全球化的进程加快,人们对于机器翻译有了更为广泛的需要,因此,机器翻译在国内外取得了长足的进步。其中,将机器翻译理论推进到实践应用,成为机器翻译发展的重要驱动力。

1.1 国外机器翻译的发展

美国的乔治敦大学和IBM 公司在1954 年进行了世界上第一次机器翻译的试验。随后,机器翻译的应用领域不断扩大,

Google 公司推出的互联网机器翻译系统已经可以支持60 多种语言的互译,微软必应等互联网公司也都推出了自己的互联网机器翻译产品,IBM 公司等研究者以英法双语对照加拿大议会辩论记录为双语语料库,研发了一个英法机器翻译系统。从发表的文章来看,实验的结果相当不错,已经超越了传统的基于规则的翻译系统。Microsoft 公司的多国语机器翻译项目微软研究院(美国) 采用一种基于规则的方法,也进行了一个多国语的机器翻译项目的开展。美国卡内基梅隆大学研制了一个西班牙—英语的机器翻译系统——PANGLOSS 系统。

与此同时,机器翻译已经成为很多普通网民日常使用的工具,机器翻译在老百姓的日常生活(如教育学习、购物、旅游、甚至恋爱交友) 中的应用也已经非常普遍[6]。例如加拿大的TAUM-METEO 天气预报翻译系统能够实现较高质量的翻译,WorldLinego 网站可以帮助不懂外语的人大致了解某外语网页的内容。另外,机器翻译在翻译市场上也取得了显著成功,目前已经形成了较为完整的产业模式。Trados 系统号称其翻译解决方案销量超过40000 多的企业用户,占据整个翻译软件市场70%的份额 [5]。

机器翻译的应用形式更加多样化,云计算、大数据和移动终端的普及带来了更多更为广泛的应用模式,例如口语翻译、照相翻译、文字扫描翻译等都早已有了实际的应用。

1.2 国内机器翻译的发展

1956 年,我国就曾经把机器翻译研发列入了科学技术工作之中并小有成就,1959 年国庆十周年前夕,在我国大型通用电子计算机上成功地进行了实验。词典包括2030 个词条,语法规则系统由29 个线路图组成。这次实验翻译了九个不同类型的较繁杂的句子[7]。在经过了一段停滞期之后,20 世纪八十年代以后,我国机器翻译迎来了高速的发展阶段,第三次科技革命的浪潮席卷而来,经济与科技高速发展中的中国,迈着改革开放的步伐,在机器翻译研究领域也有了质的飞跃。

1978 年,中国科技情报所、中国科学院计算所、中国社科院语言所在 111 型计算机上,以二十条冶金题录例句为实验对象,进行了英一汉翻译试验,取得满意结果。随后,他们又研制出以200 条冶金文献的语句为基本语料的JYE 一I 型机器翻译系统,其原理方法在以后所开发的机译系统中被人们广泛采用。除此之外,我国八九十年代机器翻译的研究成果还包括1986 年10 月,邮科院开发出性能良好,实用性强的机器翻译系统、C 检索和自动排版系统;1988 年,中国科技情报所推出的面向冶金专业应用文献的翻译ISTIC 一I型英一汉题录系统;铁道部情报研究所在此期间开发出关于铁路文献的英一汉题录机译系统;社科院语言所开发的“天语”英一汉机器翻译系统(TYECT) ;国防科技大学计算机系开发的Matr 议英一汉机器翻译系统。

在经历了众多探索研究之后,我国的机器翻译也逐渐走向了应用化、大众化和商业化。中国软件技术公司在1988 年推出了”译星I 号”,标志着我国机器翻译系统正式走向市场,并迅速拥有了大量用户且走向海外。继”译星”之后,北京的高立系统、天津的通译系、陕西的朗威系统等一系列机器翻译系统也进入了大众视野。在21 世纪,金山词霸,有道翻译,百度翻译等一系列APP 的开发,更是极大地满足了普通用户对于翻译的需求。

1.1 机器翻译目前存在的问题

虽然目前国内外对于机器翻译的研究达到了前所未有的高度,而且机器翻译系统在军事,医疗,教育,行政等领域中都发挥了不可替代的作用。但是,机器翻译自身的不成熟性仍然是一个不容忽视的问题,机器翻译终究是人工译员的另外一种高级表达,所以机器翻译还存在着许多亟待解决的问题。

(1) 翻译本身的复杂性

人工翻译的过程是人工译者集理解、分析、选择及再创造为一体的综合过程,是大脑思维活动的过程,而机器的工作原理是建立在串行二值逻辑的基础上,即”非此即彼”二者必居其一, 它没有思维、判断、推理能力,只能是在限定的范围内进行一对 一的选择,因此就不可避免地会出现令人费解的译文。[8]。

人工译员可以根据不同的国家的历史文化背景、风俗语言习惯等以及上下文语义,将原句或者原文重组并翻译成符合自我认知的语言语句形式,相对来说人工翻译具有较高的自由度。较为明显的例子如对于俚语谚语的理解分析,例如,Go to the sea, if you would fish well. 在百度翻译中英译汉翻译为”如果你愿意钓鱼,就去海边”。在Goolge 翻译中”去海边,如果你会很好地鱼”。单就句子本身,百度翻译是没有任何问题的,翻译系统不仅调整了语序,而且将译文进行了简单的意译,不像Google 翻译那样进行直译。可是人工译员就可用”不入虎穴, 焉得虎子”来翻译更为灵活且有深意。

(2) 灵活多变的词义、语法

不论哪一种语言,都有自己的多种多样语法构成,同时也拥有众多的构成语句的基础单词、短语,而每一种语法,每一个单词短语又都是灵活多变的。因此,机器翻译中最常见的错误是对语法的错误分析,对单词或短语词性、语义的错误辨析。

3 人工智能对于机器翻译质量的改进

为了提高机器翻译的速度以及准确率,将机器翻译与人工智能(Artificial Intelligence) 相结合是机器翻译进入21 世纪初期以来一个颇具挑战也极具突破的研究尝试。人工智能是计算机科学的一个重要分支,它试图掌握智能的本质,并创造出一种新的能以人类智能类似的方式做出反应的智能机器,并能达到更高层次的应用。人工智能是模拟人类意识和思维的信息处理的过程,在一定程度上是一个拥有自主学习能力的大脑。目前,对于人工智能的研究领域主要包括机器人学、语音识别、自然语言处理、图像识别和专家系统等。

随着人工智能技术的不断发展,有道、Google 等公司又完成了基于神经网络的机器翻译(Neural machine Translation) 系统。“神经网络机器翻译”技术克服了传统分词方法对于不同翻译环节的不足,而是对上下文信息进行充分比较,完成句子的整体编码和解码,由此产生更为通畅的译文。另一应用是人机翻译,即利用人工智能技术进行具有较高精度的初译,而后高级译者将对翻译后文本的文学性和专业性做进一步勘误翻译, 机器学习技术也将参加这一过程。机器经过学习,将基于人工勘误后的结果学到正确的单词表述,以及人类的语言习惯,从而优化升级将来的翻译能力。另一方面,对人工翻译的“硬性” 部分,计算机也会进行追踪,防止译者出现低级错误。在这个过程中,人工智能和人工翻译将构成良性循环。除此之外,人工智能将会了解不同译者具有的专业性,经过对这类数据的搜集和分析,人工智能能够向不同译者分配他们擅长的翻译内容。例如,关于计算设备手册的翻译将准确分配至计算机专家,而财务报告的翻译将可以由会计专业的译者来执行。

值得一提的是,机器翻译是人工智能的重要分支和最先应用领域[13]。不过对比已有的机译成就,机译系统的译文质量还 远未达到最终目标,而机译系统成败的关键就在于机译的质量。中国数学家、语言学家周海中教授曾在论文《机器翻译五十年》中指出:要提高机译的质量,首先要解决的是语言本身问题而不是编程语言问题;仅靠若干程序来做机译系统,肯定是无法提高机译质量的;另外在人类尚未明了大脑是如何进行语言的模糊识别和逻辑判断的情况下,机译要想达到“信、达、雅” 的程度是不可能的[11]。

简单来说,将人工智能与机器翻译相结合原理简单却难以完美结合,机器可以将众多用户的搜索、查询以及对于不同翻译的反馈集中分类处理,在不断学习新知识的过程完善自身翻译方法或语料库,而机器的海量的云空间为这种学习的积累提供了可能。但是,人工智能基于程序编辑,数据库处理,数据结构等相关学科,要取得新的更大的进展,主要有待于理论上的突破以及由已有的方法的完善和优化实现。总的来说,将计算机人工智能理论运用到自然语言理解和自然语言处理领域,使得机器翻译与人工智能的完美融合任重而道远。

转载请注明:致远博客 » 人工智能在翻译领域的应用

喜欢 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址