自动机器翻译

语言的障碍始终是不同种族不同国家人民之间的一道巨大的鸿沟。在这个信息爆炸的时代,伴随着互联网上信息量的巨大增长,让电脑为我们自动翻译不同语言的文字具有相当重要的意义和价值。从本质上来讲,让电脑把一段文字从一种语言翻译到另一种语言是一个字符串的转换过程,暨把源语言(待翻译语言)的一段字符转换成目标语言的一段字符,同时保持意思不变。从另一个角度看也可把翻译过程看成一个密码解密的过程,也就是信息被源语言用某种编码加密了,我们要通过某种规则或算法把它解密成我们看得懂的形式。

这个表面上看似简单的过程背后是一个非常复杂的认知活动,要做到准确的翻译理论上需要翻译算法能够完全的理解原文的意思。为了完整准确的解码源语言文字中的意思,电脑的翻译算法要对文字所有的特征进行分析和理解,包括对源语言和目标语言的词汇、句法、语法、语义、习语等的深层次的知识还要对双方的文化有深入的掌握和对世界的常识有一定的理解。

机器翻译的难度主要在以下几个方面:1.词汇的一次多义。比如英文bank可以翻译成银行也可以翻译成河岸,而在具体的翻译过程中选择哪一个翻译要看上下文和整个的语境。2.语法的歧义。一种语言里的某种句法表达在另外一种语言可能有多种不同的表现形式,翻译算法同样需要根据句法里包含的词汇以及相关的语境来做出正确的翻译选择。3.语序的变化。典型的例子是语言的形容词一般在名词前面而法语却相反,所以翻译词汇的排列顺序对翻译的质量也非常重要。很多情况下,尽管所有的单个词汇都做到了正确的翻译,如果它们没有按照合适的顺序组合起来,其得到的翻译结果的含义会和原文有很大出入。4.其他各种问题。比如OOV(Out-Of-Vocabulary)词汇的翻译,人名英译(Transliteration)的问题,等等。

为了克服机器翻译中的这些难题,人们研发了不少机器翻译系统。其主要的方法可以归纳为这么几种:1.基于词典的机器翻译。这种基本依赖于一个词典逐字的进行翻译。这种方法的优点在于简单,但是一旦遇到一词多义的现象,由于没有考虑语境,它往往只能做一些简单的处理。同时它也不能很好的分析句子的语法和词汇顺序的转换,所以这种系统的翻译准确性是比较差的。2.基于规则的系统。这种系统通过机器翻译算法套用语言学家和翻译家手工编写的翻译规则实现。这种方法由于加入和语言学家的很多相关专业知识,其准确度要高于基于词典的逐字翻译,但它的缺点在于开发成本和时间过高。同时由于自然语言中广泛存在的歧义现象,语言学家所描写的规则也往往互相冲突,很难彻底解决歧义问题。3.基于例子的机器翻译。这种系统保留一个包含很多互为翻译句队的数据库,针对输入待翻译的句子它从数据库里面找到一个和它相似度最高的句子并采用它的翻译作为输出。这种系统在处理数据库之外的句子,只能做到近似的翻译,准确性不高,但由于不需要手工描写翻译规则,故开发成本比较低廉。4.基于统计的机器翻译。这种方法通过从双语平行语料里训练出来的统计模型来产生翻译。只要拥有充足的训练语料,这种方法是效率最高和准确度最高的。

 

词泰科技的SmartTran®系统是一种基于统计的机器翻译系统。它通过强大的文本挖掘技术从海量文本中挖掘出大量的双语训练语料,并通过机器学习算法从中训练高精度的统计翻译模型,如上图所示。同时,它还可以比较方便的扩展到其他的语言对。

相关产品

SmartTran®

高性能的自动 机器翻译 系统能够对任意长度的中英文文本即时自动互译,准确度达到世界先进水平。

 
ichacha.net

查查在线词典 是我们提供的多语种在线词汇翻译服务。通过使用大规模的文本数据挖掘和处理技术,我们词典的词汇量远超其他同类词典,同时用户数目和网站流量也名列前茅。

 

更多信息

欲了解词泰科技的信息检索与网络搜索技术如何集成到您的系统来帮助您的应用,请与我们联系