统计机器翻译

统计机器翻译
统计机器翻译(Statistical Machine Translation,简称SMT)是机器翻译的一种重要形式,尤其适用于非限定领域的翻译。这种翻译方法的核心理念是对大量平行语料进行统计分析,建立统计翻译模型,然后使用该模型进行翻译。统计机器翻译经历了从基于单词的翻译到基于短语的翻译的演变,并逐渐融入语法信息,以提高翻译精度。目前,谷歌翻译的多种语言对采用了统计机器翻译技术,并在美国国家标准局组织的机器翻译评估中表现出色[1][2][3]

历史沿革

统计机器翻译的历史可以追溯到1949年,当时华伦·韦弗基于克劳德·香农的信息论提出了基本概念。最早的可行统计机器翻译模型是由IBM研究院的研究人员提出的,他们发表了《统计机器翻译的数学理论:参数估计》一文,介绍了从简单到复杂的五个词到词的统计模型,统称为IBM Model 1至IBM Model 5。这些模型都是噪声信道模型,采用最大似然准则进行无监督训练。然而,由于计算能力和平行语料库的限制,当时的模型难以应用于大规模数据。后来,斯蒂芬·沃格尔提出了基于隐马尔科夫模型的统计模型,被认为是IBM Model 2的有效替代方案。
1999年,约翰·霍普金斯大学夏季研讨会聚集了一群研究人员,成功实现了GIZA软件包,其中包括IBM Model 1至IBM Model 5。弗兰兹-约瑟夫·奥奇(Franz-Joseph Och)对其进行了优化,显著提高了训练速度,尤其是IBM Model 3至5的速度。他还提出了更为复杂的Model 6。奥奇发布的软件包名为GIZA++,至今仍是许多机器翻译系统的基石。为了应对大规模语料的训练需求,出现了GIZA++的并行化版本。
尽管基于单词的统计机器翻译开创了这一领域,但由于建模单位较小,其性能受到了很大的限制。此外,生成性模型导致模型的适应性较差。因此,许多研究者转向基于短语的翻译方法。奥奇再次以其卓越的研究成果推动了统计机器翻译技术的发展,他提出的基于最大熵模型的区分性训练方法极大地提升了翻译性能,并在接下来的几年里超越了其他方法。奥奇还提出了最小错误率训练方法(Minimum Error Rate Training),这是一种直接针对客观评价标准进行优化的方法。