数据处理模板的翻译基于统计学习的机器翻译模板自动获取方法

日期：2023-03-11 12:39:36　/ 人气： 818 / 发布者：成都翻译公司

这种算法是一种无监督的、基于统计的、数据驱动的方法。齐的自动获取机器翻译模板的方法。在早期的基于实例的机器翻译系统中，翻译模板往往是手工从语料库中提取出来的。的机器翻译系统[2]，在这个系统中，采用了人工撰写的匹配表达式作为机器翻译的模板。在本文当中，我们提出了一种基于统计的、数据驱动的机器翻译模板自动获取方法。结论在本文当中，我们提出了一种基于统计学习的机器翻译模板的自动获取方法。

机器翻译中文图像分类号：TP391.2 Approach Automatic Translation Template Acquisition Based Statistical Learning 胡日乐，宗承清，徐波（模式识别国家实验室，中国科学院自动化研究所，北京100080，中国）; 摘要：论文，我们提出了一种新方法，可以从未注释的双语口语语料库中自动获取翻译模板。无监督、统计、数据驱动的方法。方法中，采用了两种基本算法，即语法归纳算法对齐算法，即使用括号转导语法的算法。首先，从两种源语言目标语言中提取语义组短语结构组。其次，基于对齐算法的 BracketingTransduction 语法对齐短语结构组。对齐的短语结构组翻译模板。初步实验结果我们的算法实用。关键词：双语语法归纳，翻译模板获取数据处理模板的翻译，结构对齐，机器模板作为机器翻译系统中知识表示的一种重要形式，由于其表达简洁、形式直观、通用性强。机器翻译简介机器翻译模板是机器翻译系统中重要的知识表示形式。由于其表达简洁、形式直观、通用性强，近年来受到广泛关注。机器翻译引言机器翻译模板是机器翻译系统中一种重要的知识表示形式。

在许多机器翻译和机器辅助翻译系统中，机器翻译模板是必不可少的资源。因此，研究机器翻译模板的自动获取方法具有重要的现实意义。在本文中，我们提出了一种基于短语结构提取和对齐的英汉对齐双语语料库自动获取机器翻译模板的方法。在早期的基于实例的机器翻译系统中，翻译模板通常是从语料库中手动提取的。北野在他的系统中采用了手动编码翻译规则的方法[1]。Sato 还建立了一个基于实例的机器翻译系统[2]，其中将人类编写的匹配表达式作为机器翻译的模板。然而，随着语料库越来越大，这种手工方法会越来越难，会带来越来越多的错误。作者简介：胡日乐（1978-），男，博士生，研究方向为机器翻译。也有学者提出了从语料库中自动获取模板的方法，如Gvenir和Cicekli等人[3][4]提出的基于类比学习的方法。以及Watanabe和Imamura等人[5][6]提出的基于结构对齐的方法。基于类比的学习方法是将语料库中翻译实例的相同部分和不同部分进行比较，汇总，用变量替换不同部分，得到翻译模板。这种方法需要非常大规模的双语语料库，其中包含大量相似的句子。这种手工方法会越来越难数据处理模板的翻译，会带来越来越多的错误。作者简介：胡日乐（1978-），男，博士生，研究方向为机器翻译。也有学者提出了从语料库中自动获取模板的方法，如Gvenir和Cicekli等人[3][4]提出的基于类比学习的方法。以及Watanabe和Imamura等人[5][6]提出的基于结构对齐的方法。基于类比的学习方法是将语料库中翻译实例的相同部分和不同部分进行比较，汇总，用变量替换不同部分，得到翻译模板。这种方法需要非常大规模的双语语料库，其中包含大量相似的句子。这种手工方法会越来越难，会带来越来越多的错误。作者简介：胡日乐（1978-），男，博士生，研究方向为机器翻译。也有学者提出了从语料库中自动获取模板的方法，如Gvenir和Cicekli等人[3][4]提出的基于类比学习的方法。以及Watanabe和Imamura等人[5][6]提出的基于结构对齐的方法。基于类比的学习方法是将语料库中翻译实例的相同部分和不同部分进行比较，汇总，用变量替换不同部分，得到翻译模板。这种方法需要非常大规模的双语语料库，其中包含大量相似的句子。作者简介：胡日乐（1978-），男，博士生，研究方向为机器翻译。也有学者提出了从语料库中自动获取模板的方法，如Gvenir和Cicekli等人[3][4]提出的基于类比学习的方法。以及Watanabe和Imamura等人[5][6]提出的基于结构对齐的方法。基于类比的学习方法是将语料库中翻译实例的相同部分和不同部分进行比较，汇总，用变量替换不同部分，得到翻译模板。这种方法需要非常大规模的双语语料库，其中包含大量相似的句子。作者简介：胡日乐（1978-），男，博士生，研究方向为机器翻译。也有学者提出了从语料库中自动获取模板的方法，如Gvenir和Cicekli等人[3][4]提出的基于类比学习的方法。以及Watanabe和Imamura等人[5][6]提出的基于结构对齐的方法。基于类比的学习方法是将语料库中翻译实例的相同部分和不同部分进行比较，汇总，用变量替换不同部分，得到翻译模板。这种方法需要非常大规模的双语语料库，其中包含大量相似的句子。也有学者提出了从语料库中自动获取模板的方法，如Gvenir和Cicekli等人[3][4]提出的基于类比学习的方法。以及Watanabe和Imamura等人[5][6]提出的基于结构对齐的方法。基于类比的学习方法是将语料库中翻译实例的相同部分和不同部分进行比较，汇总，用变量替换不同部分，得到翻译模板。这种方法需要非常大规模的双语语料库，其中包含大量相似的句子。也有学者提出了从语料库中自动获取模板的方法，如Gvenir和Cicekli等人[3][4]提出的基于类比学习的方法。以及Watanabe和Imamura等人[5][6]提出的基于结构对齐的方法。基于类比的学习方法是将语料库中翻译实例的相同部分和不同部分进行比较，汇总，用变量替换不同部分，得到翻译模板。这种方法需要非常大规模的双语语料库，其中包含大量相似的句子。基于类比的学习方法是将语料库中翻译实例的相同部分和不同部分进行比较，汇总，用变量替换不同部分，得到翻译模板。这种方法需要非常大规模的双语语料库，其中包含大量相似的句子。基于类比的学习方法是将语料库中翻译实例的相同部分和不同部分进行比较，汇总，用变量替换不同部分，得到翻译模板。这种方法需要非常大规模的双语语料库，其中包含大量相似的句子。

基于结构对齐的方法遵循“分析-分析-匹配”的过程[7]。该方法首先分别分析两种语言的语法，然后根据一定的启发式算法匹配双语结构。这种方法需要两种语言的高精度句法分析器。目前，尤其是中文，很难找到可靠的句法分析工具。卢亚娟[9]等人提出了一种基于单一句法分析的结构对齐方法，取得了较好的效果，但仍需以句法分析为基础。在本文中，我们提出了一种基于统计、数据驱动的机器翻译模板自动获取方法。该方法基于双语语法归纳和基于括号转导语法（BTG）的结构对齐。本文的其余部分是这样安排的：第 2 部分介绍了模板获取系统的系统架构；第三部分介绍了两种基本算法，即双语语法归纳算法和基于双语分界语法的对齐算法；第四部分介绍了实验结果与分析；*后，第五部分是结论。系统架构介绍基于结构对齐的模板获取方法是当前模板获取研究的主要方法。许多学者在这一研究领域做了大量工作。但是由于很难得到足够准确的句法分析结果（尤其是中文），

因此，我们致力于寻找一种方法来避免使用句法分析的结果。在本文中，我们使用双语语法归纳作为短语结构提取的方法。我们的机器翻译模板采集系统的架构如图1所示： Sentence Alignment Bilingual corpus 汉语词汇归纳语法归纳对齐翻译模板翻译模板采集系统架构系统的输入是sentence-aligned双语语料。首先对中文语料进行分割，然后分别对中文和英文的语法进行归纳，得到双语的语义类（标记为SCi）和短语结构类（标记为PCi）。*后，使用改进的 BTG 对齐获得的短语结构类。对对齐的短语结构类进行后处理后，即可得到所需的翻译模板。下面通过一个简单的例子来说明如何获取模板。表1列出了我们从语料库中得到的一些语义类和词组结构类的列表：部分语义类和词组结构类中文部分：SCC10 Double Standard Room PCC3 PCC3SCC10 PCC12 Reservation PCC20 PCC12PCC8 英文部分：SCE5 standardPCE2 SCE5room PCE8 PCE2reserve PCE14 PCE8PCE4 从表1中的语义类和词组结构类，对齐后可以得到如下结果：room/N]]。其中to/ε表示to在这句话中没有对应的中文词；= single;N=double room=double;N=standard room=standard 由此，我们可以得到如下翻译模板：=single;N=double room=double; N=standard room=standard 我们称之为常量模板。它被称为变量模板。

基本算法说明 3.1 语法归纳算法本文使用的语法归纳算法是一种聚类算法。该算法包括两个主要步骤：空间聚类和时间聚类。在空间聚类过程中，我们将具有相似上下文的单元归为一类。这些单元通常具有相似的语义。我们称这些类别为语义类别，并将它们标记为 SCi。在时间聚类过程中，我们将共现概率*高的单元归为一类。这些单位是常用的短语。我们将这些类别称为短语结构类别并将它们标记为 PCi。语法归纳算法流程如表2所示。语法归纳算法流程步骤1：设置计数器i=0；第二步：如果处理了中文部分，对中文部分进行分词；第三步：提取词汇（单元不仅仅是词汇，还有可能还有班级标记）；Step 4：空间聚类，将语义相似度较高的词聚类为一类；第五步：将语义类中的词替换为其标记；Step 6：时间聚类，将互信息较高的聚集在一起；第七步：将词组结构类中的单元替换为它们的类标记；第八步：i=i+1；步骤9：如果i达到预设数量N，则结束；否则转步骤3。聚类数N根据语料设置。在空间聚类中，我们使用两种类型的相似性度量，即基于距离的度量和基于向量空间的相似性度量。提取词汇（单元不仅仅是词汇，还有可能还有班级标记）；Step 4：空间聚类，将语义相似度较高的词聚类为一类；第五步：将语义类中的词替换为其标记；Step 6：时间聚类，将互信息较高的聚集在一起；第七步：将词组结构类中的单元替换为它们的类标记；第八步：i=i+1；步骤9：如果i达到预设数量N，则结束；否则转步骤3。聚类数N根据语料设置。在空间聚类中，我们使用两种类型的相似性度量，即基于距离的度量和基于向量空间的相似性度量。提取词汇（单元不仅仅是词汇，还有可能还有班级标记）；Step 4：空间聚类，将语义相似度较高的词聚类为一类；第五步：将语义类中的词替换为其标记；Step 6：时间聚类，将互信息较高的聚集在一起；第七步：将词组结构类中的单元替换为它们的类标记；第八步：i=i+1；步骤9：如果i达到预设数量N，则结束；否则转步骤3。聚类数N根据语料设置。在空间聚类中，我们使用两种类型的相似性度量，即基于距离的度量和基于向量空间的相似性度量。将语义相似度较高的词归为一类；第五步：将语义类中的词替换为其标记；Step 6：时间聚类，将互信息较高的聚集在一起；第七步：将词组结构类中的单元替换为它们的类标记；第八步：i=i+1；步骤9：如果i达到预设数量N，则结束；否则转步骤3。聚类数N根据语料设置。在空间聚类中，我们使用两种类型的相似性度量，即基于距离的度量和基于向量空间的相似性度量。将语义相似度较高的词归为一类；第五步：将语义类中的词替换为其标记；Step 6：时间聚类，将互信息较高的聚集在一起；第七步：将词组结构类中的单元替换为它们的类标记；第八步：i=i+1；步骤9：如果i达到预设数量N，则结束；否则转步骤3。聚类数N根据语料设置。在空间聚类中，我们使用两种类型的相似性度量，即基于距离的度量和基于向量空间的相似性度量。如果i达到预设数量N，则结束；否则转步骤3。聚类数N根据语料设置。在空间聚类中，我们使用两种类型的相似性度量，即基于距离的度量和基于向量空间的相似性度量。如果i达到预设数量N，则结束；否则转步骤3。聚类数N根据语料设置。在空间聚类中，我们使用两种类型的相似性度量，即基于距离的度量和基于向量空间的相似性度量。

下面分别介绍两类相似性度量。在基于距离的度量中，我们使用 Kullback-Leibler (KL) 距离作为衡量两个单元的上下文分布相似度的度量：其中，p1 表示单元 e1 的相邻词的分布，p2 表示e2单元的相邻词。V 表示出现在 e1 和 e2 相邻位置的所有单词的集合。为了得到一个对称的距离度量，我们使用散度作为距离的度量： right right left left 为了使聚类精度更高，我们引入了extended context的概念。所谓扩展上下文是指e1和e2的相邻词汇的相邻词，即语料库中与e1和e2距离为2的词汇。在计算中，我们也考虑了扩展上下文，两个单元之间的距离可以表示为： rightright right left left left left where 是扩展上下文的发散度。Div 的两个单元的相似度可以表示为： DistSIM 在基于向量空间的相似度度量中，我们引入特征向量来描述一个单元的上下文。如果一个单元w出现在给定单元e的上下文中，这个特征可以用f(posi,w)表示，posi代表w的位置，如果w出现在e的左边，则posi的值，否则，posi 的值是正确的。Div 的两个单元的相似度可以表示为： DistSIM 在基于向量空间的相似度度量中，我们引入特征向量来描述一个单元的上下文。如果一个单元w出现在给定单元e的上下文中，这个特征可以用f(posi,w)表示，posi代表w的位置，如果w出现在e的左边，则posi的值，否则，posi 的值是正确的。Div 的两个单元的相似度可以表示为： DistSIM 在基于向量空间的相似度度量中，我们引入特征向量来描述一个单元的上下文。如果一个单元w出现在给定单元e的上下文中，这个特征可以用f(posi,w)表示，posi代表w的位置，如果w出现在e的左边，则posi的值，否则，posi 的值是正确的。

每个特征的值是该特征在语料库中出现的次数之和。我们用它来表示两个单元u和v的特征向量，n是从语料库中提取的特征总数。fi 表示第 i 个特征。我们介绍了三种基于向量空间的相似性度量，Cosine Measure，Cosine PointwiseMutual Information 和 Dice Co-efficient。余弦测度计算两个特征向量的余弦：代表特征fi和单元u的共现概率，代表特征fi的概率，代表单元u的概率。其中，如果在空间聚类中，我们选择*相似的单元（即相似度*大的单元），将它们归为一类，并以SCi作为标记。然后，用标记替换类中的单位，而是执行时间聚类。在时间聚类中，我们用互信息作为度量来表征两个单元的共现程度：（10）互信息*大的单元将归为一类，PCi 将作为然后用对应的标记替换其对应的类别，然后循环进行空间聚类和时间聚类，直到达到预设次数，语法归纳结束后，我们得到标记为SCi的语义类和类标记为PCi Phrase 结构类，下一步是对齐词组结构。互信息*大的单元将被归为一类，PCi 将作为它的标签。然后使用对应的标记替换其对应的类别，然后循环进行空间聚类和时间聚类，直到达到预设次数。语法归纳结束后，得到标记为SCi的语义类和标记为PCi的词组结构类别，下一步就是对齐词组结构。互信息*大的单元将被归为一类，PCi 将作为它的标签。然后使用对应的标记替换其对应的类别，然后循环进行空间聚类和时间聚类，直到达到预设次数。语法归纳结束后，得到标记为SCi的语义类和标记为PCi的词组结构类别，下一步就是对齐词组结构。

3.2 基于双语分界语法的对齐算法假设一个英文句子e1,...,eT，其对应的中文句子为c1,...,cV。代表英文子串e s+1, es+2,..., et，分别代表c到英文和中文的约束函数，s，t分别是双语分析中对应英文部分的开始和结束位置， u, v 是中文的开始位置和结束位置。约束函数的作用是表达已有的结构信息，并将其整合到分析中。以下面的句子为例。如果分析的边界与结构提取的结果不一致，如(4, 5）, (1, 2）, etc),

语料库包含 2950 个句子对。汉语词汇989个，英语词汇1074个。中文句子平均句长7.0词，英文句子平均句长6.7。将这些句子作为数据集进行语法归纳和结构对齐，得到翻译模板。4.2 在实验结果的语法归纳中，聚类数N设为100，实验准确率定义为：NrAcc（12）其中N为所有模板的个数算法从语料中提取出来的，Nr是正确模板的个数。在只使用词的翻译概率的情况下，BTG也可以进行双语分析，进行词组对齐。因此，我们已经将我们的算法与 BTG 单独进行了比较。对比结果见表2：实验结果对比 1 实验Acc(%) only Using BTG 63.58 Our Algorithm 75.44 为了研究不同相似性度量对在算法中，我们使用了不同的相似性度量来进行实验。实验结果如表 3 所示。显示：实验结果比较 2 相似性度量 Acc(%) Dist* 75.44 Cosine Measure 73.21 Cosine PointwiseMutual Information 76.@ >77 Dice Co-efficient 75.@ >69 4.3 实验结果分析从表3可以看出，使用我们算法的架构自动获取机器翻译模板比仅仅使用BTG要好，并且准确率已经达到了很好的水平。这个算法是有效的。

从表4可以看出，使用不同的相似度测度对系统的精度有一定的影响，采用基于点互信息的余弦测度作为相似度测度可以达到*高的精度。实验结果出现错误的主要原因有两个：一是句子中包含的各种信息没有被聚类算法充分利用；二是一些习语的对齐方式出现了一定的错误。. 在今后的研究工作中，我们会介绍一些词库的知识，对一些特殊的语言现象进行一些预处理，以获得更好的实验结果，减少出错的概率。结论在本文中，我们提出了一种基于统计学习的机器翻译模板自动获取方法。这种方法不需要对语料进行注释，也不需要任何句法分析器。该方法在双语中分别采用语法归纳法得到语义类和短语结构类，然后采用BTG引导的结构对齐过程。对结构对齐的结果进行后处理，得到机器翻译的模板。初步的实验结果表明，虽然我们在提高语法归纳和对齐的质量方面还面临许多困难，但该方法取得了令人满意的效果。参考文献：PracticalModel Memory-based Machine Translation[A]。13.IJCAI[C]。法国尚贝里。1993. 佐藤聪。MBT2：结合片段基于实例的翻译[J]. 人工智能, 1995, 75: 31-50. AltayGvenir, IlyasCicekli。从例子中学习翻译模板[J]，信息系统，1998，Vol。23，第 353-36 页3. IlyasCicekli HalilAltay Guvenir。

智信卓越-中国小语种翻译专家

数据处理模板的翻译基于统计学习的机器翻译模板自动获取方法

相关阅读Relate

热门文章 Recent

数据处理模板的翻译 基于统计学习的机器翻译模板自动获取方法

相关阅读Relate

热门文章 Recent

数据处理模板的翻译基于统计学习的机器翻译模板自动获取方法