基于模板的统计翻译模型研究及汉英机器翻译系统实现(刘群).ppt 104页
日期:2023-03-11 12:39:36 / 人气: 473 / 发布者:成都翻译公司
也就是说,一个源语言结点的模板角色标记只与产生该结点的源语言上下文无关规则有关。1990年代早期在IBM公司举行的DARPA机器翻译评价时,我们曾经预计只有很短(10个词左右)的句子才可以用统计方法进行解码,即使那样,每个句子的解码时间也可能是几个小时。词典特征(MX):计算给定的输入输出句子中有多少词典中存在的共现词对。联合使用两个模型效果好于单独使用翻译模型,因为后者容易导致一些不好的译文。将对齐概率理解为标注概率:语法树的翻译过程理解为对源语言句法树的节点进行标注,建立句法树标注的概率模型,对转换模板——图进行标注的过程显示源语言语法树的每个节点的转换模板标签: vbnun np ap np vp 比较其他工厂的做法 (a) (b) (c) (d) (e) (f) (g) (a) (b) 转换模板问题的注解:一个转换模板作用于多个源语言节点的情况下,无法区分不同源语言节点的标签。例如:在上面的例子中,模板(a)同时作用于两个节点 vp 和 v。在计算标记概率时,
与其他源语言节点的语法标记和模板角色标记无关。所以:这里,N是源语言语法树上的任意节点,Syn(N)是节点对应的语法标签,Role(N)是节点对应的模板角色标签。对应的参数归一化条件为:这里Syn是任意语法标签,Role是任意模板角色。Template Role Tagging-Probability Model 2 假设每个源语言节点的模板角色标签只与该节点及其子节点的句法标签相关,与其他源语言的语法标签和模板角色标签无关语言节点。即,换句话说,源语言节点的模板角色标签仅与生成节点的源语言的上下文无关规则相关。其中,N为源语言语法树上的任意节点,Syn(N)为节点对应的语法标签基于模板的统计翻译,Role(N)为节点对应的模板角色标签。对应的参数归一化条件为:这里Syn是任意语法标签,Role是任意模板角色。Template Role Tagging-Probability Model 2 假设每个源语言节点的模板角色标签只与该节点及其子节点的句法标签相关,与其他源语言的语法标签和模板角色标签无关语言节点。即,换句话说,源语言节点的模板角色标签仅与生成节点的源语言的上下文无关规则相关。其中,N为源语言语法树上的任意节点,Syn(N)为节点对应的语法标签,Role(N)为节点对应的模板角色标签。对应的参数归一化条件为:这里Syn是任意语法标签,Role是任意模板角色。Template Role Tagging-Probability Model 2 假设每个源语言节点的模板角色标签只与该节点及其子节点的句法标签相关,与其他源语言的语法标签和模板角色标签无关语言节点。即,换句话说,源语言节点的模板角色标签仅与生成节点的源语言的上下文无关规则相关。Role(N)为节点对应的模板角色标签。对应的参数归一化条件为:这里Syn是任意语法标签,Role是任意模板角色。Template Role Tagging-Probability Model 2 假设每个源语言节点的模板角色标签只与该节点及其子节点的句法标签相关,与其他源语言的语法标签和模板角色标签无关语言节点。即,换句话说,源语言节点的模板角色标签仅与生成节点的源语言的上下文无关规则相关。Role(N)为节点对应的模板角色标签。对应的参数归一化条件为:这里Syn是任意语法标签,Role是任意模板角色。Template Role Tagging-Probability Model 2 假设每个源语言节点的模板角色标签只与该节点及其子节点的句法标签相关,与其他源语言的语法标签和模板角色标签无关语言节点。即,换句话说,源语言节点的模板角色标签仅与生成节点的源语言的上下文无关规则相关。Template Role Tagging-Probability Model 2 假设每个源语言节点的模板角色标签只与该节点及其子节点的句法标签相关,与其他源语言的语法标签和模板角色标签无关语言节点。即,换句话说,源语言节点的模板角色标签仅与生成节点的源语言的上下文无关规则相关。Template Role Tagging-Probability Model 2 假设每个源语言节点的模板角色标签只与该节点及其子节点的句法标签相关,与其他源语言的语法标签和模板角色标签无关语言节点。即,换句话说,源语言节点的模板角色标签仅与生成节点的源语言的上下文无关规则相关。
因此: 这里,N 是源语言句法树上的任意节点,Syn(N) 是该节点对应的句法标记,Rule(N) 是生成该节点的上下文无关规则。对应的参数归一化条件为: 模板角色标签-概率模型 3 假设每个源语言节点的模板角色标签不仅与节点及其子节点的句法标签有关,还与父节点的模板有关角色标签是相关的,与其他源语言节点的语法标签和模板角色标签无关。所以:这里,N 是源语言语法树上的任意节点基于模板的统计翻译,Syn(N) 是节点对应的语法标记,Rule(N) 是生成节点的上下文无关规则,Parent(N) 是node 点的父节点。对应的参数归一化条件为: 训练方法算法 维特比算法:每次只考虑*大可能的对齐 EM算法:考虑所有可能的对齐 基本过程:迭代,直到收敛短语对齐模板提取参数估计参数训练算法目前可用 初步思路,但考虑尚不成熟。您需要尝试多种方法并通过实验来验证它们。下面通过一个例子简单说明EGYPT工具包EGYPT的模块GIZA:该模块用于从双语语料库中提取统计知识(参数训练) Decoder:Decoder,用于执行具体的翻译过程(在源通道模型中, “翻译”是“解码”)开罗:整个翻译系统的可视化界面,用于管理所有参数和查看双语语料的对齐过程和翻译模型的解码过程 Whittle:语料预处理工具EGYPT可以在网上免费下载,它有成为SMT的标杆。和性能。
在 1990 年代初在 IBM 举行的 DARPA 机器翻译评估中,我们曾经预测只有非常短的句子(大约 10 个单词)可以通过统计方法进行解码。即便如此,每个句子的解码时间也可能是几个小时。在 IBM 早期工作近 10 年后,摩尔定律、更好的编译器、更充足的内存和硬盘空间帮助我们构建了一个可以在几秒钟内解码 25 个单词的句子的系统。为确保成功,我们在搜索中使用了相当严格的阈值和约束,如下所述。但是,解码器相当有效的事实预示着未来该方向的工作前景良好,也肯定了IBM工作的初衷,即强调概率模型比效率更重要。——引自JHU统计机器翻译研讨会关于改进IBM方法的技术报告。IBM方法的问题不考虑结构:能否适用于句法结构差异较大的语言?数据稀疏问题严重。后续改进工作 王业怡的改进 山田和奈特的改进。Och 等人的改进。王野义的改进(1) 背景:德英口语翻译系统的语法结构差异较大。数据稀疏(训练数据有限)。改进:两级对齐模型粗对齐:短语之间的对齐精细对齐:词组中词的对齐方式王野义的改进(2)词聚类的语法推导:基于互信息法的词组合并规则学习优势 提高机器翻译准确率:错误率降低11% 提高整个系统效率:搜索空间更小,数据稀疏问题口语数据的缺乏得到缓解。Yamada 和 Knight 的改进(1) Syntax-based TM):输入是源语言句法树输出是目标语言句子翻译的过程:每个内部节点的子节点随机重新排列:置换概率在每个节点的左边或右边随机插入一个词。左右插入和不插入的概率取决于父节点和当前节点标签插入哪个词只与插入词相关的概率,不是位置?翻译每个叶节点:词到词的翻译概率输出Yamada和Knight的目标句改进(2) Yamada and Knight改进(3)
*大熵方法大大扩展了统计机器翻译的思路;特征的选择更加灵活。统计机器翻译的应用 传统机器翻译的应用是跨语言检索 聂建云 使用IBM Model 1 快速开发CLIR 机器翻译系统。未知语言统计机器翻译方法的快速发展总结。IBM 当年的工作有些先进。虽然很多人怀疑统计方法能否在机器翻译中取得成功,但这现在已经不是问题了。在 NIST MT Eval 2002 中,得分*高的系统都采用了统计机器翻译方法。基于平行语法的机器翻译方法普遍不成功。基于*大熵的方法为统计机器翻译方法开辟了新天地。研究思路总结。基于模板的统计翻译模型转换算法的基本假设。概率模型训练算法(对齐)。实验方案与其他统计机器翻译方法的比较。基本假设总结。使用基于*大熵的统计机器翻译模型;提出基于模板的统计翻译模型: 基于模板翻译模型的句法树对齐提取翻译模板其他特征中文词法分析中文句法分析基于模板的统计翻译模型转换模型P(T|S)转换模型的输入输出P (T|S) 是句法树。引入转换模板是为了引入模板角色的概念。模板角色标注的思想建立了三个不同层次的统计翻译模型。基于模板的统计翻译模型的参数训练算法转换 template-illustration vp(v:1 n:2)? Vp(vp:1 np( t(one's) n:2)) v vp n vp vp np vn 转换模板-定义转换模板的形式化定义:转换模板由两棵具有对齐关系的句法子树组成;两棵句法子树的根节点相互对齐;句子全部非根非根-子树的叶节点对齐为空;语法子树的叶节点要么与相应语法子树的叶节点对齐,要么与空对齐;
转换模板反映了两个句法子树的节点之间的对应关系。基于模板的转换算法以自顶向下转换算法为例。该图显示可以使用其他搜索策略。练习规划。Chinese: 我们可以参考其他工厂的经验来制定我们的计划。基于模板的转换 (1) (a) vp(v(cf.) np:1)? Pp( p(in ) np(np(t(the) n(light)) pp(p) (of) np:1))) vbnun np ap np vp 基于模板转换比较其他工厂的做法 (2) ( b) np(ap:1 n(practice))? np(np( t(the) n(experiences)) pp:1) pbnun np ap np:
基于并行概率文法的统计机器翻译模型的基本思想。两种语言建立了一套平行的语法规则。规则对应两套规则,服从相同的概率分布。句法分析的过程决定了生成的过程。主要模型基于 Alshawi 的 Head Transducer。MT模型吴德凯的Inverse Transduction Grammar(ITG)武田的Pattern-based CFG for MT Head Transducer MT(1) Head Transducer)是Definite State Automata(有限状态自动机)和一般有限状态识别器的区别:端不仅有输入,还有输出;不是从左到右输入,而是从中心词输入到两边 Head Transducer MT(2) a:a 0:0 0:0 b:ba:a -1:+1 b:b -1 :+1 示例:
对于上下文无关语法规则的每个右侧部分(子节点)对于非终结符,可以指定其中心词;对于规则左边的非终结符(父节点),可以直接指定它的中心字,也可以使用相同的序号来指定它的中心字等于某个右边的中心字非终结符;链接约束:源语言骨架和目标语言骨架的非终结符子节点使用相同的序号建立对应关系,具有对应关系的非终结符为相互翻译。或者可以使用相同的序号来指定其中心字等于某个对非终结符的中心字;链接约束:源语言骨架和目标语言骨架的非终结符子节点使用相同的序号建立对应关系,具有对应关系的非终结符为相互翻译。或者可以使用相同的序号来指定其中心字等于某个对非终结符的中心字;链接约束:源语言骨架和目标语言骨架的非终结符子节点使用相同的序号建立对应关系,具有对应关系的非终结符为相互翻译。
源通道模型假设目标语言文本T是从一段源语言文本S中通过某种奇怪的编码得到的,那么翻译的目标是将T还原为S,这是一个解码过程。注意,源语言S是噪声通道的输入语言,目标语言T是噪声通道的输出语言,正好与整个机器翻译系统的源语言和目标语言相反。SP(S) P(T|S) T 统计机器翻译的基本方程 P. Brown 将上述方程称为统计机器翻译的基本方程。语言模型:P(S) 翻译模型:P(T|S) 语言模型反映“S”“Like a sentence”的程度:翻译模型反映“T is like S”的流畅程度:两种模型的结合对于保真度来说比单独使用翻译模型要好,因为后者很可能会导致一些不好的翻译。语言模型和翻译模型考虑汉语动词“打”的翻译:对应的英文单词翻译有几十种:打人、玩饭、玩鱼、玩毛衣、打猎、玩草稿等,如果直接用翻译模型,只需使用翻译模型。需要基于上下文建立复杂的上下文条件概率模型。如果采用source-channel思想,只要建立一个简单的翻译模型,就可以达到目标词选择的效果: 翻译模型:不考虑上下文,只考虑词之间的翻译概率。模型:根据词之间的共现选择*佳目标词。统计机器翻译的三个问题。三个问题: 语言模型 P(S) 的参数估计 翻译模型 P(T|S) 的参数估计和解码(搜索) 算法语言模型将语言理解为产生句子的随机事件。语言模型反映了一个句子在一种语言中出现的概率。语言模型N-gram P(S)=p(s0)* p(s1|s0)*…*p(Sn|Sn-1…Sn-N) 链式语法:可以处理长距离相关PCFG(需要语法符号) 引入隐藏变量: Align 一个翻译模型,将对齐P(T|S)的计算转化为P(T,A|S)的估计对齐:建立源语言句子和目标语言句子的词之间的对应关系。IBM 模型比较 P(T,
设m为当前总词数:m-prime+φ0;根据概率表t(f|e),用外来词f替换每个词e;对于每个不是由空词NULL产生的外来词,根据概率表d(j|i,l,m)分配一个位置。这里j是法语单词在法语字符串中的位置,i是产生当前法语单词的对应英语单词在英语句子中的位置,l是英语字符串的长度,m是法语字符串;如果任一目标语言位置多次登录(包含多个单词)将返回失败;由空词 NULL 生成的词被分配一个目标语言位置。这些位置必须是空的(未被占用)。任何分配都被认为是等概率的,概率值为 1/φ0。*后,读取法语字符串,其概率是上述每个步骤的概率的乘积。翻译模型参数训练 Viterbi Training(对比:EM Training) 给定初始参数;使用现有参数寻找*佳(维特比)比对;使用得到的alignment重新计算参数;返回第二步直到收敛。IBM 模型 1:存在全局*优。IBM Model 2~5:没有全局*优。初始值是之前模型训练的结果。统计机器翻译的解码参考了语音识别的搜索算法:栈搜索参数空间很大,搜索不能总是保证*好。从错误类型来看,只有两种类型: 模型错误:概率*高的句子不是正确的句子。搜索错误:没有找到概率*高的句子。第二类错误仅占错误总数的 5% (IBM) Search 问题不是瓶颈。IBM 的 Candide 系统 1 基于统计的机器翻译方法 analysis-transformation-generation 中间表示是线性分析,生成都是可逆分析(预处理):1.词组切分2.专有名词和数字检测3.大小写和拼写纠正4.形态分析5.语言归一化IBM Candide系统2转换(解码):基于统计的机器翻译解码分为两个阶段: 阶段1:Stack search使用粗糙模型输出140个得分*高的翻某言模型: 三元语法翻译模型:EM算法第二阶段:使用精细模型的扰动搜索扩展第一阶段的输出结果,然后重新-分数。语言模型:链式语法翻译模型:*大熵法IBM的Candide系统3 ARPA测试结果:?流畅度充足时间比 1992 1993 1992 1993 1992 1993 Systran .466 .540 .686 .743?? 老实人 .511 .580 .575 .670?? Transman .819 .838 .837 .850 .688 .625 手册?。833?.840?? JHU 1999 年夏季研讨会起源于引起广泛兴趣的IBM 实验。IBM 的实验很难重复:工作量太大。目的是构建一个统计机器翻译工具(EGYPT)并使其对研究人员有用。说它是可用的(免费传播);在研讨会中使用此工具集构建捷克-英语机器翻译系统;进行基准评估:主观和客观;通过使用形态和句法转录机改进基准结果;在研讨会结束时,一天之内为新语言对构建了一个翻译器。JHU Summer Seminar极大地推动了统计机器翻译的研究。北京大学博士论文公开报告 2002-12-30 北京大学博士论文公开报告 2002-12-30 580 .575 .670?? Transman .819 .838 .837 .850 .688 .625 手册?.833?.840?? 重复:工作量太大。目的是构建一个统计机器翻译工具(EGYPT)并提供给研究人员(免费传播);在研讨会中使用该工具集构建捷克-英语机器翻译系统;进行基准评估:主观和客观;通过使用形态和句法转录机改进基准结果;在研讨会结束时,在一天内构建一个新的语言对翻译器。JHU Summer Seminar极大地推动了统计机器翻译的研究。北京大学博士论文公开报告 2002-12-30 北京大学博士论文公开报告 2002-12-30 580 .575 .670?? Transman .819 .838 .837 .850 .688 .625 手册?.833?.840?? 重复:工作量太大。目的是构建一个统计机器翻译工具(EGYPT)并提供给研究人员(免费传播);在研讨会中使用该工具集构建捷克-英语机器翻译系统;进行基准评估:主观和客观;通过使用形态和句法转录机改进基准结果;在研讨会结束时,在一天内构建一个新的语言对翻译器。JHU Summer Seminar极大地推动了统计机器翻译的研究。北京大学博士论文开题报告 2002-12-30 北京大学博士论文开题报告 2002-12-30
相关阅读Relate
热门文章 Recent
- 智能翻译模板免费下载 智能翻译器2023-03-11
- 别墅房产证翻译模板 别墅的房产证和住宅产证有何不同2023-03-11
- 旅游城市翻译模板 旅游规划学(名词解释)2023-03-11
- 翻译评鉴模板 英语翻译岗位自我评价范文2023-03-11
- 中国银行工资单签证翻译模板 物业费水电费单翻译之签证材料翻译案例2023-03-11
- 上海市公安局户籍证明翻译模板 足不出户就能办户籍证明,上海民警手把手教市民如何办理2023-03-11
- 亚马逊上产品模板翻译 亚马逊在产品开发和产品管理上使用的内部新闻稿2023-03-11
- 加拿大护照上签证翻译模板 工作签证申请表(中文) - 加拿大工作签证申请表2023-03-11
- 高中毕业证翻译模板2023-03-11
- 退休证签证翻译模板 退休证翻译模板2023-03-11