模板化翻译 英汉翻译模板的标准化方案及其应用

日期:2023-03-11 12:39:36 / 人气: 718 / 发布者:成都翻译公司

基础上开发高质量的英汉翻译系统提供了可能性。译模板库的基础上开发高质量的英汉翻译系统提供了可能性。然后再利用通用模板匹配替换算法进行从源语言到目标语言的翻译[25]。下面将讨论一个建立英汉翻译模板的初步标准化方案。首先,将英汉翻译模板根据其源语言部分分为静态模板和动态模板。大规模模板库为基础的机器翻译技术也将再创新高。智能化英汉翻译系统IMT/EC.基于通用模板匹配替换方法的英汉翻译系统.

李玉健,北京工业大学计算与计算机学院,多媒体与智能软件技术北京市重点实验室,北京 100022 E-mail:摘要:在机器翻译系统中,模板可以作为知识表示的方法. 组织的战略将极大地影响系统的整体性能。本文讨论了英汉翻译模板的标准化,提出了初步方案,并将其应用于英汉翻译系统的设计和实现。已取得初步成功,并验证了方案的可行性。它为基于大规模模板库开发高质量的英汉翻译系统提供了可能。在2005年举办的863测评中,本文开发的英汉翻译系统达到的水平:对话翻译手册评价的忠诚度和流畅度分别为73.62 68.16章翻译手册评价忠诚度的流畅度和流畅度为分别为 41.16 和 31.45。关键词:机器翻译;翻译模板;标准化中文图书馆分类号:T391.2 StandardizationStrategy 英汉翻译模板及其应用李玉剑学院计算机科学技术模板化翻译,北京大学技术,北京100022,中国北京市重点实验室智能软件技术E-mail:摘要:机器翻译系统,模板能的知识表示方法,极大地影响整个系统的性能。

但是,由于自然语言的极端复杂性,目前还没有一种分析策略可以完全解决机器翻译系统中涉及的各种问题。为了综合利用这三种方法的优点,克服各自的问题,一种常用的方法是将多种翻译策略有机地结合起来,实现各种策略之间的优势互补,提高系统的性能[15-17]。在机器翻译的研究中,除了多种策略的综合集成,另一个重要的方法是增加处理粒度[18]。用中心词标注的目的是为了简化处理句子结构,解决机器翻译的歧义。基于块的方法是近年来自然语言领域出现的一种新思想[19]。目前,对单语词块的研究已经取得了很多成果[21-24]。可以代替 Chunk 进行机器翻译的一个概念是模板。简单的说,一个模板可以看成是一个有变量的Chunk,一个Chunk可以看成是一个没有变量的模板。使用模板而不是块可以将许多块合并为一个模板。因此,作为特例,语料库中模板的频率大于Chunk的频率。因此,为了表征一个语料库中的语言现象,所需的模板数量将远少于所需的Chunk数量。尽管模板可能比 Chunk 具有更多的歧义,但通常可以解析模板中的单个模板。

本文讨论了模板的定义,讨论了英汉翻译模板的标准化,并提出了初步方案,结合句法分析技术和模板匹配替换通用算法,应用于英汉翻译系统的设计和实现。 . 已取得初步成功,并验证了方案的可行性,从而为基于大型英汉翻译模板库开发高质量的英汉翻译系统提供了可能。模板的定义和描述 各种自然语言中重复使用的模板结构很多。抽象地讲,模板可以看作是具有一定稳定性的语言认知结构。每个模板结构通常由几个常量和变量组成。例如,英语短语“give sth. sb”。是一个模板结构,单词“give”和“to”是常量,“sth”。和“某人” 是一个变量。当一个模板中的所有变量都替换为它们能得到的常量值时,得到的词序列称为模板的一个实例。例如,“give me”是“givesth. sb”的一个实例。为了某概念,本文还引用了一些没有变量的特殊短语或句子作为模板。从形式语言学的角度来看,模板中的常量项是终结符,模板中的变量项是非终结符。源语言模板 (ST, Source Template) 往往有对应的另一种语言的目标语言模板(TT,Target Template)。源语言模板和目标语言模板形成的有序对“STTT”通常称为翻译模板。

在传统的翻译模板概念中,通常要求一个源语言模板只能有一个目标语言模板,并且源语言模板的非终结符和目标语言模板的非终结符必须对应一个-一,数相等。考虑模板的类别标注问题。这里,翻译模板被定义为源语言模板和目标语言中所有可能的目标模板的集合。因此,如果考虑模板的类别标注,并且每个类别标注下只允许一个目标翻译,那么从形式上看,可以参考以下标准结构某描述一个翻译模板:Source Template POS tag TargetTemplate POStag TargetTemplate POStag TargetTemplate 其中,“POStag”代表类别标签的代码。如果使用形式语言的术语模板化翻译,那么每个源语言模板可以看成如下结构:(str1) 显然,每个对应的目标语言模板也可以写成:(str2)符号串(str1)和(str2))有以下约束:是任意r+1个从小到大排列的整数,一个终止符(可能是空字符),是源语言中的r个非终结符,它们可以相同也可以不同;是任意m+1个从小到大排列的整数,并且是终结符(可能是空字符),是目标语言中的m个非终结符, 它们可以相同或不同;中出现的某些非终结符具有一定的确定性转换关系,可能不相等。

根据上述模板的定义,以具有两个类别注释的英汉模板为例,描述如下:comment about NP vi。动词类型,“n”表示名词类型。如果没有特别说明,下面使用的词性标签与英语语法中使用的相同。英汉翻译模板标准化方案及其应用[J]. 由于之前对翻译模板的定义,它不仅允许一个源语言模板有多个不同的对应目标语言模板,还允许每个对应的目标语言模板中有非终结符和源语言模板。中的非终结符之间存在一对多和多对一的关系,因此比传统的模板定义更能合理地反映实际的自然语言现象。此外,由于人类一生能够学习和构建的语言认知结构非常有限,可以想象,与语言认知结构相关的模板数量也非常有限,尽管这个数量可能达到数万个。或数十万。,即使是几千万,但对于建立大型翻译模板库来说应该是一个有限合理的数字,不是一个遥不可及的天文数字。有了足够的模板,给定的句子就可以作为源语言模板的组合进行分析,然后可以使用通用的模板匹配替换算法将源语言翻译成目标语言[25]。但是,针对某些两种语言构建实际的大规模翻译模板库并不容易。制定细致可行的模板标准化计划是必不可少的一步。

下面将讨论建立英汉翻译模板的初步标准化方案。首先,英汉翻译模板根据源语言部分分为静态模板和动态模板。静态模板是完全由终止符组成的短语。它们总是作为一个整体使用。严格来说,在任何语境中,都只能有这样一种固定的组合搭配,不会因为语境的变化而分开。不同的意义单位。例如:人工智能 n.人工智能; 机器翻译 机器翻译;动态模板是指除静态模板之外的任何模板,也就是说除了所有带有非终结符的模板外,还包括那些随机使用的模板。根据上下文,有时可能会分离或重新组合总词短语。一个完全由终止符组成的动态模板的例子如下:一点; 模板之所以是动态模板,是因为“一点”还可以组合成其他模板,比如:littleADJ adj。一点点ADJ;暂时的 一会儿; 显然,从给定的英语句子中分析静态模板是非常容易的,因为静态模板在任何上下文中都可以看到。模板式英汉翻译系统框图 词法分析 静态模板分析 动态模板分析 句法分析 模板匹配替换分析 词典库 静态模板库 动态模板库输入英文句子,输出翻译结果。

但是,如果要确保一个英语句子使用某个动态模板,就不能简单地使用词匹配和词性匹配方法。通常,它通常需要使用句法分析技术才能获得更好的结果。目前好的句法分析算法一般都有较高的时间复杂度或空间复杂度要求。如果同时启用所有模板进行分析,尤其是在动态模板规模比较大的情况下,很难得到满意的结果。高效的。因此,对动态模板进行分类、排序和索引,以便按需调用是必不可少的步骤。考虑到句法分析的需要,本文就如何组织大型英汉翻译模板提出如下初步标准化方案: 根据前两项是终结符还是非终结符,动态模板分为以下五类,分别使用TT , TN, NT, NNT 和 NNN,其中“TT”表示所有第一项都是终止符的模板(即英文单词),“TN”表示所有第一项终结符,第二项是非终结符“NT” " 表示所有的第一项都是非终结符和非终结符,第三项是终结符。“NNN”表示所有其他模板。通过第一项对TT模板进行排序并建立索引,通过第一项对TN模板进行排序并建立索引,通过第二项对NT模板进行排序并建立索引,通过第三项对NNT模板进行排序并建立索引Index;NNN 不需要创建索引,因为这样的模板总数并不多,即使全部用于句法分析,系统的整体效率也不显着。

本文根据上述英汉翻译模板标准化方案,结合作者[25]提出的句法分析技术和模板匹配替换通用算法,实现了基于模板的英汉翻译系统,目前包含约38,000个条目和21,000个模板(其中有约6,400个静态模板和约14,600个动态模板),所有这些都是通过手动输入创建的。系统首先利用输入句中的终止符从静态模板库和五种动态模板库中检索可能的模板。搜索的基础是模板中的所有常量必须同时在输入语句中依次(但可能不连续)。出现;然后使用标准的Earley算法分析句子的模板嵌套结构[26];*后,通过模板匹配和替换实现英文句子到中文句子的翻译。整个基于模板的英汉翻译系统的框架如图1所示。在2005年举办的863评测中,目前系统在开发集和测试集上的性能指标如表1所示。系统在开发集上的结果 测试内容 NIST BLEU GTM mWER mPER 对话翻译8.8004 0.5217 0.8124 0.3835 0.3041 章节翻译< @9.8652 0.4757 0.8258 0.5841 0.

虽然由于人力物力的限制,程序只取得了初步的成功,但是考虑到作者的翻译引擎设计完全独立于模板库,如果能够结合一些模板自动提取算法,也将加强大型模板库建设的投入,届时该方案有望对机器翻译技术的发展产生重要影响,而基于大型模板库的机器翻译技术也将达到新的高度。参考文献智能英汉翻译系统IMT/EC。中国科学[J], pp.187-194,198<@9. Sadler.Theoretical Basis MiMo.Machine Translation[J], Vol.5, No.3, pp.195 -222, 1990. MRosetta . 作文翻译[M].Kluwer Academic Publishers,荷兰多德雷赫特,1994. KoichiTakeda。基于模式的上下文无关语法 MachineTranslation。过程 第 34 届ACL pp.144-- 151,199 年6 月6. Cocke、Stephen DellaPietra、Vincent DellaPietra、Jelinek、Robert PSRoossin。统计方法机器翻译。计算语言学 1990,16(2): 79-85. Brown,Stephen DellaPietra, Vincent DellaPietra, Robert Statistical Machine Translation: Parameter Estimation. Computational Linguistics 1993,19(< @2):79-85. Brown、Stephen DellaPietra、Vincent DellaPietra、Robert 统计机器翻译:参数估计。计算语言学 1993,19(< @2):79-85. Brown、Stephen DellaPietra、Vincent DellaPietra、Robert 统计机器翻译:参数估计。计算语言学 1993,19(<

相关阅读Relate

  • 法国签证营业执照翻译件模板 你与申根签证只有一条推送的距离
  • 江苏省增值税发票翻译模板 江苏税务局出口货物退(免)税申报管理系统软件
  • 肄业证书翻译模板 复旦大学学生学业证明文书管理细则(试行)
  • 四级英语作文模板带翻译 大学英语四级翻译模拟训练及答案
  • 社会某信用代码证翻译模板 js验证某社会信用代码,某社会信用代码 验证js,js+验证+社会信用代码证
  • 美国移民证件翻译模板 日语签证翻译聊聊身份证翻译模板
  • 翻译软件模板 人类史上*实用的的文档快速翻译指南
  • 江苏省增值税发票翻译模板 江苏出口货物退(免)税申报管理服务平台
  • 瑞士签证房产证翻译件模板 瑞士探亲签证—就读子女
  • 日语户口本翻译模板 户口本翻译价格_户口本翻译一般多少钱?
  • 模板化翻译 英汉翻译模板的标准化方案及其应用 www.chinazxzy.com/fymb/9662.html
    
    本站部分内容和图片来源于网络用户和读者投稿,不确定投稿用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的权利,请联系:chinazxzy@163.com,及时删除。
    Go To Top 回顶部
    • 扫一扫,微信在线