Journal of Chinese Language and Computing, 14 (1) 21-34 21基于中间转换格式的中英文语言生成方法讨论曹文洁 宗成庆 徐波中国科学院自动化所模式识别国家重点实验室,北京 100080,中国{caowj, cqzong, xubo}@nlpr.ia.ac.cn 2024 年 12 月 5 日收稿2024 年 5 月 10 日修改并录用_____________________________________________________________摘要基于中间语言的翻译方法是实现多语言口语翻译的重要途径,而自然语言生成技术则是基于中间语言的机器翻译系统中的重要组成部分。本文介绍我们基于中间语言的中英文语言生成方面的讨论工作。我们采纳的是基于特征的深层生成技术与模板生成技术相结合的生成方法。其中,深层生成技术主要是为了保证口语翻译系统具有更好的灵活性与领域可移植性,而模板生成技术则是为了使口语翻译系统具有更高的效率。在深层生成中,我们采纳微观规划和表层生成相结合的结构,使用系统功能语法为生成语法。实验表明该混合生成策略可以较好地满足基于中间转换格式的口语翻译系统的基本要求。关键词自然语言生成,微观规划,词汇化,表层生成,中间转换格式,系统功能语法_____________________________________________________________1.引言自然语言生成技术讨论的是如何利用计算机把非自然语言表示的语义形式转换成某22 Wenjie Cao, Chengqing Zong and Bo Xu种自然语言的表示形式,从而产生人们可理解的,表达确切、自然流畅的自然语言语句。自然语言生成技术的目的实际上就是让人们能够用自己感到最为舒适方便的自然语言方式去表达各种语义信息。随着自然语言处理相关技术的快速进展,自然语言生成技术被广泛地应用于许多方面,机器翻译中的目标语言生成是其中最典型的应用之一。本文介绍的工作是基于国际语音翻译先进讨论联盟(C-STAR: Consortium for Speech Translation Advanced Research) 框架下多语言口语翻译系统中的中英文生成问题,所采纳的中间语言称为中间转换格式(IF: Interchange Format)。关于背景的详细介绍,请参见(http://www.c-star.org/),本文不再赘述。基于中间转换格式的 C-STAR 口语翻译系统框图如下所示:图 1. 基于中间转换格式的语音翻译系统与其它基于中间语言的机器翻译系统相同,基于 IF 的口语翻译系统对目标语言生成器有着同样的要求:即要求具有灵活、高效、便于领域移植、以及较好的容错性等特点。除此之外,IF 也给我们...