宗成庆《统计自然语言处理》1 一书序言 冯志伟 我在1996 年出版的《自然语言的计算机处理》中,曾经说过:“自然语言处理(Natural Language Processing, NLP)就是利用计算机为工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术。”2这个定义是正确的,它的缺点是比较笼统。我一直不太满意这个定义。 后来,我在1999 年出版的《计算机进展》(Advanced in Computers )第 47 卷上,看到了美国计算机科学家马纳瑞斯(Bill Manaris )在《从人-机交互的角度看自然语言处理》一文给自然语言处理提出的如下定义:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance )的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。” 这个定义的英文如下:“NLP could be defined as the discipline that studies the linguistic aspects of human-human and human-machine communication, develops models of linguistic competence and performance, employs computational frameworks to implement process incorporating such models, identifies methodologies for iterative refinement of such processes/models, and investigates techniques for evaluating the result systems.” 3 马纳瑞斯的这个定义更加完善,把自然语言处理的研究过程也清楚地反映出来了。我觉得,这是目前在汗牛充栋的各种文献中可以找到的关于自然语言处理的一个比较好的定义。我原则上认同这个定义。 根据这个定义,自然语言处理要研究“在人与人交际中以及在人与计算机交际中的语言问题”,既要研究语言,又要研究计算机,因此,它是一门交叉学科,它涉及到语言学、计算机科学、数学、自动化技术等不同的学科。 近年来,由于自然语言处理的发展,不同学科的专家络绎不绝地参加到自然语言处理的队伍中来。这些来自不同学科领域的专家,对于他们自己原来的本行,当然都是精研通达的内行,但是,他们当中的很多人,对于自然语言处理这个交叉学科本身,并没有接受过专门的学习和训练,有必要进行更新知识的再学习,除了学习不同于他们...