数学在语言学中的应用 语言学,顾名思义,是研究语言的科学,它的基本任务是要弄清楚语言的结构规律和演变规律;而数学是关于空间形式和数量关系的科学.这两门学科似乎并没有什么联系.但是随着现代数学和语言学的发展,一些数学家和语言学家逐步提出用数学来研究语言的想法,而且这种语言和数学结合的研究慢慢变成现实.语言学的发展,要求运用数学的方法客观地,精确地分析语言;在系统整理,测定计算和总结概括语言材料时,运用数学的方法,并结合其他研究手段,能使语言学家更加深入探索语言的结构和话语构成的秘密;在机器翻译,语言信息处理,人工智能,情报自动检索系统和人机对话管理系统里,自然语言的一切信息必须转换成计算机的数学语言.这就要求语言学的数学化,而正是在语言学的数学化的过程中诞生了数理语言学. 一般而言,数理语言学可分为四个分支学科:统计语言学,代数语言学,计算语言学,模糊语言学.但事实上,代数语言学,计算语言学,模糊语言学都是侧重于信息处理 ,着眼于自然语言向机器的数学语言的转化 ,只是所用的数学方法不同.随着现代信息科学技术的发展,这三者的研究逐渐趋于统一.因此笔者认为,可以把数理语言学分为统计语言学和信息处理语言学. 统计语言学主要运用概率论,数理统计和信息论方法来统计,处理语言资料,如对语言成分出现的概率和频率进行统计以选定基本词汇.美国的语言学家齐普夫(G.K.Zip f)把词的效率分布和"消耗最小"(最经济)这一基本原则联系起来,提出了齐普夫规律:,它表示词表上词的效率及其排列序号之间的数量关系,其中表示词表中的序号,表示序号为的词的效率,是常数,根据测定,值约为.由这个规律我们可知,如果词表包含数十万个词,那么,其中头 1000 个常用的词占该语言的文章中全部出现词的80%,因为: 这说明,只要掌握一种语言中的1000 个最常用词,就有可能读懂该语言文章的80%,这个事实对于语言教学及自然语言信息处理都是十分重要的. 语言学家有时需要统计某个作家的词汇总量,如果我们简单地直接计算,那将会是一项很庞大的工作.于是有语言学家运用数学知识,得出了由某部作品来推定词汇总量的公式:,为该作品中不同的词数,为个词中只用一次的词数,为由决定的指数.由这个公式我们可以算出雨果的词汇总量为 60000.不同作者,不同年代有不同的用词,用句特点.对其进行统计处理,可探求作家文体特点,也可推定作者不详的文献作者和年代不详的文献的写作年代.此外,统计语言学下的语言年代学,可通过语言的词汇统计,来测定语言存在...