文本信息分析 1 . 中文文本信息过滤技术研究 1 .1 文本过滤技术 文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]。文本过滤和文本检索及文本分类有很大的相似之处。 1 .1 .1 文本信息过滤技术发展 1958 年Luhn 提出的“商业智能机器”是信息过滤的最早雏形。Luhn 所提出的构想涉及了信息过滤系统的每一个方面,为后来的文本过滤做了很好的铺垫。1982 年,Dernzing首次提出了“信息过滤”的概念,在他描述的例子中,可以通过“内容过滤器”识别出紧急邮件和一般邮件,以此提示对信息内容进行有效控制。1987 年,Malone 等人提出了三种信息选择模式,即认知、经济、社会。认知模式相当于“基于内容的信息过滤”;经济模式来自于 Denning 的“阈值接受思想”;社会模式是他最重要的贡献,即“协同过滤”。1989 年,美国消息理解大会(Message Understand Conference)成立,将自然语言处理技术引入到信息研究中来,极大地推动了信息过滤的发展。 20 世纪 90 年代以来,著名的文本检索会议 TREC(Text Retrieval Conference)每年都把文本过滤当作一个很重要的一个研究内容,这很大程度上促进了文本过滤技术的发展。从TREC-4 开始,增加了文本过滤的项目;从1997 年TREC-6 开始,文本过滤主要任务确定下来;TREC-7 又将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。 随着信息过滤需求的增长和研究的深入发展,其他领域的许多技术被应用到文本过滤中来,并取得了很好的效果。如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术,文本分类和聚类技术,机器学习以及语言底层的处理技术都被应用到信息过滤中来,极大地拓展了信息过滤的研究广度,推动着信息过滤理论研究与技术应用不断走向完善与成熟。 1 .1 .2 中文本过滤技术 中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚,但是目前发展也很快,尤其是随着信息安全、信息定制等应用在国内的兴起,对信息过滤技术的研究也得到人们普遍的重视。其中,中科院计算所、复旦大学都曾参加了 TREC评测中的信息过滤任务,取得了较好的成绩;哈工大、南开大学等重点科研单位也已经开始对信息过滤进行研究。 然而,基于目前提出的中文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由...