文本数据挖掘及其应用摘要:随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术
本文首先对文本挖掘进行了概述包括文本挖掘的研究现状、主要内容、相关技术以及热点难点进行了探讨,然后通过两个例子简单地说明了文本挖掘的应用问题
关键词:文本挖掘研究现状相关技术应用1引言随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的
而这些文本数据大多是比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况
如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注
“在文本文档中发现有意义或有用的模式的过程"n1的文本挖掘技术为解决这一问题提供了一个有效的途径
而文本分类技术是文本挖掘技术的一个重要分支,是有效处理和组织错综复杂的文本数据的关键技术,能够有效的帮助人们组织和分流信息
2文本挖掘概述2
1文本挖掘介绍数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短
传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的
1)文本挖掘的定义文本挖掘作为数据挖掘的一个新主题引起了人们的极大兴趣,同时它也是一个富于争议的研究方向
目前其定义尚无统一的结论,需要国内外学者开展更多的研究以进行精确的定义,类似于我们熟知的数据挖掘定义
我们对文本挖掘作如下定义
1文本挖掘是指从大量文本数据中抽取事先未知的可理解的最终可用的信息或知识的过程
直观地说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘
2)文本挖掘的研究现状国外对于文本挖掘的研究开展较早,50年代末,H
Luhn在这一领域进行了开创性的研究,提出了词频统计思想于自动分类
1960年,Maron发表了关于自动分类的第一篇论文,随后,众多学者在