一文看懂什么是文本挖掘SAS中文论坛今天一、什么是文本挖掘文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法
文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法
文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论
二、文本挖掘有什么用1
文本分类文本分类是一种典型的机器学习方法,一般分为训练和分类两个阶段
文本分类一般采用统计方法或机器学习来实现
文本聚类文本聚类是一种典型的无监督式机器学习方法,聚类方法的选择取决于数据类型
首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一类文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类
文本挖掘中的聚类可用于:提供大规模文档内容总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程
信息检索主要是利用计算机系统的快速计算能力,从海量文档中寻找用户需要的相关文档
信息抽取信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式
输入信息抽取系统的是原始文本,输出的是固定格式的信息
自动文摘利用计算机自动的从原始文档中提取出文档的主要内容
互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好
自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间
简单地说自动文摘就是利用计算