一文看懂文本挖掘VIP免费

下载本文档

阅读 87
下载 20
格式 docx
大小 15.78 KB
约7页
2024-11-10 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/7页

2/7页

3/7页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

一文看懂什么是文本挖掘SAS中文论坛今天一、什么是文本挖掘文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法。文本挖掘是一个多学科混杂的领域，涵盖了多种技术，包括数据挖掘技术、信息抽取、信息检索，机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。二、文本挖掘有什么用1.文本分类文本分类是一种典型的机器学习方法，一般分为训练和分类两个阶段。文本分类一般采用统计方法或机器学习来实现。2.文本聚类文本聚类是一种典型的无监督式机器学习方法，聚类方法的选择取决于数据类型。首先，文档聚类可以发现与某文档相似的一批文档，帮助知识工作者发现相关知识；其次，文档聚类可以将一类文档聚类成若干个类，提供一种组织文档集合的方法；再次，文档聚类还可以生成分类器以对文档进行分类。文本挖掘中的聚类可用于：提供大规模文档内容总括；识别隐藏的文档间的相似度；减轻浏览相关、相似信息的过程。3.信息检索主要是利用计算机系统的快速计算能力，从海量文档中寻找用户需要的相关文档。4.信息抽取信息抽取是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息。5.自动文摘利用计算机自动的从原始文档中提取出文档的主要内容。互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长，用户在检索信息的时候，可以得到成千上万篇的返回结果，其中许多是与其信息需求无关或关系不大的，如果要剔除这些文档，则必须阅读完全文，这要求用户付出很多劳动，而且效果不好。自动文摘能够生成简短的关于文档内容的指示性信息，将文档的主要内容呈现给用户，以决定是否要阅读文档的原文，这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。自动文摘具有以下特点：（1）自动文摘应能将原文的主题思想或中心内容自动提取出来。（2）文摘应具有概况性、客观性、可理解性和可读性。3）可适用于任意领域。按照生成文摘的句子来源，自动文摘方法可以分成两类，一类是完全使用原文中的句子来生成文摘，另一类是可以自动生成句子来表达文档的内容。后者的功能更强大，但在实现的时候，自动生成句子是一个比较复杂的问题，经常出现产生的新句子不能被理解的情况，因此目前大多用的是抽取生成法。6.自动问答自动问答是指对于用户提出的问题，计算机可以自动的从相关资料中求解答案并作出相应的回答。自动问答系统一般包括3个组成部分：问题分析、信息检索和答案抽取。7.机器翻译利用计算机将一种源语言转变为另一种源语言的过程。8.信息过滤指计算机系统可以自动的进行过滤操作，将满足条件的信息保留，将不满足条件的文档过滤掉。信息过滤技术主要用于信息安全领域。9.自动语音识别自动语音识别就是将输入计算机的自然语言转换成文本表示的书面语。三、文本挖掘操作步骤1.获取文本现有文本数据导入，或者通过如网络爬虫等技术获取网络文本，主要是获取网页HTML的形式。我们要把网络中的文本获取文本数据库（数据集）。编写爬虫程序，抓取到网络中的信息。2.文本预处理指剔除噪声文档以改进挖掘精度，或者在文档数量过多时仅选取一部分样本以提高挖掘效率。例如网页中存在很多不必要的信息，比如说一些广告，导航栏，html、js代码，注释等等并不需要的信息，可以删除掉。如果是需要正文提取，可以利用标签用途、标签密度判定、数据挖掘思想、视觉网页块分析技术等等策略抽取出正文。3.文本的语言学处理（1）分词经过上面的步骤，我们会得到比较干净的素材。文本中起到关键作用的是一些词，甚至主要词就能起到决定文本取向。比如说一篇文章讲的是政治还是经济，肯定是对文章中的中心词进行分析得到的结果。所以接下来的步骤就是分词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

一文看懂文本挖掘

一文看懂什么是文本挖掘SAS中文论坛今天一、什么是文本挖掘文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法

文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法

文本挖掘是一个多学科混杂的领域，涵盖了多种技术，包括数据挖掘技术、信息抽取、信息检索，机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论

二、文本挖掘有什么用1

文本分类文本分类是一种典型的机器学习方法，一般分为训练和分类两个阶段

文本分类一般采用统计方法或机器学习来实现

文本聚类文本聚类是一种典型的无监督式机器学习方法，聚类方法的选择取决于数据类型

首先，文档聚类可以发现与某文档相似的一批文档，帮助知识工作者发现相关知识；其次，文档聚类可以将一类文档聚类成若干个类，提供一种组织文档集合的方法；再次，文档聚类还可以生成分类器以对文档进行分类

文本挖掘中的聚类可用于：提供大规模文档内容总括；识别隐藏的文档间的相似度；减轻浏览相关、相似信息的过程

信息检索主要是利用计算机系统的快速计算能力，从海量文档中寻找用户需要的相关文档

信息抽取信息抽取是把文本里包含的信息进行结构化处理，变成表格一样的组织形式

输入信息抽取系统的是原始文本，输出的是固定格式的信息

自动文摘利用计算机自动的从原始文档中提取出文档的主要内容

互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长，用户在检索信息的时候，可以得到成千上万篇的返回结果，其中许多是与其信息需求无关或关系不大的，如果要剔除这些文档，则必须阅读完全文，这要求用户付出很多劳动，而且效果不好

自动文摘能够生成简短的关于文档内容的指示性信息，将文档的主要内容呈现给用户，以决定是否要阅读文档的原文，这样能够节省大量的浏览时间

简单地说自动文摘就是利用计算

wxg + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

一文看懂文本挖掘VIP免费

一文看懂文本挖掘

您可能关注的文档

相关文档

热门下载

相关标签