基于 Spark 的 Web 文本挖掘系统的研究与实现摘 要通信技术与电子技术的高速发展带动了互联网网页的爆发式增长
各类网站由雨后春笋大量出现,数百亿网页散布在整个互联网中
同时各类网页有着自身不同的结构,因此急需一种高效的处理手段来帮助人们快速地从庞大的互联网文本数据集中提取出有价值的信息,用以取代传统的人工数据处理
近年来,以 Hadoop 框架和并行处理框架Spark 为代表的大数据技术开始兴起,为海量数据的存储和处理提供了新的思路和技术支持
尤其是新一代计算框架 Spark,由于其底层采用了基于内存的计算,相比 Hadoop具备更高的处理效率,同时还提供了对实时计算和交互式数据访问的支持
克服了Hadoop 在这些应用中的不足
因此,本系统选择了并行计算框架 Spark 作为文本挖掘过程的实现工具,以此为基础构建了针对新浪微博舆情热点的 Web 文本挖掘系统
主要工作可以概括为以下几个部分:1
在系统开发的知识准备和技术了解部分,对 Web 文本挖掘的基本概念和通用流程进行了研究和介绍;随后按照整个系统的处理流程,对各个部分设计的技术进行了分别介绍,包括网络爬虫、挖掘工具以及数据可视化
其中选取 HDFS 与并行计算框架Spark 框架做了着重介绍
在系统的算法研究部分,选取了经典特征提取算法 TF-IDF 算法进行了深入研究
从算法的原理,优势、不足和改进几个方面分别进行了阐述
着重介绍了算法的原理和内容,同时也提供了关于优化算法的思路
在系统的设计部分,将系统按照功能划分分成了三个主要模块:数据采集模块、文本挖掘模块以及数据可视化模块
分模块对每个模块的功能、架构设计进行了介绍,同时确定了各个模块实现的计算选型和执行流程
在系统的实现部分,首先介绍了 HDFS 与 Spark 框架环境的详细搭建部署过程
随后根据系统设计的编排顺序,对系统三