电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

基于Spark的Web文本挖掘系统的研究与实现 计算机专业VIP免费

基于Spark的Web文本挖掘系统的研究与实现  计算机专业_第1页
基于Spark的Web文本挖掘系统的研究与实现  计算机专业_第2页
基于Spark的Web文本挖掘系统的研究与实现  计算机专业_第3页
基于Spark的Web文本挖掘系统的研究与实现摘要通信技术与电子技术的高速发展带动了互联网网页的爆发式增长。各类网站由雨后春笋大量出现,数百亿网页散布在整个互联网中。同时各类网页有着自身不同的结构,因此急需一种高效的处理手段来帮助人们快速地从庞大的互联网文本数据集中提取出有价值的信息,用以取代传统的人工数据处理。近年来,以Hadoop框架和并行处理框架Spark为代表的大数据技术开始兴起,为海量数据的存储和处理提供了新的思路和技术支持。尤其是新一代计算框架Spark,由于其底层采用了基于内存的计算,相比Hadoop具备更高的处理效率,同时还提供了对实时计算和交互式数据访问的支持。克服了Hadoop在这些应用中的不足。因此,本系统选择了并行计算框架Spark作为文本挖掘过程的实现工具,以此为基础构建了针对新浪微博舆情热点的Web文本挖掘系统。主要工作可以概括为以下几个部分:1.在系统开发的知识准备和技术了解部分,对Web文本挖掘的基本概念和通用流程进行了研究和介绍;随后按照整个系统的处理流程,对各个部分设计的技术进行了分别介绍,包括网络爬虫、挖掘工具以及数据可视化。其中选取HDFS与并行计算框架Spark框架做了着重介绍。2.在系统的算法研究部分,选取了经典特征提取算法TF-IDF算法进行了深入研究。从算法的原理,优势、不足和改进几个方面分别进行了阐述。着重介绍了算法的原理和内容,同时也提供了关于优化算法的思路。3.在系统的设计部分,将系统按照功能划分分成了三个主要模块:数据采集模块、文本挖掘模块以及数据可视化模块。分模块对每个模块的功能、架构设计进行了介绍,同时确定了各个模块实现的计算选型和执行流程。4.在系统的实现部分,首先介绍了HDFS与Spark框架环境的详细搭建部署过程。随后根据系统设计的编排顺序,对系统三大模块的具体实现做了详细的介绍,包括功能实现和交互实现两个部分。最后对系统进行了运行测试,抓取了约100万微博消息数据进行了初步测试,证实了系统具有良好的可用性。关键词:Web文本挖掘,Spark,大数据,TF-IDF算法,网络舆情IResearchandImplementationofWebTextMiningSystemBasedonSparkAbstractTherapiddevelopmentofcommunicationtechnologyandelectronictechnologyhasledtotheexplosivegrowthofInternetpages.Varioustypesofsiteshaveemergedfromthemushroom,tensofbillionsofpagesscatteredthroughouttheInternet.Atthesametimeallkindsofpageshavetheirowndifferentstructure,soanurgentneedforanefficientmeanstohelppeoplequicklyfromthehugeInternettextdatasettoextractvaluableinformationtoreplacethetraditionalmanualdataprocessing.Inrecentyears,HadoopframeworkandparallelprocessingframeworkSparkastherepresentativeofthelargedatatechnologybegantorise,forthemassdatastorageandprocessingprovidesanewwayofthinkingandtechnicalsupport.Inparticular,thenewgenerationofcomputingframeworkSpark,becauseofitsunderlyinguseofmemory-basedcomputing,comparedtoHadoopwithhigherprocessingefficiency,butalsoprovidesreal-timecomputingandinteractivedataaccesssupport.OvercomingtheshortcomingsofHadoopintheseapplications.Therefore,thesystemchoosestheparallelcomputingframeworkSparkastherealizationtoolofthetextminingprocess,andbuildstheWebtextminingsystemforthehotspotofSinamicroblogging.Themainworkcanbesummarizedasfollows:1.Intheknowledgepreparationandtechnologyunderstandingpartofthesystemdevelopment,thebasicconceptsandgeneralflowofWebtextminingarestudiedandintroduced.Then,accordingtothewholeprocessflow,thetechnologyofeachpartisintroducedseparately,includingnetworkReptiles,diggingtoolsanddatavisualization.WhichselectedHDFSandparallelcomputingframeworkSparkframeworkmadeafocusontheintroduction.2.Inthepartofthealgorithmresearch,theTF-IDFalgorithmofclassicalfeatureextractionalgorithmisstudieddeeply.Fromtheprinciple...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

文章天下+ 关注
实名认证
内容提供者

各种文档应有尽有

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部