教学单位湖北工程学院学生学号012301124127本科毕业论文(设计)题目基于大数据文本聚类关联的网络招聘信息挖掘学生姓名郑小乐专业名称统计学指导教师张学新2016年4月5日目录1、引言..........................................................................................................................11、引言ﻩ12、网络招聘信息挖掘综述ﻩ12.1文本挖掘定义及特点ﻩ12.1.1文本挖掘的定义...................................................................................................12.1.2文本挖掘的特点....................................................................................................12.2文本挖掘及其网络招聘信息挖掘的现状...............................................................................23、网络招聘信息挖掘步骤.............................................................................................................33.1读取网页招聘信息文本文件.....................................................................................................33.2招聘信息文本分词..................................................................................................................43.2.1分词...................................................................................................................43.2.2设置频繁出现的领域干扰词.............................................................................53.3词频统计与词云ﻩ63.4招聘信息文本聚类分析ﻩ73.4.1特征词权重.............................................................................................................73.4.2TF-IDF法计算关键词权重ﻩ83.4.3相似度计算ﻩ83.4.4创建文本—词条矩阵ﻩ93.4.5K-均值聚类ﻩ94、招聘信息文本Web图分析ﻩ215、建议........................................................................................................................................13参考文献......................................................................................................................................15附录.............................................................................................................................................16致谢................................................................................................................................................18基于大数据文本聚类关联的网络招聘信息挖掘摘要:随着计算机网络技术的迅速发展,网络招聘信息平台已成为招聘者发布信息和应聘者获取职位的主要途径。大量的网络招聘信息蕴含着用人单位丰富的需求知识,诸如对人才的能力、素质等方面的要求。本文自行爬取2015年11月-2016年4月拉钩网24万5千多条企业招聘信息,使用R语言编程,通过中文分词,设置频繁出现的领域干扰词,词频统计,文本向量化,应用k-均值聚类及网状Web图方法分析社会各行业对人才的能力及素质要求,描绘企业基本信息、薪资水平、工作经验要求间的关联强度,给高校及时了解社会对人才的需求变化,有针对性的调整人才培养方案以及应届毕业生求职提出有益建议。关键词:大数据;网络招聘信息;聚类分析;Web图;R语言编程OnlinerecruitmentinformationminingbyvastamountsoftextclusteringandassociatingAbstract:Companyingwithcomputernetworktechnologyrapiddevelopment,networkrecruitmentinformationplatformhasbecomeamainwayforrecruitertoreleaseinformationandforjobseekertogetjob.Alargenumberofnetworkrecruitmentinformationcontainstheknowledgeofdemandofunitsforemployees,suchastherequirementoftale...