教学单位湖北工程学院学生学号 0123011 24127 本科毕业论文(设计)题 目基于大数据文本聚类关联的网络招聘信息挖掘学生姓名 郑小乐 专业名称统计学 指导老师张学新 2024 年 4 月 5 日目 录1 、 引言 1 1 、 引言 Error: Reference source not found 2 、 网络招聘信息挖掘综述 1 2
1 文本挖掘定义及特点 1 2
1 文本挖掘的定义 1 2
2 文本挖掘的特点 1 2
2 文本挖掘及其网络招聘信息挖掘的现状 2 3 、 网络招聘信息挖掘步骤 3 3
1 读取网页招聘信息文本文件 3 3
2 招聘信息文本分词 3 3
1 分词 3 3
2 设置频繁出现的领域干扰词 3 3
3 词频统计与词云 4 3
4 招聘信息文本聚类分析 4 3
1 特征词权重 4 3
2TF—IDF 法计算关键词权重 5 3
3 相似度计算 5 3
4 创建文本 - 词条矩阵 5 3
5K— 均值聚类 6 4 、招聘信息文本 Web 图分析 7 5 、建议 8 参考文献 9 附录 10 致谢 12 基于大数据文本聚类关联的网络招聘信息挖掘摘 要:随着计算机网络技术的迅速进展,网络招聘信息平台已成为招聘者发布信息和应聘者猎取职位的主要途径
大量的网络招聘信息蕴含着用人单位丰富的需求知识,诸如对人才的能力、素养等方面的要求
本文自行爬取 2024 年 11月—2024 年 4 月拉钩网 24 万 5 千多条企业招聘信息,使用 R 语言编程,通过中文分词,设置频繁出现的领域干扰词,词频统计,文本向量化,应用 k—均值聚类及网状 Web 图方法分析社会各行业对人才的能力及素养要求,描绘企业基本信息、薪资水平、工作经验要求间的关联强度,给高校及时了解社会