可编辑范本北京邮电大学**** 学年第 1 学期实验报告课程名称:数据仓库与数据挖掘实验名称:文本的分类实验完成人:姓名:*** 学号:*&*** 姓名:** 学号:** 日期:可编辑范本可编辑范本实验一:文本的分类1
实验目的掌握数据预处理的方法,对训练集数据进行预处理;掌握文本分类建模的方法,对语料库的文档进行建模;掌握分类算法的原理,基于有监督的机器学习方法,训练文本分类器;了解 SVM 机器学习方法, 可以运用开源工具完成文本分类过程
实验分工***:(1) 对经过分词的文本进行特征提取并用lisvm 进行训练(2) 用训练的模型对测试数据进行预测*** :(1) 数据采集和预处理(2) 分词3
实验环境Ubuntu 13
04+jdk1
7可编辑范本4
主要设计思想4
1 实验工具介绍1.NLPIR_ICTCLAS2013NLPIR (又名 ICTCLAS2013),是由中科院张华平博士倾力打造的汉语分词系统
其主要功能包括中文分词、词性标注、命名实体识别、用户词典功能、支持GBK 编码、 UTF8 编码、 BIG5编码等
从 NLPIR 官网可以下载其最新版的Java发布包,然后导入Eclipse,配置运行环境,实现对于语料库的分词
最新的 NLPIR 可以通过更改源代码实现新增新词识别、关键词提取、微博分词等功能,极大地方便了使用
Eclipse for JavaEclipse 是一个开放源代码的、基于Java的可扩展开发平台
就其本身而言,它只是一个框架和一组服务, 用于通过插件组件构建开发环境
幸运的是, Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)
LibSVM本次实验中我们采用的是台湾大学林智仁博士等开发设计的 LIBSVM 方法
这是一个操作简单、易于使用、