可编辑范本北京邮电大学**** 学年第 1 学期实验报告课程名称:数据仓库与数据挖掘实验名称:文本的分类实验完成人:姓名:*** 学号:*&*** 姓名:** 学号:** 日期:可编辑范本可编辑范本实验一:文本的分类1. 实验目的掌握数据预处理的方法,对训练集数据进行预处理;掌握文本分类建模的方法,对语料库的文档进行建模;掌握分类算法的原理,基于有监督的机器学习方法,训练文本分类器;了解 SVM 机器学习方法, 可以运用开源工具完成文本分类过程。2. 实验分工***:(1) 对经过分词的文本进行特征提取并用lisvm 进行训练(2) 用训练的模型对测试数据进行预测*** :(1) 数据采集和预处理(2) 分词3. 实验环境Ubuntu 13.04+jdk1.7可编辑范本4. 主要设计思想4.1 实验工具介绍1.NLPIR_ICTCLAS2013NLPIR (又名 ICTCLAS2013),是由中科院张华平博士倾力打造的汉语分词系统。其主要功能包括中文分词、词性标注、命名实体识别、用户词典功能、支持GBK 编码、 UTF8 编码、 BIG5编码等。从 NLPIR 官网可以下载其最新版的Java发布包,然后导入Eclipse,配置运行环境,实现对于语料库的分词。最新的 NLPIR 可以通过更改源代码实现新增新词识别、关键词提取、微博分词等功能,极大地方便了使用。2. Eclipse for JavaEclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务, 用于通过插件组件构建开发环境。幸运的是, Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。3. LibSVM本次实验中我们采用的是台湾大学林智仁博士等开发设计的 LIBSVM 方法。这是一个操作简单、易于使用、 快速有效的通用 SVM 软件包,可以解决分类问题(包括 C-SVC 、ν -SVC ),回归问题 (包括 ε - SVR 、v- SVR ) 以及分布估计(one - class - 可编辑范本SVM ) 等问题,提供了线性、多项式、径向基和S形函数四种常用的核函数供选择, 可以有效地解决多类问题、 交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。4.2 特征提取与表达方法的设计特征提取是在初始特征集基础上提取出一个特征子集的过程,能够起到降低向量空间维数、简化计算、防止过拟合作用。首先根据特征提取算法对特征的重要性进行评估,然后进行重要度排序,最后根据提取阈值或提取比率完成提取。提取后的特征集将用于之后的训练和分类过程。常用特征提取算...