人工智能的文本分类方法简述摘要:本文阐述了一些基本的文本分类的方法,以及一些改进的文本文类的方法,并包含了一些文本分类的实际应用
其中着重阐述了贝叶斯分类以及一些其他的的文本分类方法最后提出了现在文本分类方法中存在的一些问题
关键词:文本分类;贝叶斯方法;数据挖掘;分类算法
0引言文本分类是指在给定分类体系下,根据文本内容(自动)确定文本类别的过程
20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类
目前在国内也已经开始对中文文本分类方法进行研究,相比于英文文本分类,中文文本分类的一个重要的差别在于预处理阶段:中文文本的读取需要分词,不像英文文本的单词那样有空格来区分
从简单的查词典的方法,到后来的基于统计语言模型的分词方法,中文分词的技术已趋于成熟
并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用
人工智能的基本方法就是对人类智能活动的仿真
小样本数据可以看作是一种先验知识不完全的数据集
人类在处理类似的决策问题时,通常采用的策略为:1,利用多专家决策来提高决策的可信度;2,专家的决策技能在决策的过程中可以得到不断的增强,即专家具有学习功能;3,在专家的技能得到增强的基础上,再进行决策可以提高决策的正确性
这种方法同样适用于小样本数据的分类识别
通过对上述方法的仿真,本文提出了智能分类器,它不仅可以对未知样本进行分类,同时它还具有多专家决策、预分类和学习功能
1分类的基本概念分类就是根据数据集的特点找出类别的概念描述,这个概念描述代表了这类数据的整体信息,也就是该类的内涵描述,并使用这种类的描述对未来的测试数据进行分类
分类的过程一般分为两个步骤:第一步,通过已知数据集建立概念描述模型;第二步,就是利用所获得的模型进行分类操作