人工神经网络在数据挖掘中的潜在应用摘要:随着存储在文件,数据库,和其他的库中的数据量巨大,数据正在变得越来越重要,开发用于分析或解释这些数据和用于提取有趣的知识的强有力的手段可以帮助决策。数据挖掘,也普遍被称为数据库中的知识发现(KDD),是指从数据库中的数据中提取隐含的,先前未知的,潜在地有用的信息。因此,数据挖掘的过程就是从大型数据库中自动提取隐藏的,预测的信息。数据挖掘,包括:提取,转换和加载到数据仓库系统的数据。神经网络已经成功地广泛的应用在监督和无监督的学习应用当中。神经网络方法不常用于数据挖掘任务当中,因为它们可能会结构复杂,训练时间长,结果的表示不易理解并且经常产生不可理解的模型。然而,神经网络对嘈杂的高精度的数据具有高度的接受能力在数据挖掘中的应用是可取的。在本论文中,调查探索人工神经网络在数据挖掘技术的应用,关键技术和实现基于神经网络的数据挖掘研究方法。鉴于目前的行业状态,神经网络作为一个工具盒在数据挖掘领域是非常有价值的一点。关键词:数据挖掘;KDD;SOM;数据挖掘的过程一、引言数据挖掘,从大型数据库中提取隐藏的预测性信息,是一个功能强大的具有巨大潜力的新技术在帮助公司集中重要的信息在他们的数据仓库中。数据挖掘工具预测未来的趋势和行为,允许企业作出主动的,知识驱动的决策。所提供的数据挖掘超越过去的事件进行回顾性工具的典型的决策支持系统提供了自动、前瞻性的分析。数据挖掘工具可以回答那些,传统上耗费太多的时间来解决的业务问题。他们寻找隐藏的模式数据库,寻找专家们可能由于超出在他们期望之外而错过的预测信息。不同类型的数据挖掘工具,在市场上是可用的,每个都有自己的长处和弱点。内部审计人员需要了解数据挖掘工具的不同种类和推荐的工具,满足组织电流检测的需要。这应该在项目的生命周期中尽早考虑,甚至可行性研究。数据挖掘通常包括四类任务。分类:把这些数据整理到组。例如一个电子邮件程序会试图将一封电子邮件分类为合法的或垃圾邮件。常见的算法包括决策树学习,最近邻,朴素贝叶斯分类和神经网络算法。聚类:就像分类但这些组却没有被预定义,因此该算法会尝试将类似的物品放在一起进行分组。回归:试图找到一个以最小的误差的数据函数模型。关联规则的学习:变量之间的关系搜索。例如,超市会对将消费者的购买习惯的数据集合起来。利用关联规则的学习,超市可以决定哪些产品经常一起购买和利用此信息实现营销的目的。有时将这种方法称为“市场分析”。人工神经网络是一个基于人类大脑的松散的系统建模。现场有许多名字,如联结,并行分布处理,神经计算,自然智能系统,机器学习算法,人工神经网络。它必须考虑任何功能的依赖性。网络发现(学习,模型)无需提示的依赖性。最初的数据挖掘应用中神经网络不被使用是由于其结构复杂,训练时间长,且操作性较差。而神经网络是解决许多现实世界的问题的一个有力的技术。他们从经验中学习,以提高其性能和适应变化的能力环境。此外,他们能够处理不完备信息或嘈杂的数据,特别是在无法定义的规则或步骤导致一个问题的解决方案的情况下是非常有效的。二、数据挖掘技术数据挖掘技术可以在现有的软件和硬件平台迅速实施来提高现有信息资源的价值,并可以提供新的产品和系统集成,为他们带来在线服务。当实现了高性能的客户机/服务器或计算机的并行处理,数据挖掘工具可以分析海量数据库来提供问题的答案,比如,“哪些客户最有可能回复我的下一个邮件促销,为什么?”如图1所示,数据挖掘的过程包括三个主要阶段:1.数据预处理2.应用数据挖掘技术3.结果的解释图1:数据挖掘的一般过程本节介绍数据挖掘的基本技术。在数据挖掘中最常用的技术是:•人工神经网络:非线性预测模型,通过培训和学习,类似于生物神经网络的结构。•决策树:树型结构,表示一组决定。这些决定产生数据集的分类规则。具体的决策树方法包括分类与回归树(CART)和卡方自动交互检测(CHAID)。•遗传算法:使用优化技术如遗传组合,突变,和一个基于自然选择进化的概念设计。•最近邻法:一种将数据中每个记录集合的技术结...