下载后可任意编辑大数据环境下动车组故障数据挖掘分析技术分析大数据环境下动车组故障数据挖掘分析技术分析 李恒 摘 要:动车组故障检修过程中积累大量数据资源,若能将其充分开发,可辅助动车组故障预警、维修工作的高效开展
为此本文分析大数据环境下动车组故障数据挖掘分析技术,通过数据分析挖掘,从中总结故障发生规律及原因,制定故障风险防控方案,实现故障的事前管理
关键词:大数据;动车组故障;数据挖掘 引言:国内现役动车组车型较多,加之不同运行环境、运行压力的影响,使动车组故障类型及引发原因趋于复杂化,给故障预防和检修维护工作带来不小难度
大数据背景下,利用数据挖掘分析技术完成动车组故障信息的采集、筛选、分类和挖掘,即可为故障原因确定及预防维修方案制定提供可靠的理论依据,帮助提高故障预防及检修水平,因此有必要对故障数据挖掘分析技术进行分析
一、数据挖掘分析技术 (一)数据挖掘的内容 数据挖掘主要完成关联分析、聚类分析、数据分类、规律预测、损失模型 、偏差分析等任务
其中,关联分析对两个及以上变量间存在的相互影响管理进行分析,常用分析方法包括简单关联、因果关联以及时序关联,影响关联分析结果的主要参数为置信度和支持度
聚类分析将带有相同或类似特征的数据聚集到一起,命名为同一类别,以此来突出不同类别间的差异程度,聚类分析在图像处理、客户分析、模式识别等领域有广泛应用
(二)数据挖掘的步骤 第一,数据清洗
数据清洗可剔除动车组故障数据中的噪声数据、冗余数据或无用数据
由于数据来源较广,因此存在一定异常数据不可避开,但这部分数据会对数据挖掘分析结果产生一定干扰,因此在挖掘分析之前需将其剔除[1]
第二,数据集成
数据集成将不同数据源的数据相互组合,当描述相同概1下载后可任意编辑念的属性处于不同数据库中时,其有不同的命名方式,若进行数据集成易引发数据冗余或不一致的现象
数据体系中的冗余数据过多