第1页共6页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第1页共6页基于数据挖掘的铁路运输预测方法研究李彦(中铁第四勘察设计院集团有限公司线路站场研究处,湖北武汉430063)摘要:随着铁路部门信息化建设逐步进行,数据的大量积累使得采用数据挖掘方法对铁路运输需求进行预测成为可能。然而,因为缺乏系统而完整的知识发现方法,数据挖掘方法在铁路决策系统中很少应用。有鉴于此,本文通过系统分析、数据预处理、数据挖掘、知识提取四个阶段,提出了预测铁路运输需求的数据挖掘模型,该模型阐述了如何在铁路运输数据库中进行知识发现的标准化过程。最后案例研究结果表明,本文所提出方法能对铁路运输需求进行准确有效的预测。关键词:铁路需求预测;数据挖掘;知识发现高效的管理离不开周密而详尽的计划,各行各业的国营或私营企业,为了做到有效管理,必需对企业未来运营坏境及其相关因素做出预测。对于铁路管理者而言,预测铁路运输需求的增长状况,发掘出影响某些起讫点之间需求和供给能力的主要因素,是做出正确决策的首要基础,从而搭建必要的设备和人力平台以满足将来的运输情况。同时,无论是铁路管理部门的宏观战略抉择还是站段间的局部业务决策,都需要对铁路站场之间的货物流量关系进行预测,流量关系是铁路业务存在的基础。因此,研究系统性的模型和局部性的程序来定性、定量分析上述流量关系,能为铁路部门提供有效的决策支持。本文尝试建立基于数据挖掘的铁路需求预测标准化方法,从而能够辅助铁路资源的分配和设计。该预测方法能为铁路管理者提供大量短期决策,同时也能为编组、运输和站场容量等长远投资决策提供重要辅助。1铁路需求预测铁路运输容量大且高效节能,主要适于中长期、远距离运输。相较于公路运输,发生意外、抢劫、盗窃的概率较低,其安全性更高。因此,在世界各地,铁路是一种重要的客运、货运手段。而规划和调控铁路运输活动,需要对铁路运输需求做出准确的预测,现有预测方法已有300多种,归纳起来主要为定性预测和定量预测两种[1]。其中,定性预测技术,也称为“主观”或“基于标准判断”的技术,主要是通过人力来归纳和推理的方法。定量预测技术,是指通过数学方法对历史数据进行计算、分析,找出铁路需求的变化规律和特征,从而对未来数据作出合理的判断。常见的铁路需求定量预测方法主要有:指数平滑法、回归分析法、弹性系数法、灰色系统法、模糊逻辑、人造神经网络(ANN)等[2-5]。使用定量预测方法必须满足以下条件:(1)有真实可靠的历史信息;(2)信息可以被数字化且便于管理;(3)数据满足“连贯性假定”法则,即适用于过去的假定在某种程度上同样适用于未来的情况。2数据挖掘伴随着信息技术的不断进步,数据库中的知识发现(KDD,KnowledgeDiscoveryandDataMining)技术被广泛应用于科学、工业和商业等领域。“数据挖掘”,作为数据库中第2页共6页第1页共6页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第2页共6页知识发现特定阶段的通俗表达,在广泛参考各相关领域研究成果的基础上,于1989年召开的第11届国际人工智能联合学术会议(IJCAI)上首次提出了KDD的概念(从数据库获取知识),并得到了正式承认。当今最流行的定义是由Fayyad于1996年提出的:“KDD的过程,是从大量数据中提取出可信的、新颖的、有效的并能被人理解的知识的高级处理过程。”数据挖掘的任务主要有关联分析、聚类、分类、预测、时序模式等[6]。(1)关联分析(associationanalysis)。关联规则挖掘是由RakeshApwal等人首先提出,关联是指两个或两个以上变量的取值之间存在某种规律性。数据关联是数据库中存在的一类重要的、可被发现的知识,而关联分析的目的就在于找出数据库中隐藏的关联网。一般用支持度和信任度两个阀值来度量关联规则的重要性,通过引入兴趣度、相关性等参数,使得所挖掘的规则更符合实际需求。常见算法有:Apriori算法及其改进、FP-growth算法等。(2)聚类(clustering)。是指把数据按照相似性原则划分为若干类别,同一类中的数据彼此相似,不同类中的数据差异显著。聚类分析是建立宏观概念,发现数...