流式计算技术及应用研究报告学校代码:10248作者姓名:叶稳定学 号:第一导师:第二导师:学科专业:软件工程上海交通大学软件学院 5 月目录1 流式计算技术综述............................................................................................31.1 流式计算技术概述......................................................................................31.2 流式计算框架 Storm 的架构分析..................................................................31.3 流式计算框架 Spark Streaming 的架构分析.................................................31.3 Storm 与 Spark Streaming 的架构对比.......................................................32流式计算技术在实际项目中的应用...................................................................32.1 基于流式计算框架 Spark Streaming 的数据实时解决应用的系统架构...............32.2 基于复杂事件解决 CEP 框架的数据实时解决应用的系统架构............................32.3 基于其它流式计算框架的数据实时解决应用的系统架构....................................3参考文献............................................................................................................31 流式计算技术综述1.1 流式计算技术概述流数据解决应用规定我们的系统能够接受大量的,不间断的数据称为流式数据流式计算中,无法拟定数据的到来时刻和到来次序,也无法全部数据存储起来.因此,不再 进行流式数据的存储,而是当流动的数据到来后在存中直接进行数据的实时计算.如 Twitter 的 Storm、Yahoo 的 S4[6] 就是典型的流式数据计算架构,数据在任务拓扑中被计算,并输出有价值的信息. 对于无需先存储,能够直接进行数据计算,实时性 规定很严格,但数据的精确度规定稍微宽松的应用场景,流式计算含有明显优势.流式计算中,数据往往是近来 一种时间窗口的,因此数据延迟往往较短,实时性较强。1.2 流式计算框架 Storm 的架构分析 Apache Storm[5],在 Storm 中,先要设计一种用于实时计算的图状构造,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)[5]分发代码,将任务分派给工作节点(worker node)执行。一种拓扑中涉及 spout 和 bolt 两种角色,其中 spout ...