i摘要近年来,得益于互联网、云计算等技术的快速发展,各行各业每日都在产出数以亿计的大规模海量数据。人们可以通过大数据技术对海量数据进行处理,并对数据进行分析,可以带来许多有价值的产出,于是,如何高效地加工和利用这些数据是目前技术人才面临的一个头号难题。当下,大数据处理主要存在如下问题:1)技术繁杂,上手难度大。2)存在大量重复编码,处理效率低。3)实时数据处理能力缺乏,批计算无法应对实时场景。综上所述,为解决当下大数据处理中的种种难题,我们以电商搜索推荐场景为例,构建了全链路的实时大数据处理平台,主要包括了:1)打造一站式的大数据处理平台,实现从数据采集、数据处理、分布式存储、数据管理的一站式大数据闭环。同时,系统必须具备高效、低延迟和高容错性的要求,保证任务严格无误地执行。2)大数据组件化抽象。基于 Flink 二次开发,在 Flink 计算图 StreamGraph 之上重新定义 JobGraph,将大数据中每一个独立的功能抽象成JobGraph 中的一个节点,在执行计算时将各独立的组件模块在任务执行时能够组合成一个任务,减少不必要的重复开发。3)支持实时流计算,同时优化实现了双流 Join 功能。针对实时流关联中左右流速率不一致的问题,提出了双流 Join和 Watermark 方案,协调多个实时计算流之间的速率,提升关联成功率。关键词:大数据处理,实时计算,分布式计算,双流 Join,组件化iiAbstractIn recent years, with the rapid development of Internet, cloud computing and other technologies, hundreds of millions of large-scale massive data are generated in all walks of life every day. People can process and analyze massive data through big data technology, which can bring a lot of valuable output. Therefore, how to efficiently process and use these data has become a number one problem for current technical talents. At present, big data processing mainly has the following problems: 1) the technology is complex and difficult to start. 2) There are a lot of repetitive codes, so the processing efficiency is low. 3) Lack of real-time data processing ability, unable to cope with high real-time requirements o...