基于 Action 的用户行为分析大数据平台 Action-based user behavior analytics big data platform内容摘要电商平台作为当前最受欢迎,热度最高的平台,流量高,数据量大,数据种类多本文利用了逆向工程思维从现在热度高、流量高、数据量大的各个电商网站平台,对用户行为收集 js 脚本进行分析,并从多方面对脚本采集的数据进行判断和推测其具体内容,并将其与现有的系统数据进行整合,存入对应的文件系统等待处理,项目最后通过一系列的计算、分析,并得到分析和统计结果以可视化方式进行展示。本文主要设计并实现了一款基于 Action 的数据分析大数据平台,主要实现内容包括大数据的获取、数据仓库设计、数据的分析管理和数据可视化。其中数据获取部分包括将数据从前置机接入到数据仓库,使用MapReduce 进行处理,存放进 HDFS 文件系统,再使用 Hive 统一建库,实现数据仓库的初步管理,主要实现了数据全量接入功能、数据对标功能、目录规范命名功能、表路径及名称命名规范功能、专题库建设功能、数据标准化功能。然后基于标准库的数据,进行了数据分析,数据分析部分主要包括 session 粒度的报表抽取功能、热门商品统计功能、流量最高人物 session 抽取功能、活跃用户统计功能、黑名单拦截功能、区域热门商品统计功能、页面单跳转率统计功能等。最后将数分析后的据进行数据可视化,主要利用 javaweb 技术实现了对数据库分析后的数据进行可视化的功能。本文的主要创新点为一体化的数据分析过程,从数据治理到数据分析、挖掘,最后进行数据可视化。数据治理采用全新的数据仓库分层结构、数据挖掘实现了分布式的数据分析算法,可视化采用echatrs+springboot 为主要结构的可视化工具进行数据可视化。任务需求发送给管理人员,管理人员将任务参数封装为 JSON 格式数据上传至数据库,然后调用我们已经封装好的 Spark-Submit Jar 包,任务就会正式在我们的分布式环境下运行,直到任务结束,可以返回数据库查看确认,最后就可以在前端可视化页面上看见效果了。该项目是一个启发性的项目,不具有公共使用性,需要根据一线实际数据进行对应的调整,但是却具有大数据分析的标志性作用。关键词:Spark;Hadoop;大数据分析;数据仓库;可视化AbstractAs the most popular and hottest platform, e-commerce platform has high flow, large amount of data and many kinds of dataIn this paper, we use...