Hadoop+JavaWeb 大数据分析可视化系统焦向雨 黄康辉 卢峥【摘 要】论文提出的大数据分析可视化系统主要处理实时性要求不高,但对决策很重要的离线数据,如同种岗位不同地区工资对比情况,各热门岗位数量统计,对顾客购买记录进行统计等。利用大数据平台进行海量数据的存储、分析,提高客户对事件的决策准确率,将分析得出的数据结果以可视化的形式在浏览器上呈现,以便用户直观看到数据的变化结果。【Abstract】The big data analysis visualization system proposed in this paper mainly deals with the off-line data which is not required to be real-time, but is very important for decision-making, such as the contrast situation of the same post in different regions, the statistics of the number of various popular posts, the statistics of customer purchase records, etc. Using the big data platform to store and analyze the massive data can improve the accuracy of user"s decision-making for the event, and present the data results in the form of visualization in the browser, so that users can see the change results of the data directly.【关键词】大数据;分布式;Hadoop;可视化【Keywords】big data; distributed; Hadoop; visualization【中图分类号】TP393 【文献标志码】A 【文章编号】1673-1069(2024)02-0151-021 概要设计1.1 框架设计1.2 设计思路此架构即 Hadoop+JavaWeb(MVC 模式)的结合用于模拟大量数据处理方式。通过利用Hadoop 的特性进行分布式存储,目的在于突破 IO 存储瓶颈问题。项目的模拟数据主要为结构化数据,假设结构化数据超过单机容量的范围,那么便采纳 Hadoop 生态圈进行架构设计[1]。使用 Hadoop 集群的 HDFS 进行分布式存储(HDFS 便于管理和维护以及具有较高容错性),采纳 Mapreduce(离线计算)进行数据的清洗与筛选。当需要使用这些数据进行决策,可用 Hive 进行数据的清洗、提炼和分析之后存于 HDFS 中。由于 Hive 提供 SQL 功能,并且 Hive-SQL 可转化为 Mapreduce,因此,Hive 可以对大量数据进行分析与处理[2]。Hive 是基于 Hadoop 的一个数据仓库,还可以将结构化数据映射成一张表,在本项目中,H...