中文摘要(摘要)随着互联网的发展,日志信息日趋增多,产生的 PB 甚至 TB 的日志信息已经难以用传统的数据处理方法进行处理
面对海量的数据,Hadoop 的分布式文件系统和 MapReduce并行计算框架已成当今互联网产业之所需,其高扩展,高可靠,高效率,低成本的性质确立了其在数据处理方面的关键地位,其中 Hadoop 分布式文件系统的多个数据节点(NameNode)共同保存一组数据的特点也保证了数据不会因某个节点发生故障而丢失Hive 执行 HiveQL 语句,作用与数据库中 SQL 语句类似,具有插入,筛选,合并,查询,分析等功能,与复杂的 MapReduce 计算框架不同,Hive 数据仓库主要将重点放在了数据分析领域,这一特点也有助于公安机关利用 Hive 仓库,将海量数据简单化,保证侦查人员高效准确的得到自己想要的信息
面对日益增多的海量数据,基于 Hadoop 平台下的Hive 仓库必将占据公安工作侦查分析数据方面的一席之地
本文主要分为四个部分对 Hive 仓库及其应用进行论述
第一部分对 Hive 仓库和Hadoop 技术的基本概念和主要特点进行概括
第二部分对 Hive 仓库的构建进行了研究,并考虑到构建后相关优化问题
第三部分主要介绍了 Hive 仓库在公安工作中的应用实例,阐述了相关实际案例并探讨 Hive 仓库在其他类型侦查中的应用
第四部分是 Hive 仓库在案件中的应用,通过结合视频监控日志信息,具体阐述了 Hive 数据仓库的应用方法
关键词: Hive 仓库 Hadoop 技术 日志信息 数据分析 ABSTRACTWith the popularity and development of the Internet and electronic technology, a tremendous change has taken place