大数据处理技术进展现状及其应用展望大数据处理技术进展现状及其应用展望 一、 定义 著名的管理咨询公司麦肯锡曾预测到:“数据, 已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。 人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来。” 这是大数据的最早定义。 业界(于 2024 年, 高德纳修改了对大数据的定义) 将大数据的特征归纳为 4 个“V”(量 Volume, 多样 Variety, 价值 Value, 速 Velocity),或者说特点有四个层面: 第一, 海量数据量。 大数据计量单位至少是 PB 级别; 第二, 数据类型繁多。 比如, 网络日志、 视频、 图片、 地理位置信息等等都是囊括进来。 第三, 商业价值高。 第四, 处理速度快。 在大数据时代, 三分技术, 七分数据, 得数据者得天下。 在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。 Google 利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势; Amazon 利用用户的购买和浏览历史数据进行有针对性的书籍购买推举, 以此有效提升销售量; Farecast 利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。 大数据分析相比于传统的数据仓库应用, 具有数据量大、 查询分析复杂等特点。 对于“大数据”(Big data) 讨论机构 Gartner 给出了这样的定义。“大数据” 是需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力的海量、 高增长率和多样化的信息资产。 二、 大数据的技术 技术是大数据价值体现的手段和前进的基石。 我将分别从云计算、 分布式处理技术、 存储技术和感知技术的进展来说明大数据从采集、 处理、 存储到形成结果的整个过程。 2.1、 云技术 大数据常和云计算联系到一起, 因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。 可以说, 云计算充当了工业革命时期的发动机的角色, 而大数据则是电。 云计算思想的起源是麦卡锡在上世纪 60 年代提出的: 把计算能力作为一种像水和电一样的公用事业提供给用户。 如今, 在 Google、 Amazon、 Facebook 等一批互联网企业引领下, 一种行之有效的模式出现了: 云计算提供基础架构平台, 大数据应用运行在这个平台上。业内是这么形容两者的关系: 没有大数据的信息积淀, 则云计算的计算能...