使用R语言异构平台进行数据挖掘摘要:数据产生和收集的指数级增长导致我们站在了数据分析和信息提取的新时代
基于通用处理器的常规系统不能够和大量计算需求的数据挖掘技术并驾齐驱
像GPU和FPGA的高性能协处理器有处理大量的计算工作负载的潜力
在本文中,我们提出了一个可扩展框架,旨在提供一个能够在异构平台上开发和使用高性能的数据挖掘应用平台
该框架采用了软件基础架构和高性能的内核库
此外,它包含了各种增加应用程序吞吐量的优化
该框架涵盖多种技术,包括R、GPU、多核心CPU、MPI和并行netCDF,利用它们的能力进行高性能计算
本文还介绍了来自多个应用程序提供显著的效能增益的交错GPU核心的概念
因此,相比喻其它可用的数据挖掘工具,我们的框架提供了一个易于使用的和可扩展的环境,无论是应用程序开发和执行
该框架是作为一个软件包,它可以很容易地集成在R编程环境上
关键字——R;GPU;数据挖掘;MPI;K-Means;模糊K-Means;PCA;并行netCDF;I.介绍要在当今世界中取得成功,知识驱动决策是一个关键
工商企业,金融机构,政府部门,研究和发展组织收集大量的数据,以获得在各自的领域更深入的了解
社交网络如Facebook和微型博客网站Twitter上生成大量的能够提供当今社会最新趋势的有用信息的数据
通过筛选这样大量收集的数据和发现未知的模式不是一个简单的任务,尤其是当数据的大小是艾字节和千兆兆字节的顺序排列
数据挖掘提出了自动分析技术池,可以发现隐藏的知识,并预测新的趋势和行为
分析大量的数据需要计算资源
最近看许多像GPGPU、胞、多核、FPGA等,均设计了自己独特的优势的高性能架构的出现
同质范式计算的所有节点都具有相同的架构,正逐步转型为异构计算,每个任务被分配到最适合其属性的架构
由于数据挖掘内核的特征在密集计算,新一代架构可以显著提升其性能
此外,存储和检