基于大数据平台的数据挖掘的研究与应用曹水根1大数据平台生态系统2应用与研究3软件著作权目录大数据是什么
大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
1)Volume(大体量):即可从数百TB到数十数百PB、甚至EB的规模
2)Variety(多样性):即大数据包括各种格式和形态的数据
3)Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理
4)Veracity(准确性):即处理的结果要保证一定的准确性
5)Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值
数据挖掘(英语:Datamining),又译为资料探勘、数据采矿
它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程
数据挖掘是什么
研究与应用赛题背景:阿里巴巴旗下电商拥有海量的买家和卖家交易场景下的数据
利用数据挖掘技术,我们能对未来的商品需求量进行准确地预测,从而帮助商家自动化很多供应链过程中的决策
这些以大数据驱动的供应链能够帮助商家大幅降低运营成本,提升用户的体验,对整个电商行业的效率提升起到重要作用
赛题介绍:本赛题以历史一年海量买家和卖家的数据为依据,要求参赛者预测某商品在未来二周全国和区域性需求量
选手们需要用数据挖掘技术和方法精准刻画商品需求的变动规律,对未来的全国和区域性需求量进行预测,同时考虑到未来的不确定性对物流成本的影响,做到全局的最优化
更精确的需求预测,能够大大地优化运营成本,降低收货时效,提升整个社会的供应链物流效率
解决方案-比赛任务评测成本:在本赛题