如何写一份好的数据分析报告(二)方法篇短彩事业部2011-6分类(Classify)聚类(Cluster)常用分析算法AB预测(Predication)D相关(Correlation)CK-means、K-medoids回归、slopeone……贝叶斯、K-NN……Pearson、欧式……在互联网的数据挖掘中,爬虫类算法(深度优先、广度优先、最佳优先)也经常被用于数据采集工作什么是分类
鸟类占50%以上所以把这个群体定义为鸟什么是聚类
物以类聚什么是相关
喙相关性强喙相关性强喙相关性弱经典算法描述——贝叶斯待分类内容拆分关键字分类字库分类完成自我学习①②③④⑤经典算法描述——K-means随机选K个点作为临时中心点①把每一个点配给最近的中心,并计算新的中心②N次循环第2步完成最终聚类③经典算法描述——slopeone
筛选数据源①衡定内容间关系②
≈预测结果③分析常用图形13579123456789024散点图善于发现因果关系用于探索性数据分析目的是探索自变量和因变量之间的关系123456789直方图不仅能够度量被计量事物的数目、频数,还能体现各个区间所代表的整个数据集的百分比雷达图善于描述某实物各个属性的强弱分布除此以外,一些组合图也常用于分析描述,如柱-线图,柱-饼图……年份XXX普及率1月2月3月4月5月6月7月8月9月10月11月12月2008年74
00%2009年79
99%2010年71