其它分析方法概述件•数据分析基•描述性分析01数据分析基数据类型数值型数据类别型数据文本数据时间序列数据包括连续型和离散型,如年龄、收入、身高、体重等
将对象划分为几个类别,如性别、教育程度、婚姻状况等
包括评论、反馈、调查问卷等,需要经过文本分析处理
记录某一时间点的数据,如股票价格、销售数据等
数据收集01020304调查问卷数据库查询API接口社交媒体数据通过设计问卷,向目标人群发从数据库中提取相关数据
通过API接口获取数据
通过爬虫技术获取社交媒体平放并收集数据
数据清洗缺失值处理数据转换删除缺失值或用平均值、中位将数据转换为适合分析的格式,如对数转换、标准化等
异常值处理数据去重删除异常值或用平均值、中位数等填充
去除重复的数据记录,确保数据的唯一性
02描述性分析描述性统计频数统计标准差和方差对数据进行频数统计,了解各变量的计算数据的标准差和方差,了解数据分布情况
平均数、中位数、众数计算数据的平均数、中位数和众数,了解数据的集中趋势和离散程度
图表展示柱状图折线图用于展示分类数据之间的比较关系
用于展示时间序列数据的变化趋势
饼图散点图用于展示数据的比例关系
用于展示两个连续变量之间的关系
交叉表分析01交叉表分析用于展示两个分类变量之间的关系,通过交叉表可以直观地了解不同类别之间的比较关系
02交叉表可以计算相对频数、相对比例等统计量,进一步分析数据之间的关系
03性分析回归分析回归分析是一种统计学方法,用于探索变量之间的关系,并预测一个或多个变量的未来值
回归分析通过建立数学模型来描述因变量和自变量之间的关系,并利用历史数据来预测未来的趋势
线性回归是最常见的回归分析形式,它通过最小化预测值与实际值之间的平方误差来拟合数据
决策树决策树是一种监督学习算法,用于分类和回归问题
它通过树形结构将数据集划分为不同的子集,并根据