知识发现是一个完整的数据分析过程,主要包括以下几个步骤:确定知识发现的目标、数据采集、数据探索、数据预处理、__数据挖掘_、模式评估
_特征性描述_是指从某类对象关联的数据中提取这类对象的共同特征(属性)
回归与分类的区别在于:___回归__可用于预测连续的目标变量,___分类__可用于预测离散的目标变量
__数据仓库_是面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,与传统数据库面向应用相对应
Pandas的两种核心数据结构是:__Series__和__DataFrame__
我们可以将机器学习处理的问题分为两大类:监督学习和_无监督学习__
通常,在训练有监督的学习的机器学习模型的时候,会将数据划分为__训练集__和__测试集__,划分比例一般为0
分类问题的基本流程可以分为__训练__和__预测_两个阶段
构建一个机器学习框架的基本步骤:数据的加载、选择模型、模型的训练、__模型的预测_、模型的评测、模型的保存
__回归分析_是确定两种或两种以上变量间相互依赖关系的一种统计分析方法是应用及其广泛的数据分析方法之一
在机器学习的过程中,我们将原始数据划分为训练集、验证集、测试集之后,可用的数据将会大大地减少
为了解决这个问题,我们提出了__交叉验证_这样的解决办法
当机器学习把训练样本学得“太好”的时候,可能已经把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质,这样会导致泛化性能下降
这种现象在机器学习中称为__过拟合__
常用的降维算法有__主成分分析__、___因子分析__和独立成分分析
关联规则的挖掘过程主要包含两个阶段__发现频繁项集_和__产生关联规则__1、数据仓库是一个(面向主题的)、(集成的)、(相对稳定的)、(反映历史变化)的数据集合,通常用于(决策支持的)目的