1非结构化数据挖掘——浅谈深度学习文本挖掘、人脸识别、计算机视觉处理201020403CONTENTS机器学习算法回顾深度学习算法案例与代码非结构化数据3PART1机器学习算法回顾4机器学习算法回顾算法分类5STEP1STEP3STEP2STEP4定义问题:有哪些数据可用
你想要预测什么
数据预处理:数据清理、集成、规约、变换、特征工程等数据集选取:数据是否有标记,决定了有无监督算法模型算法选择:选择合适的算法进行训练学习机器学习算法回顾数据挖掘流程STEP5优化模型6PART2非结构化数据7可以使用关系型数据库表示和存储,表现为二维形式的数据
一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的可简单理解为表格结构化数据顾名思义,就是没有固定结构的数据
各种文档、图片、视频/音频等都属于非结构化数据
以二进制形式存储非结构化数据非结构化数据数据类别半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表
半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要
常见的半结构数据有XML和JSON
半结构化数据是以树或者图的数据结构存储的数据半结构化数据8文本数据编码视频数据编码图像数据编码视频数据是现实生活中需要用到5D张量的少数数据类型之一
视频可以看作一系列帧,每一帧都是一张彩色图像
由于每一帧都可以保存在一个形状为(height,width,color_depth)的3D张量中,因此一系列帧可以保存在一个形状为(frames,height,width,color_depth)的4D张量中,而不同视频组成的批量则可以保存在一个5D张量中,其形状为(samples,frames,height,width,color