1非结构化数据挖掘——浅谈深度学习文本挖掘、人脸识别、计算机视觉处理201020403CONTENTS机器学习算法回顾深度学习算法案例与代码非结构化数据3PART1机器学习算法回顾4机器学习算法回顾算法分类5STEP1STEP3STEP2STEP4定义问题:有哪些数据可用?你想要预测什么?数据预处理:数据清理、集成、规约、变换、特征工程等数据集选取:数据是否有标记,决定了有无监督算法模型算法选择:选择合适的算法进行训练学习机器学习算法回顾数据挖掘流程STEP5优化模型6PART2非结构化数据7可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的可简单理解为表格结构化数据顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。以二进制形式存储非结构化数据非结构化数据数据类别半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表。半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。常见的半结构数据有XML和JSON。半结构化数据是以树或者图的数据结构存储的数据半结构化数据8文本数据编码视频数据编码图像数据编码视频数据是现实生活中需要用到5D张量的少数数据类型之一。视频可以看作一系列帧,每一帧都是一张彩色图像。由于每一帧都可以保存在一个形状为(height,width,color_depth)的3D张量中,因此一系列帧可以保存在一个形状为(frames,height,width,color_depth)的4D张量中,而不同视频组成的批量则可以保存在一个5D张量中,其形状为(samples,frames,height,width,color_depth)举个例子,一个以每秒4帧采样的60秒YouTube视频片段,视频尺寸为144×256,这个视频共有240帧。4个这样的视频片段组成的批量将保存在形状为(4,240,144,256,3)的张量中视频数据推文数据集。我们将每条推文编码为280个字符组成的序列,而每个字符又来自于128个字符组成的字母表。在这种情况下,每个字符可以被编码为大小为128的二进制向量(只有在该字符对应的索引位置取值为1,其他元素都为0)。那么每条推文可以被编码为一个形状为(280,128)的2D张量,而包含100万条推文的数据集则可以存储在一个形状为(1000000,280,128)的张量中。推文数据集非结构化数据数据处理方法文本向量化:将文本分割为单词(词组),并将每个单词转换为一个向量(samples,height,width,depth)图像数据图像通常具有三个维度:高度、宽度和颜色深度。虽然灰度图像(比如MNIST数字图像)只有一个颜色通道,因此可以保存在2D张量中,但按照惯例,图像张量始终都是3D张量,灰度图像的彩色通道只有一维。因此,如果图像大小为256×256,那么128张彩色图像组成的批量可以保存在一个形状为(128,256,256,3)的张量中(samples,frames,height,width,color-depth)F:\Êý¾Ý·ÖÎö\R½Å±¾\ÖÜÈý·ÖÏí\Éî¶ÈѧϰÎı¾ÐòF:\Êý¾Ý·ÖÎö\R½Å±¾\ÖÜÈý·ÖÏí\ÏàËÆµØÖ·Ê¶±ð.p9PART3深度学习10深度学习是机器学习的一个分支领域:它是从数据中学习表示的一种新方法,强调从连续的层(神经网络)中进行学习,这些层对应于越来越有意义的表示。简单来讲,深度学习就是层数超过三层的神经网络算法,是一种信息蒸馏的方法。信息保存在每一层的权重中类别:密集神经网络、卷积神经网络、循环神经网络、递归神经网络应用:计算机视觉识别(图像分类、人脸识别等)、语音识别、文本序列处理、机器翻译等等深度学习深度学习人工智能机器学习神经网络深度学习11深度学习12深度学习密集神经网络1、神经元线性排列,神经元按照层来布局2、同一层的神经元之间没有连接,第N-1层神经元的输出就是第N层神经元的输入。3、每个连接都有一个权值存在问题:1、参数数量太多一个输入1000*1000像素的图片(一百万像素,现在已经不能算大图了),输入层有1000*1000=100万节点。假设第一个隐藏层有100个节点(这个数量并不多),那么仅这一层就有(1000*1000+...