5.4数据的可视化表达1.了解数据可视化的两种类型;2.学会选用恰当的工具可视化表达数据,揭示数据反映的本质问题,提升数据分析的效率。学习目标知识结构图数据的特征探索系统日志采集法网络数据采集法(网络爬虫)其他数据采集法阅读《数据与计算》P118-1225.4.1数据可视化表达的方式1.快速抓住要点信息2.有效提升数据分析的效率。3.生动形象的呈现方式便于理解数据。5.4.1数据可视化表达的方式优点:5.4.1数据可视化表达的方式呈现类型探索解释趋势比例逻辑关系空间关系在matplotlib的基础上进行更高级的API封装是matplotlib的补充能高度兼容numpy与pandas数据结构能高度兼容scipy与statsmodels等统计模式。SeabornBokeh统计模型的可视化实现交互式可视化基于并高度依赖于Matplotlib独立于Matplotlib5.4.2数据可视化表达的工具1.Seaborn——基于并高度依赖于Matplotlib2.Bokeh——独立于MatplotlibSeabornBokeh统计模型的可视化实现交互式可视化基于并高度依赖于Matplotlib独立于Matplotlib5.4.2数据可视化表达的工具Bokeh绘图步骤①获取数据②构建画布figure()③添加图层,绘图line,circle,square,scatter,multiline等;参数color,legend④自定义视觉属性⑤选择性展示折线数据,建立复选框激活显示,复选框(checkbox)在概率论中用来估计未知的密度函数,属于非参数检验方法之一核密度估计方法不利用有关数据分布的先验知识对数据分布不附加任何假定是一种从数据样本本身出发研究数据分布特征的方法5.4.2数据可视化表达的工具【项目练习】运行“程序5-10-1直方图(教材范例).py”,体验可视化工具Seaborn呈现直方图。核密度估计5.4.2数据可视化表达的工具【项目练习】运行“程序5-10-1直方图(教材范例).py”,体验可视化工具Seaborn呈现直方图。5.4.2数据可视化表达的工具【项目练习】运行“程序5-10-2Bokeh示例(教材范例).py”,体验可视化工具Bokeh呈现正弦图。5.4.1词云图可视化非结构化数据——文本【项目练习】运行“程序5-9-1词云图(教材范例).py”,尝试修改词云图的文本文件内容和图片形状,体验词云图可视化呈现分析结果。1.图片形状:生成的词云是以背景照片的形状为模板遇到非白色的像素才会显示出来词云图5.4.1词云图【项目练习】运行“程序5-9-1词云图(教材范例).py”,尝试修改词云图的文本文件内容和图片形状,体验词云图可视化呈现分析结果。1.图片形状:生成的词云是以背景照片的形状为模板遇到非白色的像素才会显示出来词云图5.4.1词云图【项目练习】运行“程序5-9-1词云图(教材范例).py”,尝试修改词云图的文本文件内容和图片形状,体验词云图可视化呈现分析结果。2.文本文件格式:UTF8编码格式。5.4.1词云图importjiebaimportnumpyasnpfromPILimportImagefromwordcloudimportWordCloudaswdcimportmatplotlib.pyplotaspltpic_mask=np.array(Image.open("ty.jpg"))#获取词云形状的图片text=open(r'test.txt',encoding='utf8')#获取分词数据mylist=list(text)word_list=["".join(jieba.cut(sentence))forsentenceinmylist]new_text=''.join(word_list)wc=wdc(font_path='simhei.ttf',background_color="white",#显示的字体和背景颜色max_words=500,#出现次数最多的前500个分词max_font_size=150,#显示的最大字号random_state=40,#分词颜色的随机配色方案数量mask=pic_mask)#词云形状w=wc.generate(new_text)#传入分词列表plt.imshow(w)#绘制词云图plt.axis("off")#关闭坐标plt.show()#显示词云图中文词云5.4.1词云图fromwordcloudimportWordCloud#导入词云的包importnumpyasnpfromPILimportImageimportmatplotlib.pyplotasplt#导入matplotlib作图的包pic_mask=np.array(Image.open("ty.jpg"))#获取词云形状的图片#读取文件,返回一个字符串,使用utf-8编码方式读取,该文档位于此python同一级目录下new_word=open(u'english.txt','r',encoding='utf-8').read()#生成一个词云对象wordcloud=WordCloud(font_path='simhei.ttf',background_color="white",#显示的字体和背景颜色max_words=500,#出现次数最多的前500个分词m...