第9章DataCleaner数据分析与清洗9.1DataCleaner简介•DataCleaner是一个简单,易于使用的数据质量的应用工具,旨在分析,比较,验证和监控数据。DataCleaner环境要求如下:(1)一台有图形界面的计算机(命令行模式除外)。(2)已经安装了java7或以上版本。•在DataCleaner菜单栏中主要包含有New、Open、Save、SaveAs以及More等多个菜单项。其中New表示新建一个任务,Open表示打开一个任务,Save表示保存任务,SaveAs表示将任务另存为某种格式,More用于实现更多操作。作业区位于DataCleaner运行界面的下方,如图9-5所示。在作业区中主要包含有Buildnewjob、Browsejobs、Recentjobs以及Managedatastores等多个选项。9.2DataCleaner应用1.导入并查看数据(1)打开DataCleaner,在运行界面中选中Buildnewjob选项,进入到Selectdatastore界面中,并选中Customers选项,如图9-10所示。该选项是使用DataCleaner自带的customers.csv数据集,除此之外使用者也可以导入外部数据文件。2.分析数据•(1)DataCleaner除了可以查看数据的情况,也可以对数据进行各种分析。在Customers|Analysisjobs界面中选中Analyze,在展开的列表中选中Uniquekeycheck,该操作是查看字段的数据重复率3.数据可视化•(1)在Customers|Analysisjobs界面中选中Analyze,在展开的列表中选中Valuedistribution,该操作使用图来显示数据的分布。接着在工作区界面中右击customers.csv图标,在弹出的对话框中选中Linkto-,并建立customers.csv图标和Valuedistribution图标的联系•(2)双击Valuedistribution图标,在弹出的对话框中选中id、city和gender选项,该选项是设置数据的维度•(3)返回到Customers|Analysisjobs界面,选中右上角的Execute,执行本次操作,并查看运行结果•DataCleaner数据分析实例•1.Stringanalyzer•(1)Stringanalyzer表示对字符串的分析。•9.4本章小结•(1)DataCleaner是一个简单,易于使用的数据质量的应用工具,旨在分析,比较,验证和监控数据。它能够将凌乱的半结构化数据集转换为所有可视化软件,并可以读取的干净可读的数据集。此外,DataCleaner还提供数据仓库和数据管理服务。•(2)使用DataCleaner可对数据进行分析和清洗。•9.5实训