第9章DataCleaner数据分析与清洗9
1DataCleaner简介•DataCleaner是一个简单,易于使用的数据质量的应用工具,旨在分析,比较,验证和监控数据
DataCleaner环境要求如下:(1)一台有图形界面的计算机(命令行模式除外)
(2)已经安装了java7或以上版本
•在DataCleaner菜单栏中主要包含有New、Open、Save、SaveAs以及More等多个菜单项
其中New表示新建一个任务,Open表示打开一个任务,Save表示保存任务,SaveAs表示将任务另存为某种格式,More用于实现更多操作
作业区位于DataCleaner运行界面的下方,如图9-5所示
在作业区中主要包含有Buildnewjob、Browsejobs、Recentjobs以及Managedatastores等多个选项
2DataCleaner应用1.导入并查看数据(1)打开DataCleaner,在运行界面中选中Buildnewjob选项,进入到Selectdatastore界面中,并选中Customers选项,如图9-10所示
该选项是使用DataCleaner自带的customers
csv数据集,除此之外使用者也可以导入外部数据文件
2.分析数据•(1)DataCleaner除了可以查看数据的情况,也可以对数据进行各种分析
在Customers|Analysisjobs界面中选中Analyze,在展开的列表中选中Uniquekeycheck,该操作是查看字段的数据重复率3.数据可视化•(1)在Customers|Analysisjobs界面中选中Analyze,在展开的列表中选中Valuedistribution,该操作使用图来显示数据的分布
接着在工作区界面中右击customers
csv图标,在弹出的对话框中选中Linkto-,并建立custom