电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据预处理习题库2020 VIP免费

数据预处理习题库2020 _第1页
1/6
数据预处理习题库2020 _第2页
2/6
数据预处理习题库2020 _第3页
3/6
一、单项选择题(每小题2分,共30分)1.影响数据质量问题的因素有哪些?()A.准确性、完整性、一致性B.相关性、时效性C.可信性、可解释性D.以上都是2.假设有这么一组排序后的数据:4,8,15,21,21,24,25,28,34,划分为等频的箱:箱1:4,8,15;箱2:21,21,24;箱3:25,28,34,要求:箱1用平均值,箱2用中位值,箱3用箱边界三种方法来光滑噪声数据,下面哪个选项是正确的?()A.9,9,9;22,22,22;25,25,34B.8,8,8;22,22,22;25,25,34C.9,9,9;21,21,21;25,25,34D.4,4,15;21,21,21;25,25,253.下面有关转换描述错误的是?()A.转换是ETL解决方案中最主要的部分,主要负责处理抽取、转换、加载各阶段对数据行的各种操作B.转换中的步骤通过跳来连接,定义了一个单向通道C.转换中的跳传递的是一个结果对象D.转换中的图形化组件被称为步骤4.下面哪一项不是属于数据归约的策略?()A.维归约B.数量归约C.数据压缩D.属性构造5.下面有关步骤描述错误的是?()A.步骤需要有一个唯一的名字B.步骤之间通过跳进行数据行的单向传输C.大多数的步骤都可以有多个输出跳D.可以影子复制6.基于CDC的数据变更有两种:侵入性和非侵入性的。下面哪一项是属于非侵入性的?()A.基于源数据的CDCB.基于日志的CDCC.基于触发器的CDCD.基于快照的CDC7.下面哪一项描述的正确?()A.拆分字段和拆分字段成多行是一样的B.合并字段是拆分字段的逆运算C.拆分字段步骤支持正则表达式D.使用拆分字段成多行步骤,被拆分的字段将不复存在8.以下说法错误的是?()A.主成分分析、属性子集选择为维归约方法。B.直方图、聚类、抽样和数据立方体聚集为数量归约方法。C.用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。D.数据集成有助于减少结果数据集的冗余和不一致,这有助于提高其后挖掘过程的准确性和速度。9.下列说法不正确的是?()A数据集成时一般会用到数据仓库B.业务键通常来源于业务系统C.事实表加载前,先加载维表D.雪花模型的各个维表之间没有依赖关系10.以下说法错误的是?()A.可能通过pymysql.connect(host,user,password,database)连接到mysql数据库B.cursor.execute(sql)执行SQL语句C.cursor.fetchall()获取一行执行结果D.若改变了数据库里的数据,需要调用commit()来提交11.转换创建并保存后的文件后缀名是?()A.ktrB.kjbC.kbjD.krt12.下列合并多个数据集说法错误的是?()A.pandas.merge基于一个或多个键连接多个DataFrame中的行B.pandas.concat按行或按列将不同的对象叠加到一起C.pandas.merge默认的合并操作使用的是innerjoin,通过传递how参数修改为outerjoinD.concat函数的axis参数值为0,表示沿着横轴串接,生成一个新的Series对象13.以下说法错误的是?()A.去除重复数据时若需要保留最后一个值需要keep=’last’参数B.调用duplicated方法可以对重复数据去除C.使用去除重复数据步骤必须先排序D.Kettle提供了去除不完全重复数据的步骤14.有关Kettle设计原则说法不正确的是?()A.易于开发B.运行状态透明化C.只映射需要的字段D.命名必须用汉字或英文15.以下说法错误的是?()A.一个作业包含一个或多个作业项B.作业项可以是转换也可以是作业C.作业执行顺序是由跳和每个作业执行结果来决定的D.作业和转换都可以并行执行16.下列有关变量的说法错误的是?()A.系统变量包括Java虚拟机和Kettle的内部变量B.可以使用kettle.properties文件来设置变量C.可以使用${变量}或%%变量%%来调用变量D.作业中的每个作业项中都可以使用所有的变量17.在数据预处理阶段,数据类型被统一,使得挖掘过程可能更有效,挖掘的模式可能更容易理解,这个过程被称为?()A.数据清理B.数据集成C.数据规约D.数据变换18.以下说法正确的是?()A.事实表中,数据粒度很细,这类通常是事务型事实表B.周期快照事实表,通常是汇总的数据C.累积快照事实表,数据生成后,后续经常有变化D.以上都正确19.下面有关SQL说法不正确的是?()A.删除表可用dropB.修改表结构可用updateC.增加数据可用insertintoD.切换数据库可用use20.下列关于为什么要做数据清理描述错误的是?()A.数据有...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据预处理习题库2020

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部