下载后可任意编辑爬虫接入法律规范 爬虫接入法律规范修订历史日期修改说明部门修改人 2024.06.12 大数据中心李永波数据接入需求基于数据采集需求,初步推断数据的接入源是否从业务数据库中猎取。 联系技术研发部同事,请求数据源接入的位置参数,通过配置化方式达到将数据从业务系统拉取、装载到数据仓库贴源层的目的。 数据接入流程 1.与爬虫组和平台组进行沟通,确定提供数据的方式(数据库、文件、接口等),让需求发起人补充详细的数据口径,补充到需求要求里面,指定数据仓库组或平台组的一个人进行转发。 2.数据仓库组或平台组根据需求描述。跟数据源提供方(可以是需求发起方、也可以是技术研发部门)沟通,让其补充模板里的位置参数。 3.数据源提供方根据模板要求,提供位置配置参数。 4.数据仓库组或平台组根据已经得到的位置参数、需求数据指标等信息,设计接入模型和抽取参数。 5.数据仓库组或平台组在接入数据后,整理数据格式,制定清洗转换规则,并补充装载目标表信息。 数据源接入模板需求要求(仓库组补充)tapd 需求单号:xxxx 提起人:陈炳贵(Richard.chen)需求单号内容: ???提供数据方式: 数据库、文件、接口详细的数据口径:???位置配置参数(平台部补充)配置参数参数取值服务器地址必填数据库端口必填数据库名称必填用户名必填密码必填表名必填,test1 必填,test2 取数口径(sql 或者文字说明)选填,单表部分字段、多表关联的请填写。 接入模型字段(仓库组补填)字段名注释字段类型源表字段必填必填必填必填必填必填必填必填抽取参数(仓库组补填)配置参数参数取值抽数周期每天抽数时间 7:00 增量标识 1:全量,2:增量数据日期格式增量数据,需要提供数据日期格式,可选如下。 1下载后可任意编辑 时间戳 YyyymmddYyyy-mm-dd 清洗转换规则(仓库组补填)由仓库组补充,不限于数据清洗过滤、字段编码转换、敏感信息转换、接入阀值设置等等。 装载目标表(仓库组补填)配置参数参数取值 stg 层表名称必填 stg 层表描述必填 ods 层表名称必填 ods 层表描述必填取数位置(平台组组补充,仓库组验收)密码等验证信息私下提供。 数据库方式: 数据库连接方式: 表名: 字段名注释字段类型必填必填必填必填必填必填文件方式: 服务器位置:ip:port 文件位置: 接口方式: 接口 URL: 2