电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

爬虫接入规范

爬虫接入规范_第1页
1/2
爬虫接入规范_第2页
2/2
下载后可任意编辑爬虫接入法律规范 爬虫接入法律规范修订历史日期修改说明部门修改人 2024.06.12 大数据中心李永波数据接入需求基于数据采集需求,初步推断数据的接入源是否从业务数据库中猎取。 联系技术研发部同事,请求数据源接入的位置参数,通过配置化方式达到将数据从业务系统拉取、装载到数据仓库贴源层的目的。 数据接入流程 1.与爬虫组和平台组进行沟通,确定提供数据的方式(数据库、文件、接口等),让需求发起人补充详细的数据口径,补充到需求要求里面,指定数据仓库组或平台组的一个人进行转发。 2.数据仓库组或平台组根据需求描述。跟数据源提供方(可以是需求发起方、也可以是技术研发部门)沟通,让其补充模板里的位置参数。 3.数据源提供方根据模板要求,提供位置配置参数。 4.数据仓库组或平台组根据已经得到的位置参数、需求数据指标等信息,设计接入模型和抽取参数。 5.数据仓库组或平台组在接入数据后,整理数据格式,制定清洗转换规则,并补充装载目标表信息。 数据源接入模板需求要求(仓库组补充)tapd 需求单号:xxxx 提起人:陈炳贵(Richard.chen)需求单号内容: ???提供数据方式: 数据库、文件、接口详细的数据口径:???位置配置参数(平台部补充)配置参数参数取值服务器地址必填数据库端口必填数据库名称必填用户名必填密码必填表名必填,test1 必填,test2 取数口径(sql 或者文字说明)选填,单表部分字段、多表关联的请填写。 接入模型字段(仓库组补填)字段名注释字段类型源表字段必填必填必填必填必填必填必填必填抽取参数(仓库组补填)配置参数参数取值抽数周期每天抽数时间 7:00 增量标识 1:全量,2:增量数据日期格式增量数据,需要提供数据日期格式,可选如下。 1下载后可任意编辑 时间戳 YyyymmddYyyy-mm-dd 清洗转换规则(仓库组补填)由仓库组补充,不限于数据清洗过滤、字段编码转换、敏感信息转换、接入阀值设置等等。 装载目标表(仓库组补填)配置参数参数取值 stg 层表名称必填 stg 层表描述必填 ods 层表名称必填 ods 层表描述必填取数位置(平台组组补充,仓库组验收)密码等验证信息私下提供。 数据库方式: 数据库连接方式: 表名: 字段名注释字段类型必填必填必填必填必填必填文件方式: 服务器位置:ip:port 文件位置: 接口方式: 接口 URL: 2

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

爬虫接入规范

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部