什么是税务稽查中的“网络爬虫”
一、”网络爬虫”解读“网络爬虫”也称”网页蜘蛛”,是一个自动提取网页的程序,运用”网络爬虫”技术设定程序,可以根据既定的目标更加精准选择抓取相关的网页信息,有助于在互联网海量信息中快捷猎取有用的涉税信息
二、”网络爬虫”运用“网络爬虫”技术主导下的涉税信息监控平台具有三个突出的特点:分类抓取、实时监控和智能比对
平台主要从证券财经网站,重点抓取上市公司公告、上市公司十大股东股票减持、限售股解禁等信息;风控中心的专用电脑全天候实时抓取、储存和分类整理相关信息;平台将从互联网猎取的信息与税收征管系统以及其他第三方信息进行自动比对,从中筛选出存在税收风险的管征户信息
三、”网络爬虫”流程进入系统后,先连接互联网的风控中心电脑,通过”网络爬虫”程序定向抓取各网站上发布的上市公司公告信息,并且将这些信息转化成可识别的文本
在当天股市收盘后,扫描程序开始启动,扫描”网络爬虫”抓取的公告内容
假如扫描中出现了国税局管理的企业名称或者是其他有效信息,监控平台会自动将公告与国税局管理企业建立起关联,并且以不同颜色的字体和高亮方式显示在电脑屏幕上
风控中心人员可以实时看到关联信息
四、”网络爬虫”延伸现在国地税协作,大数据将共享,利用”网络爬虫”原理调用百度、搜狗等知名搜索引擎的接口,猎取其他方面诸如实际关联公司、经济案件的法院判决结果等信息数据,是轻而易举的事儿
以后,还将积极探究采集外语信息,将境外上市公司纳入监控范围,不断拓展”互联网+”应用领域,进一步提升税收征管水平
附案例 1:百度地图被引入税务稽查天津市国税局引入林业部门提供的第三方参考数据,根据草皮、各种类苗木的指导价格区间、单亩种植的承载能力、成熟周期,推算发票用量及累计最大开票额度,从而有效防范企业随意开具发票,销售非自产的免税农产品等情况
天津市国税局利用百度地图标记企业种植使用地块位置,并