网络爬虫技术得概述与讨论摘要 网络爬虫,又被称为网页蜘蛛,网络机器人,随着网络得迅速进展,万维网成为大量信息得载体,如何有效地提取并利用这些信息成为一个巨大得挑战
搜索引擎 (Search Engine),例如传统得通用搜索引擎 AltaVista,Yahoo
与 Google 等,作为一个辅助人们检索信息得工具成为用户访问 web 得入口与指南
但就是,这些通用性搜索引擎也存在着一定得局限性
为了解决上述问题,定向抓取相关网页资源得聚焦爬虫应运而生
聚焦爬虫就是一个自动下载网页得程序,它根据既定得抓取目标,有选择得访问万维网上得网页与相关得链接,猎取所需要得信息
本文将对网络爬虫技术及其原理进行简单得介绍,并且给出实例
关键词网络爬虫 聚焦爬虫 网页抓取 搜索策略 URL一、网络爬虫得简介1、URL在介绍网络爬虫之前,先引入 URL 得相关知识
URL 就是 URI 得一个子集
它就是 Uniform Resource Locator 得缩写,译为“统一资源定位符”
通俗地说,URL 就是 Internet 上描述信息资源得字符串,主要用在各种客户程序与服务器程序上,特别就是著名得 Mosaic
采纳 URL 可以用一种统一得格式来描述各种信息资源,包括文件、服务器得地址与目录等
URL 得格式由三部分组成:·第一部分就是协议(或称为服务方式)
·第二部分就是存有该资源得主机 IP 地址(有时也包括端口号)
·第三部分就是主机资源得具体地址,如目录与文件名等
第一部分与第二部分用“://”符号隔开,第二部分与第三部分用“/”符号隔开
第一部分与第二部分就是不可缺少得,第三部分有时可以省略
用 URL 表示文件时,服务器方式用 file 表示,后面要有主机 IP 地址、文件得存取路径(即目录)与文件名等信息
有时可以省略目录与文件名,但“/”符号不能省略
例如 爬虫最主要