网络爬虫技术的概述与研究

下载本文档

阅读 106
下载 28
格式 doc
大小 28 KB
约9页
2025-04-06 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/9页

2/9页

3/9页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

网络爬虫技术的概述与讨论摘要网络爬虫，又被称为网页蜘蛛，网络机器人，随着网络的迅速进展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎 (Search Engine)，例如传统的通用搜索引擎 AltaVista，Yahoo!和Google 等，作为一个辅助人们检索信息的工具成为用户访问 web 的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，猎取所需要的信息。本文将对网络爬虫技术及其原理进行简单的介绍，并且给出实例。关键词网络爬虫聚焦爬虫网页抓取搜索策略 URL一、网络爬虫的简介1、URL在介绍网络爬虫之前，先引入 URL 的相关知识。URL 是 URI 的一个子集。它是Uniform Resource Locator 的缩写，译为“统一资源定位符”。通俗地说，URL 是 Internet 上描述信息资源的字符串，主要用在各种 WWW 客户程序和服务器程序上，特别是著名的 Mosaic。采纳 URL 可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。URL 的格式由三部分组成：·第一部分是协议(或称为服务方式)。·第二部分是存有该资源的主机 IP 地址(有时也包括端口号)。·第三部分是主机资源的具体地址，如目录和文件名等。第一部分和第二部分用“://”符号隔开，第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的，第三部分有时可以省略。用 URL 表示文件时，服务器方式用 file 表示，后面要有主机 IP 地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名，但“/”符号不能省略。例如爬虫最主要的处理对象就是 URL，它根据 URL 地址取得所需要的文件内容，然后对它进行进一步的处理。2、传统爬虫与聚焦爬虫网络爬虫是一个自动提取网页的程序，它为搜索引擎从 web 上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的 URL 开始，获得初始网页上的 URL，在抓取网页的过程中，不断从当前页面上抽取新的 URL 放入队列，直到满足系统的一定停止条件。搜索引擎是基于传统爬虫技术建立的，但其存在着一定的局限性，例如：(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关怀的网页。(2)通用搜...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

网络爬虫技术的概述与研究

网络爬虫技术的概述与研究

您可能关注的文档

热门下载

相关标签