网络爬虫技术的概述与研究

下载本文档

阅读 189
下载 24
格式 doc
大小 26 KB
约5页
2025-08-17 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/5页

2/5页

3/5页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

网络爬虫技术得概述与讨论摘要网络爬虫,又被称为网页蜘蛛,网络机器人,随着网络得迅速进展,万维网成为大量信息得载体,如何有效地提取并利用这些信息成为一个巨大得挑战。搜索引擎 (Search Engine),例如传统得通用搜索引擎 AltaVista,Yahoo!与 Google 等,作为一个辅助人们检索信息得工具成为用户访问 web 得入口与指南。但就是,这些通用性搜索引擎也存在着一定得局限性。为了解决上述问题,定向抓取相关网页资源得聚焦爬虫应运而生。聚焦爬虫就是一个自动下载网页得程序,它根据既定得抓取目标,有选择得访问万维网上得网页与相关得链接,猎取所需要得信息。本文将对网络爬虫技术及其原理进行简单得介绍,并且给出实例。关键词网络爬虫聚焦爬虫网页抓取搜索策略 URL一、网络爬虫得简介1、URL在介绍网络爬虫之前,先引入 URL 得相关知识。URL 就是 URI 得一个子集。它就是 Uniform Resource Locator 得缩写,译为“统一资源定位符”。通俗地说,URL 就是 Internet 上描述信息资源得字符串,主要用在各种客户程序与服务器程序上,特别就是著名得 Mosaic。采纳 URL 可以用一种统一得格式来描述各种信息资源,包括文件、服务器得地址与目录等。URL 得格式由三部分组成:·第一部分就是协议(或称为服务方式)。·第二部分就是存有该资源得主机 IP 地址(有时也包括端口号)。·第三部分就是主机资源得具体地址,如目录与文件名等。第一部分与第二部分用“://”符号隔开,第二部分与第三部分用“/”符号隔开。第一部分与第二部分就是不可缺少得,第三部分有时可以省略。用 URL 表示文件时,服务器方式用 file 表示,后面要有主机 IP 地址、文件得存取路径(即目录)与文件名等信息。有时可以省略目录与文件名,但“/”符号不能省略。例如爬虫最主要得处理对象就就是 URL,它根据 URL 地址取得所需要得文件内容,然后对它进行进一步得处理。2、传统爬虫与聚焦爬虫网络爬虫就是一个自动提取网页得程序,它为搜索引擎从 web 上下载网页,就是搜索引擎得重要组成。传统爬虫从一个或若干初始网页得 URL 开始,获得初始网页上得 URL,在抓取网页得过程中,不断从当前页面上抽取新得 URL 放入队列,直到满足系统得一定停止条件。搜索引擎就是基于传统爬虫技术建立得,但其存在着一定得局限性,例如:(1) 不同领域、不同背景得用户往往具有不同得检索目得与需求,通用搜索引擎所返回得结果包含大量用户不关怀得网页。(2)通用搜索引擎得目标就...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

网络爬虫技术的概述与研究

网络爬虫技术得概述与讨论摘要网络爬虫,又被称为网页蜘蛛,网络机器人,随着网络得迅速进展,万维网成为大量信息得载体,如何有效地提取并利用这些信息成为一个巨大得挑战

搜索引擎 (Search Engine),例如传统得通用搜索引擎 AltaVista,Yahoo

与 Google 等,作为一个辅助人们检索信息得工具成为用户访问 web 得入口与指南

但就是,这些通用性搜索引擎也存在着一定得局限性

为了解决上述问题,定向抓取相关网页资源得聚焦爬虫应运而生

聚焦爬虫就是一个自动下载网页得程序,它根据既定得抓取目标,有选择得访问万维网上得网页与相关得链接,猎取所需要得信息

本文将对网络爬虫技术及其原理进行简单得介绍,并且给出实例

关键词网络爬虫聚焦爬虫网页抓取搜索策略 URL一、网络爬虫得简介1、URL在介绍网络爬虫之前,先引入 URL 得相关知识

URL 就是 URI 得一个子集

它就是 Uniform Resource Locator 得缩写,译为“统一资源定位符”

通俗地说,URL 就是 Internet 上描述信息资源得字符串,主要用在各种客户程序与服务器程序上,特别就是著名得 Mosaic

采纳 URL 可以用一种统一得格式来描述各种信息资源,包括文件、服务器得地址与目录等

URL 得格式由三部分组成:·第一部分就是协议(或称为服务方式)

·第二部分就是存有该资源得主机 IP 地址(有时也包括端口号)

·第三部分就是主机资源得具体地址,如目录与文件名等

第一部分与第二部分用“://”符号隔开,第二部分与第三部分用“/”符号隔开

第一部分与第二部分就是不可缺少得,第三部分有时可以省略

用 URL 表示文件时,服务器方式用 file 表示,后面要有主机 IP 地址、文件得存取路径(即目录)与文件名等信息

有时可以省略目录与文件名,但“/”符号不能省略

例如爬虫最主要

人从众 + 关注: 实名认证
内容提供者

欢迎光临小店，本店以公文和教育为主，希望符合您的需求。

收藏店铺进入空间

网络爬虫技术的概述与研究

网络爬虫技术的概述与研究

您可能关注的文档

相关文档

热门下载

相关标签