Java网络爬虫简单实现

下载本文档

阅读 200
下载 29
格式 pdf
大小 310.42 KB
约14页
2025-01-31 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/14页

2/14页

3/14页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/14

文本预览下载提示常见问题

首先介绍每个类的功能： Dow nloadPage.java 的功能是下载此超链接的页面源代码. FunctionUtils.java 的功能是提供不同的静态方法，包括：页面链接正则表达式匹配,获取URL 链接的元素,判断是否创建文件,获取页面的Url 并将其转换为规范的Url,截取网页网页源文件的目标内容。 HrefOfPage.java 的功能是获取页面源代码的超链接。 UrlDataHanding.java 的功能是整合各个给类，实现 url 到获取数据到数据处理类。 UrlQueue.java 的未访问 Url 队列。 VisitedUrlQueue.java 已访问过的URL 队列。下面介绍一下每个类的源代码： Dow nloadPage.java 此类要用到 HttpClient 组件。 1. package com.sreach.spider; 2. 3. import java.io.IOException; 4. import org.apache.http.HttpEntity; 5. import org.apache.http.HttpResponse; 6. import org.apache.http.client.ClientProtocolException; 7. import org.apache.http.client.HttpClient; 8. import org.apache.http.client.methods.HttpGet; 9. import org.apache.http.impl.client.DefaultHttpClient; 10. import org.apache.http.util.EntityUtils; 11. 12. public class DownloadPage 13. { 14. 15. /** 16. * 根据 URL 抓取网页内容 17. * 18. * @param url 19. * @return 20. */ 21. public static String getContentFormUrl(String url) 22. { 23. /* 实例化一个 HttpClient 客户端 */ 24. HttpClient client = new DefaultHttpClient(); 25. HttpGet getHttp = new HttpGet(url); 26. 27. String content = null; 28. 29. HttpResponse response; 30. try 31. { 32. /*获得信息载体 */ 33. response = client.execute(getHttp); 34. HttpEntity entity = response.getEntity(); 35. 36. VisitedUrlQueue.addElem(url); 37. 38. if (entity != null) 39. { 40. /* 转化为文本信息 */ 41. content = EntityUtils.toString(entity); 42. 43. /* 判断是否符合下载网页源代码到本地的条件 */ 44. if (FunctionUtils.isCreateFile(url) 45. && FunctionUtils.isHasGoalContent(content) != -1) 46. { 47. FunctionUtils.createFile(FunctionUtils 48. .getGoalContent(content), url); 49. } 50. } 51. 52....

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

Java网络爬虫简单实现

Java网络爬虫简单实现

您可能关注的文档

热门下载

相关标签