摘 要本系统以一个大规模网络爬虫程序所猎取的网络评论数据为基础,使用了词向量,用户画像等技术,构建了一个基于影评的推举系统。主要的工作分为两部分,首先是讨论分析了豆瓣电影网站是如何防备网络爬虫程序已经应对策略,其次根据网络爬虫程序猎取的大量数据构建了一个推举系统。关键词:大规模爬虫,用户画像,推举系统目 录摘 要 ............................................................... 1 目 录 ................................................................ 2 第一章 绪 论 ......................................................... 1 1 。 1 背景与意义 ..................................................................................................... 1 1 。 2 本系统的总体设计构思 .................................................................................. 1 1 。 3 本文的主要贡献与创新 .................................................................................. 1 第二章 大规模数据猎取 ................................................ 2 2.1 网络爬虫程序的原理 ......................................................................................... 2 2.2 网络爬虫程序的设计方案 ................................................................................. 2 2 。 3 豆瓣电影网站爬虫可行性分析 ...................................................................... 3 2 。 3.1 豆瓣电影网站页面分析 ........................................................................ 3 2 。 3 。 2 豆瓣电影网站反爬虫策略分析 ......................................................... 3 2 。 3.3 豆瓣电影网站爬虫策略的设计 ............................................................ 4 2 。 4 网络爬虫性能优化 .......................................................................................... 4 2.5 本章小结 ............................................................................................................ 5 第三章 影评分析推举系统 .............................................. 5 3 。 1 推举系统...