技术成就梦想@DataGuru专业数据分析社区网址:edu
dataguru
cn1搜索引擎核心技术解密经过十几年的发展,搜索引擎已经成为互联网的重要入口之一,全球互联网上访问量最大的十个网站之一Twitter联合创始人埃文
威廉姆斯提出了“域名已死轮”:好记的域名不再重要,因为人们会通过搜索进入网站
搜索引擎的排名对于中小网站流量来说至关重要了,了解搜索引擎简单界面背后的技术原理其实对很多人都很重要授课对象:一、对搜索引擎核心算法有兴趣的技术人员1、搜索引擎的整体框架是怎样的
包含哪些核心技术
2、网络爬虫的基本架构师什么
常见的爬取策略是什么
什么是暗网爬取
如何构建分布式爬虫
百度的阿拉丁计划是3、什么是倒排索引
如何对倒排索引进行数据压缩
4、搜索引擎如何对搜索结果排序
5、什么是向量空间模型
什么是概率模型
什么是BM25模型
什么是机器学习排序
它们之间有何异同
6、PageRank和HITS算法是什么关系
SALSA算法是什么
Hilltop算法又是什么
各种链接分析算法之间是什么关系
7、如何识别搜索用户的真实搜索意图
用户搜索目的可以分为几类
什么是点击图
什么是查询会话
相关搜索是如何做到的
8、为什么要对网页进行去重处理
如何对网页进行去重
哪种算法效果较好
9、搜索引擎缓存有几级结构
核心策略是什么
10、什么是情境搜索
什么是社会化搜索
什么是实时搜索
二、对云计算与云存储有兴趣的技术人员1、什么是CAP原理
什么是ACID原理
它们之间有什么异同
2、Google的整套云计算框架包含哪些技术
Hadoop系列和Google的云计算框架是什么关系
3、Google的三驾马车GFS、BigTable、MapReduce各自代表什么含义
4、Google的咖啡因系统的基本原理是什么
5、Google的Pregel计算模型和MapR