十道面试题与十个海量数据处理方法总结

下载本文档

阅读 192
下载 4
格式 pdf
大小 536.92 KB
约12页
2025-02-07 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/12页

2/12页

3/12页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/12

文本预览下载提示常见问题

第一部分、十道海量数据处理面试题 1、海量日志数据，提取出某日访问百度次数最多的那个 IP。首先是这一天，并且是访问百度的日志中的 IP 取出来，逐个写入到一个大文件中。注意到IP 是 32 位的，最多有个 2^32 个 IP。同样可以采用映射的方法，比如模 1000，把整个大文件映射为 1000 个小文件，再找出每个小文中出现频率最大的 IP（可以采用 hash_map 进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这 1000 个最大的 IP 中，找出那个频率最大的 IP，即为所求。或者如下阐述（雪域之鹰）：算法思想：分而治之+Hash 1.IP 地址最多有 2^32=4G 种取值情况，所以不能完全加载到内存中处理； 2.可以考虑采用“分而治之”的思想，按照 IP 地址的 Hash(IP)%1024 值，把海量 IP 日志分别存储到 1024 个小文件中。这样，每个小文件最多包含 4MB 个 IP 地址； 3.对于每一个小文件，可以构建一个 IP 为 key，出现次数为 value 的 Hash map，同时记录当前出现次数最多的那个 IP 地址； 4.可以得到 1024 个小文件中的出现次数最多的 IP，再依据常规的排序算法得到总体上出现次数最多的 IP； 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为 1-255 字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是 1 千万，但如果除去重复后，不超过 3 百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的 10 个查询串，要求使用的内存不能超过 1G。典型的 Top K 算法，还是在这篇文章里头有所阐述，详情请参见：十一、从头到尾彻底解析Hash 表算法。文中，给出的最终算法是：第一步、先对这批海量数据预处理，在 O（N）的时间内用 Hash 表完成统计（之前写成了排序，特此订正。July、2011.04.27）；第二步、借助堆这个数据结构，找出 Top K，时间复杂度为 N„logK。即，借助堆结构，我们可以在 log 量级的时间内查找和调整/移动。因此，维护一个 K(该题目中是 10)大小的小根堆，然后遍历 300 万的 Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N） + N'*O（logK），（N 为 1000 万，N‟为 300 万）。ok，更多，详情，请参考原文。或者：采用trie 树，关键字域存该查询串出现的次数，没有出现为0。最后用10 个元素的最...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

十道面试题与十个海量数据处理方法总结

第一部分、十道海量数据处理面试题 1、海量日志数据，提取出某日访问百度次数最多的那个 IP

首先是这一天，并且是访问百度的日志中的 IP 取出来，逐个写入到一个大文件中

注意到IP 是 32 位的，最多有个 2^32 个 IP

同样可以采用映射的方法，比如模 1000，把整个大文件映射为 1000 个小文件，再找出每个小文中出现频率最大的 IP（可以采用 hash_map 进行频率统计，然后再找出频率最大的几个）及相应的频率

然后再在这 1000 个最大的 IP 中，找出那个频率最大的 IP，即为所求

或者如下阐述（雪域之鹰）：算法思想：分而治之+Hash 1

IP 地址最多有 2^32=4G 种取值情况，所以不能完全加载到内存中处理； 2

可以考虑采用“分而治之”的思想，按照 IP 地址的 Hash(IP)%1024 值，把海量 IP 日志分别存储到 1024 个小文件中

这样，每个小文件最多包含 4MB 个 IP 地址； 3

对于每一个小文件，可以构建一个 IP 为 key，出现次数为 value 的 Hash map，同时记录当前出现次数最多的那个 IP 地址； 4

可以得到 1024 个小文件中的出现次数最多的 IP，再依据常规的排序算法得到总体上出现次数最多的 IP； 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为 1-255 字节

假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是 1 千万，但如果除去重复后，不超过 3 百万个

一个查询串的重复度越高，说明查询它的用户越多，也就是越热门

），请你统计最热门的 10 个查询串，要求使用的内存不能超过 1G

典型的 Top K 算法，还是在这篇文章里头有所阐述，详情请参见：十一、从头到尾彻底解析Hash 表算法

文中，给出的最终算法是：第一步、先对这批

小辰7 + 关注: 实名认证
内容提供者

出售各种资料和文档

收藏店铺进入空间

十道面试题与十个海量数据处理方法总结

十道面试题与十个海量数据处理方法总结

您可能关注的文档

相关文档

热门下载

相关标签