数据分析师常见的7道笔试题目及答案VIP免费

下载本文档

阅读 155
下载 20
格式 pdf
大小 33.23 KB
约3页
2024-12-09 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/3页

2/3页

3/3页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

数据分析师常见的7 道笔试题目及答案导读：探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编为您整理推荐的实用的应聘笔试题目和经验，欢迎参考阅读。1、海量日志数据，提取出某日访问百度次数最多的那个IP 。首先是这一天，并且是访问百度的日志中的IP 取出来，逐个写入到一个大文件中。注意到 IP 是 32 位的，最多有个2^32 个 IP 。同样可以采用映射的方法，比如模 1000，把整个大文件映射为1000 个小文件，再找出每个小文中出现频率最大的IP( 可以采用 hash_map进行频率统计，然后再找出频率最大的几个) 及相应的频率。然后再在这1000 个最大的 IP中，找出那个频率最大的IP ，即为所求。或者如下阐述：算法思想：分而治之+Hash地址最多有2^32=4G 种取值情况，所以不能完全加载到内存中处理;2. 可以考虑采用“分而治之”的思想，按照IP 地址的 Hash(IP)24值，把海量IP日志分别存储到1024 个小文件中。这样，每个小文件最多包含4MB个 IP 地址 ;3. 对于每一个小文件，可以构建一个IP 为 key，出现次数为value 的 Hash map，同时记录当前出现次数最多的那个IP 地址 ;4. 可以得到 1024 个小文件中的出现次数最多的IP ，再依据常规的排序算法得到总体上出现次数最多的IP;2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255 字节。假设目前有一千万个记录(这些查询串的重复度比较高，虽然总数是1 千万，但如果除去重复后，不超过 3 百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。 ) ，请你统计最热门的10 个查询串，要求使用的内存不能超过1G。典型的 Top K 算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O(N)的时间内用Hash 表完成统计 ( 之前写成了排序，特此订正。July 、第二步、借助堆这个数据结构，找出Top K，时间复杂度为 N‘logK。即，借助堆结构，我们可以在log 量级的时间内查找和调整/ 移动。因此，维护一个 K(该题目中是10) 大小的小根堆，然后遍历 300 万的 Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O(N) + N’*O(logK) ， (N 为 1000 万，N’为 300 万)。 ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

数据分析师常见的7道笔试题目及答案VIP免费

数据分析师常见的7道笔试题目及答案

您可能关注的文档

热门下载

相关标签