大数据面试题VIP专享

下载本文档

阅读 74
下载 30
格式 pdf
大小 1.99 MB
约26页
2024-12-26 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/26页

2/26页

3/26页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/26

文本预览下载提示常见问题

1、给定 a、b 两个文件，各存放 50 亿个 url，每个 url 各占 64 字节，内存限制是 4G，让你找出 a、b 文件共同的 url？方案 1：可以估计每个文件安的大小为 50G×64=320G，远远大于内存限制的 4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件 a，对每个 url求取，然后根据所取得的值将 url分别存储到 1000个小文件（记为）中。这样每个小文件的大约为 300M。 s 遍历文件 b，采取和 a 相同的方式将 url 分别存储到 1000 个小文件（记为）。这样处理后，所有可能相同的 url 都在对应的小文件（）中，不对应的小文件不可能有相同的 url。然后我们只要求出 1000 对小文件中相同的 url 即可。 s 求每对小文件中相同的url 时，可以把其中一个小文件的url 存储到hash_set 中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set 中，如果是，那么就是共同的 url，存到文件里面就可以了。方案 2：如果允许有一定的错误率，可以使用 Bloom filter， 4G 内存大概可以表示 340 亿bit。将其中一个文件中的 url 使用Bloom filter 映射为这 340 亿bit，然后挨个读取另外一个文件的 url，检查是否与 Bloom filter，如果是，那么该 url 应该是共同的 url（注意会有一定的错误率）。 2、有 10 个文件，每个文件 1G，每个文件的每一行存放的都是用户的 query，每个文件的 query 都可能重复。要求你按照query 的频度排序。方案 1： s、顺序读取10 个文件，按照 hash(query)的结果将query 写入到另外10 个文件（记为）中。这样新生成的 ...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

大数据面试题

1、给定 a、b 两个文件，各存放 50 亿个 url，每个 url 各占 64 字节，内存限制是 4G，让你找出 a、b 文件共同的 url

方案 1：可以估计每个文件安的大小为 50G×64=320G，远远大于内存限制的 4G

所以不可能将其完全加载到内存中处理

考虑采取分而治之的方法

s 遍历文件 a，对每个 url求取，然后根据所取得的值将 url分别存储到 1000个小文件（记为）中

这样每个小文件的大约为 300M

s 遍历文件 b，采取和 a 相同的方式将 url 分别存储到 1000 个小文件（记为）

这样处理后，所有可能相同的 url 都在对应的小文件（）中，不对应的小文件不可能有相同的 url

然后我们只要求出 1000 对小文件中相同的 url 即可

s 求每对小文件中相同的url 时，可以把其中一个小文件的url 存储到hash_set 中

然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set 中，如果是，那么就是共同的 url，存到文件里面就可以了

方案 2：如果允许有一定的错误率，可以使用 Bloom filter， 4G 内存大概可以表示 340 亿bit

将其中一个文件中的 url 使用Bloom f

您可能关注的文档

小辰4 + 关注: 实名认证
内容提供者

出售各种资料和文档

收藏店铺进入空间

大数据面试题VIP专享

大数据面试题

您可能关注的文档

相关文档

热门下载

相关标签