大量数据处理方法

下载本文档

阅读 173
下载 13
格式 pdf
大小 324.33 KB
约7页
2024-12-26 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/7页

2/7页

3/7页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

大数据量，海量数据处理方法总结来源：葛林华的日志大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloom filter 适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k 个独立 hash 函数。将 hash 函数对应的值的位数组置 1，查找时如果发现所有 hash 函数对应位都是1 说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 cou nting Bloom filter，用一个 cou nter 数组代替位数组，就可以支持删除了。还有一个比较重要的问题，如何根据输入元素个数n，确定位数组 m 的大小及hash 函数个数。当 hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于 E 的情况下，m 至少要等于 n*lg(1/E)才能表示任意 n 个元素的集合。但 m 还应该更大些，因为还要保证 bit 数组里至少一半为 0，则 m 应该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44 倍(lg 表示以 2 为底的对数)。举个例子我们假设错误率为 0.01，则此时 m 应大概是n 的13 倍。这样k 大概是8 个。注意这里 m 与 n 的单位不同，m 是bit为单位，而 n 则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit 的。所以使用 bloom filter 内存上通常都是节省的。扩展： Bloom filter 将集合中的元素映射到位数组中，用 k（k 为哈希函数个数）个映射位是否全 1 表示元素在不在这个集合中。Cou nting bloom filter（CBF）将位数组中的每一位扩展为一个 cou nter，从而支持了元素的删除操作。Spectral Bloom Filter（SBF）将其与集合元素的出现次数关联。SBF 采用 cou nter中的最小值来近似表示元素的出现频率。问题实例：给你 A,B 两个文件，各存放 50 亿条 URL，每条 URL 占用 64 字节，内存限制是4G，让你找出A,B 文件共同...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

大量数据处理方法

大数据量，海量数据处理方法总结来源：葛林华的日志大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到

下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题

下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论

Bloom filter 适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k 个独立 hash 函数

将 hash 函数对应的值的位数组置 1，查找时如果发现所有 hash 函数对应位都是1 说明存在，很明显这个过程并不保证查找的结果是100%正确的

同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字

所以一个简单的改进就是 cou nting Bloom filter，用一个 cou nter 数组代替位数组，就可以支持删除了

还有一个比较重要的问题，如何根据输入元素个数n，确定位数组 m 的大小及hash 函数个数

当 hash函数个数k=(ln2)*(m/n)时错误率最小

在错误率不大于 E 的情况下，m 至少要等于 n*lg(1/E)才能表示任意 n 个元素的集合

但 m 还应该更大些，因为还要保证 bit 数组里至少一半为 0，则 m 应该>=nlg(1/E)*lge 大概就是nlg(1/E)1

44 倍(lg 表示以 2 为底的对数)

举个例子我们假设错误率为 0

01，则此时 m 应大概是n 的13 倍

这样k 大概是8 个

注意这里 m 与 n 的单位不同，m 是bit为单位，而 n 则是以元素个数为单位(准确的说是不同

小辰 + 关注: 实名认证
内容提供者

出售各种文档和资料

收藏店铺进入空间

大量数据处理方法

大量数据处理方法

您可能关注的文档

相关文档

热门下载

相关标签