摘 要信息化的快速进展致使数据量与日俱增,简单的存储这些数据对企业而言并不是最佳的解决方案——存储需要投入成本,大量的文件最终将会加重企业数据备份以及灾难恢复系统的负担
企业与其不断的扩充磁盘容量来应对数据量的增加,还不如转向数据删除技术,以存储更少的数据
近年来新兴的重复数据删除技术就是减少存储空间的有效方式之一
通过对重复数据删除技术的深化讨论,提出了一种基于 iSCSI 平台的重复数据删除存储系统
该系统实现了 LBA 映射、指纹计算、指纹检索和指纹索引表管理等功能
通过 LBA 映射表的组织和管理,实现了重复数据删除前后数据块逻辑地址的转化和对应关系;指纹计算模块中采纳基于散列的 SHA-1 算法,实现了将 4KB 数据块转化为 160 位摘要值的过程;指纹检索和指纹索引表的管理采纳三级索引结构,实现了指纹的精确定位和快速查找
为了弥补重复数据删除带来的系统性能的损失,针对重复数据删除功能中指纹检索性能瓶颈进行了优化,提出了基于布鲁姆过滤的指纹检索算法,大量的指纹检索请求被过滤掉,从而提高检索效率
对系统性能、重复数据删除压缩比和检索过滤算法的效果进行了相关测试
分别测试了标准 iSCSI 和加入重复数据删除模块后的 iSCSI 系统的性能,结果表明,加入重复数据删除之后,虽然系统性能有所下降,但是下降的幅度还是预期的范围之内;对重复数据删除压缩比进行了测试,测试结果表明压缩效果的好坏与应用环境密切相关,当应用于那些信息重复度较高的环境如备份存储系统、归档存储系统等时,具有较好的压缩效果;最后对检索过滤算法进行了测试,测试出的过滤率和误判率都可以达到预期效果
关键词:重复数据删除,指纹检索优化,存储性能AbstractResulted in the rapid development of information technology increasing the