三七数据大数据技术解决方案北京三七数据技术有限公司2025 年 7 月 31 日目 录1 概述 62 面临的挑战 62
1 数据采集 102
2 数据清洗 102
3 数据存储 122
4 数据并行处理 122
5 数据分析 122
6 可视化 122
7 传统解决方案的分析 123 相关技术的讨论 123
1 参考模型框架 123
2 数据采集 123
1 结构化数据的采集 123
2 半结构化数据的采集 123
3 非结构化文本数据中信息的抽取 153
3 数据清洗和数据质量的保证 153
1 数据质量的概念及分类 153
2 数据清洗的原理 183
3 单数据源中的数据清洗 203
4 数据的集成和融合 373
1 多数据源集成问题的分类 383
2 数据标准化的讨论 403
3 数据集成的流程 413
4 多数据源中重复实体的清理 413
5 数据不一致性问题的讨论 433
5 数据的存储和处理 433
1 并行和分布式处理理论 433
2 并行 RDBMS473
3Hadoop493
4Hadoop 扩展和优化 533
5NoSQL583
6 查询优化 1103
6 大数据中的数据挖掘 1123
1 传统数据挖掘概述 1123
2 大数据时代数据挖掘进展新趋势 1203
3WEB 数据挖掘 1243
4 超数据集成挖掘方法与技术讨论 1533
5 数据挖掘网格技术 1863
7 大规模机器学习 2083
1 机器学习概述 2093
2 扩展机器学习的必要性 2113
3 面临的挑战 2133
4 概率图模型 2143
5 集成学习 2153
8 可视化和可视化分析 2253
1 概述 2253
2 可视化技术 2253
3 可视化分析 2273