高校档案管理的实施与探讨 1 构建 Hadoop 项目的高校分布式档案管理 Hadoop 项目已经大量的应用于实际项目之中。淘宝、百度、腾讯、网易等都在使用 Hadoop 项目,加上很多高校也在讨论Hadoop 项目,所以本项目使用的 Hadoop 已经是相当成熟的技术。Hadoop 平台下的高校分布式档案管理系统,主要目的就是利用软件来实现档案文档的归档、查询、浏览以及下载等一系列流程管理,使工作人员对文档的管理工作更加容易,既可以提高工作效率,又可以降低管理的成本。在充分考虑高校档案工作的各种共性,避开重复投资、浪费人力和物力情况发生的同时,采纳分布式技术模型来构建—个档案管理系统平台,具有深远的意义。 2Had 项目管理系统需要解决的问题 2.1Had 项目管理系统讨论内容 本项目方案首先是构建档案文件的录入、存储、归档功能,用以实现档案的数字化,所有的文件信息都构建在 HDFS 系统之上,实现分布式的文件存储。其次,完成档案的检索和分析功能,实现用 户 对 存 入 档 案 的 查 询 和 数 据 分 析 , 这 部 分 将 利 用MapReduce(Hive)实现大规模数据的分析和处理。最后是档案的浏览和下载功能,通过 JSP 技术实现档案的页面展示和下载。此外,项目还考虑到安全性问题,实现对档案的加密,操作人员的身份认证等功能。构建基于 HDFS 系统上分布式档案文件系统,从而完 成 对 大 量 高 校 档 案 文 件 的 安 全 存 储 。 构 建 基 于MapReduce(Hive)的档案数据查询、计算系统,从而完成对已经存储的档案数据进行处理。构建基于技术的档案管理信息系统,通过简洁方便的 WEB 界面实现对整个档案系统的操作。设计和实现海量档案数据处理过程中的 MapReduce。在海量数据查询中结合Hive 与 MapReduce。 2.2Had 项目管理系统讨论方法 首先熟悉已有的相关成果,深化分析其中方法技巧,然后针对讨论问题的特点及难点,通过不断的实验,大量的实践来分析比较各种方法及方案配置的优缺点,以期解决问题。除了进行个人讨论以外,还将积极参加相关学术会议,与同行专家进行沟通。同时充分利用现代通讯工具,如网络等,即时了解与本项目有关的最新文献、学术动态,以使讨论和应用工作更有成效。在技术上,采纳原型化的程序设计方法,逐步求精,最后开发出目标平台。在设计时,特别考虑数据存储问题,尤其是海量数据的存储,同时考虑基于 MapReduce 检索和分析的效率,注重文...