集成对象代理数据库的科学工作流服务框架中的数据跟踪王黎维1,彭智勇2,3,黄泽谦2,罗敏2(武汉大学国际软件学院1,软件工程国家重点实验室2,武汉大学计算机学院3,武汉430072)摘要本文提出了一个集成数据库的科学工作流服务框架,它采用对象代理模型描述一系列科学任务的执行过程,使得工作流管理操作以类似于传统数据库管理操作的方式来完成
同时,基于对象代理数据库中的双向指针机制,本文提出了一种新的数据跟踪方法,该方法能提供比注释或反向查询更高的性能,不仅节省了大量的存储空间,而且减少了额外的计算代价,一种部分物化中间数据的模式也被提出,用于提高数据跟踪的高效性,实验显示它具有较好的系统性能
关键词科学工作流;web服务;对象代理模型;数据跟踪1引言*目前,生物、医学、生态等科学领域已经面临信息爆炸,使得这些领域的科学家每天不得不使用各种专业程序处理来自实验室信息管理系统控制的科学实验,大规模计算为中心的模拟或远程传感器实时观测的科学数据,这对自动管理科学实验提出了迫切的需求
为了支持科学家进行高效的数据管理和实验分析,将工作流技术应用于科学领域的科学工作流(ScientificWorkflow,SWF)如今已成为在网络基础设施上进行大规模科学计算和协同研究的有效方法
目前在合作环境中进行跨组织的科学实验已经越来越重要
由于该环境中数据和程序资源的分布和异构,使得广泛用于工业界的Web服务技术引入到科学工作流中,用于支持来自不同平台的计算资源的整合,如[1,2]等
它将程序封装到服务中,并通过服务调用而不是程序调用组成工作流,因此能够跨越技术和组织的边界对流程进行建模
与以任务为中心的商业工作流相比,科学工作流虽然共享了商业工作流的一些特性,但其主要是以数据为中心[3],常常涉及大规模科学计算,具有描述科学数据的元数据或者注释
因此,科学工作流实际上是数据管理和流程管理的结合[