集成对象代理数据库的科学工作流效劳框架中的数据跟踪王黎维1, 彭智勇2,3, 黄泽谦2 , 罗敏2〔武汉大学国际软件学院 1,软件工程国家重点实验室 2,武汉大学计算机学院 3, 武汉 430072〕摘 要 本文提出了一个集成数据库的科学工作流效劳框架,它采纳对象代理模型描述一系列科学任务的执行过程,使得工作流管理操作以类似于传统数据库管理操作的方式来完成。同时,基于对象代理数据库中的双向指针机制,本文提出了一种新的数据跟踪方法,该方法能提供比注释或反向查询更高的性能,不仅节约了大量的存储空间,而且减少了额外的计算代价,一种局部物化中间数据的模式也被提出,用于提高数据跟踪的高效性,实验显示它具有较好的系统性能。关键词 科学工作流;web 效劳;对象代理模型;数据跟踪1 引言*目前,生物、医学、生态等科学领域已经面临信息爆炸,使得这些领域的科学家每天不得不使用各种专业程序处理来自实验室信息管理系统控制的科学实验,大规模计算为中心的模拟或远程传感器实时观测的科学数据,这对自动管理科学实验提出了迫切的需求。为了支持科学家进行高效的数据管理和实验分析,将工作流技术应用于科学领域的科学工作流〔Scientific Workflow,SWF〕如今已成为在网络根底设施上进行大规模科学计算和协同讨论的有效方法。目前在合作环境中进行跨组织的科学实验已经越来越重要。由于该环境中数据和程序资源的分布和异构,使得广泛用于工业界的 Web效劳技术引入到科学工作流中,用于支持来自不同平台的计算资源的整合,如 [1,2]等。它将程序封装到效劳中,并通过效劳调用而不是程序调用组成工作流,因此能够跨越技术和组织的边界对流程进行建模。与以任务为中心的商业工作流相比,科学工作流虽然共享了商业工作流的一些特性,但其主要是以数据为中心[3],常常涉及大规模科学计算,具有描述科学数据的元数据或者注释。因此,科学工作流实际上是数据管理和流程管理的结合[4]。探究数据库技术用于科学工作流管理已成为当前的讨论热点。通常,工作流管理系统(WFMS)使用数据库管理系统(DBMS)来存储任务描述以及工作流数据,并在 DBMS 之上实现各个工作流功能模块。然而目前一些讨论证明[5,6],大多数 WFMS 的功能可由 DBMS 提供,许多成熟的数据库技术,如方案、查询、数据跟踪以及并发控制等均可用于工作流管理系统中。实行 DBMS 的方式实现科学工作流管理,可以减少实现开销,增加优化的可能性,使其以一种类似于...