[摘要]分析了数据生命周期理论与模型,研究了学术图书馆科研数据管理的主要内容,构建了基于数据生命周期模型的学术图书馆科研数据管理体系,提出了基于数据生命周期的学术图书馆科研数据服务保障机制。
[关键词]数据生命周期模型;学术图书馆;科研数据;管理体系
随着移动互联网技术的发展,数字化资源以惊人的速度不断增长。根据IDC发布的全球数据研究报告,预计到2020年全球数据总量将超过40ZB。E-Science时代海量科研数据的产生与应用,迫切需要相关学术机构结合其特点,通过数据采集、组织、存档和研究,建立完善的管理机制,保障这些科研数据的合理利用。学术图书馆作为研究型文献管理机构,长期以来一直通过管理文献资源的方式辅助科研活动,在助力科研创新方面也扮演着重要角色。数据生命周期是从数据生成、加工、发布到利用的循环过程,表现了基于科研全过程的数据管理[1]。面对E-Science背景下科研范式的发展,以及用户对科研数据组织、存储和利用的新需求,学术图书馆积极探索科研数据管理内容,建设基于数据生命周期的科研数据管理体系,发挥在数据增值服务方面的作用,有助于提升科研数据服务能力。
1数据生命周期理论与模型分析
1.1数据生命周期理论概述生命周期的概念最早被应用于生物领域,此后经过不断演化被应用于多个领域。国外学者通过研究数据信息的生命周期,探讨了数据生命周期的内涵,指出它代表一种数据在特定环境下,经过加工、存储和管理,实现资源发掘和利用的过程。具体而言,数据生命周期就是对数字化资源进行加工处理和长期保存,并在科研项目、决策制定中实现再利用的活动[2]。通过总结各流派的相关理论,可知科研活动是数据生命周期的来源,而一个完整的数据生命周期涉及到生成、加工、知识抽取等多个层次。从内容层面分析,数据生命周期包括数据初加工、再加工和获取附加值等环节,涉及到基于数据加工的一系列知识抽取活动。1.2数据生命周期的作用由于科研周期与数据生命周期存在关联,因此通过宏观分析数据生命周期,就可以大致了解科研过程中科研人员的数据需求。E-Science时代科学研究与基础信息设施的发展,逐渐向数据密集型方向转变,科研创新更加依赖对科研数据的再利用。如何帮助科研人员提高科研数据利用率,促进科研数据的开放共享,是学术机构关注的问题[3]。然而对于科研数据的研究与管理,涉及到不同利益主体之间的协调作用,是一个长期而复杂的系统。数据生命周期为科研数据管理提供了基本框架,可以发现科研数据演变阶段研究者的需求,描述复杂的数据管理和流通过程,明确不同利益相关者的关系。此外,数据生命周期来源于科研周期,在研究数据生命周期的基础上构建模型,也可以准确映射科研活动全过程。1.3数据生命周期模型数据生命周期为不同利益相关者提供了价值评估工具,也为科研数据服务实践提供了途径。为方便分析和利用,澳大利亚、英国等研究机构结合实践经验,构建了多个数据生命周期理论模型,如DDI3.0模型、I2S2模型、DataONE模型等。常用的数据生命周期模型大致分为矩阵状、链状、环状3种,在应用场景和构成要素方面存在差异[4]。其中DDI3.0为链状模型,不同环节呈一定的次序排列。I2S2矩阵模型属于数据生命周期模型的子集,也是对链状模型的深化。美国国家科学基金(NSF)为满足科研开发需求,阐释数据存储和管理实践中彼此间的关系,提出了首尾相接的环状DataONE模型,体现了数据生命周期的循环过程(如图1)。
2学术图书馆科研数据管理的主要内容
科研数据包含了科研活动过程中产生的所有能够存储的数字资源,以及能够转换为数字形式的数据,如遥感勘测数据、仿真数据等。学术图书馆开展科研数据管理,不仅能够避免科研数据丢失,实现科研数据的长期存储和共享,也是满足科研人员动态信息需求和促进图书馆发展的必要措施。2.1基础设施建设目前学术图书馆独立构建数据仓储进行科研数据管理的案例并不多见,一方面与图书馆在资金、技术方面存在不足有关[5]。另外,面对E-Science时代学术资源开放、共享的趋势,图书馆领域更加推崇协同合作,营造科研数据管理的硬件环境,采取资源互补、技术共享的方式共同建设机构仓储。学术图书馆也可以与科研项目机构合作,借助外部设备和项目的支持,构建满足不同学科需求的数据仓储,使科研数据管理跨越单个机构的限制,帮助科研人员获取更多有用资源。例如,澳洲国立大学图书馆与其他院校、机构知识库合作,共同搭建科研数据管理的硬件环境,可以为大量科研项目提供数据存储服务。2.2科研数据集成服务科研数据产生于数据生命周期的任意阶段,与科研活动、科学文献等都存在关联,只有通过关联分析发现内在规律,才能获取更多有价值的信息。学术图书馆是科学文献存储中心,在数据集成方面具有丰富的.经验。随着数字化技术的应用,很多学术图书馆已经可以利用智能化工具,为科研人员提供数据关联组织和个性化推荐服务。科研数据作为具有极大应用价值的信息,必然要求图书馆通过科研数据关联集成,将某一类型或某一领域的数据集和科学文献结合起来,帮助科研人员发现不同数据的潜在联系,进一步利用好各类资源。此外,图书馆利用数据挖掘技术处理科学文献,如学术专著、会议纪要、发明专利等,以数据生命周期模型为纽带,将原始数据与再生数据关联起来,实现多学科资源的汇聚,也方便科研人员迅速获取有价值信息。2.3科研数据存储服务在开放获取运动的推动下,很多国家对于信息机构的科研数据都要求开放共享[6]。在这样的背景下,学术图书馆作为长期提供科研数据服务的场所,自然要求顺应开放获取的发展趋势。在西方一些发达国家,很多学术图书馆正在尝试开展科研数据开放存储服务,而科研人员也乐于借助图书馆存储科研信息或成果。在科研数据存档方面,学术图书馆构建专门的机构知识库,通过IR拓展的方式为科研数据管理提供支持,也可以建设科研数据档案库,引进专门的软硬件设施开展科研数据服务。由于E-Science背景下科研人员的数据管理需求日益增长,学术图书馆必须尽快拓展科研数据存储空间,并且通过寻求政府部门、基金会的支持,以解决新增业务带来的成本增加等问题。