数字图书馆体系结构的发展的论文
【内容提要】首先介绍了目前大多数数字图书馆所遵循的基本的数字图书馆体系结构,该结构在功能上可划分为四个逻辑组件:资源库、命名系统、索引/搜索系统、用户界面。然后介绍了NSDL、NCSTRL两个最大的数字图书馆项目在体系结构的关键问题方面的实践,最后,作者提出了数字图书馆体系结构发展的看法。
【摘要题】专题探讨
【【关键词】体系结构/互操作
1 介绍
世界上有许多国家进行数字图书馆的建设,但到目前为止,并不存在一个通用的数字图书馆体系结构,这是由于信息技术和相关标准不断发展的结果,怎样基于现有的技术并考虑到未来技术的发展,构筑一个灵活强大的数字图书馆体系结构,对于数字图书馆的建设是至关重要的,这需要我们了解相关技术和标准以及数字图书馆体系结构的发展变化。
数字图书馆要为用户提供各种简单易用、功能强大的知识服务,通常从功能上可将数字图书馆划分为:用户界面、命名服务、搜索系统、资源库等部分。数字图书馆的建设涵括各种数字资源的创建、管理、查询、利用、存储的整个过程。自从williamY.Arms等于1997年提出了数字图书馆的信息体系结构以来,数字图书馆的体系结构在不断完善和发展,通过许多试验项目仍在不断改进。图1代表了数字图书馆的基本体系结构。
附图
图1 数字图书馆的基本体系结构
资源库
资源库的功能包括存储和管理各种数字对象,通常是由关系型数据库来管理。应用程序通过资源库提供的库访问协议(RAP)来访问资源库。可实现存储、访问、复制、移动和删除数字对象等操作。
与web上的信息所不同,数字图书馆中数字资源是以数 字对象的形式进行封装的,一个数字对象包括:
①一个全球唯一的独立于地址的长期标识符;
②数字资料,存储数字图书馆的资料,也就是最终用户需要获取的信息内容,如经XML置标后的文本、一本电子图书等,
③元数据,关于数字资料的数据。一般情况下,元数据有三种:a.描述性元数据,用于发现和标识一个对象,如MARC和DublinCore。b.结构性元数据,为用户显示和导航一个对象(包括该对象的内部组织信息),如一本书由章节组成。c.管理性元数据,描述该对象的管理信息;创建日期、文件的格式、访问权限、知识产权问题等。
命名系统
命名系统是针对长期标识符的分配、管理及解析的一个综合系统,CNRI为数字图书馆提出了完整的命名系统“调度系统(HandleSystem)”,它是一个独立的系统,其职能是负责数字资源的全球唯一的、长期的、独立于地址的命名的分配、管理和解析。在调度系统中,本地名称空间通过获取一个调度系统的命名授权,就可以纳入到全球调度名称空间,这样所有的本地名称在全球调度名称空间中将是唯一的。
索引与搜索系统
索引的创建可能是由机器的自动扫描、手工录入和干预,或者是这两者的结合。客户机把查询式提交给索引服务器,将返回相匹配的数字对象的URN(统一资源命名,如调度码)。索引服务还提供被索引信息的元数据和查询机制。
用户界面
用户界面是用户与数字图书馆的接口,数字图书馆向用户提供的最终服务都是通过用户界面来实现的。一般情况下,数字图书馆借助通用的'Web浏览器作为其用户界面工具。此外,用户界面的内容编排和服务方式问题是很复杂的,不同的用户需求是不同的,用户对数字图书馆的简单灵活的需求首先就表现在用户界面上。
2 NSDL项目的体系结构介绍
NSDL(NationalSTEMDigitalLibrary,STEM—Science,Technology,EngineeringandMathematics)是NSF资助的、由多家单位来实施数字图书馆项目,它包括64个子项目,其目的是支持科学、技术、工程和数学教育,提供广泛接入和方便使用的分布式资源网络和学习机制,NSDL一期工程已于2002年底为公众提供服务,它是目前规模最大的数字图书馆项目。
由于NSDL的内容和用户的多样性,为让各种用户共享不同的信息,最初的体系结构设计就是通过共享元数据,并利用元数据开发核心服务(如,搜索和发现)。其体系结构(见图2),包括以下几个基本概念:
附图
图2 NSDL体系结构
·采用公共的核心元数据实现异构系统间的资源发现。
·核心元数据与具体领域的扩展元数据相结合。
·以元数据为基础实现跨库搜索并创建更丰富的服务。
·采用自动索引和检索系统来减少编目工作。
元数据库—NSDL体系结构的关键部分是元数据库。元数据库存储所有藏品集的元数据,并通过OAI协议把它们提供给服务商,服务商通过元数据可以开发出各种服务。在NDSL中,元数据库可能分布在多个服务器上,并有多个镜像。NSDL早期采用分布式元数据库,现在改成集中式。这是因为分布式元数据库在检索时会因为其中的一个元数据库的查询失败或响应较慢,而造成整个检索的失败或长时间的响应,而集中式元数据库可以避免这种现象。
NSDL的互操作性问题
NSDL的互操作性采用三种方式来实现:
·联合:这是一种传统的方法,其所有的成员组织都遵从某些标准规范,如通过Z39.50协议共享在线目录。
·OAI采集:以OAI元数据采集为基础。每个数字图书馆藏品的元数据都能提供到DublinCore的映射,并以简单的交换格式向外提供,这样,服务提供商就能采集这些元数据,把它建入到信息发现系统中,而且这些藏品能够实现良好的互操作性。
·搜集:即使各种不同的组织之间不存在任何形式的合作,通过网络爬虫收集开放访问的信息仍然可以实现一定程度上的互操作。各种网络搜索引擎就是这样。
NSDL主要通过OAI元数据采集来实现互操作。2001年初,NSDL确定支持8种标准元数据格式,这8种元数据之间的互换通过DublinCore元数据核心集作为过渡。
(1)DublinCore
(2)DublinCorewithDC—EdExtensions