【内容提要】着重论述了图书馆对网络信息资源编目的必要性、可行性,以及编目工具元数据DC、MARC和可扩展标识语言XML,介绍了目前国际图书馆界在这方面取得的进展。【摘要题】图书情报工作论坛1.对网络信息资源编目的必要性图书馆对网络信息资源进行编目的意义在于:一是把网络信息资源及其服务有机地纳入到图书馆服务中来,这意味着图书馆利用网络信息资源补充已有馆藏和提高图书馆满足读者信息需求的能力;二是运用和移植图书馆学、情报学在组织文献信息和书目控制文献的研究成果和实践经验,提高网络信息资源的有序化程度。1.1随着数字化革命的深入和Internet的飞速发展,网络信息资源呈现出几何级数量增长,据国外最新研究结果表明,因特网上可编索引的网页已超过10亿页,仅此一项,其增长规模已超越了现有的非网络资源,信息资源从内容到形式都发生了质的变化。网络信息资源同非网络资源相比,具有地理上分散、组织上无序、数据类型多、变幻多端的特点。无序扩张的网络信息资源,一方面使网上信息包罗万象,良莠不齐,信息分布、信息组合错综复杂,信息污染严重;另一方面,广大用户,即信息的需求者,面对如此浩瀚的信息海洋,无法快捷地获取自己所需的信息,对检索和获取信息的低效感到无奈。解决二者之间的矛盾,为用户提供便利的信息获取途径和方法,就图书馆而言,最为有效的方法即是将网络信息资源纳入图书馆的服务当中,对其进行编目管理。1.2网络中存在着巨大数字化信息,用户要想快速准确地检索到所需信息,就需要一个机构能够承担起网络信息的整序工作。目前,以网络搜寻为目的的搜索引擎的出现(如国外的Yahoo、infoseek、altavista,国内的网易、搜狐等),虽然在浩如烟海的网络资源中起到了一定的导航作用,由于其处理方式是通过自动调用程序在网际网络上选取网页,然后使用全文检索的技术,以自动拆字词作为索引的方式,建立其数据库作为检索的基础,这种方式的不足之处在于其查全率高,但查准率低,以及缺乏一致性的用户界面。检索出的篇目太多,有时甚至有成千上万篇,而其中真正有用的信息并不多。这种情况下,图书馆应发挥自己的职业优势,图书馆对非网络信息资源的编目已有了丰富的经验,将其应用于网络信息资源的编目将起到事倍功半的效果,由图书馆对网络信息资源进行选择、加工、整理,对网络上的各种信息进行筛选、过滤、描述、标引,以便于查寻的方式把有价值的信息提供给用户,这是利用网络资源最为有效的途径之一。2.网络信息资源编目的可行性尽管网络信息资源具有增长迅速、数量巨大、流动性大、稳定性小的特点,它与非网络信息资源仍具有共性,可以这样比喻,整个因特网就像一个巨大的图书馆,各个网站就是种类不同的图书,而每一个网页就是图书中的一页,共性的存在,是对网络信息资源进行编目的前提条件。美国OCLC(OnlineComputerLibraryCenter)对网络信息资源的编目进行了有益的尝试,并且取得了重大的进展。OCLC从1991年开始就致力于应用计算机技术对因特网上的资源进行精心筛选和标引。通过试验,证实了MARC和AACR2可适用于网络信息资源,同时提出了修改完善MARC建议,在USMARC中新增加了856字段电子网址和索取字段。由于MARC本身的局限性,如结构复杂、著录项目过于烦琐,要求专业性强,要受过专门训练的编目员来做等等,虽保证了著录的精确性,但著录速度慢,工作效率低,无法满足海量的网络资源的整序需求。于是人们开始转向研究一种新的著录项目,一种用以描述网络信息资源的格式和工具。元数据这一概念被及时推出,元数据的产生为网络信息资源的组织提供了重要手段。到目前为止,世界上已开发出并付诸使用的元数据有许多种,如都柏林核心元数据(DublinCore)、频道定义格式(CDF)、艺术作品描述目录(CDWA)、资源描述框架(RDF)等等。有了高效实用的网络信息描述工具以后,针对网络信息资源编目的特殊性,1998年8月OCLC研究署向研究顾问委员会提交了CORC(CooperativeOnlineResourceCatalog)计划的构想,这一计划尝试将传统的图书馆编目规则与技术文献信息的选择、描述、标引及利用等运用于网络信息的存取,OCLC于2000年7月正式推出了CORC产品,并向美国和全世界推广。CORC与商业的搜索引擎不同之处在于它有人工干预,网络资源是由图书馆员挑选的,它的目标是将传统的图书馆编目技术与先进的计算机技术相结合形成一个新系统,能够明显优于现有的搜索引擎。3.编目工具图书馆员一向以善于组织信息著称,我们曾经有效地完成了印刷型资料的编目组织工作,当然有能力完成网络信息资源编目的使命。目前图书馆界对网络信息资源编目的工具以MARC和DC为主,对网络信息资源进行著录的格式应是基于XML的DC描述。3.1MARCMARC格式是美国国会图书馆从1963年开始研究应用计算机对图书进行编目的工具,1971年,美国国家标准局将USMARC确定为美国国家标准,1977年,国际图联(IFLA)发布UNIMARC格式,中国根据UNIMARC的框架体系和内容,结合中国的特点编制了CNMARC。MARC是用于描述、存储、交换、控制和检索的一套机读书目数据标准,它开始主要是针对印刷型书本的描述,对网络信息资源进行编目,是通过在MARC中增加856字段,即电子资源地址与存取,并采用5XX字段记录资源格式的方法来进行的。它的数据结构严密,能很好地描述电子信息,尤其是在检索点的选取原则上,能确保其数据元索组成具有统一性,有利于资源交换。此外,这种经过编目人员过滤、筛选过的信息,确保了数据描述的可靠性、完全性和精确性。856字段主要记录被著录的数字对象或与之相关的其它电子资源的存储地址和存取方式,是可重复、必备字段,包含27个子字段。专业水准的分类和准确的记录这两大特色将使其能在Internet中占有一席之地。但用MARC格式编目Internet的成本相当高,由于网络信息地址时常更改,为了维护856字段链接的有效性,需要耗费相当多的财力、人力和时间,编目的速度远远跟不上网络信息资源增长的速度,因此这种高成本的编目方式只适用于编目一些最重要的网络资源。3.2DC目前对因特网上的信息资源编目用得最多的著录工具是DC(DublinCore)都柏林核心,它是一项描述信息资源的国际标准,1995年3月在俄亥俄州的都柏林核心研讨会上,52位来自图书馆、计算机和网络方面的学者和专家共同探讨了基于网络信息资源的描述问题,创建了都柏林核心集。DC包含15个元素,依据其所描述内容的类别和范围可分为三组:a、对资源内容的描述;b.对知识产权的描述;c、对外部属性的描述。对资源内容描述类包括:Title、Subject、Description、Source、Language、Relation、Coverage。对知识产权的描述包括:Creator、Publisher、Contributor、Rights。对外部属性的描述包括:Date、Type、Format、Identifier。DC同MARC相比具有以下优点: 格式简单且易于使用:因它只有15个元素,易于理解,适合各种背景的人群使用。 具有通用性:15个元素可自由选用及重复使用,元素的含义不因其是否嵌入所描述的资源而受到影响。它支持任何内容的资源描述,使得跨学科的语义描述有了可操作性。 具有兼容性:DC通过RDF框架形成了资源描述的基础,对基于WEB的元数据提供了灵活的语法基础,如可内嵌入HTML、XML语言,各种浏览器均支持它。 具有可扩展性:可根据实际情况,通过使用限定词能够实现扩展描述的方法。第七次都柏林核心研讨会后,对DC进行了重大改进,DC与MARC之间映射更加一致,接近一一对应于MARC的许多字段,有利于将DC元数据记录集成到图书馆原有的基于MARC的OPAC系统。 3.2XML图书馆在对网络信息资源编目过程中,采用DC作为网络信息资源的著录工具、XML文档结构作为著录格式是使网络信息资源有序化的理想模式。XML是一种区别于HTML和SGML的可扩展标识语言,它不象SGML那样复杂,又能象HTML那样可在WEB上传送,它已广泛应用于互联网上。XML是一种类似于HTML,被设计用来描述数据的语言,XML提供了一种独立的运行程序的方法来共享数据,它是用于自动描述信息的一种新的标准语言,它能使计算机通信把Internet的功能由信息传递扩大到人类其他多种多样的活动中去。XML由若干规则组成,这些规则可用于创建标识语言,正如HTML为第一个计算机用户阅读Internet文档提供一种显示方法一样,XML也创建了一种任何人都能读出和写入的世界语。XML作为新的一代网络语言,它具有良好的可扩展性,它允许各个不同的行业根据自己独特的需要制定自己的一套标记;它还具有良好的自描述性,能够描述信息本身的含义甚至它们之间的关系;它遵循严格的语法要求,增加了网页的文档的可读性和可维护性,提高了浏览器的时间空间效率;它便于不同系统之间信息的传输,XML是一种非常理想的网际语言。XML文档最好以一个XML声明作为开始,一个完整的声明是这样的:附图下面是一个基于XML的DC描述的一个例子,<?XMLversion=1.0encoding=GB2312standalone=no?><论文><HEAD><Title>DublinCore形式书目<Title>……<BODY><dc:Title>Internet环境下电子化图书馆信息管理系统<dc:Title><dc:Creator>林雪英<dc:Creator><dc:Subject>图书馆信息管理<dc:Subject><dc:Description>…<dc:Description><dc:Date>20025--?<dc:Date><dc:Type>学术论文<dc:Type><dc:Source>http:www.fjinfo.gov.cnpublicatqbts00418.htm<dc:Source><dc:Language>Chi<dc:Language><dc:Relation>福建科技<dc:Relation><dc:Rights>http:www.fjinfo.gov.cn<dc:Rights><BODY><论文>每个著录项目均为可选项目,可重复标记,数据是可变长的,书目信息与全文版电子资源的链接是通过<dc:Source>……<dc:Source>来实现的。4.图书馆对网络信息资源进行编目的现状网络资源编目既然是传统文献编目在网络环境下的延伸,而网络资源又具有数量大、增长快、稳定性小的特点,实行联机合作编目是理所当然的必由之路。在这方面,美国做出了有益的尝试。美国的OCLC在积其数十年合作编目丰富经验的基础上,顺应网络信息资源发展的趋势,及时推出合作联机资源目录CooperativeOnlineResourcesCatalog,即CORC构想。4.1CORC的概况。它的目的是在自动化编目工具与图书馆合作有机结合的基础上,建设共享的网络资源数据库。目前它已建立4个数据库:资源记录数据库、规范数据库、寻路器数据库、杜威十进分类法数据库,其中资源记录数据库相当于一般的书目数据库,以DublinCore或MARC形式提供网络信息,寻路器数据库则以网页形式揭示网络资源的书目信息及其与资源的超文本链接。4.2 CORC的功能。 快速生成书目记录。图书馆利用CORC编目时,只需根据编目人员提供的URL,系统会自动搜索、获取相关域名的网页,为相关网页及其所有链接生成一系列的资源记录,而且可定向获取具有EAD与TEI头标的网页,并自动生成书目记录,CORC工具在获取某一网址后,能自动过滤出关键概念与关键词作为索引词。 自动标引分类法类号和主题词。CORC安装了丰富的机助编目工具,如杜威十进分类法、美国国会图书馆标题表、美国国家医学图书馆标题表等,以减轻编目人员的标引工作强度。 通过合作与机器协助的方法维护记录的URL(统一资源定位器)。在CORC系统中,由成员馆分担维护URL,当用户的记录包含无效的URL时,CORC的自动链接维护工具会通过状态屏幕及时通知用户,由用户进行核查、更正,从而保证了URL的正确性。4.3CORC的启示。目前,国内许多有实力的图书馆已经开始对网络信息资源加以收集、整理加工,开始了对网络资源编目的有益的探索,但是同时存在着分散、不统一的特点,作为发达国家的美国,合作联机编目已走在我们的前面,我们的问题不再是如何对网络信息资源进行编目,寻找什么样的工具编目,而是应该直接与国际接轨,充分利用CORC系统这一先进的工具。5.结束语网络信息的极大丰富,给图书馆的工作带来了新的机遇和挑战,也给图书馆员带来了新的工作内涵,它使我们不断地补充新知识、接受新生事物,采用新的编目工具组织新的信息。在对网络信息资源进行组织整理方面,图书馆应是大有可为的,图书馆有知识、经验都很丰富的编目人员,有一套切实可行的工作方法。目前,对网络信息编目,图书馆界正在进行如火如荼的研究,相信无论是用MARC或是DC,是用XML或是HTML,图书馆这在方面的工作将会做得越来越完善、越来越科学。【责任编辑】宋雅范【参考文献】1、卢共平.图书馆与网络信息资源的组织管理.http:www.libnet.sh.cnmagzine00-062、郭瑞华.对网络信息资源著录项目和著录格式的研究.图书馆建设,2002(1),55-57页3、吴万晔.OCLC的CORC系统对我国虚拟图书馆发展的启示.情报杂志,2002(8),86-89页4、王绍平.合作编目网络资源书目控制的必由之路.http:www.lib.sjtu.edu.cnchineseteachingresearch5、方小容.网络信息资源编目与CORC系统.现代图书情报技术,2002(2)65-68页6、吴开华等.数字图书馆元数据研究.图书馆学、信息科学、资料工作,2002(8),27-307、吴建中.网络资源的组织与整理.http:www.kingsy.netlibraryexpertwjz8、Internet环境下电子化图书馆信息管理系统.http:www.fjinfo.gov.cnpublicatqbts00418.htm
信息发布:广州名易软件有限公司 http://www.myidp.net
|