中國·金沙(js6666zs-ISO认证)官方登录入口-Sands Group

全球视野 | 国外文献数据库最新发展现状述要

2019-05-03
南京大学信息管理学院 华薇娜 等
摘要:调查、归纳和总结国外文献型数据库的最新发展现状:包括资源发现服务势头迅猛、大力度开发回溯数据资源、提供数据分析功能、提供文献处理功能、主题语言检索体的应用面得到扩展、分类语言检索体系更具专业性、提供特色检索途径、引入期刊评价新指标、准确定位作者信息和注重细节设计10个方面。这些梳理和总结有助于我们拓宽视野,深入了解国外文献数据库的特色,以开发更多、更新的数据库资源
国外文献型数据库历史悠久,许多数据库源自拥有百年以上历史的印刷本索引工具书,体现着厚重的历史的沉淀。随着因特网的发展,经过了从纸质版到电子版的飞跃,许多文献数据库都有了根本性的变化,越来越多的数据库不断地得到调整和改进。调查、归纳和总结这些数据库的最新发展现状,对于我们深入了解国外文献型数据库有着很大的意义,也有助于拓宽我们的视野,促进我们开发更多更新的数据库资源。

1 资源发现服务势头迅猛
资源发现服务是指数据库系统提供商通过与出版社等内容提供商的合作,对海量的、来自异构资源的元数据和部分对象数据,采用分析、抽取等手段进行预收集,并将这些数据按映射转换规则转换为标准的格式,纳入到元数据标准体系中,形成一个预聚合的元数据联合索引库,在本地或者远程中心平台提供统一的搜索服务。自2007年 OCLC推出第一代资源发现与获取平台——WorldCat Local(简称 WCL)以来,资源发现系统在国内外图书馆界引起了广泛关注。目前国际上主流的资源发现系统大约有十多种,其中应用最为广泛的除了前文所提及的 WCL(现升级为World Cat Discovery Service)外,还有PreQuest公司旗下Serials Solution的 Summon 系统,EBSCO公司的EBSCO Discovery Service(简称EDS),ExLibris公司的Primo系统,以及 Innova-tive Interfaces公司的 Encore系统。近来,多数资源发现系统进一步升级。2015年,ExLibris 公司加入ProQuest,两家公司目前所拥有的资源发现系统Primo和Summon已在市场中拥有大量客户,在资源与系统整合方面对图书馆资源发现系统产生了很大的影响。资源发现系统打破了图书馆各种资源的载体限制,实现了所有资源的深度整合,一站式检索,其一问世便得到了图书馆的青睐和热捧,展现出了强大的发展劲头。

2大力度开发回溯数据资源
(1)开发专门的过刊数据库
过刊(back issue 或 backfile)是一个相对概念,非当前刊期的期刊都可称之为过刊,但一般指本年度之前的期刊;图书馆习惯上把已装订成册的期刊称为过刊。JSTOR(全名为 Journal Storage)就是一个典型的西文过刊数据库。鉴于文科用户对过刊极高的使用需求,曾任普林斯顿大学校长的 WilliamG. Bowen最初策划创建了这一专门的对过刊进行数字化处理的信息资源。该库最初的目标是要建立一个规模虽小,但包罗各种由创刊号起直到距当前3~5年前的重要过刊的数据库,所覆盖期刊中最早的回溯至1665年。该数据库在创建后的最初几年里只收录有几百种刊物,但近年来该数据库飞速发展,收录的数据资源大幅度地增长。目前该过刊数据库包含有900多个出版商提供的数据;从期刊的收录数量上来看,该库现收录以政治学、经济学、哲学、历史、语言文学、法律、教育、音乐和艺术等人文社科主题为中心,兼有一般科学性主题共50多个领域的代表性学术期刊逾1900种;而从资源的覆盖面上来看,JSTOR 最新版还收录有200多种现期期刊,以及15000多种电子图书。目前该库几乎已成为西方国家文科领域无人不晓的网络信息资源。类似 JSTOR 这样的专题回溯数据库还有很多,例如专门收集早年的文科图书信息的数据库《早年英语图书数据库》(Early English Books On-line,简称EEBO);覆盖150多个语种的、更侧重于欧洲国家过刊的数据“Periodicals Archive Online”(简称PAO)等等。
(2)现刊数据库也拓展回溯数据
很多现期期刊数据库,包括文科的和一些理科资源的数据库,在不断增加和更新当前数据的同时,也纷纷往创刊年之前的文献资源回溯。其中比较典型的有:美国引文索引数据库、美国科技情报社ISI(现已由汤森路透公司接管)出版的系列引文索引,收录世界上最有影响的、经过影响因子筛选的核心期刊上发表的研究成果,在一定程度上代表着世界科学研究的水平,尤其是基础学科研究的高水准。该系列包括 《科学引文索引》(Science Citation Index,简称 SCI)、《社会科学引文索引》(Social Science Citation Index,简称 SSCI)、《艺术与人文学科引文索引》(Art & Humanities Citation Index,简称 A&HCI)。其中,SCI 创刊于1963年,SSCI创刊于1972年,A&HCI 创刊于1978年。但在2005年左右,汤森路透公司分别将 SCI 和SSCI 收录文献的起始年份回溯至1900年,A&HCI的数据也回溯到1975年,也就是重新组织了创刊年之前的文献数据。这对人们回顾各学科的发展史,了解早年这些领域的核心期刊论文,提供了可能与方便。
美国威尔逊公司系列数据库:成立于 1898年的美国威尔逊公司,是索引类工具书行业内的杰出品牌之一。该公司出版有一系列期刊索引和图书书目,其中有些资源都有近百年的历史,比如,《读者期刊指南》(Readers Guide to Periodi-cal Literature)创刊于 1905 年,其收录的数据始于1900年。进入数字化时代后,威尔逊公司适时地将其印本索引工具书组织成了网络数据库 (目前这些网络资源合并在 EBSCO 系统平台上为用户提供服务)。近来,Wilson 系统中的许多数据子库在更新当前数据的同时又拓展回溯数据。如《读者期刊指南》的回溯数据始于1890年;《图书馆学文献索引》(Library Literature)的数据已回溯到1905年(其印本数据始于1934提供数据分析功能,如今数据库的各种个性化功能层出不穷,既增加了产品的竞争力,也有助于产品顺应时代发展的趋势,其中较为显著的功能即为数据库信息分析功能,如 Web of Science、Scopus、SciFinder等,这些系统目前都提供一定程度的定量分析的功能,即利用排序的方法从多角度对检索结果进行数据挖掘和全景分析,帮助分析某研究领域的发展趋势,发现科学技术热点,揭示论文间的潜在联系,并可提供相应的引文报告。有的系统结合可视化技术,将检索结果根据文献来源、著者、出版年、被引次数等进行归类和细化。有的数据库以提供同义词表的方式进行概念分组,并可将检索结果细化到某个特定分类,便于迅速精炼和筛选检索结果。

3 提供文献处理功能
越来越多的文献型数据库提供可直接导入文献处理软件的数据下载格式。目前用于文献处理的软件主要有 Reference Manager,End Note,Ref Works等。美国汤森路透公司WOK平台上的多个系统,如 Web of Science,Medline 等系统就提供了 End Note 的文献下载选项,这些下载数据还可以应用 Reference Manager 软件来进行进一步的处理。美国 ProQuest系统提供了能直接导入Easy Bib、End Note或 Ref Works的下载选项。
这些软件都可以帮助用户管理从数据库检索而得的文献题录数据或参考文献,便于用户对检得结果数据的进一步处理和自动的序化管理。许多系统还对题录结果数据提供一定数量范围内的一揽子下载格式,用户可通过普通的办公软件,如EXCEL、WORD 等,对下载结果进行进一步的处理。

4 主题语言检索体系的应用面得到扩展
主题语言是指经过控制的,表达文献信息内容的语词,主题词表是主题词语言的体现,词表中的词可作为文献内容的标识和查找文献的依据。最多见的主题语言分为标题词语言、单元词语言、关键词语言和叙词语言等。国外使用主题语言处理文献的先例很多,早在印刷本时代,1957 年创刊的《美国在版书目主题指南》(Subject Guide to Books in Print)就是对《美国在版书目》中的绝大部分图书按美国国会图书馆主题词表 LCSH (Library of Congress Sub-ject Headings)进行标引和整序。许多印刷本中所使用的主题词表被沿用到网络数据库中,其中就有久负盛名的美国国立医学图书馆(NLM)出版发行的《美国医学索引》(Index Medicus,简称IM),其标题词表就是我们现在 PubMed 系统中能够看到的 Medical Subject Headings,简称MeSH;美国工程索引(Engineering Index,简称Ei)所用的工程叙词表Ei Thesaurus,也被现在的数据库 Engineering Village 所沿用。而当前更多的主题语言检索体系则完全在网络上开发和应用,美国 ProQuest 系统提供的检索词库即为这一类型。以“bibliometrics”一词为例,通过ProQuest 词库检索出来的与该词相关的其他语词,包括其上位词、下位词、相关词等,这为用户后续的扩检、缩检提供了很有价值的参考信息。

5 分类语言检索体系更具专业性
国外早期的分类体系主要是针对图书分类的,如美国的杜威十进分类法(Dewey Decimal Classification,简称 DDC),国际十进分类法(Uni-versal Decimal Classification,简称 UDC)等等。在印本书时代,这些分类体系在文献系统中几乎是占据半壁江山的,当然这些分类至今仍然在被广泛地应用着,美国国会图书馆的图书分类中就有DDC分类。但随着时代的进步,尤其是因特网的发展,更多专业的更细化的分类系统出现在文献系统中,仅在美国的在版书目系统 (Books inPrint,简称 BIP)中,我们能看到的分类号就有杜威十进分类号(DDC),美国国会图书馆分类号(LC Class#);英国BIC主题分类(BIC Subjects Category);美国 BISAC 主题分类(BISAC Subjects Category)。
与国内文献分类法的应用有所不同的是,国外图书分类法的应用几乎被限制在图书范围内,而对于期刊等其他文献类型,则有更多的专业分类体系。有些是从早年的印本检索工具书时产生,又被沿用到如今的网络文献型数据库中,如工程索引分类(Ei Classification),其中包括“工程分类码”(Ei Classification Code)、科学文摘分类,包括物理文摘分类(PA Classification)、电工与电子文摘分类(EEA Classification)、计算机与控制文摘分类(CCA Classification)等;有些则直接用于网络数据库中,如美国计算机学会计算分类体系(ACM Computing Classification Sys-tem)。这样的专业分类还有很多,如冶金分类、生物分类等。此外还有专类文献分类,如专利分类、标准分类等等。

6 提供特色检索途径
检索途径是数据库提供给用户的检索入口,也称检索字段。一般的检索途径包括内部特征途径,如篇名、关键词、摘要、主题(国内数据库设置的“主题”字段一般是组合“篇名”、“关键词”、“摘要”三个检索字段,与国外的依据主题词表的主题检索字段并不等同)、分类等;和外部特征途径,如著者名、刊名、刊号、会议名、著者机构、机构地址、一些特定的号码等。但目前国外有些数据库提供的检索途径远多于现有的这些我们所熟悉的检索途径。

7 引入期刊评价新指标
美国《科学引文索引》创始人尤金·加菲尔特(Eugene Garfield)多年前提出了期刊评价指标“影响因子”(Impact Factor,简称 IF),并随着其产品JCR(“期刊引用报告”,Journal Citation Re-ports)的发行而流行多年。随着人们对影响因子的认识和研究的深入,影响因子的缺陷也逐渐暴露出来。近年来,有多个期刊评价新指标被提出,也逐步在数据库中出现。如:美国WOS 数据库在2009 年时推出了如下指标:
5 年影响因子(5-Year Impact Factor,IF5),即在计算影响因子时采用的是5年数据,而非一般影响因子的 2 年数据。这在一定程度上避免了一般影响因子不能较好衡量被引高峰出现较晚的期刊论文学术影响力的问题。相对来说5年的影响因子更能反映期刊近几年的平均水准。特征因子(Eigenfactor Score),旨在说明期刊越多地被高影响的期刊所引用,其影响力越高。论文影响分值(Article Influence Score),其意义在于排除同一期刊自我引用,且是经过加权的平均被引用次数。

8 准确定位作者信息
在数据库的检索中,常出现作者重名、或不同语言文化背景下的作者姓名排序差异、或同一作者名字缩写不一致、或使用不同的姓名顺序引起名字变化等现象,影响了检索结果的全面性和准确性。近年来,国外一些文献数据库结合社交网络等系统平台,为准确定位作者做了一定程度的有意义的尝试。如:Scopus 系统的“作者身份识别系统”(AUTHOR IDENTIFIER)。该系统可以帮助用户排除容易混淆的作者和确定唯一作者。Scopus 为 2000 万作者分配了独有的唯一识别号,将作者身份识别与引文追踪结合运用,有助于提高检索结果的准确率以及后续的检索结果数据的分析。汤森路透系统的“研究人员标识号”(Researcher ID)。每位作者通过注册都可以建立一个唯一的研究人员标识号,作者可以建立自己的著作清单,产生个人的引用信息,不用再担心同名同姓的问题。人们也可以通过 Researcher ID 来检索学者信息。这个标识号也被使用在汤森路透公司的文献数据库中。汤森路透系统的“开放学者和贡献者身份证”(Open Researcher and Contributor ID)。为研究人员配置唯一的并可链接到其研究成果的身份标识码,从而解决学术文献中的作者姓名混淆问题,强调作者的标志。

9 注重细节设计
细节决定成败,这在数据库检索界面设计中也能有所体现。诸如各种人性化界面设计;层层缩小检索范围的下拉菜单;给用户多种下载形式的选项;检索结果页面重现用户的检索命令,便于用户核实等等,这些都给用户利用文献型数据库带来了更多的方便。
发表评论
评论通过审核后显示。