论坛简介
由《农业图书情报》编辑部主办的2019全国图书情报青年学术论坛于1月7号在冰城哈尔滨胜利落下帷幕。此次论坛云集了来自北京大学、清华大学、中国科学院、南京大学、武汉大学、复旦大学,北京理工大学、黑龙江大学、中国农业科学院、中国科学技术信息研究所、中国医学科学院等50余家科研院所图书情报领域的专家学者。
2019年论坛主题“新兴技术、前沿追踪与最佳实践”,共22场学术报告。(专家报告请关注公众号的后续报道)。
专家简介
刘桂锋,理学博士,管理学博士后,江苏大学图书馆副研究馆员,江苏大学科技信息研究所所长,硕士生导师,美国伊利诺伊大学香槟分校访问学者,《图书情报研究》执行主编,《情报工程》杂志编委。发表学术论文30余篇,著述2部。主持国家级、省部级项目等5项。获江苏省第十五届哲学社会科学优秀成果三等奖,2013年-2016年中国图书馆学会优秀会员。
国内外图书馆科研数据资源平台建设实践与探索
01
图书馆文献资源演变趋势
02
国内外科研数据管理平台概览
03
科研数据管理背景及理论
04
科研数据管理平台评价指标体系构建
05
科研数据管理平台典型案例研究
06
研究结论与展望
报告内容
科研数据资源前期的一些研究,无论是美国科学数据服务还是国内的,都是服务驱动的。要想做好服务,资源非常重要,特别是在图书馆这个领域。图书馆在未来怎样更好的把科研数据作为图书馆资源建设的一个方向,报告将主要从以下几个问题开始。
(1)科研数据能否成为图书馆资源建设的组成部分? WHY
(2)图书馆科研数据资源主要包含哪些内容? WHAT
(3)图书馆科研数据资源建设的方式? HOW
01
图书馆文献资源演变趋势
文献资源主要针对的是图书杂志等书籍类产品,是信息资源的一种更优化、系统化、成熟化的信息。国内主要图书馆的平台,它们的文献资源基本上是传统性的为主,比如说文献资源的建设。文献资源建设(document resources building),是依据文献信息服务机构的服务任务与服务对象以及整个社会的文献情报需求,系统地规划、选择、收集、组织管理文献资源,建立具有特定功能的藏书体系的全过程。
下图中可以看到在中科院机构知识库里面文献资源的类型已经扩展到数据集或者是科研数据,特别是像右面斯坦福大学的图书馆,已经把科学数据作为其中一部分。传统的文献资源类型,从科研过程的角度来讲主要侧重科研结果。那么科研人员在科研过程当中产生的这些科学数据,能不能作为图书馆文献资源建设的方向?科研数据——新颖的文献资源类型为传统的资源建设带来了生机和希望。
02
国内外科研数据管理平台概览
接下来了解一下国内外图书馆在这个领域的探索和实践。
2.1 综合性科研数据管理平台
(1)英国数据存档库(UKDA)
(2)美国校际社会科学数据共享联盟(ICPSR)
美国的ICPSR,非常典型的特点是主要用于社会科学数据。
(3)澳大利亚国家数据中心
(4)中国国家调查数据库
在国内,比较有代表性的是国家调查数据库,对社会科学的研究者来说主要用到的研究数据类型是调查数据。
2.2 高校科研数据管理平台
(1)牛津大学嵌入式机构数据管理服务(EIDCSR)平台
(2)美国约翰霍普金斯大学Data Conservancy平台
(3)康奈尔大学DataStaR平台
在了解了这些平台之后,我们会产生这样的疑问,国内的高校图书馆在科研数据平台方面的探索,实践现状是怎么样的?或者说已经构建的这些实践,能不能为即将开展数据平台建设的图书馆提供理论指导和实践参考,下面先简单了解一下科研数据管理一些相关的背景和理论。
03
科研数据管理背景及理论
首先是基本概念,我们通常听说的就是科学数据和科研数据,这里要注意的是:科研数据(Research Data)≠科学数据(Scientific Data)。
科研数据是指任何以数字形式存储的信息,包括文本、数字、图像、视频或电影、音频、软件、算法、方程、动画、模型、模拟等,这些数据可以通过观察、计算或实验等手段产生。
它是指科研人员在科研过程中产生各种形式的数据以及科研机构产生的第三方数据,主要是在论述、理论、试验基础上产生的事实型、观察型和实验型数据,但不包括行政型数据、教学型数据和科研出版物数据。
科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。
科学数据的内涵和外延比科研数据相对更大一些。给大家举一个例子,比如说炒股的股票的数据,利用股票的数据进行经济管理专业相关的研究,这个数据通常称之为科学数据。
下图是科研数据管理的背景,大数据第四代泛式、政府数据的开放以及科研基金和期刊的要求,这些都是外在的影响因素。那么内在的影响因素是什么呢?就是科研人员本身存在的困难与要求,目前对这一方面的关注相对来说比较少一些。
3.1 国外科研数据管理现状
3.1.1 数据保管和数字保存分列高校图书馆10大趋势第二、三位
趋势二:数据保管的挑战越来越成为所有不断演变的各种类型数据的标准;更多的仓储、更多的基于云的数据将出现;图书馆员和其他信息工作者将与他们的研究团体合作来加快这个进程。
Data curation challenges are increasing as standards for all types of data continue to evolve; more repositories, many of them cloud-based, will emerge; librarians and other information workers will collaborate with their research communities to facilitate this process.
趋势三:随着数字资源的发展,有关普遍缺乏对这些数据的长期保存计划的担心也随之产生。在未来一段时间,都可能是既没有建立架构、政策的战略领导,也没有有关创建、评估和保存数字内容的标准。
As digital collections mature, concerns grow about the general lack of long-term planning for their preservation. No strategic leadership for establishing architecture, policy, or standards for creating, accessing, and preserving digital content is likely to emerge in the near term.
3.1.2 馆藏资源采购类型拓宽至数据集
下图的案例来自美国伊利诺伊大学2018年9月份的资源采购,类型里面明显的列出数据集是图书馆资源采购的类型,从这个角度,就能够预测到未来科学数据或者说数据集会成为图书馆资源采购的一种形式之一。
3.2 中国科研数据管理现状
3.2.1 科学数据共享工程启动
2002年的科学数据共享工程,还有一些期刊,例如图情领域的期刊已经对支撑数据有了明显的规范要求。
3.2.2 《科学数据引用》国家标准正式发布
3.2.3 国务院办公厅印发《科学数据管理办法》
3.2.4 “数据科学与大数据技术专业”本科专业
上面提到了2018年的两件大事,第一个就是《科学数据引用的标准》,另外一件大事就是国务院办公厅印发的《关于科学数据管理办法的通知》。现在需要思考的问题是,引用的标准或者说这个管理的办法出台之后它会对具体的机构,比如说对政府机构、高校、科研人员如何在这个办法或者说政策的指导下开展工作,或者说已经开展了哪些实际的工作,以及如何来评估这个办法的效用性。
3.3 科研数据生命周期理论
相关的生命周期理论的类型是非常非常多的,这里只给大家选取了代表性的英国数据管理中心的模型。
英国数据管理中心(DCC)生命周期模型包括两个维度:
外维是科研数据生命周期的整体概貌,分为数据创建或收集、数据评估与选择、数据处理、数据保存、数据存档、数据访问与再利用、数据转换七个环节;
内维模型是数据生命周期的内涵,包括数据、数据描述和表达、制定数据存储计划、学术交流与传播、数据监管和存储。
我们团队前期也对于网络上或者是文献报道的相关数据管理模型进行了大量的总结、概括,也试着提出了一个模型。不过,根据专家的要求,提出的这个暂时还不能叫模型,还要经过实践的验证才能称得上模型。下图是模型从数据的产生、描述、分析、保存、共享和出版的一个基本循环过程。
04
科研数据管理平台评价指标体系构建
在上述调研的基础之上,我们团队做了一项研究。研究的问题是国内外有哪些高校图书馆开发了科研数据平台,这些平台的使用效果如何?把这个问题转化成学术研究的角度就是评价。谈到评价肯定就涉及评价的指标体系,类似这种研究的争议也很多,关键问题是提出的指标体系,能否经得起考验,有没有相关的理论基础,以及普适性怎么样。
下面将跟大家简要的介绍一下这个问题的研究思路。
4.1 国际组织开放政府数据评估项目的借鉴
研究的对象是科学数据,所以首先确认有没有类似的研究,如果没有,就可以去开展这项研究;如果有,应该怎么去开展研究,这是两种不同的模式。
如果没有,也不能在凭空的基础之上去构建一套新的指标体系。这时候就需要看一下有没有类似的或者是相关的研究。对于科学数据大家很容易想到的就是政府数据,通过调研发现,关于政府数据评估项目的有很多,也有很多的指标体系。开放政府数据评估在实践中积累了丰富的经验,联合国电子政务调查中的政策与监管框架、组织架构,开放政府数据指数中的数据可用性、可访问性和数据再利用,开放数据晴雨表中开放数据的影响力,欧洲开放数据监督中对开放数据质量和数量的评估等,都可以作为科研数据开放评价指标体系中的指标,为科研数据开放评价指标体系构建提供借鉴与参考。
那么就可以利用比较借鉴,在比较借鉴的基础之上初步提出自己的指标体系,最后还要通过相关的实践或者是相关的案例平台去验证,去实践。经过这样理论与实践之间的不断反复,最后初步确定了一个指标体系,最后再通过典型的几个案例进行验证。
下图是对国际上政府数据评估项目的比较,每一个评估项目都有它的侧重点以及优缺点,或者说都有它的适用范围。通过对共性进行提取,初步得到了一些指标体系。
4.2 开放政府数据与开放科研数据的比较
另外一个比较核心的问题是,政府数据的评价指标体系能不能借鉴到科学数据?还需要对政府数据和科学数据这两个概念的本质进行一些比较。下图是对于政府数据和科学数据的比较。
4.3 科研数据平台的用户体验
在前期的比较基础之上,我们也把预构建的指标或者说忽略构建的指标经过一些比较,选择代表性的平台的指标逐一验证,这两个平台来自哈佛大学和伊利诺伊大学。
国内高校图书馆已经开发的科研数据平台不是很多,代表性的是北京大学和复旦大学。
4.4 科研数据管理平台评价指标体系
4.4.1 平台建设基础(A)
这是我们构建的指标体系。总共构建了4个一级指标,25个二级指标和接近100个三级指标体系。
4.4.2 平台数据(B)
科学数据平台最重要的一个角度或者说维度肯定是科研数据。根据科研数据生命周期理论,从产生、描述一直到最后的服务、获取、使用等角度构建了指标体系。
4.4.3 平台管理功能(C)
第三个就是平台的管理。平台构建完了之后,从这样几个方面,如组织的形式等等构建指标体系。
4.4.4 平台使用效果与影响(D)
前面有学者提到科研数据的使用,比如说有哪些论文利用这个科研数据集得到一些重要的科研成果,这涉及到平台使用的效果和影响,虽然这一块具体案例暂时还没有找到,只是从理论的层面设计了这些指标体系。
4.5 科研数据管理平台比较
4.5.1 平台建设基础
4.5.1.1 需求与目标
4所高校对于建设数据平台的需求与目标各有异同,其中,对现有数据的监管、保存、获取和再利用是4所高校共同的需求。
4.5.1.2 政策支持
4个平台均有国家政策、高校政策、以及其他政策的支持。
4.5.1.3 经费来源
4.5.1.4 组织与领导力
4.5.1.5 管理力度
4.5.1.6 技术支持
北大平台和复旦平台都是在Dataverse的基础上二次开发建设的,并且也开发了一些新功能。
4.5.1.7 目标用户群
4个平台都是面向本校、国内外其他高校以及科研机构、国内外社会人士及机构开放。
4.5.2 平台数据
4.5.2.1 数据来源
4个平台均收集本校的研究数据和用户自行上传的数据,但是只有哈佛平台和北大平台收集其他机构的数据。
4.5.2.2 数据描述与元数据
4个平台的数据描述均要求属实,同时也有工作人员后台审核这些数据是否属实。4个平台对于元数据均建立了元数据库、按照元数据标准进行组织、提供者按照元数据标准进行描述生成规范的元数据文档、有专业人员管理维护元数据,但是除了哈佛平台,其他3个平台都不支持多种元数据方案。
4.5.2.3 数据管理
4个平台均制定了数据管理计划、允许用户自行管理自己的数据,且均有后台人员对这些数据进行分类、整理、分析等管理。
4.5.2.4 数据发布
4个平台的用户在上传数据时,均需要经过后台审核,并且被分到不同的类别,具有不同的权限。
4.5.2.5 数据存储
4个平台都能够长期储存数据。
4.5.2.6 数据分析
哈佛平台、北大平台和复旦平台均为用户提供数据分析和可视化功能。哈佛平台提供多学科在线分析和功能,伊大平台则不提供该功能。
4.5.2.7 数据开放(截止2018年2月20日)
4.5.2.8 数据获取
4.5.3 平台管理功能
4.5.3.1 组织形式
哈佛平台和伊大平台都是独立开发建设的,北大平台和复旦平台是二次开发的。
4.5.3.2 界面友好性
4.5.3.3 权限管理
4个平台中不同等级的用户拥有不同权限,并且都对数据空间、数据集、数据文件定义了多种权限。
4.5.3.4 标识符管理
4个平台都为数据的关键元素提供了唯一的资源标识符(URL)。
4.5.3.5 用户管理
4.5.4 平台效果与影响
4.5.4.1 校内科研人员、机构
校内的科研人员和机构均愿意使用本校开发的数据平台管理数据。
4.5.4.2 其他高校科研人员、机构
其他高校的科研人员和机构也较为愿意使用高校开发的数据平台管理数据。
4.5.4.3 社会科研人员、机构
社会科研人员和机构也都比较愿意使用高校开发的数据平台管理数据。
4.6 科研数据管理平台评价比较结论
平台建设基础是平台运行和应用的基本前提,包括需求与目标、政策支持、经费来源等7个二级指标。
平台数据是平台建设和运行的核心保障,包括数据来源、数据描述与元数据、数据管理等10个二级指标。
平台管理功能能够反映用户使用平台的效果与效率,包括组织形式、界面友好性、用户管理等5个二级指标。
(1)哈佛大学采用自主开发的软件Dataverse建立了Harvard Dataverse,其功能全面、数据丰富,被全世界各地的研究者广泛使用。
(2)北京大学和复旦大学是国内建设数据开放平台的典型案例,两个平台都是依托Dataverse技术而建设的。
(3)伊大平台Illinois Data Bank是图书馆整合校内优势部门独立开发建设的。
05
科研数据管理平台典型案例研究
这里给大家举一个典型的案例,来自伊利诺伊大学。这类似于图书馆的机构库,科研人员可以上传数据,可以下载、分析和使用。
5.1 基于数据生命周期理论的IDB政策
这是关于政策方面的。
5.2 基于利益相关者理论的IDB数据管理角色定位
5.3 基于政策内容和面向用户群体的IDB平台开发
06
研究结论与展望
图书馆开展科研数据资源建设和科研数据管理服务是大有可为:
(1)科研数据为图书馆传统的资源建设迎来了春天;
(2)科研数据管理平台是开展科研数据管理服务的有效载体;
(3)图书馆开展科研数据管理服务更好的服务学校的双一流建设。
本文为录音整理,经本人确认授权后发表
发表评论