中國·金沙(js6666zs-ISO认证)官方登录入口-Sands Group

数据库研究 | 社会统计调查数据库

2019-05-07
萌泰科技 洪丹丹
摘要:社会统计调查数据库是来自于国家统计局、各级统计机构、学术研究机构、商业机构公开的统计调查数据的集合。数据库包括中国人口、就业、生活、社会服务、文化、公共管理、环境等与社会科学紧密联系的相关的数据,并提供灵活方便的数据检索服务
社会统计调查数据库是来自于国家统计局、各级统计机构、学术研究机构、商业机构公开的统计调查数据的集合。数据库包括中国人口、就业、生活、社会服务、文化、公共管理、环境等与社会科学紧密联系的相关的数据,并提供灵活方便的数据检索服务

研究数据的重要性

随着信息技术的发展和互联网的普及,研究数据的发布、传播变得越来越容易。以往科学出版中,只重视科研过程的最终产出——科学论文,忽视了支撑科学结论的研究数据。然而研究数据的利用不仅能够对原论文论点做真伪鉴定,更重要的是它能够促进更多科学产出,如芝加哥大学的综合社会调查( General Social Survey,GSS) 数据被超过14 000个研究项目使用。为了促进研究数据的利用,《科学》杂志要求论文相关的数据和材料可以被读者获取;自然出版集团也于2014年推出了 Scientific Data,帮助研究者出版、发现、重用研究数据。
因此,越来越多的研究数据仓储被建立起来,如美国哈佛大学的 Dataverse、密歇根大学的 ICPSR、约翰·霍普金斯大学的 Data Conservancy,英国开放知识基金会构建的CKAN和Datahub,国内复旦大学的社会科学数据平台、中国科学院的科学数据云、商业性数据共享交易平台——数据堂。截至目前,在国际研究数据仓储注册系统 re3data.org中注册的仓储数量达2000个分布于全球60多个国家。

Dataverse

Dataverse为哈佛大学定量社会科学研究所(IQSS) 数据科学团队研发的研究数据管理系统。该系统的开发始于2006年,最初主要聚焦于社会科学数据管理,后引入了天文学、天体物理、生物医学等学科数据,目前已经支持人文与社会科学、地理空间、天文与天体物理、生命科学、政治学等 12 种元数据方案。2012年,IQSS将Dataverse开源,随后许多机构,如复旦大学、约翰·霍普金斯大学、挪威大学、海德堡大学等采用 Dataverse作为数据管理服务系统。


(1)数据管理 Dataverse 

数据管理中定义了3个重要实体: 数据空间、数据集、数据文件。数据空间是一个虚拟容器实体,支持嵌套,整个数据空间可形成一棵倒立树形结构。数据空间可以对应着组织机构、研究项目、研究者、期刊、教学课程等,与机构的组织架构接近,便于将数据集按机构部门、研究项目分门别类地组织。数据集是一个完整的、不可分隔的资源集合,研究者可以依据数据集提供的信息做出分析判断,它依存于一个数据空间,在数据空间中可以包含0个或者多个数据集。数据文件是数据集的组成部分,是Dataverse中管理的最小粒度实体对象,它可以是说明文档、Excel文件、调查问卷等任何格式的文件。数据空间、数据集、数据文件的结构见图。
图 1 Dataverse 数据组织结构

(2)用户管理 

在数据管理过程中,需要为不同用户群体提供不同服务,因此 Dataverse 引入了用户组概念——可以根据用户的来源、管理员的控制对用户分组管理。用户组由组管理器管理,其中包含多个实现了Group Provider 的组提供者。在Dataverse中包含的用户组有: 所有用户、认证用户组、Shibboleth 用户组 、IP 用户组、自定义用户组。

(3)权限管理 

数据空间、数据集、数据文件的创建、完善和分享是一个协作过程,不同的成员应具有不同操作权限,Dataverse对数据空间、数据集、数据文件定义了13种访问控制权限,可分为4类,包括:创建权限、读取权限、更新权限、删除权限。一个用户可具有多种操作权限,在Dataverse中,多种权限的组合定义为角色。当用户被赋予了角色时,则具有了角色所包含的权限。

(4)检索服务 

Dataverse 使用Solr对数据进行索引,索引对象包括数据空间、数据集、数据文件。Dataverse能够对CSV、Stata DTA、SPSS POR、SPSS SAV、Data、Excel XLSX 文件进行处理,提取其中的变量名和变量标签,因此它们也将作为数据文件的元数据信息而被索引。检索服务可分为简单检索和高级检索。简单检索将搜索所有字段,并返回匹配的数据空间、数据集和数据文件; 高级检索将对指定字段进行搜索,相同数据对象的搜索字段采用 AND关系连接,不同数据对象的搜索字段采用OR关系连接。

(5)API接口 

Dataverse 提供多种 API 接口,包括SWORD API、Native API、Search API、Data Access API。SWORD是一个轻量级的内容存放协议,使用 SWORD协议可以使得非 Dataverse系统将数据存放至 Dataverse 中。Dataverse 实现了SWORDv2的绝大多数功能,可以使用SWORD API创建、删除、查看、发布数据集,添加、删除文件。SWORD协议的开放性,使得Dataverse可以与其他系统具有较好的交互能力。

(6)在线分析 

社会科学领域有大量的调查统计数据,并以标准的格式(如Excel、Stata、SPSS等)存储,对这些数据进行在线分析是研究数据管理系统的一个重要功能。诸如IPSR和Nesstar 等系统均有在线分析功能,Dataverse 起源于社会科学数据管理,因此也有很强的在线分析功能IQSS数据科学团队除了开发Dataverse系统外,还开发了Zelig和Two Ravens 两个产品。Zelig是一个R语言统计框架,用于为大量R语言编写的模型提供一个公共接口。Two Ravens是一个数据探索、统计分析、模型构建、元数据分析的Web应用工具。Dataverse使用Two Ravens和Zelig 对数据集进行在线分析,Dataverse 中的数据传入到 Two Ravens 中Two Ravens 再利用Zelig等R语言包对数据进行分析,建模。


社会统计调查数据库

国内对研究数据管理服务做了许多积极探索。在仓储建设方面,从20世纪80年代开始,中国科学院便对科学数据管理进行了探索,目前已经建成了具有分布式海量存储环境的科学数据云;武汉大学图书馆于2011年基于DSpace尝试在校内开展科学数据管理服务;中国科学院文献情报中心基于机构知识库探索对非文本信息的管理;复旦大学基于Dataverse 3.3开展社会科学数据的管理服务。

为了支持科学研究,促进学术交流,推动开放获取,实现研究数据的有效管理,萌泰科技积极探索建设社会统计调查数据库,社会统计调查数据库是来自于国家统计局、各级统计机构、学术研究机构、商业机构公开的统计调查数据的集合。数据库包括中国人口、就业、生活、社会服务、文化、公共管理、环境等多个与社会科学紧密联系的相关数据,并提供灵活方便的数据检索服务。


数据库的中心使命是收集、整理和开发中国社会科学数据,社会科学数据主要集中在社会、经济领域,主要包括两类数据: 一是国家统计部门发布的统计数据;二是为社会科学研究和政策制定而专门进行的调查的数据。社会科学的研究成果很大程度上影响着政府关于教育、工资、健康和养老金的政策,而每一项研究成果均一定程度上依赖于研究人员所采集的大集合、高质量的数据。高校社会科学数据主要包括学者研究实践过程中的统计数据、实验数据、派生或汇编数据、专项调查数据及报告、论文、衍生出版物等。

社会统计调查数据库为学者提供更具竞争力的研究条件和数据服务,为学生提供更加坚实的社会科学调查方法和应用训练,鼓励跨学科的研究,建设有中国特色的社会科学数据平台。


参考文献:罗鹏程,朱玲,崔海媛,聂华.基于Dataverse的北京大学开放研究数据平台建设[J].图书情报工作,2016,60(03):52-58.
    发表评论
    评论通过审核后显示。