中國·金沙(js6666zs-ISO认证)官方登录入口-Sands Group

摘要：社会统计调查数据库是来自于国家统计局、各级统计机构、学术研究机构、商业机构公开的统计调查数据的集合。数据库包括中国人口、就业、生活、社会服务、文化、公共管理、环境等与社会科学紧密联系的相关的数据，并提供灵活方便的数据检索服务

社会统计调查数据库是来自于国家统计局、各级统计机构、学术研究机构、商业机构公开的统计调查数据的集合。数据库包括中国人口、就业、生活、社会服务、文化、公共管理、环境等与社会科学紧密联系的相关的数据，并提供灵活方便的数据检索服务

研究数据的重要性

随着信息技术的发展和互联网的普及，研究数据的发布、传播变得越来越容易。以往科学出版中，只重视科研过程的最终产出——科学论文，忽视了支撑科学结论的研究数据。然而研究数据的利用不仅能够对原论文论点做真伪鉴定，更重要的是它能够促进更多科学产出，如芝加哥大学的综合社会调查( General Social Survey，GSS) 数据被超过14 000个研究项目使用。为了促进研究数据的利用，《科学》杂志要求论文相关的数据和材料可以被读者获取；自然出版集团也于2014年推出了 Scientific Data，帮助研究者出版、发现、重用研究数据。
因此，越来越多的研究数据仓储被建立起来，如美国哈佛大学的 Dataverse、密歇根大学的 ICPSR、约翰·霍普金斯大学的 Data Conservancy，英国开放知识基金会构建的CKAN和Datahub，国内复旦大学的社会科学数据平台、中国科学院的科学数据云、商业性数据共享交易平台——数据堂。截至目前，在国际研究数据仓储注册系统 re3data.org中注册的仓储数量达2000个分布于全球60多个国家。

Dataverse

Dataverse为哈佛大学定量社会科学研究所(IQSS) 数据科学团队研发的研究数据管理系统。该系统的开发始于2006年，最初主要聚焦于社会科学数据管理，后引入了天文学、天体物理、生物医学等学科数据，目前已经支持人文与社会科学、地理空间、天文与天体物理、生命科学、政治学等 12 种元数据方案。2012年，IQSS将Dataverse开源，随后许多机构，如复旦大学、约翰·霍普金斯大学、挪威大学、海德堡大学等采用 Dataverse作为数据管理服务系统。

（1）数据管理 Dataverse

数据管理中定义了3个重要实体: 数据空间、数据集、数据文件。数据空间是一个虚拟容器实体，支持嵌套，整个数据空间可形成一棵倒立树形结构。数据空间可以对应着组织机构、研究项目、研究者、期刊、教学课程等，与机构的组织架构接近，便于将数据集按机构部门、研究项目分门别类地组织。数据集是一个完整的、不可分隔的资源集合，研究者可以依据数据集提供的信息做出分析判断，它依存于一个数据空间，在数据空间中可以包含0个或者多个数据集。数据文件是数据集的组成部分，是Dataverse中管理的最小粒度实体对象，它可以是说明文档、Excel文件、调查问卷等任何格式的文件。数据空间、数据集、数据文件的结构见图。
图 1 Dataverse 数据组织结构

（2）用户管理

在数据管理过程中，需要为不同用户群体提供不同服务，因此 Dataverse 引入了用户组概念——可以根据用户的来源、管理员的控制对用户分组管理。用户组由组管理器管理，其中包含多个实现了Group Provider 的组提供者。在Dataverse中包含的用户组有: 所有用户、认证用户组、Shibboleth 用户组、IP 用户组、自定义用户组。

（3）权限管理

数据空间、数据集、数据文件的创建、完善和分享是一个协作过程，不同的成员应具有不同操作权限，Dataverse对数据空间、数据集、数据文件定义了13种访问控制权限，可分为4类，包括：创建权限、读取权限、更新权限、删除权限。一个用户可具有多种操作权限，在Dataverse中，多种权限的组合定义为角色。当用户被赋予了角色时，则具有了角色所包含的权限。

（4）检索服务

Dataverse 使用Solr对数据进行索引，索引对象包括数据空间、数据集、数据文件。Dataverse能够对CSV、Stata DTA、SPSS POR、SPSS SAV、Data、Excel XLSX 文件进行处理，提取其中的变量名和变量标签，因此它们也将作为数据文件的元数据信息而被索引。检索服务可分为简单检索和高级检索。简单检索将搜索所有字段，并返回匹配的数据空间、数据集和数据文件; 高级检索将对指定字段进行搜索，相同数据对象的搜索字段采用 AND关系连接，不同数据对象的搜索字段采用OR关系连接。

（5）API接口

Dataverse 提供多种 API 接口，包括SWORD API、Native API、Search API、Data Access API。SWORD是一个轻量级的内容存放协议，使用 SWORD协议可以使得非 Dataverse系统将数据存放至 Dataverse 中。Dataverse 实现了SWORDv2的绝大多数功能，可以使用SWORD API创建、删除、查看、发布数据集，添加、删除文件。SWORD协议的开放性，使得Dataverse可以与其他系统具有较好的交互能力。

（6）在线分析

社会科学领域有大量的调查统计数据，并以标准的格式（如Excel、Stata、SPSS等）存储，对这些数据进行在线分析是研究数据管理系统的一个重要功能。诸如IPSR和Nesstar 等系统均有在线分析功能，Dataverse 起源于社会科学数据管理，因此也有很强的在线分析功能IQSS数据科学团队除了开发Dataverse系统外，还开发了Zelig和Two Ravens 两个产品。Zelig是一个R语言统计框架，用于为大量R语言编写的模型提供一个公共接口。Two Ravens是一个数据探索、统计分析、模型构建、元数据分析的Web应用工具。Dataverse使用Two Ravens和Zelig 对数据集进行在线分析，Dataverse 中的数据传入到 Two Ravens 中Two Ravens 再利用Zelig等R语言包对数据进行分析，建模。

社会统计调查数据库

国内对研究数据管理服务做了许多积极探索。在仓储建设方面，从20世纪80年代开始，中国科学院便对科学数据管理进行了探索，目前已经建成了具有分布式海量存储环境的科学数据云；武汉大学图书馆于2011年基于DSpace尝试在校内开展科学数据管理服务；中国科学院文献情报中心基于机构知识库探索对非文本信息的管理；复旦大学基于Dataverse 3.3开展社会科学数据的管理服务。

为了支持科学研究，促进学术交流，推动开放获取，实现研究数据的有效管理，萌泰科技积极探索建设社会统计调查数据库，社会统计调查数据库是来自于国家统计局、各级统计机构、学术研究机构、商业机构公开的统计调查数据的集合。数据库包括中国人口、就业、生活、社会服务、文化、公共管理、环境等多个与社会科学紧密联系的相关数据，并提供灵活方便的数据检索服务。

数据库的中心使命是收集、整理和开发中国社会科学数据，社会科学数据主要集中在社会、经济领域，主要包括两类数据: 一是国家统计部门发布的统计数据；二是为社会科学研究和政策制定而专门进行的调查的数据。社会科学的研究成果很大程度上影响着政府关于教育、工资、健康和养老金的政策，而每一项研究成果均一定程度上依赖于研究人员所采集的大集合、高质量的数据。高校社会科学数据主要包括学者研究实践过程中的统计数据、实验数据、派生或汇编数据、专项调查数据及报告、论文、衍生出版物等。

社会统计调查数据库为学者提供更具竞争力的研究条件和数据服务，为学生提供更加坚实的社会科学调查方法和应用训练，鼓励跨学科的研究，建设有中国特色的社会科学数据平台。

参考文献：罗鹏程,朱玲,崔海媛,聂华.基于Dataverse的北京大学开放研究数据平台建设[J].图书情报工作,2016,60(03):52-58.