面向人文研究的数据基础设施建设(摘要)

随着大数据时代的到来,被称为“第四范式”的基于数据的研究正在颠覆人文研究,传统的学术研究与交流模式正在被基于云计算和社会性网络的科学2.0所取代,新的研究平台能够提供统一的资源管理、数据分析与可视化工具和智慧型服务,数据科学成为所有科学研究的一般工具,这些将造就更大范围的数据占有和协同研究,国家层面的开放存取和语义出版将成为可能。这一切都有赖于国家数字人文基础设施的建设。

近20年来,保存人类历史记忆的图书馆、博物馆、档案馆等机构已经将大量的馆藏资源进行了数字化,目前已进入了数字人文平台的建设阶段,主要通过“文本化”和“数据化”,对其内容进行描述、组织和揭示,结合社会化众包方式,建立更多的语义关联,并提供各类分析处理和可视化工具。这就是数字人文平台建设的基本要求,也是数字人文基础设施建设的主要内容。

从宏观上看,数字人文基础设施是由资源与服务机构、基金会、数据资源、计算设施、系统平台、工具软件、领域专家和数据科学家等共同组成,通过一系列的政策制度和协议规范等联系在一起,形成一个自我运行并可持续发展的有机整体。为尽快建成这样的基础设施,我们必须展开研究,制订数字人文发展规划,设立数字人文发展基金,发布基础人文数据建设目录,建立注册登记系统,按学科或领域开展基础数据平台的研发示范,按需求分阶段开发公益性的基本数据服务,如历史地理、人物机构事件、各类名称概念词表及语料库等,同时制订相应的政策鼓励开放共享和各类合作,开展数据科学专业教育和人员培训,加强国际交流,并融入国家综合性数据基础设施和全球数据基础设施中。

上海图书馆在数字人文平台的建设方面已经迈出了可喜的第一步,通过家谱系统、盛宣怀档案系统和众包的开发,以及古籍联合目录系统的设计,走通了技术路线,组建了一支多领域合作的人才队伍,为建设“上海记忆”和中国近代历史人文大数据平台打下了坚实的基础。



留下评论