关于开放数据应用竞赛的说明

有记者想了解开放数据应用竞赛的背景情况和考虑初衷,提了几个问题,这里简单回答一下。

1、进行开放数据应用竞赛的大致背景是什么?图书馆为什么要做开放数据?

目前已经是大数据时代,每年产生的数据都是过去的总和,但这些信息都是当下的信息,人类历史是有延续性的,在数千年的历史长河中,图书馆几乎是唯一保存文字记录的地方,在当今数据爆炸的时代极有可能因为没有上网,没有成为人们方便利用的信息而被人迅速遗忘。这将会是文化的灾难。

因此图书馆博物馆档案馆之类的文化记忆机构承担着延续文明的社会职能,它们这些年都在尽力转型,将自己的馆藏数字化,提供网络服务。

数字图书馆建设是上世纪九十年代从美国开始的一项运动,国内起步也不晚。1996年我馆就参与了国家图书馆牵头、国内6家公共图书馆参与的中国试验型数字图书馆计划。也就是从那时候开始,我们就一直坚持做数字化,到现在基本上完成了一半左右。目前新一代的数字图书馆已经不仅仅满足于揭示文献,而且要揭示内容,就是说不仅仅让大家能够查到有哪些书刊报,其中有哪些文章,而且要能够按照人物、主题、地点、年代甚至建筑、街道、事件、关系等去查,这就是数据化。更进一步,不仅要查到,还要能够对比分析、用图表等可视化方式(例如地图、时间轴等)呈现出来,这就是当今计算机网络技术的最新应用——数字人文系统所能够带来的便利和好处。

公共文化服务等公益性机构是开放数据的大本营,因为它们拥有最大数量的公共数据资源,其本身是由公共资金来维持的,理应免费提供开放服务。其它如政府数据、各类公共财政支持的科研所产生的科研数据等,都是开放数据的重要来源,它们中蕴含有丰富的价值,理应取之于民用之于民,尤其在我国现阶段提倡大众创业万众创新,更应该开放出来,交由全社会来挖掘利用,为社会创造更大的财富。

“国内一流、国际先进”、“致力于卓越的知识服务”一直是上海图书馆定位和使命。今年上图迎来新馆建设的大好机遇,预计将于2020年开馆的上图东馆计划以一个崭新的面貌示人,其中近20年的数字化成果将开发出一些国际前沿的数字人文项目,希望在国内起到一些引领、示范的作用,并能够在业界,甚至整个公共数据服务领域,带来开放数据技术的普及,真正相应国务院开放大数据服务的号召,在数字公共文化服务方面走出一条新路。

以上就是我们目前积极从事开放数据研发和推广的初衷。

2、上图在做的开放数据主要指开放什么内容,面对的对象是什么群体,对于普通的读者或互联网用户而言,开放数据的意义如何体现?

上图目前开放的主要是数字化基础比较好的一些历史文献,例如中国家谱、盛宣怀档案、古籍书目、近代文献等,将来逐步开放一些特色资源库。上图是国内仅次于国家图书馆的历史资料的宝库(主要资源如下图所示),大量的资料如果建成数字人文服务平台,可以极大地丰富社会人文科学的研究素材,成为数据驱动型研究的重镇。

考量能否开放、何时开放的因素有三个方面:首先是能否得到一定的授权,这主要是图书馆购买的资源和数据库等;其次是读者用户是否喜欢,是否有迫切需求;第三是我们的资源体系和服务系统的成熟度是否能够满足要求。目前数字资源服务的法律许可是制约开放服务最大的问题,开放存取(Open Access)、开放数据(Open Data)等运动虽然美好,但目前还很弱小,还有很长的路要走。图书馆没有得到授权的东西,是不能随便在网上开放服务的,但上图拥有或保管的大量公共领域的数据都将逐步全部开放给上海乃至全国的读者和用户。

提供普遍均等服务是公共图书馆的职业理念,上图的资源都希望能为所有人服务,但主要是两类人群:感兴趣的公众和专业研究人员。因此我们在开发系统时也同时兼顾满足公众一般性查找、学习、交流的需求,以及专业用户从主体、关联关系等角度进行探索、挖掘的需求。

您看到的两个链接: http://wrd2016.library.sh.cn/ 是我们为了尽快开展开放数据服务、听取读者反馈而建立的临时性服务网页,这些数据都是在老的服务平台上,只是示范性服务,还不是符合数字人文服务平台。您可以前往http://jp.library.sh.cn/jp/home/index 这个网站尝试一下我们首个家谱数据服务平台。另一个网站 http://data.library.sh.cn 是我们面向专业用户提供的数据共享平台,其中发布了我们的家谱本体、规范人名、地名、年代朝代转换等数据和服务,是将一些可以共享的资源无偿提供同行使用的平台,不是对普通读者和用户的。

3、开放数据的应用可以进一步促进公共图书馆数字资源的共享吗,如何实现?

数据服务是未来公公图书馆服务的重要形式,可能其重要性会越来越得到体现,甚至逐渐会超过传统的文献服务。图书馆之间的数字资源共享是网络时代的必须,因为没有哪一个图书馆能够独自拥有足够的能力,以满足用户千差万别信息需求,而必须依靠整个行业的力量。因此将来图书馆都是一家,背后通过云计算设施连为一体,依靠科技进步,不仅公共图书馆之间,公共图书馆与高校图书馆、专业图书馆等都能够互相合作,并且大馆带小馆,共同向终端用户提供高质量的服务。

4、上图是目前全国首推“开放数据”的公共图书馆,国外图书馆是否也有这方面的尝试,取得了哪些经验?在您看来,开放数据在国内图书馆界的推广将带来哪些影响?

开放数据在欧美发达国家早已是一股潮流,这主要得益于其领先的数字化和基础设施优势,以及知识产权明晰,法律健全,各类合作主体关系明确等。美国很多图书馆过去20年与各类公司合作(例如谷歌、微软、雅虎等)扫描的大量图书资料,现在都已成为“美国国家公共图书馆(DPLA)”、Hathitrust等数据服务的主要资源,很多高校图书馆都在以前的数字化基础上推出了数字人文平台,与中文资源有关的有美国哈佛燕京的“中国历史人物传记资料库(CBDB),复旦大学历史地理地图集也在国外得到网络化应用。国内数字图书馆研发虽然起步不晚,但现在看起来下一轮的技术进步我们又处于跟随状态,上图目前的开放数据尝试也主要是跟国外学习,我们似乎永远只能跟随,无法超越,要打破这个怪圈,需要国内图书馆界乃至公共数据服务领域的共同努力。

5、还有什么可以介绍?
国务院对政府信息(数据)公开下了很大决心,制定了非常全面而具体的规划和时间表。从技术应用上讲与图书馆的开放数据是一脉相承的,而图书馆在数据的组织、整理、保存、发布、利用和服务方面应该更加专业,特别是利用关联数据进行目录管理和提供语义整合服务等,应该能对政府开放数据,乃至出版行业的开放数据都起到示范和引领作用,希望在这方面也能合作。



留下评论