情报检索:历史、现在与未来(二)

第一章:信息检索的历史根基

信息组织与检索的实践源远流长,远早于计算机的诞生。其根源可追溯至古代,彼时图书馆和档案馆已建立起组织和存储信息的系统,包括对学术著作进行索引和字母排序。

早期人工系统与分类:图书馆学的起源

在公元前3世纪,亚历山大图书馆的学者卡利马科斯创建了《书目》(Pinakes),这是已知最早的图书馆分类方案,为信息组织奠定了基础。到了17世纪,加布里埃尔·诺德出版了《建立图书馆的建议》一书,提出了一种基于七个类别(后来扩展到十二个)的分类系统,并倡导向公众开放图书馆的理念。1842年,雅克·查尔斯·布鲁内特开发的巴黎书商分类法,被认为是第一个现代图书分类法,包含五个主要类别。

1873年,梅尔维尔·杜威创立的杜威十进制分类法(DDC)通过分层主题划分和十进制表示法彻底改变了图书馆组织方式,至今仍在北美图书馆广泛使用。此后,国会图书馆分类法(LCC)和通用十进制分类法(UDC)也相继发展,进一步完善了分类体系。这些早期的分类原则,尽管技术不断变化,但对信息进行分类和检索的基本认知需求始终不变,早期的原则仍在影响当前的数字系统。变化的是规模和自动化程度,而非核心的概念挑战。

然而,手工索引系统的特点是人工策划分类、字母顺序组织和基于主题的层次结构。这些系统存在根本性的可扩展性限制,因为手工过程无法跟上已发表文献的指数增长,且质量索引所需的人类专业知识成为瓶颈。这促使了对自动化解决方案的寻求。

机械化与计算机化检索的黎明:从打孔卡到Memex

随着信息量的不断增长,对机械化检索的需求日益迫切。19世纪,打孔卡片已被用于信息处理,为机械化检索奠定了基础。1931年,伊曼纽尔·戈德堡获得了一项专利,用于其“统计机”,这是第一台成功的机电文档检索设备,旨在搜索编码在胶片上的数据。

20世纪30年代后期,瓦内瓦尔·布什借鉴了缩微胶片搜索的研究,开发了一个基于胶片的搜索原型,并在此基础上于1945年提出了里程碑式的Memex系统。Memex系统设想了对世界图书馆内容的快速访问,其超链接概念远超时代。布什的Memex是一个关于超链接信息访问的惊人预见,远早于互联网的诞生。然而,它的实现受到了当时机械技术的限制。这揭示了技术演进中一个反复出现的模式:宏伟的愿景往往早于必要的计算能力或基础设施。

其他早期机械化尝试包括肖的快速选择器(1949年),它能够以每分钟78,000条目的速度搜索胶片卷。汉斯·彼得·卢恩于1950年为IBM开发的“卢恩扫描仪”则展示了使用打孔卡的机械化信息检索。这些系统将信息检索的“瓶颈”从人力劳动转移到机械限制,再到早期计算机的限制,最终才被指数级的硬件进步所克服。



留下评论