情报检索:历史、现在与未来(四)

第二章:现代信息检索的变革:从关键词到语义理解

本节将详细阐述从人工索引到自动化索引的转变,万维网的变革性影响,以及搜索引擎向语义理解的过渡。

从人工到自动化索引:倒排索引的兴起与关系数据库

从人工的、基于图书馆的方法向自动化方法的转变,是由传统编目技术已无法应对不断增长的信息集合规模所致。这种对可扩展性的迫切需求,直接催生了新的架构解决方案。

倒排索引是现代信息检索中的一个基本数据结构,它将词语或术语映射到其在文档中的位置。这种结构之所以被称为“倒排”,是因为它颠覆了传统的文档到词语的映射方式。倒排索引的主要组成部分包括一个存储唯一词语的“词典”和一个存储每个词语位置的“倒排列表” 。其构建涉及分词(将文本分解为单个词语,尤其是中文字和词的区分)、停用词移除(删除“the”“的”等常见、低价值的词语)以及词干提取或词形还原(将词语还原为其基本形式)等文本处理步骤。倒排索引能够实现高效查询、处理大型数据集的可扩展性,以及支持各种查询类型(包括关键词查询、短语搜索、于或非组合搜索、邻近搜索等高级功能等等)的灵活性。其显著的应用包括网络搜索引擎(如Google)和数据库系统(如MySQL)。

关系数据库于20世纪70年代发明(SQL),以表格形式存储信息,其中行和列代表不同的数据属性。SQL语句用于存储、更新、删除、搜索和检索数据库中的信息。关系数据库中的索引在提高数据检索性能方面发挥着关键作用,通过允许快速定位行并减少全面表扫描的需求。倒排索引和关系数据库不仅仅是技术特性,它们是满足这种可扩展性需求的架构解决方案。它们使得信息检索能够从小型、精心策划的集合扩展到浩瀚的互联网,从根本上改变了信息量和查询速度的可能性。这是一种直接的因果关系:规模要求特定的数据结构。

网络搜索革命:关键词搜索与PageRank

20世纪90年代万维网的爆炸性增长需要全新的信息检索方法。早期的网络搜索引擎如Archie(1990年)、WebCrawler(1994年)和AltaVista(1995年)提供了基本的文本搜索功能。

Google于1998年引入的PageRank算法通过基于链接结构和权威性(权重)而非仅仅内容匹配来评估页面,革命性地改变了网络搜索。PageRank的创新在于其纯客观(相对)和民主化的排名方法,将每个链接视为一票,高质量的反向链接具有更大的权重,其数学基础基于随机游走理论和马尔可夫链。该算法模拟了一个假设的“随机冲浪者”行为,即通过随机点击链接来浏览网页,PageRank反映了随机冲浪者到达特定网页的可能性。

PageRank的巨大成功为谷歌的商业模式奠定了完美的基础。这个模式的逻辑十分清晰:免费提供最优秀的网络导航工具,以吸引数十亿用户;并通过AdWords(2000年推出)一个按点击付费(PPC)的系统,将用户的意图货币化。其核心的经济交易是引荐流量。谷歌对广告商的价值主张,在于其能够将合格的、高意图的用户发送到他们的网站。这创造了一种谷歌、用户和发布者(最初)都能受益的共生关系。

然而,这种基于算法和商业价值的搜索模式,也催生了其“原罪”——搜索引擎优化(SEO)。当搜索排名变得有据可循且有利可图时,“操纵”排名的动机便随之产生。整个SEO行业作为对PageRank的回应而兴起。这引发了谷歌与内容创作者之间长达数十年的猫鼠游戏,并最终导致了搜索质量的下降,为新的颠覆者打开了大门。PageRank是一项杰出的技术创新,它通过利用网络的链接结构实现了搜索的民主化。然而,它也揭示了一项强大算法的关键且更广泛的含义:它们在实现前所未有的效率和规模的同时,也为利用和扭曲创造了新的途径,最终可能导致其旨在提升的质量下降。这是数字生态系统中一个持续存在的紧张关系。



留下评论