Google Scholar推出学术实验室功能,不再使用引用机制

功能及原理

Google学术搜索团队近日推出了名为Scholar Labs实验性搜索功能 (报道在此:https://www.techbuzz.ai/articles/google-scholar-labs-uses-ai-to-find-studies-but-ditches-citations.)。该功能使用生成式AI技术,将用户提问拆解为多个关键主题和子问题,并在学术文献库中分别检索相关资料,再整合出整体答案。换言之,当用户询问诸如“咖啡因摄入如何影响短时记忆”之类详细学术问题时,Scholar Labs 会先识别“咖啡因摄入”、“短时记忆保持”、“年龄因素”等关键词,再搜索这些主题相关的论文,最后筛选出能够回答问题的文献,并向用户说明每篇论文如何回应了提问。该工具承诺回答中包含详尽解释,方便用户理解每项结论的来源,同时保留了一些常见的 Scholar 功能(如链接到论文全文)。

与传统关键词匹配式搜索不同,Scholar Labs背后使用了类似大语言模型的自然语言处理技术和深度学习算法,这使它能够“理解”搜索问题的上下文和概念关系。简单来说,它有点像让 AI 阅读大量学术论文后,能根据提问综合提炼出答案。这与普通学术搜索引擎主要靠论文标题、摘要和关键词检索结果、并根据引用次数等指标排序的做法大相径庭,它会提供时间、文章类型、是否同行评审等多种过滤选项来帮助用户筛选文献;而 Scholar Labs 则将这些步骤交给 AI 一次性完成,用户无需手动设定过滤条件,系统直接返回 AI 评估后的“最佳匹配”论文列表。

PubMed的搜索结果页面允许用户按时间范围、文章类型、是否同行评审等条件过滤检索结果。Google强调,Scholar Labs会自动根据用户提问的意图综合排序文献,而不是让用户依赖这些传统过滤选项。总体来看,新功能利用了生成式 AI 和深度语义检索的能力,以用户体验为中心地回答复杂查询,减少了人工筛选的步骤。

目前的局限性

Scholar Labs标志着在AI驱动的学术搜索引擎于2023年开始兴起之后,Google Scholar终于步入了AI时代。该工具通过从关键词字符串搜索转向问题层面的意图,旨在减少学者们在多次搜索和摘要中进行交叉验证所花费的时间。
评论人士认为,Scholar Labs采取了一种显然很保守的方式引入生成式AI。它被归类为“深度搜索”(Deep Search)工具,而非“深度研究”(Deep Research)工具。其目标是旨在找到相关的论文,而不是生成直接的答案。它通过使用 LLM 直接评估论文并生成一个“基本原理”(Rationale),解释为什么该论文与查询相关,以此来实现更高的准确率。

当前功能与限制(Current Limitations):

尽管Scholar Labs拥有Google Scholar索引规模巨大的优势,但作为一个实验性功能,它存在以下主要局限性:
1. 实验性与访问限制:Scholar Labs仍是一个实验性功能,目前仅对已登录用户开放,最初支持英文查询,且访问受限。
2. 严格的查询限制: Scholar Labs 对允许的查询类型相当严格。某些“高级用户”查询(如“总结论文X的要点”或“查找作者X关于主题Y的论文”)会返回失败消息,提示该工具“目前并非为这类查询而设计”。
3. 结果硬性限制:
    ◦ 在大多数情况下,该工具似乎会在找到10篇相关论文后停止。
    ◦ 找到50篇相关论文后,搜索会立即截止。
    ◦ 该工具的硬性限制是:一旦它评估了 300 个顶级结果,搜索就会停止
4. 不适用于系统评价(Systematic Review): Scholar Labs虽然提供了高精确度,但由于其继承了 Google Scholar基础架构的固有局限性(例如缺乏布尔逻辑支持、没有受控词汇、缺乏字段搜索以及存在 1,000条结果的硬性上限,导致其查全率不足,不适用于需要超高查全率(super-high recall)的证据综合或系统评价工作。Scholar Labs评估前300个结果的方法,仍然受限于原始搜索策略未能检索到的论文,以及那些落在了1,000结果上限之外的论文。

“去除引用”机制含义

Scholar Labs的一大创举是不显示传统的引用指标,显示出其面向未来的思考,引起不少讨论。通常在Google学术等平台,结果列表中会标注每篇论文的引用次数,期刊则有影响因子等“流行度”指标;用户常依据这些指标初步判断论文重要性和可信度。而Scholar Labs在搜索结果页并不提供论文被引次数,也不允许按期刊影响因子进行筛选。Google发言人解释说:“引用次数和影响因子依赖于研究领域,很难为特定问题估算合理值,依赖它们可能会错过跨学科领域的关键论文或最新发表的成果”。也就是说,该功能刻意去除学术界长期使用的权威指标,让搜索结果更多地基于论文自身内容而非外部认可度。鉴于生成式人工智能越来越基于文语义内容而不是外在标注提供研究进展的追踪线索,未来有可能提供更加客观和基于事实的实证评价证据,从而带来引文评价这种方法的式微。

这一“去除引用”做法引发了学术界和媒体的讨论。一方面,支持者认为传统指标并不总能反映科研质量。正如医学研究者Matthew Schrag所说,引用次数等“只是粗略评估,并更多地体现论文在学术群体中的社会背景,而非其科学价值”,长远看需要更全面的评价方式。AI 可能发现一些尚未被广泛引用但具有潜力的研究,尤其是跨学科或新近发表的工作。另一方面,许多研究人员担心没有可见的质量指标,使用者很难快速判断论文可信度。“我承认自己会倾向相信被高引用的论文,尽管这并不总是正确的,但如果没有别的评估方法,我也很难做决定”。因此,有声音质疑:AI 在没有传统门槛指标的情况下是否能有效地辨别好研究?Google 此前发布官方演示视频时自己都提出了这个问题,目前学界对此看法不一。

行业与学术界反应

功能上线后,引发学术界、技术媒体和社交网络的广泛关注。支持者认为该功能可帮助研究者从全新的角度发现文献。例如,Vanderbilt大学的Schrag博士指出,AI检索能够“抛出更大的渔网”,发现那些原本可能被忽视的论文,甚至结合社交媒体受欢迎程度等信息提供额外背景。他认为,这种全方位的分析有助于研究人员更全面地评估研究成果的价值。但是他同时强调,即使有了AI工具,最终判定研究质量仍然需要科研人员自己来做,“不能让算法成为我们认为高质量论文的最终仲裁者”。另一位学者Smoliga教授则坦承,自己过去也经常无意中“只相信高引用”——这个习惯并不科学,但习惯难改。他对工具的态度是试探性的:期待它带来新发现,但也提到需要“门槛”,以防止算法推荐误导信息。

反对者则主要担忧透明度和信任问题。一些研究者指出,技术媒体测试发现,使用Scholar Labs搜索某项课题时,结果与传统搜索工具(如PubMed)完全不同。如果用户无法看到引用数,就难以自行判断搜索结果的合理性。TechBuzz报道称,“此举让研究人员不得不问:没有这些传统把关人(如高引用和高影响因子背书),AI能否真正识别出好科学?”。

与此同时,搜索引擎开发者和图书馆信息工作者等也在讨论此事。有技术博客指出,Scholar Labs依赖于海量训练数据及算法,而这些数据往往以开放获取文献为主;如果偏好免费论文,这可能“无形中”推动开放获取模式的发展(即便这方面尚缺乏明确数据支持)。在社交平台上,不少用户好奇地分享使用体验,讨论该工具对新老文献的选择偏好。总体而言,学术界对这一实验性功能持谨慎乐观态度,等待更大范围测试后再定论。有评论认为:“这不是技术能否正常工作的关键问题,而在于科学家是否真的信任它,愿意改变过去检索和评价研究的习惯”。

未来影响与展望

谷歌Scholar Labs的推出,对学术出版和科学交流可能带来深远影响。从学术出版角度看,如果 AI 搜索工具更倾向于全文分析而非期刊声誉,论文的“品牌效应”可能被弱化。这有可能促使研究者更加关注文章内容本身,也可能推动出版社和期刊重新思考其评价体系。此外,如果AI搜索因为授权因素更容易检索到开放获取论文,学术界对开放获取的需求可能进一步增加。

从搜索引擎和信息获取的角度看,Scholar Labs强调了搜索算法透明度和用户信任的重要性。传统学术搜索结果一向公开显示引用次数、发表来源等元数据,而AI驱动的系统则更多依赖“黑盒”算法评估,这让用户很难自行核实排名逻辑。因此,一些专家建议在未来应增加算法可解释性,让研究者了解为何某篇文章被认为相关。此外,由于AI技术可能会产生错误或偏见,平台需要设计机制确保回答可靠,比如引用文献链接或原文片段验证。

对于学术研究者和学生而言,AI辅助检索工具有望提高查找效率,避免遗漏相关研究,尤其在交叉学科领域或检索经验不足时更有帮助。但正如前述,需要强调:AI只是辅助手段,研究人员仍需自行研读和判断论文质量。未来,我们可能会看到更多搜索引擎试图结合AI技术,例如结合关键词过滤和语义理解的混合模式。而学术界也可能逐渐建立新的信任机制,比如让学者评价AI推荐的可靠度,或将AI评价指标(如文章文本质量得分)纳入参考。总的来看,Scholar Labs的出现标志着学术检索进入AI时代,它能否真正改变科研习惯,还需要通过大量用户反馈和进一步迭代来检验。

(本文线索来自曾蕾老师的推荐,特此鸣谢!)



《“Google Scholar推出学术实验室功能,不再使用引用机制”》 有 1 条评论

留下评论