数字人文技术史考察(十)

5.2. 2010s-:图像平台的互操作与智能分析——IIIF与早期AI/ML应用

在文本数据日益数字化的同时,图像作为另一种重要的人文研究资料,其数字化共享、深度分析与智能处理也成为数字人文领域关注的焦点。国际图像互操作框架(IIIF)的出现和人工智能/机器学习(AI/ML)技术在图像分析中的初步应用,共同推动了图像平台向更高水平的互操作性和智能化分析迈进。

●      IIIF(International Image Interoperability Framework,国际图像互操作框架):

○      目标与标准: IIIF是一个由全球众多图书馆、博物馆、档案馆、大学及商业机构共同参与和推动的国际合作项目和社群。其核心目标是提供一套开放的技术标准(APIs),使得不同机构收藏的数字化图像(以及后续扩展到的音视频等其他媒介资源)能够在网络上以一种统一的、可互操作的方式被访问、呈现和使用。IIIF旨在打破机构间的数字资源壁垒,让用户能够利用各种兼容IIIF标准的查看器和工具,对来自世界各地的图像进行无缝的聚合、深度缩放、并列比较、标注、裁剪、旋转等复杂操作,而无需关心图像的物理存储位置或原始格式。

○      核心API: IIIF主要包含两个核心API:

1.     Image API: 定义了如何通过URL请求和获取图像的特定区域、尺寸、旋转角度、质量和格式。它使得服务器能够动态生成图像的不同版本以满足客户端的需求,从而支持对高分辨率图像进行高效的深度缩放(deep zoom)和局部细节展示。

2.     Presentation API: 定义了如何以JSON-LD格式描述一个或多个图像(或其他内容资源)的结构、顺序、元数据以及用户与之交互的方式。它允许将分散的图像序列(如一本书的各页、一件多面雕塑的不同视角照片)组织成一个连贯的、可导航的数字对象,并能关联相关的描述性信息、文本注释、目录结构等。后续版本(如Presentation API 3.0)进一步扩展了对音视频等时间性媒体的支持。

○      影响与应用: IIIF的推广和应用极大地促进了高质量数字图像在学术研究、教育教学和公众文化传播中的利用。它使得跨机构的虚拟馆藏连接成为现实,用户可以在同一个界面(如Mirador, Universal Viewer等IIIF兼容查看器)中同时浏览和研究来自不同图书馆、博物馆的珍贵手稿、艺术品、地图、照片等。IIIF支持的功能,如无级缩放、图像并列比较、用户自定义标注、版本对照等,为人文学者(尤其是艺术史家、古文献学家、历史学家)提供了前所未有的图像分析能力。其应用案例广泛,包括古籍手稿的精细研读、艺术品风格与技法的比较分析、历史地图的叠加与地理配准、多光谱成像数据的交互式展示、数字版本的构建等。

●      早期AI/ML在图像分析中的应用:

○      计算机视觉(Computer Vision, CV)在文化遗产领域的渗透: 随着机器学习尤其是深度学习技术的发展,计算机视觉开始被应用于处理和分析海量的文化遗产图像数据。其应用方向主要包括:

■      目标检测与图像分类: 训练模型自动识别图像中的特定物体(如建筑、器物、人物、动植物纹饰等)、场景类型(如风景、肖像、宗教场面等)或艺术风格(如印象派、巴洛克等)。

■      图像元数据自动生成: 利用图像识别结果,为缺乏描述信息的图像自动生成关键词标签、内容描述,甚至尝试识别图像中的文字(OCR/HTR)。

■      图像检索与相似性匹配: 基于图像内容的视觉特征进行检索(content-based image retrieval, CBIR),或寻找风格、主题相似的图像。

○      代表性项目与探索:

■      美国国会图书馆的“报纸导航员”(Newspaper Navigator)项目便是一个典型案例。该项目利用机器学习技术,从其大规模历史报纸数据库《Chronicling America》的1600万页扫描件中,自动提取并分类了数百万张照片、插图、地图、漫画、卡通、头条标题和广告等视觉内容,并将其构建成一个可供研究者探索的数据集。

■      其他探索还包括利用AI进行古代石碑文字的识别与释读、艺术品真伪鉴定、绘画风格的量化分析、历史照片中人物身份的识别(尽管后者涉及严重的伦理和隐私问题)等。

○      挑战与局限: 早期AI/ML在人文图像分析中的应用虽然展现出巨大潜力,但也暴露出诸多问题:

■      算法偏见(Algorithmic Bias): AI模型的性能高度依赖于训练数据。如果训练数据本身存在偏见(如对特定人群、文化或主题的表征不足或刻板印象化),模型在分析新的图像时就可能复制甚至放大这些偏见。例如,“报纸导航员”项目在自我反思中就提及,算法可能对历史报纸中边缘化群体的视觉呈现存在识别不足或错误分类,从而在数字层面造成对其历史存在的进一步“擦除”或“边缘化” 。

■      图像质量与多样性: 历史图像的质量参差不齐(如模糊、破损、光照不均等),且风格、媒介、主题极为多样,这对AI模型的泛化能力提出了很高要求。

■      训练数据稀缺: 针对特定历史时期、特定类型文化遗产图像的高质量标注数据集往往非常缺乏,这限制了监督学习模型的训练效果。

■      去语境化风险: AI对图像的分析往往是基于像素模式的识别,可能缺乏对图像创作背景、历史语境、象征意义等深层人文内涵的理解,导致分析结果表面化或产生误读。

■      可解释性问题: 许多深度学习模型(尤其是早期的)如同“黑箱”,其决策过程难以解释,这使得人文学者难以完全信任和有效利用其分析结果。

IIIF的出现,通过标准化图像的获取与呈现方式,为全球范围内的图像文化遗产构建了一个可互操作的生态系统,赋予了研究者前所未有的深度视觉分析与比较能力,从根本上改变了他们与图像资料互动的方式。这不仅打破了物理藏馆的界限,也为新的视觉化研究范式奠定了基础。与此同时,AI/ML技术开始被引入海量图像集合的分析中,其在自动化内容发现、元数据生成等方面的潜力令人瞩目。然而,正如“报纸导航员”等项目的实践所揭示的,AI在带来效率的同时,也可能引入或加剧源于数据和算法本身的偏见,甚至可能在数字领域对历史进行某种程度的“重写”。这种对历史档案中已有偏见的复制和放大,以及由于算法识别能力的局限性而可能导致的对特定类型图像或图像中特定元素的系统性忽视,都要求研究者进行批判性的“数据考古”(data archaeology),以理解AI分析结果背后的生成机制及其潜在的认识论后果。IIIF的互操作性为AI分析提供了更便捷的数据入口,但这种结合也意味着对图像来源、原始馆藏的偏向性、数字化过程以及AI模型自身偏见的批判性审视变得更加重要和复杂。因此,一个整体性的批判框架,需要同时考察数字图像从物理实体到AI分析结果的整个生命周期。



留下评论