OCR的新突破:Chandra OCR

图博档和数字人文无疑对OCR无比关注,好在近来这个领域屡有突破,过去不敢想的手写、漫漶、透印等文本也能超高准确度还原,甚至有DeepSeek这种不以还原字符为目的、按图像方式进行压缩识别的清奇思路,独辟蹊径。这里就介绍一款以识别复杂板式为特长的Chandra OCR(以下简称 Chandra ),并将其与近期热门的DeepSeek OCR、PaddleOCR‑VL(飞桨 OCR 系列中的结构化版本)进行对比。为了系统化,我先分别介绍 Chandra 的关键信息,然后在同一维度下做横向对比。

一、Chandra OCR:简介与关键特性

1. 模型/项目背景

  • Chandra 是由 Datalab 团队于2025 年10月30日正式发布的一款开源 OCR 模型。
  • 项目主页说明:其目标是“超越传统 OCR 模型,仅识别文字,而是保留版式、结构、表格、公式、手写、图像/图表与图文混排”。
  • 在 Hugging Face 等平台已有模型卡,说明其支持将文档(图片/PDF)输出为 Markdown、HTML 或 JSON,且保留布局信息(版面、表格、图像位置、注释等)。

2. 主要特性

根据其 README/模型卡/博客,Chandra 的亮点包括:

  • 支持 40 多种语言。
  • 擅长处理复杂文档:包含手写体多栏布局表格数学公式图表与图片嵌入
  • 输出形式灵活:Markdown/HTML/JSON,适合做后续语义检索、结构化抽取或下游 LLM 问答。
  • 开源可用:GitHub、Hugging Face 均有对应仓库/模型卡。
  • 在 “olmOCR” 基准测试(olmOCR‑Bench)上取得不错成绩:模型卡中列出 Chandra v0.1.0 在多个子任务上的得分(例如:整体 83.1 ± 0.9)。

3. 典型性能数据

从模型卡中的摘录(虽非同行评审的公开论文,但为目前公开可查数据)可见:

  • 在 “Old Scans” 子任务:约 80.3 分。
  • 在 “Tables” 子任务:约 88.0 分。
  • 在整体 “Overall” 成绩: 83.1 ± 0.9。
  • 官方博客说明其 “topped the independent olmocr benchmark” 的宣称。

4. 适用场景与定位

  • 特别适合结构复杂、版式混乱、手写+印刷混合多栏/图文混排文档。
  • 输出结构化格式(Markdown/HTML/JSON)利于文档索引、问答系统、结构化抽取。
  • 面向需要维护版面、提取表格/公式/图像/图注等“高级”文档理解场景。
  • 开源可用于自建,适合集成进大规模文档处理流水线。

5. 目前可查限制/注意事项

  • 虽然有公开基准数据,但尚未见大规模、同行评审论文详细说明其“压缩令牌”“长上下文处理”“LLM 连通”这一类方向(与 DeepSeek 那类“视觉-文本压缩”方向)那么明确。
  • 模型卡中 “Multi-column” 得分为约 50.4 分(即其在某些复杂布局仍有挑战)——见模型卡中的表:
  • 公布为 v0.1.0,相对较新,社区/生产环境的大规模商业验证还在积累中。
  • 虽支持多语言,但具体中文/复杂版式中文环境下的公开专测数据量较少(至少未在公开摘要中详见)。

二、与 DeepSeek-OCR、PaddleOCR-VL 的比较

下面我以统一维度做横向对比,力求清晰、系统。请注意,由于各模型公开披露的信息、评测环境、版本差异等因素不同,以下对比主要基于公开资料,并带有一定推断。

维度 Chandra OCR DeepSeek-OCR PaddleOCR-VL
发布时间/版本/开源状态 2025 年10月30日,v0.1.0 开源(Apache-2.0) 2025 年10月左右发布,公开资料表明可在 Hugging Face 获取(视觉-文本压缩思路) 2025 年10月左右,飞桨发布的 0.9B 参数版本/多模态文档解析版本(公开文章+技术稿)
定位/关键创新 强调“完整结构保留”:手写、表格、公式、图文混排、多栏、多语言。版面结构理解为核心。 强调“视觉-文本压缩”:将文本转为视觉token,再由解码器处理,旨在降低 LLM 上下文成本/令牌数。 强调“轻量化+多模态结构化”:0.9B 参数文档解析模型,主打表格/公式/阅读顺序理解、端侧部署。
结构化理解能力(表格/公式/版式/手写) 表格得分高达 88.0(olmOCR 基准)手写、公式、图文混排为宣传亮点。 在长上下文与压缩方面突出,但公开的“表格/公式”具体得分相比少。 在结构化理解(表格/公式/版式)中表现较强,适合文档抽取场景。
长上下文/令牌/LLM 连通 虽支持复杂文档,但公开资料中未重点强调“压缩令牌、长上下文输入 LLM”这一创新方向。 明确主打“token 数量减少 7-20×”、适配大规模文档/LLM 流水线。 主打低算力落地与结构抽取,不以令牌压缩为主要卖点
语言支持/多语种 支持 40 多种语言。 具体多语种支持未在公开摘要中如此强调(可能主要面向英文/印刷体) 飞桨生态适中文环境较强,本地中文支持优秀。
硬件/模型规模/部署门槛 开源、可本地部署;因处理复杂版式可能硬件需求较高(尚未详公开)。 面向高吞吐/长文档处理,可能对硬件要求更高。 参数为 0.9B,轻量化特色,便于端侧或低配部署。
典型适用场景 多样化复杂文档(历史手写、教科书、图文混排、研究报告、档案)。 大批量文档数字化 + 后续 LLM 问答/检索流程。 政企端侧/弱算力场景,表格/公式/结构化抽取为主。
潜在短板 新版本、实践验证尚不足;某些版式多栏成绩仍有提升空间(如 multi-column 得分约 50 左右) 在结构化理解、版式复杂度方面可能仍需要后处理;压缩比高时准确率下降需权衡。 长上下文处理与令牌压缩能力弱于 DeepSeek;复杂手写、极难版式可能非最优。
基准/公开评测 在 olmOCR 基准上取得 83.1±0.9 分(v0.1.0) 在媒体报道中有“约 10× 压缩”说法(但公开同行评测数据相对少) 多篇技术稿/飞桨博客说明其结构化能力强,但公开统一标准分数较少。

三、从图书馆/档案/研究视角的选型建议

如果作为图书馆员,或正在研究档案/特藏建设或数字人文研究,下面从相关角度给出建议:

  1. 档案馆/特藏文献、历史手写体、版式复杂材料
  • 推荐优先考虑Chandra OCR:因其在“手写+复杂版式(图文、表格、公式、图表)”方面宣传突出、多语种支持强。而你的图书馆场景常见“古籍扫描、档案手稿、混排表格”等。
  • 同时可作为 “精细版式+结构化抽取” 的方案,对比备选PaddleOCR-VL。如果手写量少、印刷体多、中文为主,则飞桨方案也可考虑。
  • 若有超大规模批量印刷体文档、意在对接 LLM 问答/检索系统,可考虑DeepSeek-OCR做“粗读+检索预处理”,然后 Chandra 做“深读+结构化抽取”。
  1. 大批量印刷文献 + 向下游 LLM 接入(摘要/问答检索)
  • 若任务目标是“尽可能把文档输入 LLM 环节”以做检索/摘要/智能问答,那么 DeepSeek-OCR 的“令牌压缩”思路在成本/效率上具优势。
  • 但如果文档中表格/公式/版式也很重要,则可用 DeepSeek 做第一遍提取,再用 Chandra 做结构补充。
  1. 结构化抽取(表格/公式/阅读顺序)+端侧/低算力部署
  • 若场景是“单位内部合同/发票/表格”或“高校图书馆端侧部署”,推荐PaddleOCR-VL。其参数轻,系统成熟,易于部署;若中文为主优势更明显。

四、需要进一步验证的问题/建议你关注点

  • 虽然 Chandra 公布了不错数据,但可能需要验证其在中文古籍/特藏文献(印刷+手写混合、旧字形)上的表现。推荐做小规模实测:抽取 50 页典型馆藏,分别用三款模型做对比。
  • 检查算力/延时/显存需求:尤其是批量扫描时,模型的吞吐量、并行能力、是否支持 GPU 加速、是否有轻量版本。
  • 检查下游集成能力:例如是否支持输出 JSON/Markdown 结构,方便你后续与知识发现平台、AI问答系统(你提到使用 LSP2.0、大模型检索等)集成。Chandra 输出结构化格式为其一大优点。
  • 检查长期维护/社区活跃度:模型越新,社区问题/bug 修复可能越少。你作为图书馆/科研机构使用,服务稳定性也很重要。
  • 检查数据合规/开源许可证:三者均开放或可本地部署,但具体许可证、商业使用限制及数据出境风险仍需确认(尤其如果你处理敏感特藏材料)。
  • 检查版权/中文支持:验证手写中文/古字形识别效果,因为公众资料多为英文字体或现代印刷体,古籍环境挑战更大。

五、三款模型在“中文/古籍/混排表格”语料环境下的可用性、优势与待验证事项

1.公开资料摘要

Chandra OCR

  • 其 GitHub 仓库明确说明:支持将图像/PDF 转换为 Markdown/HTML/JSON,保留版面信息(布局+表格+数学公式+图像+图注)
  • 官方博客指出该模型“在独立基准 olmOCR (旧扫描件+复杂文档)上夺冠”。
  • 模型卡指出支持 “40+ 语言” 。
  • 一篇 Medium 技术评测撰稿称其 “优于 DeepSeek OCR” 在结构化版式解读上表现极佳。
  • 但明确指出其 “多栏(multicolumn)”布局识别成绩仍有挑战(模型卡里 “Multi-column 得分约 50.4”)——虽然该数据未在摘要中广泛引用。

DeepSeek-OCR

  • 在 arXiv 论文《DeepSeek-OCR: Contexts Optical Compression》中明确:当 “文本令牌数 ÷ 视觉令牌数 < 10×” 时,OCR 解码精度可达约 97%。当压缩比 ~20× 时,精度 ~60%。
  • 官方/媒体指出该模型采用“将页/文档视作视觉载体(optical 2D mapping)”,把文本输入压缩为较少视觉令牌,从而大幅降低 LLM 上下文成本。
  • 示例说明:在 OmniDocBench 上用「仅约100个视觉令牌/页」就能超过某些型号要求数千文本令牌的模型。
  • 模型卡显示参数约 “3B” 。
  • 但对于“中文/古籍手写+复杂版式”专门评测数据不多。

PaddleOCR-VL

  • 官方资料(飞桨)显示其支持109 种语言,能识别文字、表格、数学公式、图表。
  • 在 Hugging Face 模型卡中指出:在 OmniDocBench v1.5/v1.0 上“几乎所有指标”达到 SOTA。
  • 技术稿提及其采用 “NaViT-style 动态分辨率视觉编码器 + ERNIE-4.5 语言模型” 构成。
  • 虽为端侧轻量化模型且多语种支持优秀,但专门“中文古籍/手写”版式的公开数据亦较少。

2.中文/古籍/混排表格”场景下的优劣分析

以下从几个维度进行分析,结合你的图书馆/档案/特藏环境需求(古籍印刷+手写、表格/图表、图文混排、中文为主):

维度 Chandra OCR DeepSeek-OCR PaddleOCR-VL
中文支持及手写古籍识别 支持 40+ 语言;宣传“手写+复杂版式”也能处理。适合手写古籍。但公开“中文古籍”专门测试指标少。优点:在结构化和复杂版式方面强调强。待验证:手写古字形、旧字符(如繁体、仿宋、甲骨风格)识别率。 虽强调“长上下文/视觉压缩”,但公开资料主要聚焦英文或印刷文本。中文手写/古籍混排情况未详。优点:处理大批量印刷任务,降低令牌成本。待验证:中文手写、古籍版式、章节/注释结构识别。 中文支持优秀(飞桨生态本土化),多语种也支持。但专门“古籍+手写”版式的公开数据也少。优点:对中文印刷体、表格、公式支持强。待验证:古籍混排、老旧字体识别。
复杂版式(表格+公式+图文+多栏) 明确支持表格/数学/复杂布局;在独立 olmOCR 基准中表现优。优点:结构化输出(Markdown/HTML/JSON)适合后续索引/检索。待验证:与印刷+手写混排中多栏、边注、脚注、古地志页的表现。 主打压缩与大上下文,但对于“版式结构”细节(多栏、脚注、边注、版画)公开测试较少。优点:适合大页流、全文扫描场景。待验证:结构化细节抽取、复杂古籍版式。 在表格/公式/阅读顺序定位上据称为 SOTA。优点:表格/公式识别极强,多语种支持。待验证:古籍特有版式(如竖排、夹注、小字边注、图版)效果。
大批量/长上下文+成本控制 虽强调结构化,但公开资料较少专注于令牌压缩/大批量流水线成本控制。适合少量高精度结构化场景。 明确以“令牌压缩”为创新点:10×压缩可达约97%精度。适合“量大且下游LLM接入”场景。优点:对于扫描库/图书馆大量印刷件+检索系统极具吸引力。待验证:古籍手写混排环境下的准确率与压缩比。 虽轻量化、端侧部署友好,但“令牌压缩”“长上下文”并非其主要卖点。适合结构化抽取而非长文档上下文连贯读入。
集成输出/下游可用性 输出为 Markdown/HTML/JSON,保留版面结构,方便后续构建索引、问答系统、知识库。优点:与你构建 AI+图书馆知识发现平台需求契合。 虽目标是减令牌/成本,但输出格式与结构化细节(例如表格单元格、脚注复原)公开披露不如 Chandra 明显。适合做“粗读+压缩”阶段。 输出结构化较强,适合抽取入库、端侧应用。对于后续知识发现平台亦可用。
部署/硬件/开源可控 开源、可本地部署,版面结构复杂处理时可能硬件要求较高。 开源、3 B 参数左右,硬件要求中高;适合有GPU资源的大规模批量处理。 参数仅 0.9B,部署门槛低,端侧/弱算力环境更友好。
风险/待验证点 莫略:古籍特有字体/版式性能未知,社区实践较新。 风险在于:压缩比越高准确率下降(论文中20×压缩精度约60%)。中文手写/古籍混排未详测。 虽结构化强,但“超长上下文”“令牌压缩”不是主打。古籍手写复杂环境可能需工程增强。

六、基于你图书馆/档案场景的推荐方案

基于“高校图书馆/省级公共图书馆”“特藏建设”“捐赠档案”“手写+印刷混排”环境,这里给出更细化的建议:

  1. 先做验证试验
  • 抽取你馆中典型语料:如 20 页古籍扫描(含手写批注)、20 页捐赠档案(多栏、边注)、20 页印刷报告(含表格、公式)。
  • 分别用三款模型执行识别,记录:识别准确率(文字+手写+表格)、版面结构还原(多栏+夹注+脚注)、输出结构便利性(是否直接可入知识发现系统)以及处理时间/资源消耗。
  • 设置指标:如“页级结构还原完整度 ≥ 90%”“文字识别庞大页误识别率 < 5%”“手写注释识别率 ≥ 80%”等。
  1. 按照场景选择模型路线
  • 若你的语料以“印刷+表格+公式”为主、且后续目标为大批量数字化+知识检索,推荐以DeepSeek-OCR作为主方案,再用 Chandra 做结构化补充。
  • 若你的语料以“手写+古籍+结构复杂”为主、且强调高结构化抽取(如版式、注释、脚注、图版)而非大吞吐量,则优先考虑Chandra OCR
  • 若你的硬件或部署环境较弱、需要端侧或本地快速上线、且语料版式虽复杂但手写比例低,则PaddleOCR-VL是一个非常稳妥方案。
  1. 混合流水线建议
  • 步骤 A:用 DeepSeek-OCR 对文档做 “粗读取+压缩+全文转文本” 以降低令牌/后续模型成本。
  • 步骤 B:用 Chandra OCR 对关键页(表格页、手写批注页、复杂版式页)做 “深读取+结构化抽取” → 输出为 Markdown/HTML/JSON。
  • 步骤 C:再由 PaddleOCR-VL 或自建版面解析器处理“表格+公式”特化抽取,如将表格数据转为 CSV/数据库。
  • 步骤 D:将输出整合至知识发现平台 (如你的 LSP2.0 智能体-驱动平台)/做向量检索/链接至问答模块。
  1. 资源与预算提醒
  • 用 DeepSeek-OCR 批量处理时要注意硬件资源(GPU、显存、并行吞吐)、模型运行效率。媒体报道中虽有“单 A100 一天 200 k+ 页”说法,但这是理想场景。
  • 用 Chandra OCR 时也要关注手写古籍与版式特异性(字体、排版、纸张老化、扫描质量)可能引起性能下降。需要做“适配调优”或微调。
  • 用 PaddleOCR-VL 在端侧部署可减少硬件要求,但可能在超复杂版式场景中需要额外工程支持。


留下评论