OCR的新突破：Chandra OCR

图博档和数字人文无疑对OCR无比关注，好在近来这个领域屡有突破，过去不敢想的手写、漫漶、透印等文本也能超高准确度还原，甚至有DeepSeek这种不以还原字符为目的、按图像方式进行压缩识别的清奇思路，独辟蹊径。这里就介绍一款以识别复杂板式为特长的Chandra OCR（以下简称 Chandra ），并将其与近期热门的DeepSeek OCR、PaddleOCR‑VL（飞桨 OCR 系列中的结构化版本）进行对比。为了系统化，我先分别介绍 Chandra 的关键信息，然后在同一维度下做横向对比。

一、Chandra OCR：简介与关键特性

1. 模型／项目背景

Chandra 是由 Datalab 团队于2025 年10月30日正式发布的一款开源 OCR 模型。
项目主页说明：其目标是“超越传统 OCR 模型，仅识别文字，而是保留版式、结构、表格、公式、手写、图像/图表与图文混排”。
在 Hugging Face 等平台已有模型卡，说明其支持将文档（图片／PDF）输出为 Markdown、HTML 或 JSON，且保留布局信息（版面、表格、图像位置、注释等）。

2. 主要特性

根据其 README／模型卡／博客，Chandra 的亮点包括：

支持 40 多种语言。
擅长处理复杂文档：包含手写体、多栏布局、表格、数学公式、图表与图片嵌入。
输出形式灵活：Markdown／HTML／JSON，适合做后续语义检索、结构化抽取或下游 LLM 问答。
开源可用：GitHub、Hugging Face 均有对应仓库／模型卡。
在 “olmOCR” 基准测试（olmOCR‑Bench）上取得不错成绩：模型卡中列出 Chandra v0.1.0 在多个子任务上的得分（例如：整体 83.1 ± 0.9）。

3. 典型性能数据

从模型卡中的摘录（虽非同行评审的公开论文，但为目前公开可查数据）可见：

在 “Old Scans” 子任务：约 80.3 分。
在 “Tables” 子任务：约 88.0 分。
在整体 “Overall” 成绩： 83.1 ± 0.9。
官方博客说明其 “topped the independent olmocr benchmark” 的宣称。

4. 适用场景与定位

特别适合结构复杂、版式混乱、手写+印刷混合、多栏／图文混排文档。
输出结构化格式（Markdown/HTML/JSON）利于文档索引、问答系统、结构化抽取。
面向需要维护版面、提取表格/公式/图像/图注等“高级”文档理解场景。
开源可用于自建，适合集成进大规模文档处理流水线。

5. 目前可查限制／注意事项

虽然有公开基准数据，但尚未见大规模、同行评审论文详细说明其“压缩令牌”“长上下文处理”“LLM 连通”这一类方向（与 DeepSeek 那类“视觉-文本压缩”方向）那么明确。
模型卡中 “Multi-column” 得分为约 50.4 分（即其在某些复杂布局仍有挑战）——见模型卡中的表：
公布为 v0.1.0，相对较新，社区/生产环境的大规模商业验证还在积累中。
虽支持多语言，但具体中文／复杂版式中文环境下的公开专测数据量较少（至少未在公开摘要中详见）。

二、与 DeepSeek-OCR、PaddleOCR-VL 的比较

下面我以统一维度做横向对比，力求清晰、系统。请注意，由于各模型公开披露的信息、评测环境、版本差异等因素不同，以下对比主要基于公开资料，并带有一定推断。

维度	Chandra OCR	DeepSeek-OCR	PaddleOCR-VL
发布时间／版本／开源状态	2025 年10月30日，v0.1.0 开源（Apache-2.0）	2025 年10月左右发布，公开资料表明可在 Hugging Face 获取（视觉-文本压缩思路）	2025 年10月左右，飞桨发布的 0.9B 参数版本／多模态文档解析版本（公开文章+技术稿）
定位／关键创新	强调“完整结构保留”：手写、表格、公式、图文混排、多栏、多语言。版面结构理解为核心。	强调“视觉-文本压缩”：将文本转为视觉token，再由解码器处理，旨在降低 LLM 上下文成本／令牌数。	强调“轻量化＋多模态结构化”：0.9B 参数文档解析模型，主打表格/公式/阅读顺序理解、端侧部署。
结构化理解能力（表格／公式／版式／手写）	表格得分高达 88.0（olmOCR 基准）手写、公式、图文混排为宣传亮点。	在长上下文与压缩方面突出，但公开的“表格／公式”具体得分相比少。	在结构化理解（表格／公式／版式）中表现较强，适合文档抽取场景。
长上下文／令牌／LLM 连通	虽支持复杂文档，但公开资料中未重点强调“压缩令牌、长上下文输入 LLM”这一创新方向。	明确主打“token 数量减少 7-20×”、适配大规模文档／LLM 流水线。	主打低算力落地与结构抽取，不以令牌压缩为主要卖点。
语言支持／多语种	支持 40 多种语言。	具体多语种支持未在公开摘要中如此强调（可能主要面向英文／印刷体）	飞桨生态适中文环境较强，本地中文支持优秀。
硬件／模型规模／部署门槛	开源、可本地部署；因处理复杂版式可能硬件需求较高（尚未详公开）。	面向高吞吐／长文档处理，可能对硬件要求更高。	参数为 0.9B，轻量化特色，便于端侧或低配部署。
典型适用场景	多样化复杂文档（历史手写、教科书、图文混排、研究报告、档案）。	大批量文档数字化 + 后续 LLM 问答／检索流程。	政企端侧／弱算力场景，表格/公式/结构化抽取为主。
潜在短板	新版本、实践验证尚不足；某些版式多栏成绩仍有提升空间（如 multi-column 得分约 50 左右）	在结构化理解、版式复杂度方面可能仍需要后处理；压缩比高时准确率下降需权衡。	长上下文处理与令牌压缩能力弱于 DeepSeek；复杂手写、极难版式可能非最优。
基准／公开评测	在 olmOCR 基准上取得 83.1±0.9 分（v0.1.0）	在媒体报道中有“约 10× 压缩”说法（但公开同行评测数据相对少）	多篇技术稿／飞桨博客说明其结构化能力强，但公开统一标准分数较少。

三、从图书馆／档案／研究视角的选型建议

如果作为图书馆员，或正在研究档案／特藏建设或数字人文研究，下面从相关角度给出建议：

档案馆／特藏文献、历史手写体、版式复杂材料

推荐优先考虑Chandra OCR：因其在“手写＋复杂版式（图文、表格、公式、图表）”方面宣传突出、多语种支持强。而你的图书馆场景常见“古籍扫描、档案手稿、混排表格”等。
同时可作为 “精细版式＋结构化抽取” 的方案，对比备选PaddleOCR-VL。如果手写量少、印刷体多、中文为主，则飞桨方案也可考虑。
若有超大规模批量印刷体文档、意在对接 LLM 问答／检索系统，可考虑DeepSeek-OCR做“粗读＋检索预处理”，然后 Chandra 做“深读＋结构化抽取”。

大批量印刷文献 + 向下游 LLM 接入（摘要／问答检索）

若任务目标是“尽可能把文档输入 LLM 环节”以做检索/摘要/智能问答，那么 DeepSeek-OCR 的“令牌压缩”思路在成本/效率上具优势。
但如果文档中表格／公式／版式也很重要，则可用 DeepSeek 做第一遍提取，再用 Chandra 做结构补充。

结构化抽取（表格/公式/阅读顺序）+端侧／低算力部署

若场景是“单位内部合同/发票/表格”或“高校图书馆端侧部署”，推荐PaddleOCR-VL。其参数轻，系统成熟，易于部署；若中文为主优势更明显。

四、需要进一步验证的问题／建议你关注点

虽然 Chandra 公布了不错数据，但可能需要验证其在中文古籍／特藏文献（印刷＋手写混合、旧字形）上的表现。推荐做小规模实测：抽取 50 页典型馆藏，分别用三款模型做对比。
检查算力／延时／显存需求：尤其是批量扫描时，模型的吞吐量、并行能力、是否支持 GPU 加速、是否有轻量版本。
检查下游集成能力：例如是否支持输出 JSON／Markdown 结构，方便你后续与知识发现平台、AI问答系统（你提到使用 LSP2.0、大模型检索等）集成。Chandra 输出结构化格式为其一大优点。
检查长期维护／社区活跃度：模型越新，社区问题／bug 修复可能越少。你作为图书馆／科研机构使用，服务稳定性也很重要。
检查数据合规／开源许可证：三者均开放或可本地部署，但具体许可证、商业使用限制及数据出境风险仍需确认（尤其如果你处理敏感特藏材料）。
检查版权/中文支持：验证手写中文/古字形识别效果，因为公众资料多为英文字体或现代印刷体，古籍环境挑战更大。

五、三款模型在“中文／古籍／混排表格”语料环境下的可用性、优势与待验证事项

1.公开资料摘要

Chandra OCR

其 GitHub 仓库明确说明：支持将图像／PDF 转换为 Markdown／HTML／JSON，保留版面信息（布局＋表格＋数学公式＋图像＋图注）。
官方博客指出该模型“在独立基准 olmOCR （旧扫描件＋复杂文档）上夺冠”。
模型卡指出支持 “40+ 语言” 。
一篇 Medium 技术评测撰稿称其 “优于 DeepSeek OCR” 在结构化版式解读上表现极佳。
但明确指出其 “多栏（multicolumn）”布局识别成绩仍有挑战（模型卡里 “Multi-column 得分约 50.4”）——虽然该数据未在摘要中广泛引用。

DeepSeek-OCR

在 arXiv 论文《DeepSeek-OCR: Contexts Optical Compression》中明确：当 “文本令牌数 ÷ 视觉令牌数 < 10×” 时，OCR 解码精度可达约 97%。当压缩比 ~20× 时，精度 ~60%。
官方/媒体指出该模型采用“将页／文档视作视觉载体（optical 2D mapping）”，把文本输入压缩为较少视觉令牌，从而大幅降低 LLM 上下文成本。
示例说明：在 OmniDocBench 上用「仅约100个视觉令牌／页」就能超过某些型号要求数千文本令牌的模型。
模型卡显示参数约 “3B” 。
但对于“中文／古籍手写＋复杂版式”专门评测数据不多。

PaddleOCR-VL

官方资料（飞桨）显示其支持109 种语言，能识别文字、表格、数学公式、图表。
在 Hugging Face 模型卡中指出：在 OmniDocBench v1.5／v1.0 上“几乎所有指标”达到 SOTA。
技术稿提及其采用 “NaViT-style 动态分辨率视觉编码器 + ERNIE-4.5 语言模型” 构成。
虽为端侧轻量化模型且多语种支持优秀，但专门“中文古籍／手写”版式的公开数据亦较少。

2.中文／古籍／混排表格”场景下的优劣分析

以下从几个维度进行分析，结合你的图书馆／档案／特藏环境需求（古籍印刷＋手写、表格／图表、图文混排、中文为主）：

维度	Chandra OCR	DeepSeek-OCR	PaddleOCR-VL
中文支持及手写古籍识别	支持 40+ 语言；宣传“手写＋复杂版式”也能处理。适合手写古籍。但公开“中文古籍”专门测试指标少。优点：在结构化和复杂版式方面强调强。待验证：手写古字形、旧字符（如繁体、仿宋、甲骨风格）识别率。	虽强调“长上下文／视觉压缩”，但公开资料主要聚焦英文或印刷文本。中文手写/古籍混排情况未详。优点：处理大批量印刷任务，降低令牌成本。待验证：中文手写、古籍版式、章节／注释结构识别。	中文支持优秀（飞桨生态本土化），多语种也支持。但专门“古籍＋手写”版式的公开数据也少。优点：对中文印刷体、表格、公式支持强。待验证：古籍混排、老旧字体识别。
复杂版式（表格＋公式＋图文＋多栏）	明确支持表格／数学／复杂布局；在独立 olmOCR 基准中表现优。优点：结构化输出（Markdown/HTML/JSON）适合后续索引/检索。待验证：与印刷＋手写混排中多栏、边注、脚注、古地志页的表现。	主打压缩与大上下文，但对于“版式结构”细节（多栏、脚注、边注、版画）公开测试较少。优点：适合大页流、全文扫描场景。待验证：结构化细节抽取、复杂古籍版式。	在表格/公式/阅读顺序定位上据称为 SOTA。优点：表格／公式识别极强，多语种支持。待验证：古籍特有版式（如竖排、夹注、小字边注、图版）效果。
大批量／长上下文＋成本控制	虽强调结构化，但公开资料较少专注于令牌压缩／大批量流水线成本控制。适合少量高精度结构化场景。	明确以“令牌压缩”为创新点：10×压缩可达约97%精度。适合“量大且下游LLM接入”场景。优点：对于扫描库／图书馆大量印刷件＋检索系统极具吸引力。待验证：古籍手写混排环境下的准确率与压缩比。	虽轻量化、端侧部署友好，但“令牌压缩”“长上下文”并非其主要卖点。适合结构化抽取而非长文档上下文连贯读入。
集成输出／下游可用性	输出为 Markdown/HTML/JSON，保留版面结构，方便后续构建索引、问答系统、知识库。优点：与你构建 AI＋图书馆知识发现平台需求契合。	虽目标是减令牌/成本，但输出格式与结构化细节（例如表格单元格、脚注复原）公开披露不如 Chandra 明显。适合做“粗读＋压缩”阶段。	输出结构化较强，适合抽取入库、端侧应用。对于后续知识发现平台亦可用。
部署/硬件/开源可控	开源、可本地部署，版面结构复杂处理时可能硬件要求较高。	开源、3 B 参数左右，硬件要求中高；适合有GPU资源的大规模批量处理。	参数仅 0.9B，部署门槛低，端侧/弱算力环境更友好。
风险／待验证点	莫略：古籍特有字体／版式性能未知，社区实践较新。	风险在于：压缩比越高准确率下降（论文中20×压缩精度约60%）。中文手写／古籍混排未详测。	虽结构化强，但“超长上下文”“令牌压缩”不是主打。古籍手写复杂环境可能需工程增强。

六、基于你图书馆／档案场景的推荐方案

基于“高校图书馆／省级公共图书馆”“特藏建设”“捐赠档案”“手写＋印刷混排”环境，这里给出更细化的建议：

先做验证试验

抽取你馆中典型语料：如 20 页古籍扫描（含手写批注）、20 页捐赠档案（多栏、边注）、20 页印刷报告（含表格、公式）。
分别用三款模型执行识别，记录：识别准确率（文字＋手写＋表格）、版面结构还原（多栏＋夹注＋脚注）、输出结构便利性（是否直接可入知识发现系统）以及处理时间/资源消耗。
设置指标：如“页级结构还原完整度 ≥ 90%”“文字识别庞大页误识别率 < 5%”“手写注释识别率 ≥ 80%”等。

按照场景选择模型路线

若你的语料以“印刷＋表格＋公式”为主、且后续目标为大批量数字化＋知识检索，推荐以DeepSeek-OCR作为主方案，再用 Chandra 做结构化补充。
若你的语料以“手写＋古籍＋结构复杂”为主、且强调高结构化抽取（如版式、注释、脚注、图版）而非大吞吐量，则优先考虑Chandra OCR。
若你的硬件或部署环境较弱、需要端侧或本地快速上线、且语料版式虽复杂但手写比例低，则PaddleOCR-VL是一个非常稳妥方案。

混合流水线建议

步骤 A：用 DeepSeek-OCR 对文档做 “粗读取＋压缩＋全文转文本” 以降低令牌／后续模型成本。
步骤 B：用 Chandra OCR 对关键页（表格页、手写批注页、复杂版式页）做 “深读取＋结构化抽取” → 输出为 Markdown/HTML/JSON。
步骤 C：再由 PaddleOCR-VL 或自建版面解析器处理“表格＋公式”特化抽取，如将表格数据转为 CSV/数据库。
步骤 D：将输出整合至知识发现平台 (如你的 LSP2.0 智能体-驱动平台)／做向量检索／链接至问答模块。

资源与预算提醒

用 DeepSeek-OCR 批量处理时要注意硬件资源（GPU、显存、并行吞吐）、模型运行效率。媒体报道中虽有“单 A100 一天 200 k+ 页”说法，但这是理想场景。
用 Chandra OCR 时也要关注手写古籍与版式特异性（字体、排版、纸张老化、扫描质量）可能引起性能下降。需要做“适配调优”或微调。
用 PaddleOCR-VL 在端侧部署可减少硬件要求，但可能在超复杂版式场景中需要额外工程支持。

Let's Make AGI Real