当 AI 的成绩单开始发烫*——Stanford HAI《AI Index Report 2026》深度解读：能力狂奔、信任塌方，以及一个新时代的账本

那天，报告像一张体检单

2026 年 4 月 13 日，加州斯坦福。

Stanford HAI 把第九版《AI Index Report》放到了网上。400 多页，九个章节，像一张铺开的全球 AI 体检单：模型、算力、投资、岗位、教育、医疗、政策、公众情绪，逐项检查。

如果只看封面，它仍然是那种学术机构每年都会发布的年度报告，排版克制，语气平稳，数据密密麻麻。

但今年的内容不平稳。

它更像医生把片子递给你，声音很轻地说：身体确实更强壮了，肌肉长得很快，反应速度也更快。只是血压、心率、睡眠、代谢和心理状态，都有点不对劲。

这就是 2026 版 AI Index 的核心矛盾：AI 的能力没有平台期，社会的适应能力却出现了平台期。

过去几年，我们习惯用一句话概括 AI 年报：模型又强了，钱又多了，监管又慢了。

今年不一样。今年的报告第一次让人清楚感觉到，AI 已经不只是技术曲线上的一点变化，而是开始改写经济、教育、地缘竞争和公共信任的底层结构。它不是一个行业的年度总结。

它像一个时代的账本。

2017 年的望远镜

AI Index 从 2017 年开始做。那时，AI 还主要被放在学术论文、ImageNet、语音识别、自动驾驶测试车和少数产业应用里讨论。斯坦福当年的叙事很朴素：这个领域太快、太复杂，连专家都难以追踪，所以需要一套相对可靠的仪表盘。

这是一个很有意思的起点。

2017 年，人们关心的是“AI 到底有没有进步”。2021 年，人们关心的是“大模型到底是不是新范式”。2023 年以后，人们开始问：“它会不会改变我的工作、我的学校、我的公司、我的国家？”

到了 2025 年，AI Index 的关键词已经变成“成熟”：小模型变强，推理成本下降，企业采用率上升，中美模型差距缩小，AI 医疗设备越来越多，AI 相关事故也越来越多。

2025 版有一种“基础设施正在铺开”的味道。它告诉我们，AI 正从实验室走进日常生活。

而 2026 版的语气明显更紧。

不是“AI 进入生活”。

而是“AI 已经坐进驾驶室，但安全带、交通规则和保险制度还没来得及更新”。

这个变化，才是今年最值得读的地方。

第一件事：能力没有停，反而更快了

过去一年，AI 圈里有一种反复出现的怀疑：大模型是不是撞墙了？Scaling law 是不是失效了？闭源巨头烧了这么多钱，回报是不是越来越小？

Stanford HAI 的回答很直接：没有。

报告的第一条 takeaway 就说，AI capability is not plateauing。能力没有停滞，而是在加速，并且触达更多人。

几个数字足够刺眼。

SWE-bench Verified 这种接近真实 GitHub issue 的代码评测，顶尖模型表现从约 60% 冲到接近 100%。OSWorld 这类测试智能体操作电脑完成任务的基准，从大约 12% 提升到 66.3%。Terminal-Bench 的任务成功率也从 2025 年的 20% 提升到 77.3%。

数学上，Gemini Deep Think 在 2025 年国际数学奥林匹克竞赛中拿到金牌水平成绩。科学问答、竞赛数学、多模态推理，一批前沿模型已经达到或超过人类基线。

如果把 2024 年看作“AI 开始像一个会写作、会编程、会看图的聪明助手”，那么 2025-2026 年的变化更接近另一件事：它开始像一个能在电脑里做事的初级员工。

这也是为什么“agent”在今年变得如此重要。

过去的模型回答问题。现在的模型打开文件、调用工具、执行命令、写代码、修 bug、查网页、做表格、生成报告。它的价值不再只取决于单题正确率，而取决于能否在一连串混乱任务中保持方向。

但 AI Index 同时给了一个非常讽刺的镜头：同一个模型能拿数学奥赛金牌，却不能可靠地读懂指针时钟。ClockBench 上，顶尖模型读模拟时钟的正确率大约 50.6%，人类约 90.1%。

这不是笑话。

这是“jagged intelligence”，锯齿状智能。山峰很高，沟壑也很深。它像一座城市，金融区已经摩天楼林立，隔壁街区却还没有铺好下水道。

所以今年的能力故事不能简单写成“AI 接近人类”。更准确的说法是：AI 正在若干高价值任务上突然越过门槛，同时在一些人类觉得低级的常识任务上继续绊倒。

这对企业很重要。因为真实世界不是 benchmark。真实世界里，金牌数学能力和不会看钟的缺陷，可能出现在同一个工作流里。

第二件事：中美差距从“追赶”变成“互换领先”

2025 版 AI Index 说，中国模型正在快速缩小与美国模型的性能差距。那时，这句话还带着“追赶者”的语气。

2026 版则几乎换了一个句式：美国和中国模型从 2025 年初开始多次交换领先位置。2025 年 2 月，DeepSeek-R1 一度追平美国顶尖模型；到 2026 年 3 月，美国顶尖模型只领先中国顶尖模型 2.7%。

这不是小修小补。

它意味着全球 AI 竞争的心理结构变了。

美国仍然领先很多东西：顶级模型数量更多，2025 年美国机构产出 59 个 notable models，中国为 35 个；美国私人 AI 投资达到 2859 亿美元，是中国 124 亿美元的 23 倍以上；美国仍拥有更强的云、芯片、平台和资本市场。

但中国也领先很多东西：论文数量、引用、专利产出、工业机器人安装量。中国在 AI 研究与工程化扩散上的体量，已经让“美国单极领先”这个旧叙事很难成立。

这里最有戏剧性的数字，不是 2.7%，而是另一条：进入美国的 AI 研究者和开发者数量自 2017 年以来下降 89%，仅过去一年就下降 80%。

这像一条很细的裂缝。

短期看，美国有钱、有模型、有数据中心、有平台。长期看，如果全球人才流动的方向发生改变，领先优势会从“不可撼动”变成“需要持续维护”。

AI 竞争已经不是谁发一个模型更强，而是谁能把人才、算力、数据、能源、资本、政策和市场组织成长期系统。

2026 版 AI Index 的中美故事，像是给旧地图重新画边界：美国仍在山顶，但中国已经不是山脚下的追赶者，而是在另一条山脊上同步攀登。

第三件事：钱多到像潮水，透明度却像退潮

2025 年，全球企业 AI 投资达到 5817 亿美元，比上一年增长 130%。私人投资达到 3447 亿美元，增长 127.5%。生成式 AI 吸走了近一半私人 AI 资金。

这是潮水。

潮水涌向模型公司、云厂商、芯片公司、数据中心、应用公司。Google 2025 年资本开支超过 1500 亿美元。美国私人 AI 投资 2859 亿美元，继续遥遥领先。

但同时，另一个指标在下降：Foundation Model Transparency Index 从 2024 年的 58 分跌到 2025 年的 40 分。

这几乎是今年报告最刺人的反差。

行业花了 5817 亿美元把 AI 做得更强，却越来越不愿意告诉社会：这些模型用什么数据训练、用了多少算力、参数规模多大、训练多长时间、做过哪些安全测试、部署后产生过哪些影响。

Stanford HAI 在研发章节里点名说，OpenAI、Anthropic、Google 等公司的若干资源密集型系统，已经不再披露训练代码、参数量、数据集规模和训练时长。

这不是单纯的商业秘密问题。

当模型只是写诗、画图、聊天时，不透明也许主要影响好奇心。当模型开始参与医疗、金融、教育、代码、招聘、公共服务和国家安全，不透明就会变成制度风险。

你不能一边让模型进入社会关键系统，一边把模型的来龙去脉藏在黑箱里。

当然，公司也有它们的理由：竞争激烈，安全风险真实存在，训练数据涉及版权和合规，模型细节可能被竞争对手利用。完全透明并不现实。

问题是，今天的趋势不是“选择性透明”，而是“能力越强，披露越少”。

这就是很多媒体和行业评论把 2026 版 AI Index 读成“guardrails falling behind”的原因。Unite.AI 的评论把今年的核心悖论概括为：能力以历史速度前进，而治理、评估和理解这些系统的机制正在落后。Awesome Agents 更尖刻，把今年称为“Cash In, Transparency Out”。

钱进来了。

窗帘拉上了。

第四件事：AI 第一次开始在就业数据里留下清晰脚印

AI 会不会抢工作？这个问题已经被讨论太久，以至于听起来像一种背景噪音。

今年 AI Index 让它重新变得具体。

报告显示，美国 22 至 25 岁软件开发者的就业人数自 2024 年以来下降近 20%，而年长开发者的就业人数仍在增长。类似压力也出现在客户服务等高 AI 暴露岗位中。

这里必须谨慎。

不能把每一个岗位变化都简单归因于 AI。宏观经济、疫情后的招聘回调、利率、科技公司降本、外包、行业周期，都会影响年轻人就业。AI Index 本身也不是因果审判书。

但这个数据仍然重要，因为它符合一个越来越清晰的机制：AI 最先压缩的不是所有工作，而是入门环节。

为什么？

因为初级岗位往往承担的是可拆解、可监督、可模板化的任务：写样板代码、整理文档、初步客服、数据清洗、基础测试、简单营销文案。AI 不一定能替代高级工程师、资深客服经理或产品负责人，但它足以让一个团队少招几个新人。

这就是“职业梯子”的问题。

如果 AI 吃掉的是第一阶台阶，年轻人怎么爬到第二阶？如果企业只保留能判断 AI 输出质量的资深员工，未来的资深员工从哪里来？

今年社区反应里，“junior dev jobs down 20%”成为最容易传播的标题之一。Reddit、开发者社区和招聘博客都抓住这件事不放。有人认为这是 AI 替代的第一批证据；也有人反驳说，很多所谓 AI 裁员其实是疫情后科技泡沫回调。更务实的声音则说：不管原因比例如何，初级岗位正在变少，而“会使用 AI”不再是加分项，是入场券。

这正是 2026 版报告最冷的地方。

它没有宣布“工作末日”。它只是把一行就业曲线放在那里。

曲线自己说话。

第五件事：采用速度比互联网快，信任却没有跟上

生成式 AI 在三年内达到 53% 人口采用率，速度快过个人电脑和互联网。组织采用率达到 88%。70% 的组织至少在一个业务功能中使用生成式 AI。美国高中生和大学生中，超过 80% 已经把 AI 用于学习任务。

这是一场几乎无声的普及。

不是每个人都说自己在“使用 AI”。很多人只是打开搜索、邮件、办公软件、代码编辑器、相册、学习平台、医疗问答，AI 就已经在那里了。

但使用不等于信任。

公众意见章节里，全球认为 AI 产品和服务利大于弊的人从 2024 年的 55% 上升到 2025 年的 59%；与此同时，表示对 AI 感到紧张的人也上升到 52%。

这不是矛盾。

这是现代人面对强技术的典型状态：离不开，也放心不下。

更大的裂缝出现在专家和公众之间。关于 AI 对工作方式的影响，73% 的 AI 专家预期是正面的，而美国公众只有 23% 这么认为，相差 50 个百分点。关于经济和医疗，也有类似鸿沟。

美国人对本国政府监管 AI 的信任度只有 31%，在调查国家中最低；相对而言，欧盟被认为比美国和中国更值得信任。

这对政策制定者是很重的信号。

技术专家常常以为，公众不信任 AI 是因为不了解；但从这些数据看，公众也许不是不了解，而是太了解自己在风险分配中的位置。

专家看到的是生产率、科学突破、医疗辅助、知识民主化。普通人看到的是招聘筛选、岗位减少、学生作弊、深伪诈骗、隐私泄漏、平台垄断和政府无力监管。

所以信任危机不是宣传问题，而是分配问题。

谁得到好处？谁承担风险？谁拥有解释权？谁有申诉渠道？谁能退出系统？

这些问题不回答，AI 越普及，信任反而越脆。

第六件事：AI 科学家来了，但还不是爱因斯坦

2026 版新增加了 Science 章节，这很有象征意义。

AI 不再只是帮助人写论文、画图、查文献，而是开始进入科学发现本身。2025 年，自然科学领域 AI 相关出版物约 80150 篇，比 2024 年增长 26%。在不同学科中，AI 已占科学研究产出的 5.8% 至 8.8%，而 2010 年还不到 1%。

天文学出现第一个 foundation model。Aardvark Weather 用单一机器学习系统替代传统天气预测流水线的一部分。FourCastNet 3 可以在 4 分钟内生成 60 天全球预报，比既有方法快 8 到 60 倍。Sakana 的 AI Scientist-v2 生成论文并被 ICLR workshop 接收。Google 的 AI Co-Scientist 在三个生物医学方向得到验证。

这听起来像科幻。

但报告马上又把读者拉回地面：在 PaperArena 上，最好的 AI agent 准确率约 38.8%，PhD 专家基线是 83.5%；在真实生物信息分析的 BixBench 上，前沿模型准确率约 17%；在天体物理论文复现实验上，模型得分低于 20%。

这不是“AI 科学家已经取代人类科学家”。

更像“AI 实验员开始进入实验室，但它还需要导师盯着”。

医疗章节也有类似双重性。AI 临床笔记工具在 2025 年广泛采用，医生写病历时间最高减少 83%，有医院系统报告 112% 投资回报率。FDA 在 2025 年授权 258 个 AI 医疗设备。

但另一面，很多医疗 AI 研究仍依赖考试式问题，而非真实患者数据；获批设备大多通过不要求新临床试验的路径进入市场，只有很小比例有随机试验数据支撑。

AI 在科学和医疗里的真正价值，可能不是替代科学判断，而是把搜索空间打开，把重复劳动压缩，把假设生成、文献扫描、数据预处理和实验设计变得更快。

但科学的最后一公里仍然是验证。

自然不会因为模型说得漂亮就改变自己的规律。

第七件事：教育系统站在黑板前发愣

教育章节也很像一面镜子。

四分之五的美国高中生和大学生使用 AI 做学习任务；但只有一半中学有 AI 政策，只有 6% 的教师认为这些政策清晰。

这几乎是所有教育系统的缩影：学生已经在用，老师还在等文件；工具已经进了书包，制度还停在会议室。

更微妙的是，2024 至 2025 年，美国四年制大学计算机科学 enrollment 下降 11%，但 AI 相关研究生项目继续增长。AI 软件相关硕士毕业生从 2023 到 2024 年增长 17%。

这像一种重新分流。

“学计算机”这个大筐正在降温，但“学 AI”这个具体方向仍然升温。年轻人不是不想进入技术行业，而是在试图重新判断哪条路还能通向未来。

中国和阿联酋从 2025-2026 学年开始推动 AI 教育进入国家课程，也说明 AI literacy 正在从选修课变成基础能力。问题是，大多数国家仍然缺少足够教师、教材、评估方法和伦理框架。

教育系统最怕的不是学生用 AI 写作业。

最怕的是，学校还在训练学生完成可以被 AI 轻易替代的任务，却没有训练他们提出问题、判断证据、组织项目、理解系统、审查输出和承担责任。

如果考试仍在考“你能不能产出标准答案”，学生当然会把标准答案交给机器。

第八件事：AI 主权成为国家的新语法

政策章节的关键词是 AI sovereignty。

这不是一个空洞概念。它背后有四件事：文化自主、国家安全、经济竞争力和监管能力。一个国家如果没有自己的算力、模型、数据治理、人才和应用生态，就很难真正决定 AI 如何进入本国社会。

报告显示，国家 AI 战略扩张最快的，是五年前还没有正式 AI 政策的国家。2018 至 2025 年，欧洲和中亚的国家支持 AI 超算集群从 3 个增加到 44 个。数据本地化政策也在扩散，东亚与太平洋地区到 2024 年已有 77 项相关措施，撒哈拉以南非洲 71 项，欧洲与中亚 66 项，而北美只有 3 项。

这说明世界正在分成不同的 AI 治理地貌。

美国更像市场驱动的超级平台体系。欧洲强调规则、隐私和合规。中国强调产业动员、应用规模和供应链安全。中东、东南亚、拉美、非洲则在寻找属于自己的参与方式：买算力、建数据中心、引模型、做本地语言、制定主权战略。

开源模型在这里扮演了特殊角色。

它让更多国家和企业不必完全依赖少数美国闭源平台。但开源也不是免费的乌托邦。模型开放以后，安全责任、误用治理、下游微调、许可证执行、数据来源和本地合规都会变得更复杂。

AI 主权的真正问题不是“每个国家都训练一个最强模型”。

而是每个社会能否拥有足够的理解、选择和制衡能力，不至于在未来二十年把关键基础设施交给自己无法审计的黑箱。

各界反应：同一份报告，三种焦虑

这份报告发布后，反应大致分成三类。

第一类是媒体和政策观察者的焦虑：能力太快，护栏太慢。Stanford HAI 自己的解读强调，AI 的突破能力伴随环境成本、透明度下降和年轻劳动者受冲击。Unite.AI 将其描述为“field racing ahead of its guardrails”。这种读法抓住了报告最宏观的悖论。

第二类是企业和数据团队的焦虑：AI 已经普及，但治理、质量和责任没有准备好。很多企业评论把 88% 组织采用率、幻觉风险、透明度下降、责任 AI 预算不足放在一起看，结论很实际：AI 不是能不能用的问题，而是能不能审计、能不能追责、能不能被纳入流程的问题。

第三类是社区和从业者的焦虑：工作和信任。Reddit、开发者社区、招聘博客最爱传播的是三组数字：初级软件开发者就业下降近 20%，Foundation Model Transparency Index 从 58 跌到 40，中美模型性能差距缩到 2.7%。这三个数字很容易变成标题，因为它们分别戳中个人饭碗、公共监督和地缘竞争。

有趣的是，社区里也有很多怀疑论声音。

有人提醒，初级岗位下降不能全算在 AI 头上；有人认为 benchmark 越来越容易被刷榜和污染；有人指出报告是“数据集合”而不是最终判决；也有人对二手解读不耐烦，直接要求贴斯坦福官方链接。

这种反应本身很说明问题。

AI 社会已经不缺观点。

缺的是可信的共同事实。

这也是 AI Index 的价值。它不一定给出答案，但它提供一张桌子，让乐观者、怀疑者、企业、政府、学生、工程师和普通劳动者至少能围着同一组数字争论。

最后的问题：谁来读懂这张账单？

2026 版 AI Index 最像什么？

我觉得它不像成绩单，更像电表、水表、工资单和病历本叠在一起。

成绩单告诉你模型考了多少分。电表告诉你数据中心消耗了多少能源。水表告诉你推理服务背后的冷却代价。工资单告诉你年轻软件开发者的岗位曲线。病历本告诉你公众信任、透明度和治理能力正在出现慢性炎症。

过去十年，AI 的主要叙事是能力。谁更聪明，谁更便宜，谁更快，谁更像人。

接下来十年，AI 的主要叙事会变成制度。谁能审计，谁能验证，谁能分配收益，谁能保护弱者，谁能解释错误，谁能在开放与安全之间找到可持续边界。

AI Index 2026 的真正警告，不是 AI 太强。

而是我们太习惯把“更强”当成唯一答案。

技术的进步像潮水一样涌来。它会推高船，也会淹没低处的房子。站在 2026 年的岸边，我们第一次看见潮线画得如此清楚：模型在前面奔跑，社会在后面追赶，制度在更远处喘气。

问题不是潮水会不会来。

问题是，我们准备把城市建在哪里。

参考资料与延伸阅读：

Stanford HAI：《The 2026 AI Index Report》官方页面，https://hai.stanford.edu/ai-index/2026-ai-index-report
Stanford HAI：《Inside the AI Index: 12 Takeaways from the 2026 Report》，https://hai.stanford.edu/news/inside-the-ai-index-12-takeaways-from-the-2026-report
Stanford HAI：2026 AI Index Research and Development 章节，https://hai.stanford.edu/ai-index/2026-ai-index-report/research-and-development
Stanford HAI：2026 AI Index Technical Performance 章节，https://hai.stanford.edu/ai-index/2026-ai-index-report/technical-performance
Stanford HAI：2026 AI Index Responsible AI 章节，https://hai.stanford.edu/ai-index/2026-ai-index-report/responsible-ai
Stanford HAI：2026 AI Index Economy 章节，https://hai.stanford.edu/ai-index/2026-ai-index-report/economy
Stanford HAI：2026 AI Index Science 章节，https://hai.stanford.edu/ai-index/2026-ai-index-report/science
Stanford HAI：2026 AI Index Medicine 章节，https://hai.stanford.edu/ai-index/2026-ai-index-report/medicine
Stanford HAI：2026 AI Index Education 章节，https://hai.stanford.edu/ai-index/2026-ai-index-report/education
Stanford HAI：2026 AI Index Policy and Governance 章节，https://hai.stanford.edu/ai-index/2026-ai-index-report/policy-and-governance
Stanford HAI：2026 AI Index Public Opinion 章节，https://hai.stanford.edu/ai-index/2026-ai-index-report/public-opinion
Stanford HAI：《The 2025 AI Index Report》官方页面，https://hai.stanford.edu/ai-index/2025-ai-index-report
Stanford HAI：《AI Index 2025: State of AI in 10 Charts》，https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts
Unite.AI：《Stanford AI Index 2026 Reveals a Field Racing Ahead of Its Guardrails》，https://www.unite.ai/stanford-ai-index-2026-reveals-a-field-racing-ahead-of-its-guardrails/
Awesome Agents：《Stanford 2026 AI Index – Cash In, Transparency Out》，https://awesomeagents.ai/news/stanford-ai-index-2026/
Reddit r/artificial 关于 2026 AI Index 的讨论，https://www.reddit.com/r/artificial/comments/1skuh7v/title_stanford_hai_2026_ai_index_china_erases_us/

Let's Make AGI Real

留下评论取消回复