
那天,报告像一张体检单
2026 年 4 月 13 日,加州斯坦福。
Stanford HAI 把第九版《AI Index Report》放到了网上。400 多页,九个章节,像一张铺开的全球 AI 体检单:模型、算力、投资、岗位、教育、医疗、政策、公众情绪,逐项检查。
如果只看封面,它仍然是那种学术机构每年都会发布的年度报告,排版克制,语气平稳,数据密密麻麻。
但今年的内容不平稳。
它更像医生把片子递给你,声音很轻地说:身体确实更强壮了,肌肉长得很快,反应速度也更快。只是血压、心率、睡眠、代谢和心理状态,都有点不对劲。
这就是 2026 版 AI Index 的核心矛盾:AI 的能力没有平台期,社会的适应能力却出现了平台期。
过去几年,我们习惯用一句话概括 AI 年报:模型又强了,钱又多了,监管又慢了。
今年不一样。今年的报告第一次让人清楚感觉到,AI 已经不只是技术曲线上的一点变化,而是开始改写经济、教育、地缘竞争和公共信任的底层结构。它不是一个行业的年度总结。
它像一个时代的账本。
2017 年的望远镜
AI Index 从 2017 年开始做。那时,AI 还主要被放在学术论文、ImageNet、语音识别、自动驾驶测试车和少数产业应用里讨论。斯坦福当年的叙事很朴素:这个领域太快、太复杂,连专家都难以追踪,所以需要一套相对可靠的仪表盘。
这是一个很有意思的起点。
2017 年,人们关心的是“AI 到底有没有进步”。2021 年,人们关心的是“大模型到底是不是新范式”。2023 年以后,人们开始问:“它会不会改变我的工作、我的学校、我的公司、我的国家?”
到了 2025 年,AI Index 的关键词已经变成“成熟”:小模型变强,推理成本下降,企业采用率上升,中美模型差距缩小,AI 医疗设备越来越多,AI 相关事故也越来越多。
2025 版有一种“基础设施正在铺开”的味道。它告诉我们,AI 正从实验室走进日常生活。
而 2026 版的语气明显更紧。
不是“AI 进入生活”。
而是“AI 已经坐进驾驶室,但安全带、交通规则和保险制度还没来得及更新”。
这个变化,才是今年最值得读的地方。
第一件事:能力没有停,反而更快了
过去一年,AI 圈里有一种反复出现的怀疑:大模型是不是撞墙了?Scaling law 是不是失效了?闭源巨头烧了这么多钱,回报是不是越来越小?
Stanford HAI 的回答很直接:没有。
报告的第一条 takeaway 就说,AI capability is not plateauing。能力没有停滞,而是在加速,并且触达更多人。
几个数字足够刺眼。
SWE-bench Verified 这种接近真实 GitHub issue 的代码评测,顶尖模型表现从约 60% 冲到接近 100%。OSWorld 这类测试智能体操作电脑完成任务的基准,从大约 12% 提升到 66.3%。Terminal-Bench 的任务成功率也从 2025 年的 20% 提升到 77.3%。
数学上,Gemini Deep Think 在 2025 年国际数学奥林匹克竞赛中拿到金牌水平成绩。科学问答、竞赛数学、多模态推理,一批前沿模型已经达到或超过人类基线。
如果把 2024 年看作“AI 开始像一个会写作、会编程、会看图的聪明助手”,那么 2025-2026 年的变化更接近另一件事:它开始像一个能在电脑里做事的初级员工。
这也是为什么“agent”在今年变得如此重要。
过去的模型回答问题。现在的模型打开文件、调用工具、执行命令、写代码、修 bug、查网页、做表格、生成报告。它的价值不再只取决于单题正确率,而取决于能否在一连串混乱任务中保持方向。
但 AI Index 同时给了一个非常讽刺的镜头:同一个模型能拿数学奥赛金牌,却不能可靠地读懂指针时钟。ClockBench 上,顶尖模型读模拟时钟的正确率大约 50.6%,人类约 90.1%。
这不是笑话。
这是“jagged intelligence”,锯齿状智能。山峰很高,沟壑也很深。它像一座城市,金融区已经摩天楼林立,隔壁街区却还没有铺好下水道。
所以今年的能力故事不能简单写成“AI 接近人类”。更准确的说法是:AI 正在若干高价值任务上突然越过门槛,同时在一些人类觉得低级的常识任务上继续绊倒。
这对企业很重要。因为真实世界不是 benchmark。真实世界里,金牌数学能力和不会看钟的缺陷,可能出现在同一个工作流里。
第二件事:中美差距从“追赶”变成“互换领先”
2025 版 AI Index 说,中国模型正在快速缩小与美国模型的性能差距。那时,这句话还带着“追赶者”的语气。
2026 版则几乎换了一个句式:美国和中国模型从 2025 年初开始多次交换领先位置。2025 年 2 月,DeepSeek-R1 一度追平美国顶尖模型;到 2026 年 3 月,美国顶尖模型只领先中国顶尖模型 2.7%。
这不是小修小补。
它意味着全球 AI 竞争的心理结构变了。
美国仍然领先很多东西:顶级模型数量更多,2025 年美国机构产出 59 个 notable models,中国为 35 个;美国私人 AI 投资达到 2859 亿美元,是中国 124 亿美元的 23 倍以上;美国仍拥有更强的云、芯片、平台和资本市场。
但中国也领先很多东西:论文数量、引用、专利产出、工业机器人安装量。中国在 AI 研究与工程化扩散上的体量,已经让“美国单极领先”这个旧叙事很难成立。
这里最有戏剧性的数字,不是 2.7%,而是另一条:进入美国的 AI 研究者和开发者数量自 2017 年以来下降 89%,仅过去一年就下降 80%。
这像一条很细的裂缝。
短期看,美国有钱、有模型、有数据中心、有平台。长期看,如果全球人才流动的方向发生改变,领先优势会从“不可撼动”变成“需要持续维护”。
AI 竞争已经不是谁发一个模型更强,而是谁能把人才、算力、数据、能源、资本、政策和市场组织成长期系统。
2026 版 AI Index 的中美故事,像是给旧地图重新画边界:美国仍在山顶,但中国已经不是山脚下的追赶者,而是在另一条山脊上同步攀登。
第三件事:钱多到像潮水,透明度却像退潮
2025 年,全球企业 AI 投资达到 5817 亿美元,比上一年增长 130%。私人投资达到 3447 亿美元,增长 127.5%。生成式 AI 吸走了近一半私人 AI 资金。
这是潮水。
潮水涌向模型公司、云厂商、芯片公司、数据中心、应用公司。Google 2025 年资本开支超过 1500 亿美元。美国私人 AI 投资 2859 亿美元,继续遥遥领先。
但同时,另一个指标在下降:Foundation Model Transparency Index 从 2024 年的 58 分跌到 2025 年的 40 分。
这几乎是今年报告最刺人的反差。
行业花了 5817 亿美元把 AI 做得更强,却越来越不愿意告诉社会:这些模型用什么数据训练、用了多少算力、参数规模多大、训练多长时间、做过哪些安全测试、部署后产生过哪些影响。
Stanford HAI 在研发章节里点名说,OpenAI、Anthropic、Google 等公司的若干资源密集型系统,已经不再披露训练代码、参数量、数据集规模和训练时长。
这不是单纯的商业秘密问题。
当模型只是写诗、画图、聊天时,不透明也许主要影响好奇心。当模型开始参与医疗、金融、教育、代码、招聘、公共服务和国家安全,不透明就会变成制度风险。
你不能一边让模型进入社会关键系统,一边把模型的来龙去脉藏在黑箱里。
当然,公司也有它们的理由:竞争激烈,安全风险真实存在,训练数据涉及版权和合规,模型细节可能被竞争对手利用。完全透明并不现实。
问题是,今天的趋势不是“选择性透明”,而是“能力越强,披露越少”。
这就是很多媒体和行业评论把 2026 版 AI Index 读成“guardrails falling behind”的原因。Unite.AI 的评论把今年的核心悖论概括为:能力以历史速度前进,而治理、评估和理解这些系统的机制正在落后。Awesome Agents 更尖刻,把今年称为“Cash In, Transparency Out”。
钱进来了。
窗帘拉上了。
第四件事:AI 第一次开始在就业数据里留下清晰脚印
AI 会不会抢工作?这个问题已经被讨论太久,以至于听起来像一种背景噪音。
今年 AI Index 让它重新变得具体。
报告显示,美国 22 至 25 岁软件开发者的就业人数自 2024 年以来下降近 20%,而年长开发者的就业人数仍在增长。类似压力也出现在客户服务等高 AI 暴露岗位中。
这里必须谨慎。
不能把每一个岗位变化都简单归因于 AI。宏观经济、疫情后的招聘回调、利率、科技公司降本、外包、行业周期,都会影响年轻人就业。AI Index 本身也不是因果审判书。
但这个数据仍然重要,因为它符合一个越来越清晰的机制:AI 最先压缩的不是所有工作,而是入门环节。
为什么?
因为初级岗位往往承担的是可拆解、可监督、可模板化的任务:写样板代码、整理文档、初步客服、数据清洗、基础测试、简单营销文案。AI 不一定能替代高级工程师、资深客服经理或产品负责人,但它足以让一个团队少招几个新人。
这就是“职业梯子”的问题。
如果 AI 吃掉的是第一阶台阶,年轻人怎么爬到第二阶?如果企业只保留能判断 AI 输出质量的资深员工,未来的资深员工从哪里来?
今年社区反应里,“junior dev jobs down 20%”成为最容易传播的标题之一。Reddit、开发者社区和招聘博客都抓住这件事不放。有人认为这是 AI 替代的第一批证据;也有人反驳说,很多所谓 AI 裁员其实是疫情后科技泡沫回调。更务实的声音则说:不管原因比例如何,初级岗位正在变少,而“会使用 AI”不再是加分项,是入场券。
这正是 2026 版报告最冷的地方。
它没有宣布“工作末日”。它只是把一行就业曲线放在那里。
曲线自己说话。
第五件事:采用速度比互联网快,信任却没有跟上
生成式 AI 在三年内达到 53% 人口采用率,速度快过个人电脑和互联网。组织采用率达到 88%。70% 的组织至少在一个业务功能中使用生成式 AI。美国高中生和大学生中,超过 80% 已经把 AI 用于学习任务。
这是一场几乎无声的普及。
不是每个人都说自己在“使用 AI”。很多人只是打开搜索、邮件、办公软件、代码编辑器、相册、学习平台、医疗问答,AI 就已经在那里了。
但使用不等于信任。
公众意见章节里,全球认为 AI 产品和服务利大于弊的人从 2024 年的 55% 上升到 2025 年的 59%;与此同时,表示对 AI 感到紧张的人也上升到 52%。
这不是矛盾。
这是现代人面对强技术的典型状态:离不开,也放心不下。
更大的裂缝出现在专家和公众之间。关于 AI 对工作方式的影响,73% 的 AI 专家预期是正面的,而美国公众只有 23% 这么认为,相差 50 个百分点。关于经济和医疗,也有类似鸿沟。
美国人对本国政府监管 AI 的信任度只有 31%,在调查国家中最低;相对而言,欧盟被认为比美国和中国更值得信任。
这对政策制定者是很重的信号。
技术专家常常以为,公众不信任 AI 是因为不了解;但从这些数据看,公众也许不是不了解,而是太了解自己在风险分配中的位置。
专家看到的是生产率、科学突破、医疗辅助、知识民主化。普通人看到的是招聘筛选、岗位减少、学生作弊、深伪诈骗、隐私泄漏、平台垄断和政府无力监管。
所以信任危机不是宣传问题,而是分配问题。
谁得到好处?谁承担风险?谁拥有解释权?谁有申诉渠道?谁能退出系统?
这些问题不回答,AI 越普及,信任反而越脆。
第六件事:AI 科学家来了,但还不是爱因斯坦
2026 版新增加了 Science 章节,这很有象征意义。
AI 不再只是帮助人写论文、画图、查文献,而是开始进入科学发现本身。2025 年,自然科学领域 AI 相关出版物约 80150 篇,比 2024 年增长 26%。在不同学科中,AI 已占科学研究产出的 5.8% 至 8.8%,而 2010 年还不到 1%。
天文学出现第一个 foundation model。Aardvark Weather 用单一机器学习系统替代传统天气预测流水线的一部分。FourCastNet 3 可以在 4 分钟内生成 60 天全球预报,比既有方法快 8 到 60 倍。Sakana 的 AI Scientist-v2 生成论文并被 ICLR workshop 接收。Google 的 AI Co-Scientist 在三个生物医学方向得到验证。
这听起来像科幻。
但报告马上又把读者拉回地面:在 PaperArena 上,最好的 AI agent 准确率约 38.8%,PhD 专家基线是 83.5%;在真实生物信息分析的 BixBench 上,前沿模型准确率约 17%;在天体物理论文复现实验上,模型得分低于 20%。
这不是“AI 科学家已经取代人类科学家”。
更像“AI 实验员开始进入实验室,但它还需要导师盯着”。
医疗章节也有类似双重性。AI 临床笔记工具在 2025 年广泛采用,医生写病历时间最高减少 83%,有医院系统报告 112% 投资回报率。FDA 在 2025 年授权 258 个 AI 医疗设备。
但另一面,很多医疗 AI 研究仍依赖考试式问题,而非真实患者数据;获批设备大多通过不要求新临床试验的路径进入市场,只有很小比例有随机试验数据支撑。
AI 在科学和医疗里的真正价值,可能不是替代科学判断,而是把搜索空间打开,把重复劳动压缩,把假设生成、文献扫描、数据预处理和实验设计变得更快。
但科学的最后一公里仍然是验证。
自然不会因为模型说得漂亮就改变自己的规律。
第七件事:教育系统站在黑板前发愣
教育章节也很像一面镜子。
四分之五的美国高中生和大学生使用 AI 做学习任务;但只有一半中学有 AI 政策,只有 6% 的教师认为这些政策清晰。
这几乎是所有教育系统的缩影:学生已经在用,老师还在等文件;工具已经进了书包,制度还停在会议室。
更微妙的是,2024 至 2025 年,美国四年制大学计算机科学 enrollment 下降 11%,但 AI 相关研究生项目继续增长。AI 软件相关硕士毕业生从 2023 到 2024 年增长 17%。
这像一种重新分流。
“学计算机”这个大筐正在降温,但“学 AI”这个具体方向仍然升温。年轻人不是不想进入技术行业,而是在试图重新判断哪条路还能通向未来。
中国和阿联酋从 2025-2026 学年开始推动 AI 教育进入国家课程,也说明 AI literacy 正在从选修课变成基础能力。问题是,大多数国家仍然缺少足够教师、教材、评估方法和伦理框架。
教育系统最怕的不是学生用 AI 写作业。
最怕的是,学校还在训练学生完成可以被 AI 轻易替代的任务,却没有训练他们提出问题、判断证据、组织项目、理解系统、审查输出和承担责任。
如果考试仍在考“你能不能产出标准答案”,学生当然会把标准答案交给机器。
第八件事:AI 主权成为国家的新语法
政策章节的关键词是 AI sovereignty。
这不是一个空洞概念。它背后有四件事:文化自主、国家安全、经济竞争力和监管能力。一个国家如果没有自己的算力、模型、数据治理、人才和应用生态,就很难真正决定 AI 如何进入本国社会。
报告显示,国家 AI 战略扩张最快的,是五年前还没有正式 AI 政策的国家。2018 至 2025 年,欧洲和中亚的国家支持 AI 超算集群从 3 个增加到 44 个。数据本地化政策也在扩散,东亚与太平洋地区到 2024 年已有 77 项相关措施,撒哈拉以南非洲 71 项,欧洲与中亚 66 项,而北美只有 3 项。
这说明世界正在分成不同的 AI 治理地貌。
美国更像市场驱动的超级平台体系。欧洲强调规则、隐私和合规。中国强调产业动员、应用规模和供应链安全。中东、东南亚、拉美、非洲则在寻找属于自己的参与方式:买算力、建数据中心、引模型、做本地语言、制定主权战略。
开源模型在这里扮演了特殊角色。
它让更多国家和企业不必完全依赖少数美国闭源平台。但开源也不是免费的乌托邦。模型开放以后,安全责任、误用治理、下游微调、许可证执行、数据来源和本地合规都会变得更复杂。
AI 主权的真正问题不是“每个国家都训练一个最强模型”。
而是每个社会能否拥有足够的理解、选择和制衡能力,不至于在未来二十年把关键基础设施交给自己无法审计的黑箱。
各界反应:同一份报告,三种焦虑
这份报告发布后,反应大致分成三类。
第一类是媒体和政策观察者的焦虑:能力太快,护栏太慢。Stanford HAI 自己的解读强调,AI 的突破能力伴随环境成本、透明度下降和年轻劳动者受冲击。Unite.AI 将其描述为“field racing ahead of its guardrails”。这种读法抓住了报告最宏观的悖论。
第二类是企业和数据团队的焦虑:AI 已经普及,但治理、质量和责任没有准备好。很多企业评论把 88% 组织采用率、幻觉风险、透明度下降、责任 AI 预算不足放在一起看,结论很实际:AI 不是能不能用的问题,而是能不能审计、能不能追责、能不能被纳入流程的问题。
第三类是社区和从业者的焦虑:工作和信任。Reddit、开发者社区、招聘博客最爱传播的是三组数字:初级软件开发者就业下降近 20%,Foundation Model Transparency Index 从 58 跌到 40,中美模型性能差距缩到 2.7%。这三个数字很容易变成标题,因为它们分别戳中个人饭碗、公共监督和地缘竞争。
有趣的是,社区里也有很多怀疑论声音。
有人提醒,初级岗位下降不能全算在 AI 头上;有人认为 benchmark 越来越容易被刷榜和污染;有人指出报告是“数据集合”而不是最终判决;也有人对二手解读不耐烦,直接要求贴斯坦福官方链接。
这种反应本身很说明问题。
AI 社会已经不缺观点。
缺的是可信的共同事实。
这也是 AI Index 的价值。它不一定给出答案,但它提供一张桌子,让乐观者、怀疑者、企业、政府、学生、工程师和普通劳动者至少能围着同一组数字争论。
最后的问题:谁来读懂这张账单?
2026 版 AI Index 最像什么?
我觉得它不像成绩单,更像电表、水表、工资单和病历本叠在一起。
成绩单告诉你模型考了多少分。电表告诉你数据中心消耗了多少能源。水表告诉你推理服务背后的冷却代价。工资单告诉你年轻软件开发者的岗位曲线。病历本告诉你公众信任、透明度和治理能力正在出现慢性炎症。
过去十年,AI 的主要叙事是能力。谁更聪明,谁更便宜,谁更快,谁更像人。
接下来十年,AI 的主要叙事会变成制度。谁能审计,谁能验证,谁能分配收益,谁能保护弱者,谁能解释错误,谁能在开放与安全之间找到可持续边界。
AI Index 2026 的真正警告,不是 AI 太强。
而是我们太习惯把“更强”当成唯一答案。
技术的进步像潮水一样涌来。它会推高船,也会淹没低处的房子。站在 2026 年的岸边,我们第一次看见潮线画得如此清楚:模型在前面奔跑,社会在后面追赶,制度在更远处喘气。
问题不是潮水会不会来。
问题是,我们准备把城市建在哪里。
参考资料与延伸阅读:
- Stanford HAI:《The 2026 AI Index Report》官方页面,https://hai.stanford.edu/ai-index/2026-ai-index-report
- Stanford HAI:《Inside the AI Index: 12 Takeaways from the 2026 Report》,https://hai.stanford.edu/news/inside-the-ai-index-12-takeaways-from-the-2026-report
- Stanford HAI:2026 AI Index Research and Development 章节,https://hai.stanford.edu/ai-index/2026-ai-index-report/research-and-development
- Stanford HAI:2026 AI Index Technical Performance 章节,https://hai.stanford.edu/ai-index/2026-ai-index-report/technical-performance
- Stanford HAI:2026 AI Index Responsible AI 章节,https://hai.stanford.edu/ai-index/2026-ai-index-report/responsible-ai
- Stanford HAI:2026 AI Index Economy 章节,https://hai.stanford.edu/ai-index/2026-ai-index-report/economy
- Stanford HAI:2026 AI Index Science 章节,https://hai.stanford.edu/ai-index/2026-ai-index-report/science
- Stanford HAI:2026 AI Index Medicine 章节,https://hai.stanford.edu/ai-index/2026-ai-index-report/medicine
- Stanford HAI:2026 AI Index Education 章节,https://hai.stanford.edu/ai-index/2026-ai-index-report/education
- Stanford HAI:2026 AI Index Policy and Governance 章节,https://hai.stanford.edu/ai-index/2026-ai-index-report/policy-and-governance
- Stanford HAI:2026 AI Index Public Opinion 章节,https://hai.stanford.edu/ai-index/2026-ai-index-report/public-opinion
- Stanford HAI:《The 2025 AI Index Report》官方页面,https://hai.stanford.edu/ai-index/2025-ai-index-report
- Stanford HAI:《AI Index 2025: State of AI in 10 Charts》,https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts
- Unite.AI:《Stanford AI Index 2026 Reveals a Field Racing Ahead of Its Guardrails》,https://www.unite.ai/stanford-ai-index-2026-reveals-a-field-racing-ahead-of-its-guardrails/
- Awesome Agents:《Stanford 2026 AI Index – Cash In, Transparency Out》,https://awesomeagents.ai/news/stanford-ai-index-2026/
- Reddit r/artificial 关于 2026 AI Index 的讨论,https://www.reddit.com/r/artificial/comments/1skuh7v/title_stanford_hai_2026_ai_index_china_erases_us/

留下评论