第三章 风暴降临:AI如何重塑“开放”并引发全球博弈
如果说开放运动的内在矛盾是其“慢性病”,那么人工智能的崛起则是一场剧烈的“急性冲击”。它不仅加剧了原有的困境,更从定义、数据基础到监管环境,全面重塑了开放运动的格局,引发了一场全球性的博弈与反思。
定义之争:“开放洗白”与AI开放的光谱
在AI时代,“开放”一词的含义正变得前所未有的模糊与复杂。严格意义上的“开源AI”(Open Source AI)要求发布复现一个AI系统所需的所有组件,包括模型权重、训练代码和至关重要的训练数据。然而,当前市场上的主流实践是发布“开放权重模型”(Open Weights),即只公开模型参数,但对训练数据和代码保密或施加严格限制。
许多商业实体利用这种模糊性进行“开放洗白”(Open-Washing),将其仅开放权重的模型宣传为“开源”,意在享受开源社区的品牌声誉和开发者生态红利,同时通过限制性许可证维持其商业护城河。
Meta公司的Llama系列模型便是典型案例。其许可证明确禁止月活跃用户超过7亿的服务商使用,并限制其用于改进竞争模型,这直接违反了《开源定义》中关于“不得歧视任何个人或团体”和“不得限制任何应用领域”的核心原则,因此不被OSI和FSF认可为开源。与此形成鲜明对比的是,艾伦人工智能研究所(AI2)的OLMo模型,提供了复现研究的全部组件,被视为真正开源AI的典范。这种复杂的局面表明,“开放AI”已不是一个非黑即白的概念,而是一个充满了商业算计和战略博弈的复杂光谱。
表1:主流“开放”大语言模型开放程度对比
| 模型 | 开发者 | 权重可用 | 训练代码可用 | 训练数据详情 | 许可证类型 | 是否符合OSI定义 | 关键限制 | |
| Llama 3.1 | Meta | 是 | 是 | 详细摘要 | Llama 3.1社区许可证 | 否 | 禁止月活用户超7亿的服务使用;禁止用于改进竞争模型 | |
| Mistral 7B | Mistral AI | 是 | 是 | 未提供 | Apache 2.0 | 是 | 无 | |
| OLMo | Allen Institute for AI (AI2) | 是 | 是 | 完整数据集 | Apache 2.0 | 是 | 无 | |
| DBRX | Databricks/MosaicML | 是 | 是 | 详细摘要 | Databricks开放模型许可证 | 否 | 包含使用限制条款,需遵守可接受使用政策 | |
| DeepSeek V3 | DeepSeek | 是 | 是 | 详细摘要 | 定制许可证 | 否 (模型) | 模型许可证包含使用限制,禁止用于非法或有害活动 | |
| Qwen2 | Alibaba Cloud | 是 | 是 | 未提供 | Apache 2.0 | 是 | 无 | |
数据危机:AI训练的“原罪”
AI模型的智能根植于其训练数据,而当前主流模型的数据来源——大规模、未经授权的网络抓取——正引发一场深刻的法律与伦理危机,堪称AI的“原罪”。
在版权层面,《纽约时报》诉OpenAI案、Getty Images诉Stability AI案等标志性诉讼的核心争议在于:AI公司将受版权保护的作品用于模型训练,究竟是构成“合理使用”(Fair Use)的“变革性”使用,还是大规模的版权侵权?。内容创作者认为AI生成的输出直接与其作品在市场上竞争,损害了其商业利益,而AI开发者则主张其创造了新的工具,并非简单复制。
在伦理与安全层面,数据来源的问题更为严峻。被广泛用于训练图像生成模型的LAION-5B数据集,被发现包含大量儿童性虐待材料(CSAM)、未经同意泄露的个人医疗照片以及受版权保护的艺术作品,暴露了无监管数据抓取的灾难性后果。AI训练数据的危机,实质上是互联网早期的开放共享文化与既有的知识产权、隐私保护法律体系之间的根本性冲突。
全球博弈:监管分化与中国开源AI的崛起
面对AI带来的挑战,全球主要经济体正各自探索监管路径,形成了碎片化且充满不确定性的法律环境。欧盟的《AI法案》是全球首个全面性法规,它采取基于风险的等级化管理,但其对开源AI的规定尤为复杂。法案为开源AI提供了有限的豁免,但最关键的是,任何豁免都不适用于被认定具有“系统性风险”的模型(例如训练算力超过 $10^{25}$ FLOPs的模型),这为强大的开源AI开发者带来了一个合规悖论。与欧盟的强制立法不同,美国采取了以NIST《AI风险管理框架》为代表的自愿性框架,为所有AI系统提供统一的最佳实践指南,不为开源设立特殊规则。中国的监管框架则更具针对性,其监管对象是向公众提供服务的“服务提供者”,无论其底层模型是否开源,都要求对数据来源合法性、内容审核等承担严格责任。
表2:全球主要经济体对开源AI的监管框架对比
| 司法管辖区 | 方法 | 开源定义/处理方式 | 对系统性/高风险系统的处理 | 对开发者的关键义务 |
| 欧盟《AI法案》 | 具约束力的法规 | 提供有限豁免,但对具有“系统性风险”的模型不适用。 | 施加最严格的义务,如模型评估、风险缓解、事件报告。 | 遵守版权法,发布训练数据摘要,进行风险评估。 |
| 美国NIST AI RMF | 自愿性框架 | 不区分开源与闭源,提供统一的风险管理最佳实践。 | 风险评估应与潜在影响相称,但无强制性法律等级。 | 建议进行治理、测绘、测量和管理。 |
| 中国生成式AI规定 | 针对性法规 | 监管对象是“服务提供者”,不区分底层模型是否开源。 | 强调内容安全和数据来源合法性,对所有面向公众的服务一视同仁。 | 内容审核,数据来源合法性审查,AI生成内容标识。 |
在这场全球博弈中,以中国的DeepSeek和阿里巴巴的Qwen(通义千问)系列为代表的新兴力量,正通过高度开放的策略迅速构建全球开发者生态。面对美国在先进AI芯片上的出口管制,开源成为一种利用全球社区力量来测试、改进和优化技术的有效突围方式。通过发布大量采用MIT、Apache 2.0等宽松许可证的模型,这些公司不仅在性能上迅速追赶西方领先模型,更以此作为吸引顶尖人才和构建生态系统的核心战略,预示着全球AI市场的竞争将不再仅仅是闭源生态系统之间的较量,更是开放生态系统之间的全面竞争。

留下评论