去中心化AI的视角:挑战、机遇与未来(MIT NANDA观点报告解读)

 

当前人工智能(AI)领域的进步主要由少数几家大型组织主导,这些组织拥有集中的数据和计算资源。然而,随着AI技术逐渐深入医疗保健、金融、供应链和智慧城市等真实世界的行业,这种中心化的方法面临着多项重大挑战。MIT媒体实验室专门启动了项目NANDA(Networked Agents and Decentralized AI)对此进行研究,本报告是一份观点报告,详细阐述去中心化AI的必要性、核心原则、面临的挑战、带来的机遇以及潜在的风险,并呼吁研究界共同推动这一领域的发展。

该报告的主要目的是:

  • 概述去中心化人工智能的方法:鉴于目前人工智能的发展主要由少数拥有中心化数据和计算资源的大型组织主导,这导致了机密性、竞争、激励不足和隐私问题等挑战,并最终将大规模人工智能能力集中在少数主要公司手中。
  • 促进不同实体之间的协作:通过激励和数据与计算资源的编排,推动去中心化人工智能,以解决中心化方法面临的这些主要挑战。
  • 阐明去中心化人工智能的优点、用例和挑战:报告详细阐述了去中心化人工智能的优势、其在医疗保健等数据敏感领域的应用案例以及实施过程中遇到的挑战。
  • 提出自我组织框架:报告提出了一个自我组织的视角,并指出实现去中心化实体之间自我组织需要五个关键组成部分,包括隐私、可验证性、激励、编排和群体用户体验(Crowd UX)。
  • 赋能个体、催生创新,并造福社会:报告认为,去中心化人工智能有潜力赋能个人、加速创新,并塑造一个人工智能普惠社会。
  • 呼吁研究界关注开放挑战:特别是在去中心化架构下,将人工智能能力与去中心化系统的优势结合起来,从而开创下一代强大且符合去中心化社会价值观的人工智能系统。

1. 中心化AI范式的困境与去中心化AI的兴起 

1.1 中心化AI面临的问题 

目前,大型组织对AI的集中化控制导致了多方面的问题:

  • 保密性和竞争壁垒:不同实体间的保密性要求和竞争关系阻碍了协作与信任。
  • 数据和计算资源受限:孤立组织缺乏激励机制和对隐私的担忧,限制了数据和计算资源的可用性。
  • 能力集中化:最终导致大规模AI能力集中在少数几家主要AI公司手中。
  • 隐私风险和协作摩擦:大型公司的数据滥用和网络安全漏洞(例如23andMe的数据泄露事件)暴露了集中存储大量敏感个人健康信息的脆弱性。
  • 治理困境:像OpenAI和谷歌这样的大公司在治理决策上难以满足所有利益相关者的需求(例如OpenAI的治理失误 和谷歌AI的偏见问题),将为世界提供AI服务的重担不合理地压在少数人身上。
  • 补偿冲突:针对大型AI公司的诉讼(例如Stable Diffusion 和Github Copilot 的诉讼)凸显了单一实体在未经数据生产者同意的情况下获取价值,引发知识产权和补偿纠纷的问题。
  • 创新摩擦:中心化企业网络为了减少竞争而将用户锁定在其平台内(如Read Write Own 所述),这种做法扼杀了创新,并将权力集中在服务提供商手中。

1.2 推动去中心化AI的近期趋势 

有三项近期机器学习趋势表明,迫切需要向去中心化AI转型:

  • 个人智能体(Personal Agents):基础模型在个性化AI智能体(如助手、副驾驶)方面取得了进展。这些智能体需要安全访问私人用户数据,并全面理解用户偏好。将此类系统扩展到人口级别需要协调数十亿个智能体。因此,需要一个去中心化的框架来实现这一点,同时避免形成一个“监控国家”。
  • AI-PC:集成硬件加速器(GPU和NPU)的AI嵌入式个人电脑(AI-PC)市场正在快速增长。这些系统通过在本地进行模型推理和训练,促进了去中心化计算范式。这种方法带来了低延迟和增强隐私等好处。然而,这种分布式生态系统需要一个编排层来解决协同操作中的同步和协调挑战。
  • 从单一到复合模型(From Monolithic to Polylithic models):机器学习模型的复合系统 和多智能体方法 表明,趋势正从单一、大型的整体模型转向多个协调组件的集成系统。这一趋势凸显了任务复杂性的增加,单一组织无法期望拥有解决复杂问题所需的所有组件。因此,这种转变引入了新的同步和协调挑战。

1.3 去中心化AI的定义与动机 

去中心化AI旨在促进拥有互补资产(如数据和计算能力)的实体之间的协作,而无需中心化监督。它有以下核心动机:

  • 去中心化数据:高质量的训练数据存在于孤立的数据孤岛中(如医院有患者记录、研究实验室有试验数据、个人有健康指标)。这种由隐私担忧和竞争优势驱动的数据碎片化,是AI发展中的一个显著瓶颈,去中心化范式能够解决这一问题。
  • 去中心化计算:大规模训练深度学习模型需要大量的计算资源,这些资源通常集中在少数组织手中。这阻碍了小型实体在相同水平上进行探索和创新的能力。去中心化AI旨在通过由个人设备(手机、笔记本电脑、边缘设备)组成的网络,实现计算资源的民主化。
  • 去中心化协调:去中心化AI还旨在实现去中心化交互。这一点对于防止依赖少数中心组织作为协调者至关重要。我们提出,去中心化AI可以创建一个覆盖网络,类似于万维网在互联网之上运行的方式,以促进个体实体之间的自我协调。

1.4 去中心化AI带来的进步 

去中心化AI将促进以下方面的进步:

  • 对孤立数据的AI应用:医疗保健和气候科学等拥有多个利益相关者和碎片化信息生态系统的行业,可以从去中心化生态系统中受益。例如,在医疗保健领域,跨组织共享数据是一个主要担忧,去中心化AI通过保护数据隐私来激励协作。
  • 协作与负责任的AI:负责任的AI开发需要多个实体在AI系统整个生命周期中确保安全性和可审计性。去中心化生态系统将促进比中心化范式更大的多元性和透明度。通过将责任和控制权分配给多个实体,去中心化AI降低了由于单一组件受损而导致灾难性故障的风险。去中心化AI旨在提高透明度和可验证性,同时不损害知识产权。
  • 激励和参与式AI:去中心化AI可以实现技术效益的更公平分配。其参与式和无需许可的性质使不同背景的个体都能从系统中受益并做出贡献。根据贡献质量奖励参与的激励系统也可以促进更多的协作。
  • 提高资源可及性:去中心化AI使研究人员能够利用海量数据集、计算资源和聚合统计数据,从而实现以前只有大型组织才能进行的大规模实验和假设生成。

1.5 现有相关技术的局限性 

一些现有技术为去中心化AI提供了见解并奠定了基础,但它们自身不足以实现去中心化AI:

  • 联邦学习(FL):虽然FL可以在去中心化数据上进行训练,但它受限于中心化编排、数据与计算所有权之间的耦合以及对模型训练的侧重。去中心化AI需要将去中心化扩展到整个机器学习生命周期,解耦数据和计算所有权,并解决激励、可验证性和归属等问题。
  • Web3:Web3旨在利用区块链推进更去中心化的网络生态系统。然而,区块链未能解决去中心化AI面临的一些问题(主要侧重于加密货币等货币方面)。不过,加密技术,如分布式共识、零知识证明、同态加密和多方计算,对去中心化AI至关重要。
  • 分布式AI:分布式AI已实现跨数据中心高效扩展深度学习工作负载。但这些方法在可信、同步、同构和高性能计算集群中扩展良好。然而,去中心化AI旨在消除这些限制,从而带来独特的挑战。
  • 志愿计算项目:像Folding@home和SETI@home这样的志愿计算项目已将大规模计算任务分配到地理分布的机器上。但它们缺乏复杂的验证和激励措施,并且在科学计算等场景中,隐私要求可能不那么严格。

2. 去中心化AI的五大支柱与挑战 

去中心化AI系统涉及资源有限的多元实体,这些实体必须进行自组织以有效利用资源。在个体及其数据规模上的协调带来了独特的机器学习挑战,需要新型的交互方式。为了应对这些挑战,去中心化AI需要关注以下五个关键问题:隐私(BreachLess)、可验证性(TrustLess)、激励(BrokerLess)、编排(CoordinatorLess)去中心化用户体验(Crowd UX/FrictionLess)

2.1 隐私无泄漏(BreachLess) 

隐私对于从敏感数据中释放价值、同时维护组织边界和用户信任至关重要。去中心化的最终目标是向“无泄露”(Breachless)的未来过渡,隐私得到保证和可证明。

挑战

  • 去中心化数据的安全计算难题:现有安全计算技术(如同态加密和机密计算)可以保护计算过程中的数据隐私,但对去中心化数据的安全计算在实践中仍然不可行。
  • 计算开销和非线性计算:现有同态加密方案显著增加了计算开销,使得实时医疗诊断或金融欺诈检测不切实际。未来的系统需要针对神经网络操作优化新型轻量级加密方法。
  • 多密钥和复杂聚合:对于去中心化数据,不同的数据片段将用不同的密钥加密,使得同时计算变得具有挑战性。分析此类数据需要通过复杂的密码密钥交换和计算开销来聚合输入。
  • 多方动态:当机器学习模型的输出依赖于其他用户的数据时(例如在健康图谱中对治疗-结果图谱进行计算),加密输入的答案也取决于图谱中的其他加密输入。当前的安全计算范式尚未充分关注这种多方动态。

2.2 可验证性(TrustLess) 

可验证性对于无需许可和私密的去中心化系统至关重要,并能提供针对恶意行为者的保护和鲁棒性。在隐私保护下,这个问题尤其具有挑战性:匿名性使得恶意行为者能够在不承担责任的情况下毒害系统。

挑战

  • 恶意攻击者:在模型训练 和聚合 过程中,已知的几种攻击威胁着本地数据贡献的隐私 和成员身份。在没有中央监督机构的去中心化环境中,这些问题更具挑战性。恶意行为者可能执行模型反演攻击,重建训练数据并泄露敏感信息,或篡改模型,引入后门功能或破坏其他客户端的更新。
  • 搭便车者(Free riders):客户端可能试图在不做出贡献的情况下从去中心化AI生态系统中受益。为了缓解这一点,系统必须实施贡献验证协议,使用零知识证明等技术来检测和惩罚搭便车行为,同时不损害隐私。
  • 贡献者验证:可以借鉴物联网(IoT)中的信任管理系统 和区块链系统 来增强参与者之间的可靠交互。现有的基于证明的算法 需要参与者提供算法可验证的贡献机制。声誉机制可以跟踪用户的动态分数,以识别恶意参与者。基于区块链的声誉系统 也可能有助于确保模型完整性和检测恶意行为。
  • 贡献追踪:开发一种去中心化同意机制对于实现跨图谱中多个节点的资产追踪和路由至关重要。该机制应赋予参与者对其数据的控制权,包括“被遗忘权”,这可以包括机器学习遗忘(machine unlearning)的验证,确保参与者可以撤销其贡献。

2.3 去中介化(BrokerLess) 

去中心化的主要目标是促进拥有不同资产和目标的实体之间的协作。必须开发公平透明的激励机制,以鼓励用户参与。我们设想一个“无中介”(Brokerless)系统。

挑战

  • 数据市场:在数据私有、有限或受限的领域(如医疗保健)实现AI影响,需要更大的数据访问权限。去中心化数据市场可以解决当前中心化数据经济中潜在的权力不平衡,如隐私侵蚀和缺乏同意。
  • 数据估值:关键挑战是开发通用的估值指标,以评估数据的重要性。这些指标必须考虑数据的独特性和跨领域/任务适用性,同时要抵制操纵。在去中心化、双边市场中,需要联邦和隐私保护策略来匹配买家和卖家,并定价数据。
  • 隐私、安全与效率:新的数据发现和估值操作不能假设对卖家数据有“白盒”访问权限,因为数据很容易被复制(参见阿罗信息悖论)。现有的数据估值方法(如数据沙普利值)计算成本高昂。新的去中心化估值算法必须可扩展且计算成本低廉。
  • 去中心化数据治理:这需要管理分布式数据所有者之间的控制和同意。个体所有者通常没有时间、精力或资源与买家进行谈判。新的治理模型,如去中心化自治组织(DAO)、数据合作社和数据联盟,可以提供集体监督和管理机制。
  • 同意机制:上述治理机构还可以协助教育成员数据权利和管理同意与访问。例如,元同意机制可以允许细粒度控制,通过为不同情境指定偏好,避免每次二次使用都需要获得同意。患者应该能够退出谈判单位并带走他们的数据,同时理想情况下可以自由选择最符合其利益的数据集体。

2.4 编排(CoordinatorLess) 

编排对于实现拥有独特资产和目标的实体之间的协调至关重要。去中心化AI的一个关键困境是在没有中心化协调者的情况下进行编排。我们设想一个“无协调者”(Coordinatorless)系统,其中个人和组织网络可以自主地自组织和连接,类似于去中心化联邦学习(P2P联邦学习)。

挑战

  • 数据异构性:协作面临一个主要挑战:数据在分布、规模和特征方面各不相同,导致信息聚合面临挑战。现有联邦学习在异构数据(即非独立同分布)下收敛缓慢且性能不佳。需要分布式编排协议根据数据相似性、计算资源和网络条件动态形成训练集群。
  • 模型异构性:在去中心化设置中,由于计算和带宽能力的不同,模型架构存在显著异构性。去中心化AI平台应适应这种多样性,而不是强制标准化。需要开发更具适应性的聚合技术,以实现大规模自定义模型之间的互操作性。
  • 协作者选择:当前系统主要依赖随机通信,但这在数据分布异构的情况下表现不佳。在去中心化系统中,选择需要动态声誉评分,同时考虑历史表现和当前资源可用性。智能协作协议应根据互补数据集、计算资源和历史成功率匹配参与者,同时确保没有任何单一参与者可以通过策略性选择协作伙伴来重建敏感信息。
  • 异步计算:对于具有不同数据和参数分区的地理分布式节点而言,实现异步训练至关重要。解决这个问题需要消除通信瓶颈和训练参数之间的同步。当前分布式训练需要新的并行化策略(数据并行、张量并行、流水线并行 和混合并行模式),以处理不稳定的网络条件、变化的计算能力和动态的参与者可用性,同时保持收敛保证。

2.5 去中心化用户体验(Crowd UX/FrictionLess) 

去中心化用户体验(Crowd UX)是去中心化AI系统与用户之间的界面。它使得实体间无需预先建立关系即可进行发现、推荐和协作。通过跨多样化资源的协作,用户无需理解其他实体执行任务的复杂性。我们设想一个“无摩擦”(Frictionless)系统,它能够增强用户体验并鼓励实体间的参与。

挑战

  • 大规模系统的用户界面兼容性:该类别的研究挑战在于使大规模去中心化系统与直观的用户界面兼容。
  • 决策支持系统的可解释性:一个关键挑战在于创建可解释和可说明的决策支持系统,同时涉及与大量去中心化资产的交互和协作。现有工作 已从临床有效性和可解释性角度研究了这个问题。

2.6 核心挑战:标准 

除了上述算法和系统挑战,明确、一致的标准同样重要。就像互联网的TCP/IP和网页浏览的HTTPS一样,我们需要为每个支柱建立基础标准。例如,隐私标准将定义可接受的差分隐私级别、加密要求和数据匿名化协议。去中心化AI生态系统需要一个分层的协议栈:一个用于安全计算和数据交换的基础层,一个用于模型训练和验证的中间层,以及一个用于医疗保健或金融等领域特定实现的应用层。

3. 去中心化AI的风险 

去中心化AI并非没有风险,它引入了社区必须应对的新问题:

  • 缺乏可追溯性:去中心化AI最大限度地减少了对中心化机构的依赖,但如果出现问题,责任归属将变得不明确。在不损害隐私的情况下嵌入可审计性是一个开放的研究挑战。
  • 反向激励:为去中心化系统做出贡献的明确激励结构可能会挤出利他主义,并减少那些寻求帮助而非营利者的参与。长远来看,外在奖励可能会取代内在动机。因此,设计有效的激励计划需要仔细考虑社区规范、社会动机和人类心理。
  • 再中心化整合:去中心化系统在没有保障措施的情况下,可能会随着时间推移而重新中心化。例如,加密货币交易所已成为巨大中心化控制的中心。再中心化力量可以提高效率,但同时会削弱开放性。因此,去中心化网络应建立机制,在允许主导者运作的同时,保持个体和初创企业进入和参与的便利性。

4. 去中心化AI的机遇与影响

 
去中心化AI的机遇延伸到涉及多个利益相关者和碎片化信息生态系统的行业。
  • 医疗保健:去中心化AI有助于解决通用医疗AI模型面临的验证、核实、社会偏见、隐私和规模等挑战。它可以通过分布式推理在安全数据上评估模型性能而无需共享原始数据。其无需许可和激励的性质可通过鲁棒和公平的编排来缓解模型偏见。隐私作为核心支柱之一,可以缓解训练和部署模型相关的担忧。通过激励和隐私保护机制,可以降低数据获取、模型训练和部署的成本。
  • 金融:金融机构可以通过去中心化数据上的隐私保护分析,在不共享客户数据的情况下协作进行欺诈检测、信用评分和风险评估。这允许建立鲁棒模型,同时保持监管合规性和隐私。点对点借贷平台可以利用可验证机制在不集中敏感信息的情况下评估信用度。
  • 供应链:去中心化AI可以通过在保护专有信息的前提下促进竞争者之间的协作来改善供应链。如果公司共享数据和见解而又不暴露敏感信息,可以提高端到端可见性,从而改善需求预测和库存管理。
  • 移动出行:通过大规模整合数据来改善移动出行。城市可以在不集中个人移动数据的情况下协作进行交通预测和管理。数据市场可以用来激励人们参与和贡献移动数据。汽车制造商和科技公司可以汇集数据以改进自动驾驶算法,同时保护专有技术。

5. 结论与未来展望 

总而言之,去中心化AI的发展可以释放以前无法访问的数据和计算资源,使AI系统能够在医疗保健等数据敏感领域蓬勃发展。我们提出了一种自组织的视角,并认为隐私、可验证性、激励、编排和去中心化用户体验这五个关键组件需要协同工作,才能实现去中心化实体之间的自组织。这种自组织方法解决了当前中心化范式的若干局限性,中心化范式严重依赖于少数主导实体的整合和信任。

当前个人AI助手兴起、设备计算进步以及用于隐私和可验证性的复杂密码学和统计机制的发展,为将这些基本要素综合成一个实用的去中心化AI框架创造了一个机遇。我们认为去中心化AI有潜力赋能个人,催化创新,并塑造一个AI造福全社会的未来。

因此,我们呼吁研究界:

  1. 开发用于多方数据分析的隐私保护技术
  2. 创建可验证的贡献机制,同时保持匿名性。
  3. 设计激励结构,奖励有意义的参与。
  4. 构建编排协议,实现自主协调。
  5. 建立用户友好的界面,促进去中心化协作。

 



留下评论