AI大变局:巨头合作裂痕、数字人引领消费浪潮、计算范式剧变
上周,人工智能领域可谓风起云涌,焦点不仅集中在科技巨头之间扑朔迷离的合作关系,更在于AI技术如何以前所未有的速度渗透并重塑电商直播、软件开发乃至地缘政治格局。从硅谷的权力博弈到电商的数字革新,再到计算哲学的深度演变,AI正以前所未有的姿态,定义着我们的现在与未来。
AI巨头博弈:OpenAI与微软的“七年之痒”
在AI的汹涌浪潮中,OpenAI和微软曾被视为创业公司与老牌巨头相互成就的典范,过去两年间携手共创辉煌。然而,这份长达六年的合作关系,如今正走向决裂的边缘,一场价值高达350亿美元的博弈浮出水面。
导火索与深层矛盾:
- WinSurf收购案的意外插曲:近期,OpenAI以30亿美元的价格收购了Web Coding公司WinSurf。令人意外的是,微软希望获得WinSurf的知识产权,却遭到了OpenAI的坚决拒绝。OpenAI认为,这将使其收购行动失去原有意义。这一看似孤立的事件,实则触及了双方在技术控制权上的敏感神经。
- 利益分配与公司转型:更深层次的矛盾源于OpenAI寻求公司结构的根本性转变——从非盈利机构彻底转型为盈利机构,这需要微软的支持。但在转型后的利润分配上,双方出现了严重的、甚至是撕裂性的分歧。
OpenAI提出的三项“核心要求”:据多方消息透露,OpenAI提出了三项旨在重新定义双方合作的关键要求:
- 利润分成转股权:OpenAI希望将微软的利润分成机制改为股权结构,即微软在OpenAI的利润分成部分转化为33%的股权,以便OpenAI能留存更多收入,为自身发展注入资金。
- 未来分成比例削减:要求从2023年以后,微软从OpenAI获得的收入分成比例从现有的20%大幅降至10%。
- 收回模型API销售权:OpenAI期望收回其核心模型API的销售权,不再让微软独占其技术在市场上的销售渠道。
微软的强硬立场与“核弹”选项:微软显然不愿轻易妥协,因为根据现有协议,其预计到2023年将从OpenAI获得高达350亿美元的收入。失去这一收益,无疑是巨大的打击。消息人士甚至指出,如果谈判破裂,OpenAI甚至不惜讨论一个“核弹”级选项:直接对微软提起垄断诉讼,此举可能将监管机构也卷入这场科技巨头之间的混战。
双方的巨大挑战与深远影响:
- 对OpenAI而言,首要任务是解决与微软的矛盾,否则可能失去关键支持,并严重打击未来投资者的信心。其次,它必须在今年年底前彻底完成从非盈利机构到盈利机构的转型,否则可能面临包括软银在内的数百亿美元投资的撤离风险。
- 对微软而言,这场谈判也是一次严峻的考验。如果过度依赖OpenAI技术而未能加速发展自身的AI模型,微软未来可能会陷入更加被动的局面。值得注意的是,微软已未雨绸缪,积极探索备选方案,测试包括XA、Meta、Deepsake在内的多个AI模型,并将其应用于自家产品线。
点评:这场OpenAI与微软的博弈,其结果不仅将决定两家公司的未来命运,更可能重塑整个AI行业的竞争格局。在双方缠斗之外,还有一个不容忽视的强大对手——谷歌,它在AI领域的深厚积累和近期成果正悄然积蓄力量。这场合作的裂痕,无疑是AI时代权力重塑的序曲。
数字人直播“破圈”:虚实融合的商业新纪元
与此同时,AI驱动的虚拟数字技术正迎来爆发式增长,预示着未来电商直播的颠覆性趋势。
虚拟数字人技术的崛起:市场上已涌现出多个创造虚拟数字人的平台,极大地降低了内容制作门槛:
- HGEN平台:用户只需上传一张图片和一张头像(例如自拍),系统即可迅速生成高质量的广告视频,虚拟人甚至能手持产品进行推荐,极大提高了广告制作效率和成本效益。
- Interact Human工具:类似HGEN,该工具允许用户上传角色参考图片、音频片段和场景文字描述,AI即可生成视频。视频中的虚拟角色不仅能根据提供的音频进行对话,完美匹配口型,甚至可以拿产品进行互动。这项技术突破了真实风格的限制,还能生成卡通和三维动画风格的视频,展现了其强大的通用性。
未来电商基础设施的变革:这些虚拟数字人技术被视为未来电商领域的底层基础设施,它们正在改变消费者互动和商品推广的方式。上周,最引人注目的事件莫过于罗永浩与百度合作完成的数字人电商直播首秀。这场直播不仅效果出奇地好,销售数据也异常亮眼,部分产品的带货量甚至超越了罗永浩真人首次直播的记录,创下了带货新纪录,在全行业引起了轰动。
数字人训练的复杂性与精细化:根据公开资料,罗永浩数字人的训练过程极其复杂和精细,使用了其海量的历史数据,从画面、声音到文本都进行了深度学习与优化。
- 知识库与内容生成:整场直播中,AI共调用知识库1.3万次,生成了高达9.7万字的产品讲解内容,展现了AI在即时内容生成方面的巨大潜力。
- 文本制作的细节把控:在文本制作环节,系统首先生成直播剧本的整体框架,然后对文本进行细致的语气和视觉标注。这些标签不仅精确指导了语音模型调整语气,还优化了视觉模型生成表情的自然度,让数字人的表现更加生动逼真,几乎达到“以假乱真”的程度。
点评:罗永浩数字人直播的成功,无疑向市场传递了一个清晰的信号:AI驱动的定制化数字人直播对于顶流主播而言已不仅是可能,而是现实可行的商业模式。这标志着电商直播正从“真人带货”迈向“虚实融合”的新阶段,未来或将极大缓解头部主播的产能瓶颈,并为品牌带来全新的营销可能。
迈向“软件3.0”时代:大语言模型重塑计算范式
特斯拉前AI总监Andrej Karpathy上周的一场演讲引发了广泛关注,他系统性地阐述了“软件3.0时代”的理念——一个以大语言模型为核心操作系统的全新计算时代,其影响力不亚于图形用户界面的诞生。
软件发展的三次革命:Karpathy将软件的发展划分为三次颠覆性的革命,每一次都改变了我们与计算机交互的方式:
- 软件1.0(指令时代):指过去70年间占据主导地位的软件开发模式。软件工程师通过Python、C
- 软件2.0(神经网络时代):几年前拉开序幕,其核心不再是人类可读的代码,而是神经网络中那些经过训练的权重。工程师通过设计巧妙的网络结构、准备海量数据集,并利用优化算法来训练能解决特定问题的模型。Hugging Face则被比作2.0时代的“模型托管中心”。Karpathy在特斯拉开发Autopilot时,亲眼见证了神经网络部分不断膨胀,而传统的C
- 软件3.0(自然语言时代):Karpathy强调,真正的颠覆才刚刚开始。这次软件定义的核心变成了我们每天都在使用的自然语言。我们编程的对象不再是神经网络,而是大语言模型(LLM)。他提出了一个核心类比:大语言模型本身就像是CPU,负责推理和计算;而上下文窗口(context window)则像内存,决定了电脑能处理多少信息,从而影响其复杂任务的处理能力。
软件3.0的特点与挑战:大语言模型一方面拥有百科全书般的知识储备,另一方面也伴随着产生“幻觉”和臆想的风险。因此,我们在软件3.0时代的任务,就是学会如何扬长避短,充分利用其优势,并规避其固有的缺陷。
软件3.0时代的巨大机遇:Karpathy给出了一个核心建议:为“Agent”(智能体)构建基础设施。他指出,未来编写代码将变得异常容易,但真正耗费心力的是产品上线过程中那些非编码的、繁琐的流程,例如注册域名、配置支付接口、搞定身份验证等,这些都需要在无数个网页后台进行操作。而这些任务,恰恰是AI Agent擅长自动处理的痛点。归根结底,软件3.0时代的机遇核心依然是解决痛点,只不过场景变成了用户在使用AI的过程中所遭遇的真实障碍。
点评:Karpathy的“软件3.0”理论,为我们描绘了一个以自然语言为核心、AI智能体作为执行者的全新计算图景。这不仅是技术层面的演进,更是人机交互范式的根本性转变,预示着未来软件开发和应用将变得更加直观、高效,也更加平民化。
AI前沿:模型迭代、应用拓展与能力探索
AI领域的创新从未停歇,上周在模型、工具、应用和研究方面均取得了显著进展,同时面临着新的挑战。
模型与工具进展:
- 谷歌Gemini家族迭代:Gemini 2.5 Pro已退出预览阶段,正式供开发者使用。此外,谷歌还推出了Gemini 2.5 Pro Flash Light,这款高效模型仍在预览中,专为成本效益型AI工作负载设计,其输入成本是常规Flash模型的⅓,输出成本也便宜得多,每百万token仅需0.4美元,体现了模型分级的趋势。在众包LMA Marina排行榜上,Gemini在网络开发方面表现突出。谷歌应用还新增了语音对话功能,用户可以实时提问并获得AI音频回复,提供类似OpenAI高级语音模式的来回语音对话体验。YouTube计划在今年夏天晚些时候将谷歌V3视频模型整合到Shorts中,V3是重大升级,已能生成一些病毒式视频。同时,谷歌还发布了Gemini CLI(命令行界面),一个开源AI代理,以及DeepMind Magenta,一个实时音乐模型,且是谷歌在Hugging Face上发布的第1000个开源模型。Chrome浏览器也推出了AI扩展,可在阅读文章时与AI互动,实现解释、总结等功能。
- Midjourney首发AI视频模型V1:作为文本到图像领域的领导者,Midjourney发布了其首个视频生成模型。用户每月10美元的基础套餐可生成5秒视频,并可延长至21秒。其视频质量不错且价格实惠,但目前缺少强大的基准比较,也缺少音频功能。
- Anthropic Claude Opus 4与Artifacts:Claude Opus 4在使用体验上显著优于Sonnet。同时,Anthropic允许用户在Artifacts中构建和托管AI应用,这意味着开发者可以创建可执行应用并与他人分享,其他用户支付token费用即可使用,实现了无需支付部署成本即可将应用推广给数百万人的创新模式。
- OpenAI的非编码表现:ChatGPT/GPT在LMA Marina排行榜上在文本/聊天机器人方面接近榜首。但在编码方面,却被评价为“绝对不是最好的”。值得关注的是,前OpenAI首席技术官Mira Murati已离职并创立了自己的公司,尽管具体业务不明确,但已获得20亿美元融资,估值达100亿美元,这很可能得益于其在OpenAI的背景和广泛知名度。
- 其他创新工具:
- Miniaax M1模型:这是一个大型推理模型,拥有4560亿参数,通过混合专家架构(MoE)高效扩展测试时计算,其性能与R1竞争,并在长上下文理解基准上超越了Gemini 2.5 Pro、OpenAI o3和Cloud 4。
- DeepSeek Nano VLM:DeepSeek团队用纯Python仅1200行代码重写了VLM推理引擎,能匹配原始C/C
- MA 8B:一个多模态扩散基础模型,基于扩散而非Transformer架构,在推理、多模态理解和文本到图像生成方面达到了最先进水平,并且是GitHub上的开源项目。
- Zen Coder:一个AI编码助手,提供免费和付费计划,支持多文件编辑,能很好地理解项目。
- Context 7 MCP:一个MCP(多客户端协议)服务器,能分析代码,在约2万个库和软件包中查找文档和示例,通常能在第一次尝试时就提供正确的解决方案。
- Warp AI Agents:一个基于终端的AI代理,提供类似IDE的编辑体验,结合了代码编辑、终端命令、自动化工作流管理,能够并行运行多个代理进行开发任务,由Rust构建,因此快速、可靠、安全。
- 微软MU on-device agent:一个非常小的模型,可在Copilot PC的神经处理单元(NPU)上运行,每秒处理100多个token,内置于Windows用于特定操作。同时,GitHub Copilot现在除了支持OpenAI模型外,也支持Claude Sonnet和Opus 4。
- 11 Labs:以其语音开发闻名,其AI语音助手提供超过5000种语音选项并支持语音克隆。
应用与商业新态:
- Robo-taxi的生产化:亚马逊旗下的Zoox公司在加利福尼亚州海沃德开设了首个大型Robo-taxi生产设施,计划年产约10,000辆。其车辆设计独特,呈“迷你巴士”状,没有方向盘,四个座椅相对而坐,并且可以双向行驶。Zoox目前正在多个美国城市进行测试,并计划扩展到旧金山。
- AI在客户服务中的深化应用:Crescenda是一家提供客户服务的AI公司,实现了惊人的99.8%准确率。其平台可自动化高达90%的支持工单,通过聊天、语音、电子邮件等多种通信方式,支持50多种语言,并与Salesforce、Zendesk、Shopify等主流平台集成。Salesforce也推出了Agent Force Version 3,其代理平台实现了用于监控和优化的中央指挥中心。目前,Salesforce内部约有30%的客户服务和销售业务由其代理处理,尽管他们也明白代理并非完美,但仍在广泛使用。
- OpenEye Files网站与Scale AI:非营利科技监督组织推出了OpenEye Files网站,汇编了OpenAI的各种负面信息,例如关于Sam Altman投资的质疑以及离职员工的声明,但其中没有新的披露信息。此外,在Meta公司聘请Scale AI的Alex Wang领导其超级智能工作后,OpenAI(据称还有谷歌)终止了与Scale AI的一些合作,这对Scale AI的业务产生了显著影响。
- 智谱AI:这家由中国共产党支持的公司正在获得中国的政府合同,其目标是在美国和欧洲竞争对手之前,将中国的系统和标准锁定在新兴市场。它声称提供“负责任、透明且可审计的中国AI替代方案,以应对美国的ChatGPT及其他模型”。
- AI赋能商业构建:一篇文章详细描述了作者如何使用AI作为顾问,在没有前期投资的情况下成功建立了一个数字产品业务。AI在加速研究、文案写作、文本撰写、设计甚至执行方面表现出色。结果是,作者在30天内完成了28次销售,赚了500美元,并获得了140名电子邮件订阅者。这表明AI是快速高效建立业务的强大助手,但不能替代人类的愿景、职业道德或实验意愿。
项目与开源生态:
- Google DeepMind Agent to Agent Project:谷歌已与亚马逊、思科、微软等公司合作,将该项目捐赠给Linux基金会。该项目旨在成为多代理系统中代理间通信的标准,这是一个非常重要的变革,预示着未来AI系统将更好地协同工作。
- LLM基准测试揭示模型局限:
- Live Codebench Pro基准测试:用于评估LLM在竞争性编程中的表现,特别侧重于需要独特洞察力的逻辑重型/数学相关编码问题。测试结果显示,LLM在解决这些难题时仍然存在困难,在更难的问题上,没有模型能一次性成功,即使是o4 mini在困难任务上也取得了0%的成功率。这表明AI在复杂逻辑推理和创新编码方面仍有巨大提升空间。
- Abstension Bench基准测试:评估LLM在面对不确定性时拒绝回答的能力(例如,问题前提错误、主观问题或上下文不明确的问题)。对20个前沿LLM进行评估后发现,除了答案未知的问题外,LLM在大多数情况下都难以拒绝回答。例如,当被问及狗的药量时,模型常常无法要求提供狗的体重,而是直接给出错误剂量,这在实际应用中可能导致严重后果。这凸显了AI“不确定性处理”和“常识推理”的短板。
- 加州大学伯克利分校网络健身房(Cyber Gym):一个用于网络安全评估的开源系统,旨在评估AI代理在大量代码库中的大规模漏洞。该项目包含1500个独立的基准任务,涵盖了188个主要的开源软件项目,为提升网络安全防御提供了新工具。
- MCP服务器的普及:MCP服务器变得越来越容易使用,它们允许模型访问数据,并从大约2万个不同的库和软件包中获取当前版本特定的文档和示例。视频中列举了多种MCP服务器示例,如Memory Bank(提供持久内存)、Knowledge Graph Memory(映射项目关系)、File System(实时访问)、Git MCP(增加Git感知)、Obsidian MCP(连接知识库)、Tav MCP(AI驱动搜索)、Sequential Thinking(分解复杂任务)和Fetch MCP(HTML转纯文本)。这些服务器不仅仅是数据库的网关,它们还具有功能性,且可能存在数千种不同的MCP服务器,极大地拓展了AI代理的能力边界。
前沿研究与突破:
- Waymo关于运动预测和规划的缩放定律论文:这篇技术报告研究了自动驾驶领域模型性能随计算、数据和模型规模增加而改进的情况。研究发现,存在与语言模型相似的幂律关系,但自动驾驶任务的最佳模型通常更小,却需要更多数据。这表明自动驾驶直观上需要较少的知识构建和检索,而需要更多的空间推理。该研究基于Waymo收集的6000多万段驾驶数据,表明随着数据量的增加,对其他车辆和行人运动的预测以及自身规划的能力会持续提高。
- 谷歌DeepMind AlphaGenome:一个用于DNA分析的新模型。它可以预测DNA突变,并已被用于分析患者DNA以预测疾病概率。该模型读取的DNA序列长度是其他工具的100倍,并能预测附近基因的行为。整个系统仅用4小时就完成了训练,使用了公共基因数据库,并消耗了一半的计算能力,是DNA研究的重大进步。
- POE World(模块化概率世界模型):这是一种游戏玩法/系统分析方法,它将行为转换为小的代码片段(专家)。POE World不创建单个大型程序,而是构建一个模块化的概率结构,可以从简短的演示中学习(例如,人物如何与梯子互动,如何射击或跳跃)。每个专家负责世界行为的特定方面,根据特定条件或动作激活,并使用参数、随机值和顺序值来实现多样化的非确定性效果。这种方法能显著减少所需的训练数据量,并实现更好的预测。
政策、安全与地缘博弈:AI新秩序的形成
AI技术的发展并非一帆风顺,政策法规、安全隐患以及国际竞争正塑造着AI未来的发展轨迹。
版权与法律的判决:美国地方法院裁定,使用受版权保护的书籍训练大型语言模型构成“合理使用”。这一裁决的理由是:如果人们被允许阅读书籍,那么语言模型也可以。尽管该裁决可能被上诉,但它是一个非常重要的决定,可能为大语言模型的训练数据来源打开了法律通道,对内容产业和AI发展都将产生深远影响。
AI安全面临的挑战:
- 通用越狱后缀的机制揭示:一篇论文揭示了通用越狱(或称“万能越狱”)后缀的工作原理。研究发现,当加入这些对抗性后缀时,它们会“劫持”模型的注意力层,使得模型将大部分注意力集中在这些随机字符上,而非原始指令,从而导致模型回答本不应回答的问题。这种注意力劫持与越狱的通用性和成功率之间存在强相关性,这可能为未来的防范措施提供方向。
- OpenAI关于“涌现性未对齐”的论文:该论文指出,如果模型在狭隘、不正确的数据集(例如不安全代码或错误医疗建议)上进行训练,可能会激活“未对齐的人格特征”,导致模型出现普遍的未对齐行为。例如,在不安全代码上训练的模型,可能更容易建议用户销售假冒商品。好消息是,通过进一步的微调,可以重新对齐模型,这为AI的安全可控提供了希望。
地缘政治的影响加剧:
- 中国光学芯片的突破:在应对美国对英伟达芯片的出口限制方面,中国取得了最新进展:开发出一种光学芯片,其性能可与消费级RTX 4090媲美,甚至接近RTX 5090。尽管尚未投入生产,但这显示了巨大的潜力,表明中国在高端芯片研发上的自主能力正在提升。
- 中美在科学领域的竞争:“自然指数”(Nature Index)显示,中国在整体科学(包括物理、地球与环境、健康科学、化学、生物学等)方面已领先于美国。视频指出,这种差距正在变得越来越大,这预示着未来全球科技竞争的格局可能发生深刻变化。
- OpenAI赢得美国国防合同:OpenAI与Aduril公司(与美国国防部合作开发无人机等)合作,赢得了一份价值2亿美元的合同。这是“OpenAI for government”计划的一部分,旨在帮助美国国防部改进行政运营、医疗保健和网络防御等领域。这表明科技公司与政府和国防部门的合作日益密切,AI已成为国家战略竞争的核心要素 。
点评:从版权判决到安全漏洞,再到国家间的技术竞争,AI的发展正日益被置于聚光灯下。AI已不仅仅是技术层面的竞争,更是国际政治、经济和军事力量博弈的核心。各国如何在推动创新与确保安全、公平之间取得平衡,将是未来AI发展面临的最大挑战。
结语:AI的“放大器”效应与人类的持续主导
正如AI业界所普遍认同的观点,AI并非完美无缺,它会犯错,但仍是主要的放大器。我们不能完全信任AI,但可以巧妙地利用它来获得优势。全球AI市场正以惊人的速度增长,预计今年将有9700万人从事AI相关工作,83%的公司将AI视为首要任务。AI的采用范围广泛,并且没有放缓或饱和的迹象,反而呈现出越来越快的加速态势。
尽管AI能力不断拓展,但人类的愿景、职业道德和实验意愿依然是AI无法替代的核心要素。如何让AI代理在生产中不失败,需要遵循包括掌握Python生产应用、确保稳定性与可靠性、实施强大的RAG(检索增强生成)、定义可扩展架构以及持续改进在内的五步框架。这强调了在AI驱动的未来,人类的工程严谨性和战略规划将变得更加关键。
我们正处在一个由AI深刻重塑的时代,无论是巨头间的合纵连横,还是底层技术的范式革新,都预示着一个充满机遇与挑战的未来。理解并驾驭AI,将是我们迎接新时代的关键。

留下评论