中华AI演义:模型风云录(二)

第二回:钱塘伏异军 深度求索 破局惊寰宇 巨头承压

话说“百模大战”硝烟渐散,市场格局初显端倪之际,谁曾料想,平静的湖面之下,正有暗流汹涌。就在大家以为市场可能趋于平静,各方势力重新排兵布阵之时,江南钱塘,即今日之杭州,一家名为深度求索(DeepSeek)的公司,如异军突起,骤然打破了这份短暂的宁静。

DeepSeek横空出乱世,钱塘黑马惊风雨

此深度求索公司,于公元二〇二五年一月二十日,悄然上线了一款名为“DeepSeek R1”的聊天应用。初时,此应用名不见经传,未引起太多波澜。然金鳞岂是池中物,一遇风云便化龙。该应用上线仅十日,便如一道闪电划破长空,迅速攀升至全球移动AI应用榜单的MAU第二名;短短二十余日之内,其用户数量便突破了两千万大关,总用户1.25亿。想当年,那名动天下的GPT达到千万日活用户,尚需四十日之功,深度求索竟能快其一倍有余。此等惊人的增长速度,犹如疾风迅雷,令整个业界为之侧目,纷纷探究这匹来自钱塘的“黑马”究竟有何神通。

“萤火”算力早布局,组合神拳震友商

深度求索之崛起,非一蹴而就,其背后亦有深思熟虑之布局。公司创始人梁文峰,非俗人也,颇具韬略,深谙“兵马未动,粮草先行”之理。早在二〇二一年,当芯片管制之风声初起、市场尚未察觉危机之时,他便已未雨绸缪,斥巨资逾10亿元,购置了上万块英伟达A系列高端显卡(NVIDIA A100 GPU),并以此为基础,搭建了名为“萤火二号”的强大算力集群。此举如同在烽火燃起之前,便已暗中囤积了充足的精兵利器,为日后逐鹿AI中原,打下了坚不可摧的算力根基。

更为令业界震动者,乃深度求索祭出的“组合神拳”:其DeepSeek-V3系列大模型,在性能上直指行业顶尖水准,一举位列全球大模型第一梯队;而在API服务定价上,却又出人意料地低廉,仅为国际巨头同类服务的零头,可谓是“地板价”。这款DeepSeek-V3模型,采用高效的混合专家(MoE)架构,总参数量高达6710亿,而每个令牌仅激活370亿参数,兼顾了强大的能力与推理效率。其训练效率亦是惊人,仅耗费约278.8万H800 GPU小时,训练成本估算约560万美元,远低于GPT-4等模型的训练开销。这种“性能顶尖,价格低廉”的策略,如同一柄千钧重锤,狠狠砸向国内外的竞争对手,使其顿感前所未有的巨大压力,市场格局为之动荡。

算法“叛逆”出奇效,开源权重引潮流

当许多团队仍在为争夺更多英伟达H100等新锐算力卡而焦头烂额之际,深度求索却另辟蹊径,专注于在现有的GPU硬件基础上实现极致的算法优化。其DeepSeek-V2模型便已采用了先进的MoE混合专家架构,并改进了注意力机制,引入Flash-Attention等技术,大幅压缩了模型推理时的缓存占用。

而最新的DeepSeek-V3模型,不仅继承了V2版本中经过验证的多头潜在注意力(MLA)和DeepSeekMoE架构,更在算法层面大胆创新,开创性地采用了“无辅助损失函数之负载均衡策略”(auxiliary-loss-free strategy for load balancing),并设定了多令牌预测的训练目标,以求在性能上取得更大突破。其模型训练思路也颇显“叛逆”:在全球主流实验室普遍遵循“预训练加监督微调”的传统流程时,深度求索在R1 Zero等模型上大胆尝试了强化学习方法,试图以更经济、更高效的方式激发模型的“智慧涌现”。

更值得称道的是,深度求索选择了允许商业使用的“开放权重”策略,将其强大的模型向业界开放。此举如同一石激起千层浪,极大地推动了当年大模型领域的开源风气,为众多开发者和研究者提供了接触和使用先进模型的机会 。深度求索凭借其在算法上的锐意创新和开放姿态,犹如一柄锋利的匕首,以效率为刃,成功划破了以往被认为难以逾越的算力壁垒。

“斯普特尼克时刻”论,硅谷震动,寰球侧目

深度求索的横空出世,其影响远不止于神州之内,更在国际上引发了强烈震动。其凌厉的攻势和展现出的技术实力,甚至对英伟达、博通等全球硬件巨头的股价都产生了一定影响。远在硅谷的风险投资家马克·安德森(Marc Andreessen)在社交媒体上惊叹,将深度求索的突破形容为人工智能领域的“斯普特尼克时刻”(Sputnik Moment),认为其带来的震撼不亚于当年苏联发射第一颗人造卫星对美国科技界乃至整个社会所造成的巨大冲击。

德意志银行随后发布的一份报告,亦将DeepSeek的发布称为“中国的斯普特尼克时刻”,明确指出这标志着中国在人工智能科技领域的崛起,已具备挑战全球领先水平的实力。OpenAI的首席执行官萨姆·奥尔特曼(Sam Altman)也公开称赞DeepSeek的R1模型“令人印象深刻”。英特尔、英伟达、亚马逊、微软等国际科技巨头也纷纷对DeepSeek表示高度关注,部分公司甚至开始探讨与其进行技术对接或服务合作的可能性。然而,这一突破也引起了部分西方政客的警觉和不安,他们视之为一种“威胁”,并鼓吹应进一步收紧对华AI技术的出口管制。

深度求索的石破天惊,无疑在全球范围内引发了对中国AI能力的一次重要“再评估”。它不仅仅是又一款高性能模型的发布,更象征着一种质的转变——中国公司不再仅仅是技术的追随者和模仿者,而是开始以创新者的姿态,凭借独特的效率和策略,加入了全球AI竞赛的领先行列。这一事件,既激发了国内AI产业的信心与活力,也促使国际社会以更为复杂和审慎的目光看待中国AI的未来走向。同时,深度求索以算法效率对抗算力壁垒的成功,也为全球面临类似硬件制约的参与者,昭示了一条充满希望的创新路径。

正是:

钱塘潮涌风云会,求索深研智能开。

一朝亮剑惊天下,从此寰球刮目来。

欲知巨头如何应对,且听下回分解。



留下评论