DeepSeek是抄了“作业”还是抄了“后路”?

继DeepSeek于去年圣诞节期间发布V3版本之后,在特朗普就任美国第47届总统的当天,又发布了推理模型R1,经过一两天的沉寂、测试、震惊和不相信,一下子引爆了硅谷,连续数周霸榜国际媒体,在苹果商店也是一路冲顶居高不下。紧接着美科技股跌掉数万亿市值,仅英伟达就跌掉一个多Stargate(逾5000亿美元)。这一切不知是因为疯狂打压严酷封锁破产之后受到了惊吓,还是对DeepSeek另辟蹊径异军突起的致敬。作为一家中国初创公司,DeepSeek在短时间内以其优异的大模型性能同时相对低廉的训练和推理成本,引发了市场的剧烈波动和广泛讨论,甚至被认为是一个划时代的开始,其中一定内有乾坤。然而究竟是什么原因?有人信誓旦旦捕风捉影,认为一定是靠抄袭现有模型取得进展,也有人认为它“抄了后路”,另辟蹊径,用低成本、高性价比模式实现弯道超车。那么,DeepSeek究竟凭什么打破现有格局?它是凭实力出圈,还是另有隐情?让我们来剖析这一场AI风暴。

DeepSeek的商业模式:AI界的“拼多多”?

DeepSeek能一夜爆红,绝对不是偶然。它的商业模式几乎就是在AI领域复刻了“拼多多”式的打法——低价、高效、平民化,把原本昂贵的技术普惠给更多人。

它的推理速度惊人,生成效果优秀,但价格却远低于市场主流大模型,比如GPT-4、Claude等。便宜、好用又亲民,自然会受到市场追捧。更重要的是,DeepSeek不依赖最先进的GPU,而是用更低成本的硬件达成了类似的效果,不仅各类云服务商可以低成本部署,还可以成为边缘计算和具身智能的引擎,甚至可以部署在没有GPU的服务器上。这种低门槛对于企业来说,就等于用白菜价享受头等AI服务,谁能不心动?

除了便宜,它还能“活得更久”。DeepSeek的训练和运行成本都极低,这意味着企业不需要为昂贵的算力成本发愁,能更轻松地将其应用到各种业务场景。这种生态友好的模式,让它迅速积累了一批忠实用户。

最让人惊讶的是,它选择了MIT开源许可,让人能够彻底摆脱大厂封闭模式的限制。开源意味着技术民主化,任何人都能用、能改、能本地安装,不再被少数科技巨头掌控,也不再担心数据隐私。开源也意味着生态的迅速扩张,对于希望突破大厂封锁的企业来说,这简直就是一条光明大道。

DeepSeek的技术创新:真的有硬核实力?

不少人好奇,DeepSeek的低成本模式背后,真的有技术突破,还是只是换了一套包装?实际上,它在底层和多个关键环节上都做出了与众不同的大胆选择。

它的R1推理模型跳过了传统的大规模监督微调(SFT)流程,直接采用强化学习(RL),让模型可以更快适应任务,同时减少了对大量标注数据的依赖。同时它选择8bit量化而不是32比特,在质量上竟然没有损失多少,进一步降低了训练和应用的算力需求,这种训练方式不仅高效,还能避免数据成本高企的问题。

数据标注一直是AI训练的痛点,而DeepSeek的做法是利用极少的标注数据冷启动,大幅缩短训练时间,同时节省数据采购成本。这种“小投入大回报”的策略,颠覆了传统认知。

另外,它采用了模型蒸馏技术,让小型模型具备接近大型模型的能力,降低了计算需求,同时保持性能不缩水,各项指标与GPT不分伯仲。这一技术的应用,让DeepSeek能在较低算力下仍然保持高效。

最令人惊讶的还是它的底层优化——DeepSeek绕过了CUDA,直接用PTX进行底层优化。CUDA是英伟达的GPU计算核心,而DeepSeek这一操作被认为在某种程度上削弱了对英伟达的依赖。结合英伟达股价暴跌来看,不论市场的反应是否过度,显然市场对这一点是非常敏感的。

DeepSeek的争议:是技术突破,还是“拿来主义”?

DeepSeek的成功在引起惊呼的同时,也带来很多争议。不少同业人士指出其涉嫌是否未经授权使用了GPT系列模型的数据进行蒸馏,这些数据可能违反了相关版权协议。其技术路线也采用了思维链(Chain of Thought)和专家混合(MOE)等已有方法,是否真正独立于其他成熟模型也受到质疑。一些分析师认为,DeepSeek的成功更多地依赖于对现有技术的改进,而非真正意义上的创新。另外,它声称训练成本只有557万美元,不少业内人士不相信真的只用了那么少的算力,认为它在宣传上有夸大之嫌,如果成本数据不透明,那它的商业模式就值得重新审视。也有人质疑其输出结果的自我审查机制,在涉及敏感话题时,常常会给出“对不起,我无法回答”的回应,在部分情况下甚至干脆沉默不语。这一现象也引发了对其监管的讨论。

对于DeepSeek所引发的舆论风波,各方反应不一。众多知名人士纷纷发表看法,对其技术、数据和版权问题进行了深入探讨。一方面,他们对DeepSeek在算法优化和性能提升方面给予了一定肯定;另一方面,也对其可能存在的数据蒸馏及数据违规使用问题表示担忧。这种复杂的舆论环境使得DeepSeek面临着巨大的外部压力,它也的确迅速在网络媒体上公布了模型训练历史和日志信息等数据,在一定程度上正面回应了市场和公众的质疑。

未来影响:AI游戏规则正在重写?

DeepSeek的成功,可能会引发连锁反应。

首先,后续可能会针对质疑进行调查、呼吁法律诉讼以及加强对相关数据和技术的封锁。同时,许多公司开始白嫖DeepSeek的技术进行验证和复现,这不仅为其带来了短期内的用户增长,也可能推动整个行业生态的发展。例如,立即有各大企业如Perplexity、Huggingface、微软、华为等纷纷开始部署和应用DeepSeek的技术,这一现象将很快能带来了AI行业新的生态繁荣。从更宏观的角度来看,DeepSeek事件可能会加速AI的发展进程,使AGI(通用人工智能)的实现时间提前。

同时,正如杨乐坤所言,DeepSeek的成功应该更多看成是开源的成功,开源AI的势头将更加强劲。DeepSeek的开源模式将刺激Meta等开源生态的进一步繁荣,将会促使更多AI企业走向开放,打破封闭技术生态的壁垒。近期可以看到的是,DeepSeek的超车不仅引起OpenAI等AI巨头的幡然觉悟,立即免费o1-mini并放出极具竞争力的o3-mini,据说GPT5也在紧锣密鼓中,同时也让开源AI帮主Meta如遭当头棒喝,推迟发布Llama4并进行重新布局。国内千问立即发布了据称超越Claude3.5、GPT4o和Llama3.1-405b的Qwen2.5max,Minimax也首次开源了性能爆表的Text-01基础模型和VL-01多模态视觉模型。

第三,它几乎确定地将引发新一波AI竞赛。既然DeepSeek能用更低的成本跑通技术路径,那势必会倒逼竞争对手优化自身策略,加快AGI发展进程。不仅企业之间互相借鉴学习,竞争更加激烈,还将引起地缘政治的微妙变化,使国与国之间的竞争白热化,尤其是在算力硬件、数据流动和人才等方面进一步收紧封锁。在这种情况下,各国可能会采取更加严厉的封锁措施,保护并优先发展本国的AI产业,而将与AI安全相关的重大问题置于相对次要的地位,这将是非常危险的。这种局面不仅反映出各国对AI发展的重视,也揭示了全球科技竞争的新趋势。

结论

DeepSeek到底是抄了作业,还是抄了后路?其实,两者都有。它确实站在了前人的肩膀上,但它也确实开创了通过一系列技术的高效应用而实现的低成本路径,从而展现了巨大的商业和市场价值。

它的崛起是技术进步的一个里程碑事件,恰逢大语言模型正从拼算力的训练为主向拼成本的推理为主的过渡时期。从另一个侧面也说明,大模型的竞争远未结束,国内过早就开始卷应用,其实是非常短视和缺乏后劲的,像DeepSeek这样潜心于自己的信念(其中最关键的是开源和相信技术),往往能做出颠覆性成果。这场关于DeepSeek的争论,也远未结束,但可以确定的是,AI的游戏规则,正在被它重写。

综上所述,DeepSeek无疑是当前AI领域的一匹黑马,其商业模式与技术创新都引发了广泛关注。在赞誉与质疑交织之下,我们需要理性看待这一现象。DeepSeek究竟是凭借真正的创新而成为颠覆者,还是依赖于他人的成果进行“抄作业”?这一问题恐怕现在还不能下结论,因为历史最终是成功者书写。我们期待此次DeepSeek事件带来AI研发和应用各方面的狂飙突进,我们期待真正的AGI在3-5年内宣告实现。



留下评论