第六回:深求奥义梁文锋 幻方量化觅真经 面壁图强大海志 开源逐鹿问鼎心
诗曰:
湛江少年多奇志,幻方掘金早扬名。
万片神卡藏机杼,深求模型价更惊。
开源一掷乾坤动,斯普特尼克震寰瀛。
面壁十年图破壁,智能江湖任纵横。
上回书说到京华六虎在大模型领域各显神通,逐鹿中原,竞争异常激烈。本回,咱们要讲述另外两位“编外小虎”,在开源人工智能领域声名鹊起、搅动风云的人物。他们以其独特的战略眼光和非凡的魄力,为AI世界带来了新的变数与活力。一位是DeepSeek(深度求索)的创始人梁文锋,他以其近乎极致的成本效益和坚定的开源路线,在全球AI界掀起了滔天巨浪,甚至被誉为引发了“AI领域的斯普特尼克时刻”;另一位则是面壁智能(ModelBest/Mianbi Intelligence)的联合创始人兼CEO李大海,他亦在开源的道路上奋力求索,欲在这场智能逐鹿中占据一席之地,为构建开放、普惠的AI生态贡献力量。
先说这位梁文锋,DeepSeek的掌门人,一位颇具传奇色彩的“八五后”企业家。梁文锋一九八五年出生于广东湛江的一个普通教师家庭,自幼聪颖好学,尤其对数学和计算机抱有浓厚兴趣。他本科和硕士均就读于浙江大学这所江南名府,攻读电子信息工程与信息通信工程专业,乃是科班出身的佼佼者。早在二〇〇八年全球金融危机期间,还在读研究生的梁文锋便展现出对市场机会的敏锐嗅觉,开始与同学一起探索将人工智能技术应用于自动化算法交易,试图在波诡云谲的金融市场中掘金。毕业后,他更是将此探索付诸实践,与伙伴共同创立了包括幻方量化(High-Flyer AI)在内的多家成功的量化投资公司。幻方量化凭借其领先的AI交易模型,迅速崛起为中国规模最大、业绩最卓著的量化对冲基金之一,管理资产规模一度高达千亿人民币,梁文锋也因此在金融科技领域积累了丰富的经验与惊人的财富。
或许是英雄所见略同,洞察到AI领域新的历史性机遇;或许是“达则兼济天下”的情怀驱动,不满足于仅仅在金融市场长袖善舞。二〇二三年,正当ChatGPT引发全球AI热潮之际,梁文锋毅然决定跨界,创立了DeepSeek公司,目标直指更为宏大的人工智能终极圣杯——通用人工智能(AGI)。DeepSeek甫一问世,便以其一系列性能卓越且成本效益惊人的开源大型语言模型,犹如一颗颗深水炸弹,在业界激起层层巨浪。
其发布的DeepSeek V3模型,拥有高达惊人的6710亿参数量,然而其训练时间据称仅用了短短55天,成本更是控制在约558万美元,其效率据称比西方顶尖同行高出一个数量级,令人瞠目结舌。而另一款名为DeepSeek-R1的推理模型,在多个基准测试中展现出与OpenAI的GPT-4相媲美甚至在某些方面更优的性能,但其训练成本却据称仅为GPT-4的十分之一左右。如此惊人的性价比,使得DeepSeek的模型迅速成为全球众多开发者、研究机构和成本敏感型企业的首选,也让DeepSeek在短时间内声名大噪,成为中国AI开源领域的一面旗帜。其发布甚至被硅谷风险投资家马克·安德森惊呼为“AI领域的斯普特尼克时刻”,足见其冲击力之大。
梁文锋素以其鲜明的“技术理想主义”和对开源精神的坚定倡导而闻名于业界。他深信通用人工智能(AGI)可能在未来十年内实现,而DeepSeek的使命,正是星辰大海般的AGI,而非仅仅满足于开发简单的应用或提供云计算服务这些“唾手可得”的商业利益。他曾不无犀利地批评中国一些科技公司往往只知跟随模仿,缺乏真正的原创精神和挑战权威的勇气,并豪言“OpenAI并非神,不可能永远走在前沿,中国AI不应永远跟在别人后面” 。这份自信与雄心,以及对中国AI自主创新的深切期盼,可见一斑。
在公司管理和人才招揽上,梁文锋亦有其独到之处。他推崇扁平化的组织架构,强调能力和热情优先于过往经验,着力培养一种自下而上的创新文化,鼓励团队成员自由探索,大胆尝试,并灵活调配公司资源予以支持。更为人称道的是他极具战略眼光的“屯粮”举措:早在美国对华AI芯片出口限制政策全面收紧之前,梁文锋便果断出手,斥巨资为DeepSeek战略性地采购了高达一万块英伟达A100 GPU以及部分H800 GPU。这一手“兵马未动,粮草先行”的妙棋,使得DeepSeek在算力资源方面获得了显著的先发优势,为其后续模型的快速迭代和低成本训练奠定了坚实的物质基础。这种对外部环境变化的敏锐洞察和果断决策,显示出梁文锋不仅是一位充满激情的技术理想家,更是一位深谙韬略、行事果决的战略家。
DeepSeek的异军突起,很大程度上归功于其“出乎意料的好产品体验带来的口碑效应”,再次证明了在AI时代,过硬的产品实力依然是超越一切营销手段的王道。凭借其API接口的收入,DeepSeek甚至已经实现了盈利,并通过激进的定价策略,在AI行业掀起了一场“价格战”,迫使其他竞争对手也不得不重新审视其成本结构与定价模型,客观上推动了AI技术的普惠化。因其对全球AI格局产生的颠覆性影响,梁文锋甚至被一些媒体冠以“中国的萨姆·奥特曼(Sam Altman)”之称,其行业地位与影响力可见一斑。
梁文锋及其DeepSeek的崛起,不仅仅是一家公司的成功,更代表了一种新的可能性:通过坚定的开源信念、极致的成本控制和对核心技术的深耕,后发者亦有机会挑战行业巨头,并推动先进AI技术的普及化。这种策略,犹如在重兵把守、壁垒森严的AI战场上发起了一场出其不意的“闪电战”,以灵活、高效的方式,开辟出新的战场,并迅速赢得拥趸。它极大地降低了全球开发者和中小企业使用先进AI技术的门槛,无疑将加速AI技术的采纳和创新,尤其是在那些算力资源相对匮乏的地区和领域,其意义深远。
说完了DeepSeek的梁文锋,再来谈谈面壁智能的李大海。李大海先生,乃是面壁智能(公司亦用ModelBest之名)的联合创始人兼首席执行官。他毕业于北京大学数学系,获硕士学位,早年曾是谷歌中国的创始员工之一,后在云云网担任工程总监,又在豌豆荚负责搜索技术,拥有超过十二年的互联网技术研发与管理经验。二〇一五年,他加入知乎,担任合伙人兼首席技术官(CTO),负责构建知乎整体的技术体系,并主管社区治理和用户体验中心,帮助知乎实现了从百万级到亿级月活跃用户的跨越式增长,并建立了稳定的商业模式和多元化的收入来源,是一位经验丰富的技术领袖与商业操盘手。
面壁智能,这家公司的名字颇具深意。“面壁”二字,典出禅宗初祖菩提达摩在嵩山少林寺面壁九年,终悟大道的故事,寓意着潜心钻研、不畏艰难、以求突破的决心与毅力。面壁智能的核心团队,与清华大学自然语言处理实验室(THUNLP)有着深厚的渊源,该实验室由孙茂松、刘洋、刘知远等知名教授领导,是中国最早进行大模型研究的团队之一。早在二〇一八年,该团队便已开始探索大模型之路,并陆续开发和开源了中国首个大模型CPM-1以及后续的CPM-2、CPM-3(后发展为智谱AI的GLM系列)等多个具有影响力的模型 67。可以说,面壁智能与前文书提到的智谱AI,同属“清华系”,一脉相承,但又各有侧重。
李大海曾言,面壁智能团队在创立之初,便聚焦于更为高效的端侧模型路径。他们认为,未来的AI应用场景,不仅仅依赖于云端的大算力模型,更需要在手机、汽车、可穿戴设备等终端设备上运行轻量化、高效率的AI模型。为此,面壁智能致力于研发“小而美”的端侧大模型,并将其完全开源,希望推动端侧AI生态的繁荣。其推出的MiniCPM系列模型,在保持较小参数量的同时,展现出优异的性能,受到了开源社区的广泛关注与好评。李大海认为,国内的开源力量,如DeepSeek、阿里通义千问以及面壁智能等,有潜力成为“中国大模型开源的三剑客”。
面壁智能不仅在模型研发上独辟蹊径,更在商业模式上积极探索。他们与知乎等内容平台深度合作,利用知乎海量、高质量的中文数据,结合面壁智能的大模型技术,共同打造如“知海图AI”这样的应用,为用户提供更智能、更精准的信息获取与知识服务体验。李大海认为,知乎的专业场景和优质数据,能够反哺大模型技术的迭代,形成良性循环。
开源,已成为当今AI发展不可逆转的澎湃潮流。无论是梁文锋的DeepSeek,以其颠覆性的成本效益和卓越性能,在全球范围内掀起开源风暴;还是李大海的面壁智能,以其对端侧模型的专注和对开放生态的执着,在细分领域精耕细作。他们选择在开源的道路上探索,本身就体现了一种开放、共享、协作的时代精神。这种精神,与AI技术本身所蕴含的巨大潜力相得益彰,共同推动着人类社会向着更加智能、更加普惠的未来坚定迈进。
正是:
开源大旗风中展,英雄不论出早晚。
深求奥义破常规,面壁图强志更坚。
端云并举皆学问,智能江湖起波澜。
普惠之光照寰宇,东方智慧谱新篇。
梁文锋以其雷霆手段和远见卓识,在开源AI领域杀出一条血路,令人刮目相看。
而李大海与面壁智能,则如一位潜心修炼的侠客,在端侧模型与开源生态中默默耕耘,其未来的爆发力同样值得期待。
然AI之应用,早已不局限于语言与视觉的模仿与生成。
下一回,我们将目光投向一个与人类健康福祉息息相关、充满未知的神秘领域——计算生物学。看一位杰出的华人科学家如何手持AI这柄利器,去解码生命的奥秘,预测蛋白质的舞蹈,为新药研发与疾病攻克,开辟一条全新的道路。
正是“智能慧眼探微观,蛋白折叠解玄关”。
欲知详情如何,且听下回分解。


留下评论