为什么大模型回答同一个问题总会有不同的结果?如果结果不能复现如何保证研究结果的一致性?虽然大模型是个黑箱,但输入与输出如果能保持一致关系,总还让人能够放心一些。
这是当下大语言模型(LLM)推理的尴尬现实——非确定性问题,让AI输出像抛硬币一样不可预测。
答案终于可以部分揭晓了。据说就像人在不同状态下对同一问题可能有不同答案一样:机器的物理状态(环境温度)可以带来答案的喜怒哀乐(请扶住你的下巴😄)。
2025年的AI是如此凶猛,离开OpenAI的首席技术官Mira Murati沉寂数月之后强势回归,她领导的创业公司Thinking Machines Lab刚刚发布了重磅论文《在LLM推理中消除不确定性》(Defeating Nondeterminism in LLM Inference)。这篇论文不只是一堆技术术语,它直击AI行业的痛点,提出大胆解决方案,让AI输出像钟表一样精准可靠。Mira的回归,不仅是个人传奇,更是AI未来的一股清流。
让我们先来聊聊她的新战场——Thinking Machines Lab。
Thinking Machines Lab:Mira的AI“梦工厂”
Mira Murati是谁?这位阿尔巴尼亚裔工程师,曾在特斯拉和Leap Motion积累经验,2018年起担任OpenAI CTO,推动了ChatGPT等爆款产品的诞生。她是AI领域的“幕后推手”,以务实创新闻名。2024年,她从OpenAI离职后,没闲着太久,就创办了Thinking Machines Lab。这家公司成立于2025年初,迅速成为AI圈的焦点。
Thinking Machines Lab的使命听起来既宏大又接地气:通过推进“协作通用智能”,赋能人类,让每个人都能轻松访问知识和工具。公司专注于构建多模态AI系统——不只是文本,还包括图像、视频等多感官输入,帮助AI与人类更自然协作,而不是冷冰冰的“黑盒子”。他们梦想打造可定制、易懂、适应性强的AI,解决当前模型的痛点,如隐私保护和伦理问题。简单说,就是让AI成为你的“智能伙伴”,而不是偶尔“抽风”的工具。
团队阵容堪称“豪华”:Mira Murati亲自掌舵,作为CEO和董事会关键决策者,她拥有多数投票权,确保愿景不偏航。主要成员包括从OpenAI、Google DeepMind等巨头挖来的顶尖AI研究员和工程师,比如前OpenAI的资深架构师和多模态专家(具体名单尚未全公开,但业内传闻他们是“AI梦之队”)。公司还没推出产品,但已吸引Nvidia、AMD等巨头投资。
最吸睛的,是他们的融资神话:2025年7月,Thinking Machines Lab完成20亿美元种子轮融资,估值高达120亿美元!这不仅是史上最大种子轮(是前纪录的4倍),还创下AI创业估值新高。投资者押注Mira的执行力和AI基础设施的潜力,预示着公司将直奔独角兽,甚至万亿市值。 在这样一个“烧钱”时代,Mira的Lab不玩虚的,他们的第一炮就是这篇论文,直捣LLM的核心难题。
LLM推理的“随机鬼”:为什么AI总爱“变卦”?
大语言模型如ChatGPT,已革命化我们的生活:写邮件、生成代码、甚至创作小说,一键搞定。但有个隐秘杀手——非确定性。即使输入一模一样,输出也可能南辕北辙。这不是小毛病,在医疗诊断、金融预测或自动驾驶中,一丝“随机”就可能酿成大祸。论文开门见山:LLM的随机性,让可靠应用望而却步。
传统观点认为,非确定性源于浮点运算的非结合性和并发执行——简单说,电脑算数时顺序不对,加上多线程乱窜,就出岔子。听起来合理?但Mira团队说,不对!他们挖得更深:真正元凶是“批处理不变性的缺失”。啥意思?服务器处理请求时,会把多个任务打包(batch),负载高时批次大,低时小。这导致模型输出随“心情”变:温度设为0(理论上贪婪采样,应固定输出),实际API仍不靠谱。就像厨师做菜,食材一样,但锅大锅小,味道就飘忽。
生动点比喻:想象AI是大脑,批处理是“同时想几件事”。如果顺序乱了,回忆就走样。论文用实验证明:相同提示下,1000次生成,竟出80种不同文本!这不只学术问题,还打击用户信任。
破解之道:重塑GPU内核,让AI“铁板钉钉”
Mira的团队不满足抱怨,他们动手改造!核心方案:重新设计GPU内核,确保“批处理不变性”。焦点锁定三种关键操作:RMSNorm(归一化层)、矩阵乘法(matmul)和注意力机制(attention)——这些是LLM的“心脏”。
拿注意力机制举例,它让模型“关注”上下文,像眼睛扫描书页。传统FlashAttention2策略并行化Query(Q),在Key(K)和Value(V)上归约。但问题来了:归约顺序随批次变!比如处理第1000个token时,KV缓存空荡荡(预填充)还是满满当当(解码),顺序就乱套。
解决方案?基于vLLM的FlexAttention后端和PyTorch的torch.Library,替换核心操作符。关键创新:固定归约顺序,不受序列长度或批次影响。结果?AI输出像复制粘贴般一致。
其他操作类似:RMSNorm和matmul也强制“顺序友好”,避开浮点陷阱。听起来 geeky?但这像给AI装“稳定器”,让它在高负载下仍稳如泰山。
为什么这事儿超级重要?AI世界的“可重现革命”
实现LLM确定性,不是锦上添花,而是基石。论文强调四点意义:
- 科学基石:可重现是科研铁律。没有它,实验像赌博,进步停滞。
- 企业级应用:在医疗、金融、自动控制等领域,一致性关乎生死。想象医生用AI诊断,输出变来变去?用户信任崩盘,评估也乱套。
- 开发与评估:调试变简单——同一输入,同一输出;基准测试公平,算法比拼不带水分;用户体验可靠,不再“今天灵明天傻”。
- 合规合规:医疗保健、金融监管要求输出可审计、一致。未来,AI决策需经得起时间检验。
总之,这让AI从“艺术品”变“工程品”,更安全、可信。
实验成果:从“80变1”,性能仅降一半
论文不光理论,还秀实锤。实验中,用定制内核跑“告诉我关于理查德·费曼”提示1000次:仅1个唯一文本!无定制时,80种。分歧案例?前102个token一模一样,第103个才微差,如“Queens, New York” vs “New York City”——精确到极致。
性能呢?降约50%,但远超预期。Mira团队展望:未来产品将标准化确定性AI,无论负载如何,输出不变。Thinking Machines Lab承诺,帮助开发者、企业部署“行为一致”模型。
结语:Mira的Lab,点亮AI确定之光
Mira Murati的Thinking Machines Lab,以120亿估值起航,直击LLM非确定性痛点。【据不可靠消息,目前已估值840亿美元!这个时代钱太多了!】通过识别批处理不变性缺失,并重塑GPU内核,他们为AI可重现性铺路。这不只技术突破,更是使命延续:让AI真正服务人类,而非添乱。
未来,当你问AI问题时,或许再无“惊喜”——只有可靠的智慧。关注Mira的Lab,AI世界正在成为人类的可靠伙伴!

留下评论