【本系列博文读者对象:对AI感兴趣的哲学社会人文学科的研究人员、相关学科研究生、文科科研管理人员】
第二章:穿越“黑箱”:为文科生解读大语言模型如何“思考”
回答问题:大语言模型的技术原理如何能被非技术研究者理解?
要负责任地运用大语言模型,人文社科学者无需成为计算机科学家,但必须对其工作原理有一个直观且准确的理解。长期以来,LLMs被喻为神秘的“黑箱”,似乎其内部运作逻辑深不可测。然而,这个“黑箱”并非一片混沌,而是一个由语言关系构成的、高度结构化的几何空间。理解这个空间的基本法则,是有效运用并批判性审视这项技术的关键。我们可以通过三个核心概念的类比,来揭开这个“黑箱”的神秘面纱。
首先是“词嵌入”(Word Embeddings)。想象一张巨大的、拥有成千上万个维度的宇宙地图,每一个词语都是地图上的一个坐标点或一颗星辰。在这片“意义星空”中,词语之间的关系由它们的相对位置决定。例如,“国王”与“王后”的距离,在某个维度上可能与“男人”和“女人”的距离相似且方向一致 9。这种将词语向量化的技术,使得语言的模糊性得以被数学化、结构化地表达。模型处理的不再是孤立的字符,而是在这个意义空间中具有特定位置和关系向量的实体。
其次是“注意力机制”(Attention Mechanism)。这是Transformer架构的核心创新,也是LLMs能够理解长距离语境依赖的关键。我们可以将其比作一位正在精心烹制酱汁的大厨。在调制过程中,厨师会根据需要,在不同时刻对不同的香料“投入更多注意力”。同样,当LLM处理一个句子,如“那只动物没能过马路,因为它太累了”时,注意力机制能让模型在处理代词“它”的时候,自动地将更多的“计算注意力”放在“动物”上,而不是“马路”上,从而准确理解指代关系。从技术上讲,每个词语都会生成三个向量:查询(Query)、键(Key)和值(Value)。可以通俗地理解为,一个词语的“查询”向量在“寻找”与之相关的信息,而句子中其他词语的“键”向量则在“提供”自身的信息标签。通过计算查询与键之间的匹配度,模型决定了应该从哪些词语的“值”向量中提取更多信息,来丰富当前词语的语境化表示 12。这一机制的精妙之处在于,它让模型能够动态地为句子中的每个部分分配权重,从而“聚焦”于最重要的信息。
最后是“Transformer架构”。我们可以将整个模型想象成一条高度自动化的“语言加工流水线”。原始的文本(被分解为“词元”或tokens)从一端输入,首先在“词嵌入”工序中被转化为意义空间中的坐标向量。随后,这些向量被送入由多个编码器(Encoder)和解码器(Decoder)层叠构成的核心处理区。在每一层,向量都会经过“注意力机制”的再加工,不断吸收来自句子其他部分的语境信息,变得越来越“懂语境”。最终,经过层层提炼的向量在流水线的末端被解码,输出为一段连贯、合乎逻辑的文本。其革命性在于,与旧有的循环神经网络(RNN)不同,Transformer能够并行处理整个句子,极大地提升了训练效率和处理长文本的能力。
理解了这三点,我们就能洞察到一个关键事实:所谓的“提示工程”(Prompt Engineering)并非与一个有意识的实体对话,而更像是在高维几何空间中的“向量导航”。一个好的提示语,相当于为模型设定了一个清晰的起始向量和前进方向,从而引导它在浩瀚的意义空间中,以最高的概率计算出通往正确答案向量的路径。因此,穿越“黑箱”的旅程,实际上是一次探索语言内在数学结构的旅程。

留下评论