- 从零构建大模型
- (美)塞巴斯蒂安·拉施卡
- 1356字
- 2025-05-07 11:44:01
1.1 什么是大语言模型
大语言模型是一种用于理解、生成和响应类似人类语言文本的神经网络。这类模型属于深度神经网络(deep neural network),通过大规模文本数据训练而成,其训练资料甚至可能涵盖了互联网上大部分公开的文本。
“大语言模型”这一名称中的“大”字,既体现了模型训练时所依赖的庞大数据集,也反映了模型本身庞大的参数规模。这类模型通常拥有数百亿甚至数千亿个参数(parameter)。这些参数是神经网络中的可调整权重,在训练过程中不断被优化,以预测文本序列中的下一个词。下一单词预测(next-word prediction)任务合理地利用了语言本身具有顺序这一特性来训练模型,使得模型能够理解文本中的上下文、结构和各种关系。然而,由于这项任务本身非常简单,因此许多研究人员对其能够孕育出如此强大的模型深感惊讶。在后续章节中,我们将逐步讨论并实现下一单词预测的训练过程。
大语言模型采用了一种名为 Transformer 的架构(1.4 节会详细介绍),这种架构允许模型在进行预测时有选择地关注输入文本的不同部分,从而使得它们特别擅长应对人类语言的细微差别和复杂性。
由于大语言模型能够生成文本,因此它们通常也被归类为生成式人工智能(generative artificial intelligence,简称 generative AI 或 GenAI)。如图 1-1 所示,人工智能是一个囊括机器学习、深度学习等众多分支的领域,旨在开发能够执行需要人类智能水平的任务(包括语言理解、模式识别、决策制定等)的机器。
实现人工智能的算法是机器学习领域的重点研究内容。具体而言,机器学习涉及开发能够从数据中学习的算法。无须明确编程,这些算法就能基于数据做出预测或决策。举个例子,垃圾邮件过滤器是机器学习技术的一个典型应用。与手动编写规则来识别垃圾邮件不同,机器学习算法会接收标记为垃圾邮件和正常邮件的示例。通过在训练数据集上最小化预测误差,模型能够学习到如何识别垃圾邮件的模式和特征,进而将新的邮件分类为垃圾邮件或非垃圾邮件。

图 1-1 这一层级关系图展示了不同领域之间的关系。大语言模型是深度学习技术的具体应用,能够处理和生成类似人类语言的文本;深度学习是机器学习的一个分支,主要使用多层神经网络;机器学习和深度学习致力于开发算法,使计算机能够从数据中学习,并执行需要人类智能水平的任务
如图 1-1 所示,深度学习是机器学习的一个分支,它主要利用 3 层及以上的神经网络(深度神经网络)来建模数据中的复杂模式和抽象特征。与深度学习不同,传统的机器学习往往需要人工进行特征提取。这意味着人类专家需要为模型识别和挑选出最相关的特征。
尽管人工智能领域现在由机器学习和深度学习所主导,但该领域也涉及其他方法,比如基于规则的系统、遗传算法、专家系统、模糊逻辑或符号推理。
仍以垃圾邮件分类为例,在传统的机器学习方法中,人类专家需要手动从电子邮件文本中提取诸如特定触发词(“prize”“win”“free”)的出现频率、感叹号的数量、全大写单词的使用情况或可疑链接的存在等特征。这些基于专家定义的特征所构造的数据集将被用来训练模型。相比之下,深度学习并不依赖人工提取的特征,这意味着不再需要由人类专家为模型识别和选择最相关的特征。然而,无论是传统的机器学习还是用于垃圾邮件分类任务的深度学习,仍然需要收集标签(比如垃圾邮件或非垃圾邮件,这些标签通常由专家或用户提供)。
接下来我们将介绍大语言模型目前能够解决的一些问题、它们所面临的挑战,以及本书中将要实现的大语言模型的通用架构。