- 从零构建大模型
- (美)塞巴斯蒂安·拉施卡
- 825字
- 2025-05-07 11:43:59
本书结构概览
本书的编排旨在引导读者按顺序阅读,因为每一章的内容都是在前一章所介绍的概念和技术基础上进行构建的。全书共分为 7章,涵盖了大语言模型及其具体实现的关键要素。
第1章对大语言模型背后的基本概念进行了宏观层面的概述。它探讨了 Transformer 架构,该架构是诸如 ChatGPT 等平台所使用的大语言模型的基础。
第2章提出了一个从零开始构建大语言模型的计划。它涵盖了为大语言模型训练准备文本的过程,包括将文本拆分为单词词元和子词词元,使用字节对编码进行高级词元化,通过滑动窗口方法采样训练示例,以及将词元转换为可供大语言模型处理的向量形式。
第3章重点介绍了大语言模型中使用的注意力机制。它首先介绍了基本的自注意力框架,然后扩展到增强型自注意力机制。这一章还涵盖了因果注意力模块的实现,该模块使大语言模型能够逐个生成词元,并在生成过程中通过 dropout 技术随机掩码部分注意力权重以减少过拟合,同时将多个因果注意力模块堆叠起来,形成多头注意力模块。
第4章专注于编写一个能够通过训练生成类似人类语言文本的类 GPT 大语言模型。它涵盖了通过归一化层激活函数以稳定神经网络的训练,在深度神经网络中添加快捷连接以提升模型的训练效率,实现 Transformer 块以创建不同大小的 GPT 模型,以及计算 GPT 模型的参数量和存储需求等一系列技术。
第5章实现了大语言模型的预训练流程。内容包括计算训练集和验证集的损失以评估大语言模型生成文本的质量,实现训练函数并进行大语言模型预训练,保存和加载模型权重以继续训练大语言模型,以及从 OpenAI 加载预训练权重。
第6章展示了多种大语言模型微调方法。内容包括为文本分类任务准备数据集,修改预训练的大语言模型以进行微调,微调大语言模型以识别垃圾邮件,以及评估微调后的大语言模型分类器的准确性。
第7章探讨了大语言模型的指令微调过程。内容包括为监督式指令微调准备数据集,组织训练批次中的指令数据,加载并微调预训练的大语言模型使其能够遵循人类指令,提取大语言模型生成的指令响应以便评估,以及评估经过指令微调的大语言模型。