大语言模型在解析和理解非结构化文本数据方面的能力非常强,因此它们在许多领域得到了广泛应用。如今,大语言模型已被应用于机器翻译、文本生成(参见图 1-2)、情感分析、文本摘要等多种任务。最近,它们还被用于进行内容创作,包括撰写小说和文章,甚至编写计算机代码。

图 1-2 大语言模型界面实现了用户和人工智能系统之间的自然语言交互。该截图展示了 ChatGPT 按照用户要求创作的一首诗

此外,大语言模型还可以为复杂的聊天机器人和虚拟助手提供支持,包括 OpenAI 的 ChatGPT、谷歌的 Gemini(前称为 Bard)等。这些系统可以回答用户的问题,并增强谷歌搜索、微软必应等传统搜索引擎的能力。

在医学、法律等专业领域中,大语言模型还被用于从大量文本中有效地提取知识,包括筛选文献、总结长篇段落和回答技术性问题。

简而言之,大语言模型在几乎所有需要解析和生成文本的任务的自动化处理中都具有重要价值。它们的应用领域极为广阔,并且显而易见的是,随着我们不断创新和探索这些模型的使用方法,它们有潜力重塑我们与科技的关系,使其变得更具互动性、更为直观且更易使用。

在本书中,我们将致力于从零开始理解大语言模型的工作原理,并实现一个可以生成文本的大语言模型。此外,你还将学习使大语言模型能够执行各类任务(包括回答问题、文本总结、多语言翻译等)的技术。换言之,在本书中,你将通过逐步构建一个像 ChatGPT 这样复杂的大语言模型助手,来学习其工作原理。