LLM 学习笔记1-绪论

Posted Oct 21, 2024 Updated Dec 22, 2024

By Zhixin Cai

5 min read

LLM 学习笔记1-绪论

符号智能 $\to$ 狭义智能 $\to$ 通用智能

##符号智能

用预定义的符号和规则来表示知识，从而进行进一步的信息分析和推理。

局限性：构建知识库很困难；不是所有知识都能通过结构化的三元组明确表达；符号智能系统无法解决知识库未涵盖的内容。

狭义智能

这种范式通常从特定于任务的数据中 训练数据驱动的机器学习模型，并将任务知识存储在特定于任务的小模型的参数中。

2010 年以后，深度神经网络 的兴起显著增强了数据驱动模型的有效性。

AlphaGo 就属于基于深度学习的狭义智能。

局限性：为特定任务注释数据成本高昂，而狭义智能无法解决注释数据未涵盖的任务。

##通用智能

通用智能：该范式采用自我监督训练，从大量未标记的数据集中学习，将知识存储在大规模模型参数中。

优点：无标记数据成本低，容易获取；大规模参数有利于一般知识的学习和存储。

AGI：通用人工智能，智能超过人类的AI系统。

任务：预测下一个 Token。给定上下文，生成下一个 Token。

自回归生成：核心思想是 基于先前生成的部分 来预测和生成后续的部分。自回归生成模型会逐步生成一个序列，每一步都依赖前面已经生成的内容。

训练：学习将训练语料逐个 Token 输出。

推理：通过计算每个Token在特定上下文中的概率分布，模型能够选择最有可能的Token来生成连贯且符合上下文的文本。

自监督预训练：
利用未标记的数据，要求模型预测下一个 Token，并根据文本数据本身来调整模型。
结果：能够针对任何给定上下文生成流畅的后续文本的模型
但是该阶段模型还不知道如何应用从预训练中学到的知识，仅仅能够对给定的输入进行续写。
监督微调（SFT）
使用人类标注的 response（聊天数据）来训练模型，让模型具备理解用户意图的能力。
结果：模型学会应用预训练中获得的知识来回答用户的问题。
人类反馈中学习
不再向模型提供逐字参考答案，而是仅提供模型输出的质量反馈(评分)。然后对模型进行训练以提高其响应的分数。

大规模数据：大量知识的获取

大规模参数：存储更多知识，展现“涌现能力”

涌现能力：参数规模超越一定阈值时，LLM 会展现出新的能力

This post is licensed under CC BY 4.0 by the author.