LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】

文章目录

3、语言模型训练数据
- 3.1、词元切分
- 3.2、词元分析算法

3、语言模型训练数据

数据质量对模型影响非常大。

典型数据处理：质量过滤、冗余去除、隐私消除、词元切分等。

训练数据的构建时间、噪音或有害信息情况、数据重复率等因素都对模型性能有较大影响。
训练数据和测试数据的时间错配会一定程度上影响模型的的效果。

3.1、词元切分

构建词元表：覆盖绝大部分的输入词，并避免词表过大所造成的数据稀疏问题。
BPE
将字节视为合并的基本符号。
算法过程

词元词表的确定

统计每个相邻字节对的出现频率，合并出现频率最高的字节对，将其作为新的词元加入词表。

在这里插入图片描述
2. 全词切分为词元以及词元合并为全词的方法

输入词序列全词切分，对照词表按词元从长到短顺序遍历匹配。

合成全词时，词元表示失败部分视作未登录词，赋予相同表示。

开源数据集合

Pile
ROOTS
RefinedWeb
SlimPajama

3.2、词元分析算法

WordPiece词元分析算法（BERT）

先评分
再合并，合并使得训练数据似然概率增加最高的词元对。

HuggingFace 提供的评分公式：
$\frac{词元对出现的频率}{第一个词元出现的频率 × 第二个词元出现的频率}$

Unigram词元分析算法（T5,mBART）

从一个足够大的可能词元集合开始，迭代的从当前列表中删除词元，直到达到预期的词汇表大小为止。
删除标准：训练语料库似然性的增加量

"语料库的似然性"通常是指一个特定文本序列（通常是一段文本或一个句子）在语料库中出现的概率。

BPE词元分析算法（GPT-2，BART，LLaMA）
将字节视为合并的基本符号。

Tips：

$R^d$ ：表示d维度张向量空间。

$R^{d × m}$ ： d ×m 的实数矩阵的空间。

Hugging Face（Hugging Face Transformers）是一个面向自然语言处理（NLP）领域的开源社区和公司，它以构建和维护各种预训练模型以及提供与自然语言处理相关的工具和库而闻名。该社区和公司的名字“Hugging Face”来自于一个富有亲和力的面部照片，反映了他们的愿景，即使人工智能模型变得更加友好和可访问。

Hugging Face的主要贡献和活动包括：

预训练模型库：Hugging Face维护了一个大规模的预训练模型库，其中包括了许多流行的NLP模型，如BERT、GPT、RoBERTa、XLNet等。这些模型在各种NLP任务上表现出色，并且可以用于微调以适应特定任务。

Transformers库：Hugging Face提供了名为Transformers的Python库，用于轻松加载、使用和微调各种预训练模型。这个库包含了丰富的示例代码和工具，使研究人员和开发者能够快速开始使用最先进的NLP模型。

模型卡片（Model Cards）：Hugging Face提倡模型卡片的使用，这是一种文档形式，用于提供有关预训练模型的详细信息、使用案例、性能评估和注意事项。这有助于提高模型的透明度和可解释性。

社区贡献：Hugging Face的社区活跃，并且在GitHub上有大量的贡献者。他们分享了自己的模型、工具、代码和教程，使整个NLP社区受益。

Hub：Hugging Face提供了一个模型和数据的中央存储库，称为Hugging Face Hub，允许用户共享、下载和管理NLP模型和数据集。

检查点是模型在训练或生成过程中的某个时间点的保存状态，通常包括模型的权重参数和其他相关信息，以便稍后能够重新加载模型并继续训练或进行推理。

消融实验（ablation experiment）是一种用于研究机器学习模型或深度学习模型的重要实验方法。在这种实验中，研究人员有目的地将模型的某些组件或特性删除或禁用，以评估这些组件对模型性能的影响。消融实验的主要目的是帮助理解模型的工作原理、识别关键组件，以及确定哪些因素对模型性能产生了最大的影响。文章来源地址https://uudwc.com/A/pjak2

Few-shot Learning（少样本学习）：

Few-shot learning 涉及到在训练数据非常有限的情况下，使模型能够有效地学习和泛化。通常，few-shot learning 指的是模型在少于常规训练所需数量的样本上进行训练。这可以包括几个样本（通常小于10个）或更多，但总体上比传统的大规模训练数据要少。

Few-shot learning 的一个常见应用是在计算机视觉中，例如人脸识别任务中，通过提供只有少数几张示例图像，使模型能够识别和分类新的人脸。

One-shot Learning（一样本学习）：

One-shot learning 是 few-shot learning 的一个特例，它更加极端。在 one-shot learning 中，模型只能在单个训练样本上学习，并且需要能够在测试时正确地识别或分类新的示例。

One-shot learning 的一个例子是手写字符识别，其中模型需要从单个示例字符中学习如何识别该字符，然后用于识别其他类似字符。

Zero-shot Learning（零样本学习）：

Zero-shot learning 是一种更具挑战性的任务。在 zero-shot learning 中，模型需要能够在测试时处理从未在训练中见过的类别或样本。它需要具有泛化到全新情况的能力。

通常，zero-shot learning 使用属性或特征的描述来帮助模型理解新类别。例如，给定一个包含动物的图像数据集，模型可能没有见过一种叫做"斑马"的类别，但可以使用属性信息（例如，“有条纹”）来理解并识别这个类别。

思维树(Tree of Thoughts, ToT)：ToT提示是一种允许复杂的、多步骤问题通过LLM来解决的方法。通过将问题的解决方案分解为个别的步骤或思维，ToT提示使得可以通过多个推理线支持策略性的前瞻、回溯等进行复杂的解决方案空间探索。然后，我们可以在这个框架内通过与已知的图形结构数据搜索算法的组合进行提示和自我评估来搜索问题的解决方案。

思维链(Chain of Thoughts, ToT)：CoT的本质是将复杂任务拆解为多个简单的子任务，它指的是一个思维过程中的连续逻辑推理步骤或关联的序列，是思维过程中一系列相互关联的想法、观点或概念的串联。思维链通常用于解决问题、做决策或进行推理。它可以按照逻辑顺序连接和组织思维，将复杂的问题分解为更简单的步骤或概念，从而更好地理解和解决问题。CoT通常只有一条解决问题的路径，ToT等于是CoT的一个拓展。

人类反馈训练：人类反馈的强化学习（RLHF）