大模型原理:输入-目标对 作者:马育民 • 2026-01-07 18:28 • 阅读:10007 # 介绍 在大模型训练中,**输入-目标对(Input-Target Pairs)** 是构建训练数据集的核心单元,直接决定模型的学习目标和任务能力。其设计逻辑与模型的训练范式(预训练/微调)强相关,不同任务的输入-目标对结构差异显著。 # 概念 `输入-目标对` 是一组关联的样本数据,包含两个核心部分: 1. **输入(Input)**:模型接收的原始信息,通常是文本序列(如句子、段落、指令),也可以是多模态数据(文本+图像、文本+语音)。 2. **目标(Target)**:模型学习后需要输出的**预期结果**,是监督信号的载体,用于计算模型预测值与真实值的损失,驱动模型参数更新。 # 不同训练阶段的设计 大模型训练分为 **预训练** 和 **微调** 两个核心阶段,输入-目标对的设计目标和结构完全不同。 ### 1. 预训练阶段:无监督/自监督的输入-目标对 预训练的核心目标是让模型学习通用语言规律、知识和上下文关联,**目标由输入自身生成**(自监督),无需人工标注。 常见的预训练任务及对应的输入-目标对: | 预训练任务 | 输入(Input) | 目标(Target) | 典型场景 | |------------|---------------|----------------|----------| | 掩码语言建模(MLM) | 随机掩码部分token的文本,如:“今天[MASK]气很好” | 被掩码位置的真实token,如:“天” | BERT、ERNIE 等模型 | | 因果语言建模(CLM) | 文本前缀序列,如:“今天天气” | 后续的文本序列,如:“很好,适合出门散步” | GPT、LLaMA 等自回归模型 | | 句子顺序预测(NSP) | 两个句子拼接,标注是否为连续上下文,如:“[CLS]今天天气好[SEP]适合出门[SEP]” | 句子对的逻辑关系标签(0=不连续,1=连续) | BERT 预训练辅助任务 | **核心特点**: - 目标是输入的“一部分”,无需额外标注成本; - 模型学习的是“预测缺失信息”的能力,而非特定任务。 ### 2. 微调阶段:有监督的输入-目标对 微调的核心目标是让预训练模型适配**特定下游任务**,输入-目标对需要人工标注,目标是明确的任务输出。 常见下游任务及对应的输入-目标对: | 下游任务类型 | 输入(Input) | 目标(Target) | 示例 | |--------------|---------------|----------------|------| | 分类任务(情感分析、文本分类) | 待分类的文本 | 类别标签(离散值) | 输入:“这部电影太精彩了”目标:“正面情感” | | 生成任务(机器翻译、摘要、对话) | 源文本/指令 | 目标文本(连续序列) | 翻译输入:“我爱中国”翻译目标:“I love China”对话输入:“你好,今天天气怎么样?”对话目标:“今天晴天,气温25度哦~” | | 序列标注(NER、分词、词性标注) | 待标注的文本序列 | 每个token对应的标签序列 | 输入:“小明在北京大学读书”目标:“B-PER I-PER O B-ORG I-ORG I-ORG O” | | 指令微调(Instruction Tuning) | 自然语言指令+任务描述 | 符合指令要求的输出 | 输入:“请总结下面的文章:[文章内容]”目标:“文章核心内容是……” | **核心特点**: - 目标与任务强绑定,人工标注成本高; - 输入通常会加入**任务提示词(Prompt)**,让模型更精准理解任务需求。 原文出处:http://www.malaoshi.top/show_1GW2Y97fMBL5.html