Skip to content

大模型微调

⭐⭐⭐ 核心必背

冻结哪些层?前几层/后几层/FFN 区别?

参考答案

小数据常冻底层保通用特征、只调高层;或 LoRA 只训低秩适配器。底层偏通用语法,高层偏任务语义;FFN 常承载领域知识,领域适配可重点调。

推理模型 RL vs 非推理 RLHF?

参考答案

推理模型常强化 链式过程/答案正确性(如 GRPO、过程奖励);经典 RLHF 偏重 人类偏好与无害;可叠加但目标与数据不同。

推理深度 vs 延迟?

参考答案

动态停止、预算控制、蒸馏短链、投机解码、产品侧「快答/深思」模式分流。

极大模型的架构变化?

参考答案

MoE 稀疏激活、GQA、张量/流水线/数据并行、序列并行;解决算力、显存与吞吐。

典型训练流程与数据量?

参考答案

预训练(TB 级 token)→SFT(百万–千万对话)→RM+RLHF/DPO(万–十万偏好);量级递减、质量递增。

为何预训练数据远大于 SFT?

参考答案

预训练学广泛分布需海量统计证据;SFT 主要学格式与对齐,窄分布少样本即可(相对)。

数据去重?

参考答案

MinHash/LSH 等文档级;减记忆与基准污染、提泛化。

缩放法则三变量?

参考答案

模型参数 N、数据量 D、算力 C;最优配比(如 Chinchilla:算力固定时 N、D 应同阶扩展)。

灾难性遗忘与缓解?

参考答案

新任务损旧能力;缓解:回放通用数据、KL 向参考模型、低 LR、LoRA、EWC 等。

指令微调 vs SFT?

参考答案

指令微调是 SFT 子集,强调(指令,回答)对与跟随能力;常混称。

预训练 vs SFT 能力分工?

参考答案

预训练:语法与世界知识;SFT:「以 JSON 输出」「扮演客服」等格式与角色。

涌现能力三例?

参考答案

链式推理、指令跟随突增、多步算术/代码(随规模与训练变显著;定义有争议)。

预训练、SFT、RLHF 三阶段?

参考答案

预训练:无标注文本;SFT:示范对话;RLHF:偏好比较训 RM+PPO(或 DPO 类免显式 RM)。

RLHF 中 RM?

参考答案

学人类偏好标量奖励;对策略模型输出打分指导 PPO。

显存占用组成与公式?

参考答案

参数+梯度+优化器状态(Adam 约 2×参数 FP32 动量方差)+激活;粗算:训练 ≈ 参数×(1+1+2)×精度 + 激活(随 batch、长、检查点变)。

N 亿参数 Adam FP16 训练显存粗算?

参考答案

参数+梯度各 2B 字节/参(FP16);Adam 状态常 FP32 约 8B/参;合计约 16×N bytes 量级仅优化相关,再加激活。例:7B 全参训练常需多卡。

梯度检查点?

参考答案

前向不存全部激活、反向重算;换时间省显存

其他显存优化?

参考答案

ZeRO、混合精度、FlashAttention、CPU offload、序列并行。

PPO 在 RLHF 中角色?

参考答案

Actor=策略 LLM,Critic 估价值(可选简化),RM 给奖励;KL 约束近参考模型。

PPO clip 与重要性采样?

参考答案

校正 off-policy 比;clip 限制单步更新过大,防崩溃。

参考模型作用?

参考答案

锚定原分布,KL 惩罚防模式坍缩与胡编。

RM 训练目标与数据?

参考答案

成对/排序数据 (y_w, y_l);Bradley-Terry / pairwise logistic 损失,使好响应分更高。

KL 惩罚?

参考答案

限制策略偏离参考;系数大→保守,小→易奖励黑客。

长度外推?

参考答案

训练未见更长位置,绝对位置插值/注意力分布外推失效。

RoPE 核心?

参考答案

将 Q/K 分维对做旋转,角含位置 m;内积仅依赖相对位置 m-n。

注意力复杂度与瓶颈?

参考答案

时间 O(n²d),空间存注意力矩阵或 O(n) 用 Flash+增量;长序列平方瓶颈。

困惑度?

参考答案

(e^{-\frac{1}{T}\sum \log p(x_t|...)});仅语言建模 proxy,与下游非线性相关。

MoE?

参考答案

多专家前馈,门控每 token 激活少数专家;总参数大、激活 FLOPs 可控。

MoE 挑战与对策?

参考答案

负载不均衡→aux loss;通信→专家并行;训练不稳→路由温度、z-loss。

LoRA 思想?

参考答案

低秩分解 ΔW=BA;只训 A,B,假设更新位于低维子空间。

LoRA 在 Q/V 实现?

参考答案

W'=W+BA,冻结 W;前向 xW^T+x(BA)^T;反向只更新 A,B。

LoRA rank?

参考答案

r 大容量↑参数↑;常 8–64 扫;任务难/数据多用大 r。

其他 PEFT?

参考答案

Prefix-Tuning、Adapter、(IA)³。

⭐⭐ 常见重点

标注少如何扩增?

参考答案

LLM 改写、回译、EDA、难例挖掘、半监督伪标(慎用质量控制)。

领域数据?

参考答案

高质量代码/论文/书籍/多语平行语料;与通用语料配比防遗忘。

预训练语料质量?

参考答案

去重、去毒、语言 ID、困惑度过滤、分类器滤低质、版权合规。

数据多样性?

参考答案

领域、文体、语言、难度混合;避免单一语料过拟合。

预处理流程?

参考答案

清洗→去重→分词/tokenize→packing/mask→拼 batch。

涌现为何出现?

参考答案

规模↑容量与组合模式↑;评价阈值与度量突跳;尚无单一公认解释。

SFT 数据构造?

参考答案

人工写、模型辅助写+人审、多轮对话树;强调多样指令与拒答样本。

数据并行 All-Reduce?

参考答案

梯度同步;每步通信量 ~2×(n-1)/n × 梯度总字节(环算法常数因子不同)。

流水线并行与气泡?

参考答案

层切分到多卡,micro-batch 流水;气泡=设备空转;增 micro-batch 降气泡占比。

ZeRO-3?

参考答案

参数/梯度/优化器状态分片到多卡;通信增加,显存大降。

3D 并行通信?

参考答案

TP 层内通信密,DP 跨机,PP 阶段间;原则:高带宽域放 TP,减少跨机。

RM OOD 不可靠?

参考答案

混合通用与领域数据、正则、与策略联合训练、DPO 类避免显式 RM。

稳定 PPO 技术?

参考答案

KL 监控早停、reward 归一化、梯度裁剪、小学习率、价值函数 clip。

奖励归一化?

参考答案

减均值除方差,防 value 网络数值不稳与尺度敏感。

垂类微调?

参考答案

领域术语、法规模板、合规拒答;评估加领域测试集与红队。

数据混合?

参考答案

按比例混入通用指令+领域;动态调比例、课程学习。

词表扩充场景?

参考答案

大量罕见医学实体、代码 token、低资源语言专有词。

扩充词表步骤与初始化?

参考答案

统计子词→扩 tokenizer→嵌入行均值初始化或相似 token 复制→继续预训练。

为何继续训练?

参考答案

新 token 嵌入随机→分布不匹配;需让模型学会使用新符号。

外推提升手段?

参考答案

NTK/YaRN、ALiBi、长文继续训练、随机截断、位置插值。

RoPE 相对正弦/可学习?

参考答案

显式相对位置;外推仍有限但常配合缩放优于纯可学习。

知识 vs 推理评测?

参考答案

分离记忆检索与逻辑;避免仅用闭卷题混淆「背题」与「推理」。

BLEU 对 LLM 失效?

参考答案

多正确答案、创意表达、忠实度与流畅需人工/LLM 评判。

稠密 vs MoE?

参考答案

MoE 吞吐/延迟随路由波动,显存吃更多专家权重,分布式复杂。

添加式 vs 重参数化 PEFT?

参考答案

Adapter/Prefix 增推理路径或长度;LoRA 可合并权重无额外延迟(合并后)。

选 PEFT 维度?

参考答案

效果、显存、延迟、合并需求、实现成本。

何时全参微调?

参考答案

数据足、任务与预训练分布差大、要深层改行为;小模型或资源允许时。

拓展了解

法律助手数据构造?

参考答案

法条、判例、合同模板(合规来源);指令-分析-引用格式;律师审核与脱敏。

外推评测?

参考答案

Needle-in-haystack、长文档 QA、随长度曲线。

RoPE 2D 旋转矩阵?

参考答案

(\begin{bmatrix}\cos m\theta&-\sin m\theta\\sin m\theta&\cos m\theta\end{bmatrix}) 作用在 ((q*{2i},q*{2i+1}));两位置旋转差体现 m-n。

BLEU/ROUGE vs BERTScore?

参考答案

N-gram 对改写严、快;BERTScore 语义松、计算贵。

仅供学习交流,题目与答案要点请结合业务与最新论文核对。