大模型微调
⭐⭐⭐ 核心必背
冻结哪些层?前几层/后几层/FFN 区别?
参考答案
小数据常冻底层保通用特征、只调高层;或 LoRA 只训低秩适配器。底层偏通用语法,高层偏任务语义;FFN 常承载领域知识,领域适配可重点调。
推理模型 RL vs 非推理 RLHF?
参考答案
推理模型常强化 链式过程/答案正确性(如 GRPO、过程奖励);经典 RLHF 偏重 人类偏好与无害;可叠加但目标与数据不同。
推理深度 vs 延迟?
参考答案
动态停止、预算控制、蒸馏短链、投机解码、产品侧「快答/深思」模式分流。
极大模型的架构变化?
参考答案
MoE 稀疏激活、GQA、张量/流水线/数据并行、序列并行;解决算力、显存与吞吐。
典型训练流程与数据量?
参考答案
预训练(TB 级 token)→SFT(百万–千万对话)→RM+RLHF/DPO(万–十万偏好);量级递减、质量递增。
为何预训练数据远大于 SFT?
参考答案
预训练学广泛分布需海量统计证据;SFT 主要学格式与对齐,窄分布少样本即可(相对)。
数据去重?
参考答案
MinHash/LSH 等文档级;减记忆与基准污染、提泛化。
缩放法则三变量?
参考答案
模型参数 N、数据量 D、算力 C;最优配比(如 Chinchilla:算力固定时 N、D 应同阶扩展)。
灾难性遗忘与缓解?
参考答案
新任务损旧能力;缓解:回放通用数据、KL 向参考模型、低 LR、LoRA、EWC 等。
指令微调 vs SFT?
参考答案
指令微调是 SFT 子集,强调(指令,回答)对与跟随能力;常混称。
预训练 vs SFT 能力分工?
参考答案
预训练:语法与世界知识;SFT:「以 JSON 输出」「扮演客服」等格式与角色。
涌现能力三例?
参考答案
链式推理、指令跟随突增、多步算术/代码(随规模与训练变显著;定义有争议)。
预训练、SFT、RLHF 三阶段?
参考答案
预训练:无标注文本;SFT:示范对话;RLHF:偏好比较训 RM+PPO(或 DPO 类免显式 RM)。
RLHF 中 RM?
参考答案
学人类偏好标量奖励;对策略模型输出打分指导 PPO。
显存占用组成与公式?
参考答案
参数+梯度+优化器状态(Adam 约 2×参数 FP32 动量方差)+激活;粗算:训练 ≈ 参数×(1+1+2)×精度 + 激活(随 batch、长、检查点变)。
N 亿参数 Adam FP16 训练显存粗算?
参考答案
参数+梯度各 2B 字节/参(FP16);Adam 状态常 FP32 约 8B/参;合计约 16×N bytes 量级仅优化相关,再加激活。例:7B 全参训练常需多卡。
梯度检查点?
参考答案
前向不存全部激活、反向重算;换时间省显存。
其他显存优化?
参考答案
ZeRO、混合精度、FlashAttention、CPU offload、序列并行。
PPO 在 RLHF 中角色?
参考答案
Actor=策略 LLM,Critic 估价值(可选简化),RM 给奖励;KL 约束近参考模型。
PPO clip 与重要性采样?
参考答案
校正 off-policy 比;clip 限制单步更新过大,防崩溃。
参考模型作用?
参考答案
锚定原分布,KL 惩罚防模式坍缩与胡编。
RM 训练目标与数据?
参考答案
成对/排序数据 (y_w, y_l);Bradley-Terry / pairwise logistic 损失,使好响应分更高。
KL 惩罚?
参考答案
限制策略偏离参考;系数大→保守,小→易奖励黑客。
长度外推?
参考答案
训练未见更长位置,绝对位置插值/注意力分布外推失效。
RoPE 核心?
参考答案
将 Q/K 分维对做旋转,角含位置 m;内积仅依赖相对位置 m-n。
注意力复杂度与瓶颈?
参考答案
时间 O(n²d),空间存注意力矩阵或 O(n) 用 Flash+增量;长序列平方瓶颈。
困惑度?
参考答案
(e^{-\frac{1}{T}\sum \log p(x_t|...)});仅语言建模 proxy,与下游非线性相关。
MoE?
参考答案
多专家前馈,门控每 token 激活少数专家;总参数大、激活 FLOPs 可控。
MoE 挑战与对策?
参考答案
负载不均衡→aux loss;通信→专家并行;训练不稳→路由温度、z-loss。
LoRA 思想?
参考答案
低秩分解 ΔW=BA;只训 A,B,假设更新位于低维子空间。
LoRA 在 Q/V 实现?
参考答案
W'=W+BA,冻结 W;前向 xW^T+x(BA)^T;反向只更新 A,B。
LoRA rank?
参考答案
r 大容量↑参数↑;常 8–64 扫;任务难/数据多用大 r。
其他 PEFT?
参考答案
Prefix-Tuning、Adapter、(IA)³。
⭐⭐ 常见重点
标注少如何扩增?
参考答案
LLM 改写、回译、EDA、难例挖掘、半监督伪标(慎用质量控制)。
领域数据?
参考答案
高质量代码/论文/书籍/多语平行语料;与通用语料配比防遗忘。
预训练语料质量?
参考答案
去重、去毒、语言 ID、困惑度过滤、分类器滤低质、版权合规。
数据多样性?
参考答案
领域、文体、语言、难度混合;避免单一语料过拟合。
预处理流程?
参考答案
清洗→去重→分词/tokenize→packing/mask→拼 batch。
涌现为何出现?
参考答案
规模↑容量与组合模式↑;评价阈值与度量突跳;尚无单一公认解释。
SFT 数据构造?
参考答案
人工写、模型辅助写+人审、多轮对话树;强调多样指令与拒答样本。
数据并行 All-Reduce?
参考答案
梯度同步;每步通信量 ~2×(n-1)/n × 梯度总字节(环算法常数因子不同)。
流水线并行与气泡?
参考答案
层切分到多卡,micro-batch 流水;气泡=设备空转;增 micro-batch 降气泡占比。
ZeRO-3?
参考答案
参数/梯度/优化器状态分片到多卡;通信增加,显存大降。
3D 并行通信?
参考答案
TP 层内通信密,DP 跨机,PP 阶段间;原则:高带宽域放 TP,减少跨机。
RM OOD 不可靠?
参考答案
混合通用与领域数据、正则、与策略联合训练、DPO 类避免显式 RM。
稳定 PPO 技术?
参考答案
KL 监控早停、reward 归一化、梯度裁剪、小学习率、价值函数 clip。
奖励归一化?
参考答案
减均值除方差,防 value 网络数值不稳与尺度敏感。
垂类微调?
参考答案
领域术语、法规模板、合规拒答;评估加领域测试集与红队。
数据混合?
参考答案
按比例混入通用指令+领域;动态调比例、课程学习。
词表扩充场景?
参考答案
大量罕见医学实体、代码 token、低资源语言专有词。
扩充词表步骤与初始化?
参考答案
统计子词→扩 tokenizer→嵌入行均值初始化或相似 token 复制→继续预训练。
为何继续训练?
参考答案
新 token 嵌入随机→分布不匹配;需让模型学会使用新符号。
外推提升手段?
参考答案
NTK/YaRN、ALiBi、长文继续训练、随机截断、位置插值。
RoPE 相对正弦/可学习?
参考答案
显式相对位置;外推仍有限但常配合缩放优于纯可学习。
知识 vs 推理评测?
参考答案
分离记忆检索与逻辑;避免仅用闭卷题混淆「背题」与「推理」。
BLEU 对 LLM 失效?
参考答案
多正确答案、创意表达、忠实度与流畅需人工/LLM 评判。
稠密 vs MoE?
参考答案
MoE 吞吐/延迟随路由波动,显存吃更多专家权重,分布式复杂。
添加式 vs 重参数化 PEFT?
参考答案
Adapter/Prefix 增推理路径或长度;LoRA 可合并权重无额外延迟(合并后)。
选 PEFT 维度?
参考答案
效果、显存、延迟、合并需求、实现成本。
何时全参微调?
参考答案
数据足、任务与预训练分布差大、要深层改行为;小模型或资源允许时。
⭐ 拓展了解
法律助手数据构造?
参考答案
法条、判例、合同模板(合规来源);指令-分析-引用格式;律师审核与脱敏。
外推评测?
参考答案
Needle-in-haystack、长文档 QA、随长度曲线。
RoPE 2D 旋转矩阵?
参考答案
(\begin{bmatrix}\cos m\theta&-\sin m\theta\\sin m\theta&\cos m\theta\end{bmatrix}) 作用在 ((q*{2i},q*{2i+1}));两位置旋转差体现 m-n。
BLEU/ROUGE vs BERTScore?
参考答案
N-gram 对改写严、快;BERTScore 语义松、计算贵。