大模型微调

⭐⭐⭐ 核心必背

冻结哪些层？前几层/后几层/FFN 区别？

参考答案

小数据常冻底层保通用特征、只调高层；或 LoRA 只训低秩适配器。底层偏通用语法，高层偏任务语义；FFN 常承载领域知识，领域适配可重点调。

推理模型 RL vs 非推理 RLHF？

参考答案

推理模型常强化 链式过程/答案正确性（如 GRPO、过程奖励）；经典 RLHF 偏重 人类偏好与无害；可叠加但目标与数据不同。

推理深度 vs 延迟？

参考答案

动态停止、预算控制、蒸馏短链、投机解码、产品侧「快答/深思」模式分流。

极大模型的架构变化？

参考答案

MoE 稀疏激活、GQA、张量/流水线/数据并行、序列并行；解决算力、显存与吞吐。

典型训练流程与数据量？

参考答案

预训练（TB 级 token）→SFT（百万–千万对话）→RM+RLHF/DPO（万–十万偏好）；量级递减、质量递增。

为何预训练数据远大于 SFT？

参考答案

预训练学广泛分布需海量统计证据；SFT 主要学格式与对齐，窄分布少样本即可（相对）。

数据去重？

参考答案

MinHash/LSH 等文档级；减记忆与基准污染、提泛化。

缩放法则三变量？

参考答案

模型参数 N、数据量 D、算力 C；最优配比（如 Chinchilla：算力固定时 N、D 应同阶扩展）。

灾难性遗忘与缓解？

参考答案

新任务损旧能力；缓解：回放通用数据、KL 向参考模型、低 LR、LoRA、EWC 等。

指令微调 vs SFT？

参考答案

指令微调是 SFT 子集，强调（指令，回答）对与跟随能力；常混称。

预训练 vs SFT 能力分工？

参考答案

预训练：语法与世界知识；SFT：「以 JSON 输出」「扮演客服」等格式与角色。

涌现能力三例？

参考答案

链式推理、指令跟随突增、多步算术/代码（随规模与训练变显著；定义有争议）。

预训练、SFT、RLHF 三阶段？

参考答案

预训练：无标注文本；SFT：示范对话；RLHF：偏好比较训 RM+PPO（或 DPO 类免显式 RM）。

RLHF 中 RM？

参考答案

学人类偏好标量奖励；对策略模型输出打分指导 PPO。

显存占用组成与公式？

参考答案

参数+梯度+优化器状态（Adam 约 2×参数 FP32 动量方差）+激活；粗算：训练 ≈ 参数×(1+1+2)×精度 + 激活（随 batch、长、检查点变）。

N 亿参数 Adam FP16 训练显存粗算？

参考答案

参数+梯度各 2B 字节/参（FP16）；Adam 状态常 FP32 约 8B/参；合计约 16×N bytes 量级仅优化相关，再加激活。例：7B 全参训练常需多卡。

梯度检查点？

参考答案

前向不存全部激活、反向重算；换时间省显存。

其他显存优化？

参考答案

ZeRO、混合精度、FlashAttention、CPU offload、序列并行。

PPO 在 RLHF 中角色？

参考答案

Actor=策略 LLM，Critic 估价值（可选简化），RM 给奖励；KL 约束近参考模型。

PPO clip 与重要性采样？

参考答案

校正 off-policy 比；clip 限制单步更新过大，防崩溃。

参考模型作用？

参考答案

锚定原分布，KL 惩罚防模式坍缩与胡编。

RM 训练目标与数据？

参考答案

成对/排序数据 (y_w, y_l)；Bradley-Terry / pairwise logistic 损失，使好响应分更高。

KL 惩罚？

参考答案

限制策略偏离参考；系数大→保守，小→易奖励黑客。

长度外推？

参考答案

训练未见更长位置，绝对位置插值/注意力分布外推失效。

RoPE 核心？

参考答案

将 Q/K 分维对做旋转，角含位置 m；内积仅依赖相对位置 m-n。

注意力复杂度与瓶颈？

参考答案

时间 O(n²d)，空间存注意力矩阵或 O(n) 用 Flash+增量；长序列平方瓶颈。

困惑度？

参考答案

(e^{-\frac{1}{T}\sum \log p(x_t|...)})；仅语言建模 proxy，与下游非线性相关。

MoE？

参考答案

多专家前馈，门控每 token 激活少数专家；总参数大、激活 FLOPs 可控。

MoE 挑战与对策？

参考答案

负载不均衡→aux loss；通信→专家并行；训练不稳→路由温度、z-loss。

LoRA 思想？

参考答案

低秩分解 ΔW=BA；只训 A,B，假设更新位于低维子空间。

LoRA 在 Q/V 实现？

参考答案

W'=W+BA，冻结 W；前向 xW^T+x(BA)^T；反向只更新 A,B。

LoRA rank？

参考答案

r 大容量↑参数↑；常 8–64 扫；任务难/数据多用大 r。

其他 PEFT？

参考答案

Prefix-Tuning、Adapter、(IA)³。

⭐⭐ 常见重点

标注少如何扩增？

参考答案

LLM 改写、回译、EDA、难例挖掘、半监督伪标（慎用质量控制）。

领域数据？

参考答案

高质量代码/论文/书籍/多语平行语料；与通用语料配比防遗忘。

预训练语料质量？

参考答案

去重、去毒、语言 ID、困惑度过滤、分类器滤低质、版权合规。

数据多样性？

参考答案

领域、文体、语言、难度混合；避免单一语料过拟合。

预处理流程？

参考答案

清洗→去重→分词/tokenize→packing/mask→拼 batch。

涌现为何出现？

参考答案

规模↑容量与组合模式↑；评价阈值与度量突跳；尚无单一公认解释。

SFT 数据构造？

参考答案

人工写、模型辅助写+人审、多轮对话树；强调多样指令与拒答样本。

数据并行 All-Reduce？

参考答案

梯度同步；每步通信量 ~2×(n-1)/n × 梯度总字节（环算法常数因子不同）。

流水线并行与气泡？

参考答案

层切分到多卡，micro-batch 流水；气泡=设备空转；增 micro-batch 降气泡占比。

ZeRO-3？

参考答案

参数/梯度/优化器状态分片到多卡；通信增加，显存大降。

3D 并行通信？

参考答案

TP 层内通信密，DP 跨机，PP 阶段间；原则：高带宽域放 TP，减少跨机。

RM OOD 不可靠？

参考答案

混合通用与领域数据、正则、与策略联合训练、DPO 类避免显式 RM。

稳定 PPO 技术？

参考答案

KL 监控早停、reward 归一化、梯度裁剪、小学习率、价值函数 clip。

奖励归一化？

参考答案

减均值除方差，防 value 网络数值不稳与尺度敏感。

垂类微调？

参考答案

领域术语、法规模板、合规拒答；评估加领域测试集与红队。

数据混合？

参考答案

按比例混入通用指令+领域；动态调比例、课程学习。

词表扩充场景？

参考答案

大量罕见医学实体、代码 token、低资源语言专有词。

扩充词表步骤与初始化？

参考答案

统计子词→扩 tokenizer→嵌入行均值初始化或相似 token 复制→继续预训练。

为何继续训练？

参考答案

新 token 嵌入随机→分布不匹配；需让模型学会使用新符号。

外推提升手段？

参考答案

NTK/YaRN、ALiBi、长文继续训练、随机截断、位置插值。

RoPE 相对正弦/可学习？

参考答案

显式相对位置；外推仍有限但常配合缩放优于纯可学习。

知识 vs 推理评测？

参考答案

分离记忆检索与逻辑；避免仅用闭卷题混淆「背题」与「推理」。

BLEU 对 LLM 失效？

参考答案

多正确答案、创意表达、忠实度与流畅需人工/LLM 评判。

稠密 vs MoE？

参考答案

MoE 吞吐/延迟随路由波动，显存吃更多专家权重，分布式复杂。

添加式 vs 重参数化 PEFT？

参考答案

Adapter/Prefix 增推理路径或长度；LoRA 可合并权重无额外延迟（合并后）。

选 PEFT 维度？

参考答案

效果、显存、延迟、合并需求、实现成本。

何时全参微调？

参考答案

数据足、任务与预训练分布差大、要深层改行为；小模型或资源允许时。

⭐ 拓展了解

法律助手数据构造？

参考答案

法条、判例、合同模板（合规来源）；指令-分析-引用格式；律师审核与脱敏。

外推评测？

参考答案

Needle-in-haystack、长文档 QA、随长度曲线。

RoPE 2D 旋转矩阵？

参考答案

(\begin{bmatrix}\cos m\theta&-\sin m\theta\\sin m\theta&\cos m\theta\end{bmatrix}) 作用在 ((q*{2i},q*{2i+1}))；两位置旋转差体现 m-n。

BLEU/ROUGE vs BERTScore？

参考答案

N-gram 对改写严、快；BERTScore 语义松、计算贵。

大模型微调 ​

⭐⭐⭐ 核心必背 ​

冻结哪些层？前几层/后几层/FFN 区别？ ​

推理模型 RL vs 非推理 RLHF？ ​

推理深度 vs 延迟？ ​

极大模型的架构变化？ ​

典型训练流程与数据量？ ​

为何预训练数据远大于 SFT？ ​

数据去重？ ​

缩放法则三变量？ ​

灾难性遗忘与缓解？ ​

指令微调 vs SFT？ ​

预训练 vs SFT 能力分工？ ​

涌现能力三例？ ​

预训练、SFT、RLHF 三阶段？ ​

RLHF 中 RM？ ​

显存占用组成与公式？ ​

N 亿参数 Adam FP16 训练显存粗算？ ​

梯度检查点？ ​

其他显存优化？ ​

PPO 在 RLHF 中角色？ ​

PPO clip 与重要性采样？ ​

参考模型作用？ ​

RM 训练目标与数据？ ​

KL 惩罚？ ​

长度外推？ ​

RoPE 核心？ ​

注意力复杂度与瓶颈？ ​

困惑度？ ​

MoE？ ​

MoE 挑战与对策？ ​

LoRA 思想？ ​

LoRA 在 Q/V 实现？ ​

LoRA rank？ ​

其他 PEFT？ ​

⭐⭐ 常见重点 ​

标注少如何扩增？ ​

领域数据？ ​

预训练语料质量？ ​

数据多样性？ ​

预处理流程？ ​

涌现为何出现？ ​

SFT 数据构造？ ​

数据并行 All-Reduce？ ​

流水线并行与气泡？ ​

ZeRO-3？ ​

3D 并行通信？ ​

RM OOD 不可靠？ ​

稳定 PPO 技术？ ​

奖励归一化？ ​

垂类微调？ ​

数据混合？ ​

词表扩充场景？ ​

扩充词表步骤与初始化？ ​

为何继续训练？ ​

外推提升手段？ ​

RoPE 相对正弦/可学习？ ​

知识 vs 推理评测？ ​

BLEU 对 LLM 失效？ ​

稠密 vs MoE？ ​

添加式 vs 重参数化 PEFT？ ​

选 PEFT 维度？ ​

何时全参微调？ ​

⭐ 拓展了解 ​

法律助手数据构造？ ​

外推评测？ ​

RoPE 2D 旋转矩阵？ ​

BLEU/ROUGE vs BERTScore？ ​

大模型微调

⭐⭐⭐ 核心必背

冻结哪些层？前几层/后几层/FFN 区别？

推理模型 RL vs 非推理 RLHF？

推理深度 vs 延迟？

极大模型的架构变化？

典型训练流程与数据量？

为何预训练数据远大于 SFT？

数据去重？

缩放法则三变量？

灾难性遗忘与缓解？

指令微调 vs SFT？

预训练 vs SFT 能力分工？

涌现能力三例？

预训练、SFT、RLHF 三阶段？

RLHF 中 RM？

显存占用组成与公式？

N 亿参数 Adam FP16 训练显存粗算？

梯度检查点？

其他显存优化？

PPO 在 RLHF 中角色？

PPO clip 与重要性采样？

参考模型作用？

RM 训练目标与数据？

KL 惩罚？

长度外推？

RoPE 核心？

注意力复杂度与瓶颈？

困惑度？

MoE？

MoE 挑战与对策？

LoRA 思想？

LoRA 在 Q/V 实现？

LoRA rank？

其他 PEFT？

⭐⭐ 常见重点

标注少如何扩增？

领域数据？

预训练语料质量？

数据多样性？

预处理流程？

涌现为何出现？

SFT 数据构造？

数据并行 All-Reduce？

流水线并行与气泡？

ZeRO-3？

3D 并行通信？

RM OOD 不可靠？

稳定 PPO 技术？

奖励归一化？

垂类微调？

数据混合？

词表扩充场景？

扩充词表步骤与初始化？

为何继续训练？

外推提升手段？

RoPE 相对正弦/可学习？

知识 vs 推理评测？

BLEU 对 LLM 失效？

稠密 vs MoE？

添加式 vs 重参数化 PEFT？

选 PEFT 维度？

何时全参微调？

⭐ 拓展了解

法律助手数据构造？

外推评测？

RoPE 2D 旋转矩阵？

BLEU/ROUGE vs BERTScore？