大模型原理

⭐⭐⭐ 核心必背

什么是大型语言模型？

参考答案

设计目标：建模文本概率分布并支持多任务。能力：生成、理解、推理（随规模与训练变强）。代表：GPT、Llama、Qwen、Claude 等。

LLM 与 N-gram/HMM 区别？

参考答案

架构：深度 Transformer vs 浅层马尔可夫；训练：海量自监督 vs 计数/EM；上下文：长程依赖 vs 短窗；应用：通用生成/指令 vs 多为专用任务。

迁移学习在 LLM 中的地位与优势？

参考答案

预训练学语言与世界知识，下游少样本/零样本可用；降标注成本、统一骨干、加速落地。

编解码器区别？仅编码/仅解码是否有用？

参考答案

编码器双向；解码器因果自回归。Encoder-only（BERT）擅理解；Decoder-only（GPT）擅生成；均广泛应用。

GPT vs 原始 Transformer？

参考答案

GPT 堆叠 Decoder、因果 LM；原论文是 Encoder-Decoder Seq2Seq。

仅编码/仅解码/编解码优缺点？

参考答案

Encoder 双向不便自回归生成；Decoder 生成自然、易 KV cache；Enc-Dec 适合翻译等对齐任务，结构更重。

自注意力相对 RNN+注意力的进步？

参考答案

任意位置 O(1) 深度路径、训练全并行；RNN 顺序难并行、长程梯度弱。

预训练+微调为何重要？

参考答案

预训练得语法/常识/推理基底；微调与 RLHF 教指令格式、安全与人类偏好。

Transformer 整体架构与并行？

参考答案

编码器：多头自注意力+FFN+残差+LN；解码器加交叉注意力与因果掩码。同层 token 并行算注意力，相对 RNN 时间步串行。

自注意力与缩放点积公式？

参考答案

(\mathrm{softmax}(QK^\top/\sqrt{d_k})V)。QK^T 为相似度，除以 (\sqrt{d_k}) 防止点积过大使 softmax 饱和，V 为加权求值向量。

多头注意力动机？

参考答案

多组 Q/K/V 子空间并行，捕捉不同类型关系后拼接再投影，表达力强于单一大头。

为何需要位置编码？正弦余弦原理？

参考答案

自注意力对置换等变，需注入序信息。sin/cos 多频编码使模型组合出相对位置特征；无学习参数，外推有限。

自回归 LM vs MLM？

参考答案

AR：下一 token 预测（GPT）；MLM：掩码恢复双向上下文（BERT）。

嵌入层？

参考答案

token_id→向量查表，衔接离散符号与连续空间，常与位置嵌入相加。

LLM 如何克服 RNN 长依赖局限？

参考答案

任意两位置经一层直接连接，信息路径短；配合大规模预训练增强模式能力。

如何防止看到未来 token？

参考答案

因果掩码（下三角 -∞）；仅解码器自注意力使用。

注意力相关性、多头是否只看一词、为何除 √d_k？

参考答案

每头对所有位置 softmax 加权，非单点；√d_k 使 QK^T 方差稳定，避免 softmax 极端。

KV cache 为何不存 Q？

参考答案

解码每步只产生当前 query，历史 key/value 可复用；过去 query 不参与未来计算。

残差连接？

参考答案

缓解梯度消失、使深层可训练，层学残差增量。

LayerNorm vs BatchNorm？RMSNorm？

参考答案

LN 按特征维归一化单样本，适配变长与小 batch；BN 依赖 batch 维，NLP 不稳。RMSNorm 去中心化只保留缩放，更省算，LLaMA 等常用。

FFN 是否必要？

参考答案

必要；注意力是线性混合，FFN 提供逐位置非线性与高维变换。

输出层分布假设？

参考答案

词表上的 categorical / softmax 多项分布。

多头、GQA/MQA vs 减头？优化哪阶段？

参考答案

MQA/GQA 共享 K/V 减 KV cache 与访存，主优化推理吞吐；与「减少头数」不等价，后者同时减表示子空间。

Encoder-only / Decoder-only / Enc-Dec（同题 6）？

参考答案

理解/分类 vs 生成 vs 翻译摘要等序列到序列。

自注意力长距离 vs RNN？

参考答案

O(1) 深度路径 vs O(T) 递归；代价注意力 O(T²d)。

MQA/GQA vs MHA？

参考答案

MHA 每头独立 KV；MQA 全头共享 KV；GQA 分组共享。降 KV 显存与带宽，提升推理 tokens/s。

正弦 vs RoPE？

参考答案

正弦加在输入；RoPE 旋转 Q/K，显式相对位置，长上下文常配合 NTK、YaRN 等缩放。

为何位置编码？无位置会怎样？

参考答案

丢失词序，置换不变性导致「咬死狗」与「狗咬死」不可分。

BERT 三种嵌入？

参考答案

Token + Segment + Position 求和；编码词元、句子 A/B、位置序。

编码器 vs 解码器？

参考答案

编码器双向自注意力；解码器因果掩码+可选交叉注意力；理解 vs 生成。

Encoder-Decoder 与例子？

参考答案

T5、BART；翻译、摘要等需显式编码-解码对齐。

解码器层关键区别？

参考答案

因果自注意力；交叉注意力连接编码器输出。

残差与 LN？

参考答案

残差降梯度消失；LN 稳定层输入尺度。

注意力掩码？

参考答案

因果/填充；-inf 屏蔽非法位置再 softmax。

解码瓶颈与 KV cache？

参考答案

重复算历史 K/V；缓存使每步增量计算。

MQA/GQA（同 30）？

MHA/MQA/GQA 权衡？

参考答案

质量 vs KV 与带宽；GQA 量产折中。

BN 与 NLP？

参考答案

BN 依赖 batch 维统计，变长序列与小 batch 不稳。

LayerNorm？

参考答案

逐样本跨特征归一，适合序列模型。

RMSNorm（同 20）？

⭐⭐ 常见重点

遗忘知识改注意力还是 FFN？

参考答案

大量工作表明事实性知识更关联 FFN/MLP；注意力偏路由与混合，面试答「文献多指向 MLP」即可。

深度、宽度、头数、上下文与 10× 参数？

参考答案

深宽提容量，头数≈d/h 配比，上下文受 RoPE/工程限制。10× 常同时加深加宽并按 Chinchilla 配足数据算力；上下文单独扩需继续训练与位置扩展。

推理瓶颈与 batch 平衡？

参考答案

Decode 常内存带宽 bound（读权重+KV）；Prefill 常算力 bound。具体 batch 依赖 GPU、精度、模型，需 profiling，面试强调「无通用常数」。

多头 vs 单大头？

参考答案

同 11；多头=多子空间专家式分工。

正弦余弦公式与性质？

参考答案

PE(pos,2i)=sin(pos/10000^(2i/d))，偶 cos；可表达相对位置线性变换；超长外推会弱。

其他位置编码？

参考答案

可学习绝对、ALiBi、T5 相对偏置、RoPE 等。

相对 vs 绝对优势？

参考答案

更好长度泛化、显式间距，利于外推与局部结构。

三种嵌入如何生成？预训练与微调？

参考答案

可学习查表；微调通常保留嵌入或仅加任务头；RoBERTa 简化 NSP 与 segment 使用。

句子对输入与 Segment？

参考答案

[CLS] A [SEP] B [SEP]；Segment 区分句对，使模型知边界。

BERT/GPT/T5 差异？

参考答案

双向表示 vs 自回归 vs text-to-text 统一框架。

Softmax、替代与温度？

参考答案

凸组合权重、可微；温度高调更均匀、低更尖锐。

线性注意力？

参考答案

核技巧改写避免显式 T×T 矩阵；O(nd²) 级；如 Performer。

线性注意力代价？

参考答案

近似损失细粒度全局对齐能力。

多头动机（同 11）？

归一化层作用？

参考答案

稳定优化、平滑损失地貌、助泛化。

Dropout？

参考答案

随机丢弃共适应神经元，正则化。

推理缩放？

参考答案

匹配训练期望；inverted dropout 训练时已除 (1-p)。

LLM 中 Dropout 策略？

参考答案

预训练常弱；微调可略增；依模型卡与论文。

初始化重要性？

参考答案

梯度消失/爆炸、不收敛。

Xavier / Kaiming？

参考答案

控制前向方差；分别匹配 tanh/sigmoid 与 ReLU。

Transformer 初始化？

参考答案

小方差高斯或 Xavier 类；残差结构常配合缩放因子。

⭐ 拓展了解

RoBERTa/ALBERT/DeBERTa？

参考答案

RoBERTa 动态掩码、去 NSP；ALBERT 嵌入分解与层共享；DeBERTa 解耦内容与相对位置。

方差偏移与倒置 Dropout？

参考答案

丢弃改变方差；实现上训练阶段缩放使推理无需改。

大模型原理 ​

⭐⭐⭐ 核心必背 ​

什么是大型语言模型？ ​

LLM 与 N-gram/HMM 区别？ ​

迁移学习在 LLM 中的地位与优势？ ​

编解码器区别？仅编码/仅解码是否有用？ ​

GPT vs 原始 Transformer？ ​

仅编码/仅解码/编解码优缺点？ ​

自注意力相对 RNN+注意力的进步？ ​

预训练+微调为何重要？ ​

Transformer 整体架构与并行？ ​

自注意力与缩放点积公式？ ​

多头注意力动机？ ​

为何需要位置编码？正弦余弦原理？ ​

自回归 LM vs MLM？ ​

嵌入层？ ​

LLM 如何克服 RNN 长依赖局限？ ​

如何防止看到未来 token？ ​

注意力相关性、多头是否只看一词、为何除 √d_k？ ​

KV cache 为何不存 Q？ ​

残差连接？ ​

LayerNorm vs BatchNorm？RMSNorm？ ​

FFN 是否必要？ ​

输出层分布假设？ ​

多头、GQA/MQA vs 减头？优化哪阶段？ ​

Encoder-only / Decoder-only / Enc-Dec（同题 6）？ ​

自注意力长距离 vs RNN？ ​

MQA/GQA vs MHA？ ​

正弦 vs RoPE？ ​

为何位置编码？无位置会怎样？ ​

BERT 三种嵌入？ ​

编码器 vs 解码器？ ​

Encoder-Decoder 与例子？ ​

解码器层关键区别？ ​

残差与 LN？ ​

注意力掩码？ ​

解码瓶颈与 KV cache？ ​

MQA/GQA（同 30）？ ​

MHA/MQA/GQA 权衡？ ​

BN 与 NLP？ ​

LayerNorm？ ​

RMSNorm（同 20）？ ​

⭐⭐ 常见重点 ​

遗忘知识改注意力还是 FFN？ ​

深度、宽度、头数、上下文与 10× 参数？ ​

推理瓶颈与 batch 平衡？ ​

多头 vs 单大头？ ​

正弦余弦公式与性质？ ​

其他位置编码？ ​

相对 vs 绝对优势？ ​

三种嵌入如何生成？预训练与微调？ ​

句子对输入与 Segment？ ​

BERT/GPT/T5 差异？ ​

Softmax、替代与温度？ ​

线性注意力？ ​

线性注意力代价？ ​

多头动机（同 11）？ ​

归一化层作用？ ​

Dropout？ ​

推理缩放？ ​

LLM 中 Dropout 策略？ ​

初始化重要性？ ​

Xavier / Kaiming？ ​

Transformer 初始化？ ​

⭐ 拓展了解 ​

RoBERTa/ALBERT/DeBERTa？ ​

方差偏移与倒置 Dropout？ ​

大模型原理

⭐⭐⭐ 核心必背

什么是大型语言模型？

LLM 与 N-gram/HMM 区别？

迁移学习在 LLM 中的地位与优势？

编解码器区别？仅编码/仅解码是否有用？

GPT vs 原始 Transformer？

仅编码/仅解码/编解码优缺点？

自注意力相对 RNN+注意力的进步？

预训练+微调为何重要？

Transformer 整体架构与并行？

自注意力与缩放点积公式？

多头注意力动机？

为何需要位置编码？正弦余弦原理？

自回归 LM vs MLM？

嵌入层？

LLM 如何克服 RNN 长依赖局限？

如何防止看到未来 token？

注意力相关性、多头是否只看一词、为何除 √d_k？

KV cache 为何不存 Q？

残差连接？

LayerNorm vs BatchNorm？RMSNorm？

FFN 是否必要？

输出层分布假设？

多头、GQA/MQA vs 减头？优化哪阶段？

Encoder-only / Decoder-only / Enc-Dec（同题 6）？

自注意力长距离 vs RNN？

MQA/GQA vs MHA？

正弦 vs RoPE？

为何位置编码？无位置会怎样？

BERT 三种嵌入？

编码器 vs 解码器？

Encoder-Decoder 与例子？

解码器层关键区别？

残差与 LN？

注意力掩码？

解码瓶颈与 KV cache？

MQA/GQA（同 30）？

MHA/MQA/GQA 权衡？

BN 与 NLP？

LayerNorm？

RMSNorm（同 20）？

⭐⭐ 常见重点

遗忘知识改注意力还是 FFN？

深度、宽度、头数、上下文与 10× 参数？

推理瓶颈与 batch 平衡？

多头 vs 单大头？

正弦余弦公式与性质？

其他位置编码？

相对 vs 绝对优势？

三种嵌入如何生成？预训练与微调？

句子对输入与 Segment？

BERT/GPT/T5 差异？

Softmax、替代与温度？

线性注意力？

线性注意力代价？

多头动机（同 11）？

归一化层作用？

Dropout？

推理缩放？

LLM 中 Dropout 策略？

初始化重要性？

Xavier / Kaiming？

Transformer 初始化？

⭐ 拓展了解

RoBERTa/ALBERT/DeBERTa？

方差偏移与倒置 Dropout？