Skip to content

大模型原理

⭐⭐⭐ 核心必背

什么是大型语言模型?

参考答案

设计目标:建模文本概率分布并支持多任务。能力:生成、理解、推理(随规模与训练变强)。代表:GPT、Llama、Qwen、Claude 等。

LLM 与 N-gram/HMM 区别?

参考答案

架构:深度 Transformer vs 浅层马尔可夫;训练:海量自监督 vs 计数/EM;上下文:长程依赖 vs 短窗;应用:通用生成/指令 vs 多为专用任务。

迁移学习在 LLM 中的地位与优势?

参考答案

预训练学语言与世界知识,下游少样本/零样本可用;降标注成本、统一骨干、加速落地。

编解码器区别?仅编码/仅解码是否有用?

参考答案

编码器双向;解码器因果自回归。Encoder-only(BERT)擅理解;Decoder-only(GPT)擅生成;均广泛应用。

GPT vs 原始 Transformer?

参考答案

GPT 堆叠 Decoder、因果 LM;原论文是 Encoder-Decoder Seq2Seq。

仅编码/仅解码/编解码优缺点?

参考答案

Encoder 双向不便自回归生成;Decoder 生成自然、易 KV cache;Enc-Dec 适合翻译等对齐任务,结构更重。

自注意力相对 RNN+注意力的进步?

参考答案

任意位置 O(1) 深度路径、训练全并行;RNN 顺序难并行、长程梯度弱。

预训练+微调为何重要?

参考答案

预训练得语法/常识/推理基底;微调与 RLHF 教指令格式、安全与人类偏好。

Transformer 整体架构与并行?

参考答案

编码器:多头自注意力+FFN+残差+LN;解码器加交叉注意力与因果掩码。同层 token 并行算注意力,相对 RNN 时间步串行。

自注意力与缩放点积公式?

参考答案

(\mathrm{softmax}(QK^\top/\sqrt{d_k})V)。QK^T 为相似度,除以 (\sqrt{d_k}) 防止点积过大使 softmax 饱和,V 为加权求值向量。

多头注意力动机?

参考答案

多组 Q/K/V 子空间并行,捕捉不同类型关系后拼接再投影,表达力强于单一大头。

为何需要位置编码?正弦余弦原理?

参考答案

自注意力对置换等变,需注入序信息。sin/cos 多频编码使模型组合出相对位置特征;无学习参数,外推有限。

自回归 LM vs MLM?

参考答案

AR:下一 token 预测(GPT);MLM:掩码恢复双向上下文(BERT)。

嵌入层?

参考答案

token_id→向量查表,衔接离散符号与连续空间,常与位置嵌入相加。

LLM 如何克服 RNN 长依赖局限?

参考答案

任意两位置经一层直接连接,信息路径短;配合大规模预训练增强模式能力。

如何防止看到未来 token?

参考答案

因果掩码(下三角 -∞);仅解码器自注意力使用。

注意力相关性、多头是否只看一词、为何除 √d_k?

参考答案

每头对所有位置 softmax 加权,非单点;√d_k 使 QK^T 方差稳定,避免 softmax 极端。

KV cache 为何不存 Q?

参考答案

解码每步只产生当前 query,历史 key/value 可复用;过去 query 不参与未来计算。

残差连接?

参考答案

缓解梯度消失、使深层可训练,层学残差增量。

LayerNorm vs BatchNorm?RMSNorm?

参考答案

LN 按特征维归一化单样本,适配变长与小 batch;BN 依赖 batch 维,NLP 不稳。RMSNorm 去中心化只保留缩放,更省算,LLaMA 等常用。

FFN 是否必要?

参考答案

必要;注意力是线性混合,FFN 提供逐位置非线性与高维变换。

输出层分布假设?

参考答案

词表上的 categorical / softmax 多项分布。

多头、GQA/MQA vs 减头?优化哪阶段?

参考答案

MQA/GQA 共享 K/V 减 KV cache 与访存,主优化推理吞吐;与「减少头数」不等价,后者同时减表示子空间。

Encoder-only / Decoder-only / Enc-Dec(同题 6)?

参考答案

理解/分类 vs 生成 vs 翻译摘要等序列到序列。

自注意力长距离 vs RNN?

参考答案

O(1) 深度路径 vs O(T) 递归;代价注意力 O(T²d)。

MQA/GQA vs MHA?

参考答案

MHA 每头独立 KV;MQA 全头共享 KV;GQA 分组共享。降 KV 显存与带宽,提升推理 tokens/s

正弦 vs RoPE?

参考答案

正弦加在输入;RoPE 旋转 Q/K,显式相对位置,长上下文常配合 NTK、YaRN 等缩放。

为何位置编码?无位置会怎样?

参考答案

丢失词序,置换不变性导致「咬死狗」与「狗咬死」不可分。

BERT 三种嵌入?

参考答案

Token + Segment + Position 求和;编码词元、句子 A/B、位置序。

编码器 vs 解码器?

参考答案

编码器双向自注意力;解码器因果掩码+可选交叉注意力;理解 vs 生成。

Encoder-Decoder 与例子?

参考答案

T5、BART;翻译、摘要等需显式编码-解码对齐。

解码器层关键区别?

参考答案

因果自注意力;交叉注意力连接编码器输出。

残差与 LN?

参考答案

残差降梯度消失;LN 稳定层输入尺度。

注意力掩码?

参考答案

因果/填充;-inf 屏蔽非法位置再 softmax。

解码瓶颈与 KV cache?

参考答案

重复算历史 K/V;缓存使每步增量计算。

MQA/GQA(同 30)?

MHA/MQA/GQA 权衡?

参考答案

质量 vs KV 与带宽;GQA 量产折中。

BN 与 NLP?

参考答案

BN 依赖 batch 维统计,变长序列与小 batch 不稳。

LayerNorm?

参考答案

逐样本跨特征归一,适合序列模型。

RMSNorm(同 20)?

⭐⭐ 常见重点

遗忘知识改注意力还是 FFN?

参考答案

大量工作表明事实性知识更关联 FFN/MLP;注意力偏路由与混合,面试答「文献多指向 MLP」即可。

深度、宽度、头数、上下文与 10× 参数?

参考答案

深宽提容量,头数≈d/h 配比,上下文受 RoPE/工程限制。10× 常同时加深加宽并按 Chinchilla 配足数据算力;上下文单独扩需继续训练与位置扩展。

推理瓶颈与 batch 平衡?

参考答案

Decode 常内存带宽 bound(读权重+KV);Prefill 常算力 bound。具体 batch 依赖 GPU、精度、模型,需 profiling,面试强调「无通用常数」。

多头 vs 单大头?

参考答案

同 11;多头=多子空间专家式分工。

正弦余弦公式与性质?

参考答案

PE(pos,2i)=sin(pos/10000^(2i/d)),偶 cos;可表达相对位置线性变换;超长外推会弱。

其他位置编码?

参考答案

可学习绝对、ALiBi、T5 相对偏置、RoPE 等。

相对 vs 绝对优势?

参考答案

更好长度泛化、显式间距,利于外推与局部结构。

三种嵌入如何生成?预训练与微调?

参考答案

可学习查表;微调通常保留嵌入或仅加任务头;RoBERTa 简化 NSP 与 segment 使用。

句子对输入与 Segment?

参考答案

[CLS] A [SEP] B [SEP];Segment 区分句对,使模型知边界。

BERT/GPT/T5 差异?

参考答案

双向表示 vs 自回归 vs text-to-text 统一框架。

Softmax、替代与温度?

参考答案

凸组合权重、可微;温度高调更均匀、低更尖锐。

线性注意力?

参考答案

核技巧改写避免显式 T×T 矩阵;O(nd²) 级;如 Performer。

线性注意力代价?

参考答案

近似损失细粒度全局对齐能力。

多头动机(同 11)?

归一化层作用?

参考答案

稳定优化、平滑损失地貌、助泛化。

Dropout?

参考答案

随机丢弃共适应神经元,正则化。

推理缩放?

参考答案

匹配训练期望;inverted dropout 训练时已除 (1-p)。

LLM 中 Dropout 策略?

参考答案

预训练常弱;微调可略增;依模型卡与论文。

初始化重要性?

参考答案

梯度消失/爆炸、不收敛。

Xavier / Kaiming?

参考答案

控制前向方差;分别匹配 tanh/sigmoid 与 ReLU。

Transformer 初始化?

参考答案

小方差高斯或 Xavier 类;残差结构常配合缩放因子。

拓展了解

RoBERTa/ALBERT/DeBERTa?

参考答案

RoBERTa 动态掩码、去 NSP;ALBERT 嵌入分解与层共享;DeBERTa 解耦内容与相对位置。

方差偏移与倒置 Dropout?

参考答案

丢弃改变方差;实现上训练阶段缩放使推理无需改。

仅供学习交流,题目与答案要点请结合业务与最新论文核对。