深度学习

说明：本节覆盖 CNN/RNN/GNN/生成模型/RL/元学习；大模型岗常考 Transformer 已移至「大模型原理」。以下为要点式参考答案。

⭐⭐⭐ 核心必背

权重共享对参数量与效率？

参考答案

同一核扫全图，参数量 O(k²CinCout) 与位置无关；大幅减少参数与过拟合风险。

激活函数？

参考答案

引入非线性；ReLU 及变体、GELU；避免深层线性退化。

RNN 基本结构？

参考答案

隐状态递推 (ht=f(Wx_t+Uh))；处理变长序列。

RNN 挑战与解决？

参考答案

梯度消失/爆炸、长依赖；LSTM/GRU、注意力、Transformer。

LSTM 结构？

参考答案

细胞状态+三门控更新；选择性记忆与遗忘。

GRU vs LSTM？

参考答案

GRU 两门更简、参数少；效果任务相关。

长期依赖与梯度？

参考答案

连乘雅可比导致梯度指数衰减/爆炸，难传远期信号。

LSTM 三门？

参考答案

遗忘旧细胞、输入写入候选、输出读出；f,i,o 与 sigmoid/tanh 配合。

梯度裁剪？

参考答案

超阈值缩放梯度范数，抑制爆炸，保方向。

Seq2Seq 编解码？

参考答案

编码器压缩源序列；解码器自回归生成目标。

注意力改进？

参考答案

每步动态对齐源端隐状态，解瓶颈，为 Transformer 铺路。

GAN 博弈？

参考答案

min_G max_D 对抗；D 判真假，G 骗 D。

扩散模型？

参考答案

前向加噪、学习反向去噪；稳定训练、质量高；与 VAE/GAN 目标不同。

RL 基本概念？

参考答案

Agent 在环境中通过奖励学习策略 π(a|s)。

MDP？

参考答案

(S,A,P,R,γ)；马尔可夫性：未来只依赖当前状态。

V(s) vs Q(s,a)？

参考答案

V 为状态期望回报；Q 为状态-动作价值；V(s)=E_a[Q]。

TD 与 SARSA/Q-learning？

参考答案

TD 用 bootstrap 降方差；SARSA on-policy；Q-learning off-policy。

DQN？

参考答案

深度函数逼近 Q；经验回放、目标网络稳定训练。

经验回放？

参考答案

打破相关性、重用样本、稳定非线性逼近。

目标网络？

参考答案

周期性同步的 Q' 计算 bootstrap 目标，减震荡。

策略梯度？

参考答案

直接优化 π；连续动作、随机策略；高方差用 baseline。

Actor-Critic？

参考答案

Actor 更新策略，Critic 估计 V/Q 降方差。

PPO？

参考答案

裁剪重要性采样比限制更新幅度；稳定、易用，RLHF 常用。

回报与 γ？

参考答案

累积折扣奖励；γ<1 保证无穷和收敛、偏好近期奖励。

⭐⭐ 常见重点

卷积在图像中的作用及与传统特征的区别？

参考答案

局部滤波提取层次模式；端到端学习替代手工 HOG/SIFT；平移等变性与参数共享。

stride 与 padding？

参考答案

stride 下采样；padding 控尺寸公式 (O=\lfloor(I+2p-k)/s\rfloor+1)，same/valid 常用。

空洞卷积？

参考答案

扩大感受野不增核大小；分割/音频好；网格效应需可变形卷积等缓解。

转置卷积？

参考答案

上采样 learnable；分割上采样、GAN 生成器；注意棋盘格伪影。

深度可分离卷积与 MobileNet？

参考答案

depthwise 每通道+pointwise 1×1；FLOPs 约为标准卷积的 1/Cout+1/k² 量级。

1×1 卷积？

参考答案

跨通道混合、升降维；不改变空间尺寸（stride=1 时）。

标准/分组/深度可分离复杂度？

参考答案

分组折中参数与通道混合；深度可分离最省算力，表达能力靠堆叠补偿。

CNN 为何适合图像？

参考答案

局部连接+权值共享契合平移局部性；层次组合边缘→纹理→部件。

CNN 基本结构？

参考答案

卷积→BN→激活→池化重复，末端 GAP/flatten+FC。

卷积层作用？

参考答案

局部特征提取+通道混合；步长与填充控制分辨率。

池化？

参考答案

降维、平移鲁棒；max/avg；现可用 stride 卷积替代。

全连接层？

参考答案

末端整合全局信息、分类；参数量大，可用 GAP+FC 减轻。

RNN vs 前馈？

参考答案

RNN 共享参数跨时间、有记忆；前馈固定输入维无显式时序。

简单 RNN 难捕捉长距离？

参考答案

同上；tanh 饱和与谱半径问题。

缓解长依赖？

参考答案

LSTM/GRU、残差、注意力、梯度裁剪、更好的初始化。

梯度消失 vs 爆炸现象？

参考答案

消失→学不动远期；爆炸→损失 NaN、训练不稳定。

LSTM 核心与各门（同 26 展开）？

参考答案

细胞线性和更新路径减轻连乘消失。

LSTM 如何缓解梯度消失？

参考答案

加性更新与门控维持细胞状态梯度通路。

Seq2Seq 长序列困难？

参考答案

固定长度上下文瓶颈；信息瓶颈与梯度路径长。

邻接矩阵与节点特征？

参考答案

A 描述边；X 为节点属性；消息传递用二者聚合邻居。

消息传递步骤？

参考答案

聚合邻居消息→更新自身表示；多层堆叠扩大感受野。

生成模型核心？

参考答案

学习数据分布 p(x) 或条件 p(x|z)，以采样生成。

VAE 如何工作？

参考答案

编码后验 q(z|x)，解码 p(x|z)，最大化 ELBO。

VAE vs AE？

参考答案

VAE 隐变量有分布+KL 正则，可生成；AE 确定性瓶颈难采样。

重参数化？

参考答案

z=μ+σε，ε~N(0,1)，使采样可微，反传过随机性。

ELBO？

参考答案

log p(x) ≥ E_q[log p(x|z)]-KL(q||p(z))；重建+KL。

模式崩溃？

参考答案

G 找到固定样本骗 D；缓解：WGAN、minibatch disc、unrolled、多样化损失。

D 要强但不能过强？

参考答案

需信息量梯度；过强 G 梯度消失；过弱学不到真分布。

GAN 工作原理（复述）？

参考答案

同 51，对抗下 G 逼近数据分布。

传统 GAN 问题与改进？

参考答案

不稳定、模式崩溃、梯度消失；DCGAN、WGAN-GP、StyleGAN、SN 等。

训练不稳定成因与方案？

参考答案

博弈非凸、平衡难；WGAN、TTUR、正则、架构技巧。

WGAN 关键？

参考答案

Earth Mover 距离、权重裁剪/Lipschitz 约束（GP）；更平滑梯度。

策略迭代 vs 值迭代？

参考答案

策略评估+改进交替；值迭代直接 Bellman 最优备份。

MC 方法？

参考答案

完整回合更新；无偏、方差大；需终止。

探索-利用与 ε-贪心？

参考答案

以 ε 随机探索，1-ε 选当前最优。

MAB 与 RL？

参考答案

单状态 RL；UCB/Thompson 采样。

Q-learning 更新与收敛？

参考答案

Q←Q+α(r+γ max Q'-Q)；有限 MDP 适当条件下收敛最优。

DRL 挑战与思路？

参考答案

样本效率→模型/模仿学习；稀疏奖励→层次 RL、好奇心。

元学习 vs 传统 ML？

参考答案

学「如何快速适应新任务」；少样本泛化。

⭐ 拓展了解

Inception 多尺度思想？

参考答案

并联多核捕捉多尺度；加 1×1 瓶颈降维。

RNN 中 Dropout？

参考答案

常加在非循环连接；Variational Dropout 等对 h 做掩码；勿破坏时间连贯性。

为何不在循环连接上直接 Dropout？

参考答案

破坏跨时间信息传递、性能崩；论文建议不同策略。

GRU 与 LSTM 长依赖异同？

参考答案

目标类似；GRU 合并遗忘与输入门为更新门。

缓解梯度消失？

参考答案

门控结构、残差、合理初始化、ReLU、LayerNorm（Transformer）。

GNN 应用例？

参考答案

推荐、分子性质、交通预测、知识图谱补全。

GNN 与推荐？

参考答案

用户-物品二部图；高阶协同通过多跳传播。

高阶连通性？

参考答案

CF 多为一阶；GNN 多跳聚合朋友的朋友等模式。

GNN 推荐中消息传递作用？

参考答案

将交互邻居信息注入表示，改善表征与排序。

动态行为序列+GNN？

参考答案

时间扩展图、RNN+GNN、时序注意力边。

GNN 与冷启动？

参考答案

可利用属性节点、知识图谱侧信息；非万能。

异构图构建？

参考答案

多类节点与边、元路径、异构 GNN（HAN 等）。

GNN 推理能力？

参考答案

多跳聚合近似逻辑传播；与符号推理结合是研究方向。

多跳推理与 KG 推荐？

参考答案

沿关系链组合证据，解释路径。

可解释推荐？

参考答案

注意力权重、子图提取、路径打分。

GNN+逻辑规则？

参考答案

规则正则、神经-符号混合、R-GCN 等。

推荐+生成合成行为？

参考答案

数据增广、长尾补全；注意分布偏移与评估。

DBN 构成与逐层训练？

参考答案

堆叠 RBM；逐层贪心无监督再微调。

DBM vs DBN？

参考答案

DBM 无向全连接更深难训；DBN 有向逐层。

为何无监督预训练+微调？

参考答案

早年缓解深层难训；现大数据下预训练范式演变。

RBM 在 DBN 中作用？

参考答案

每层特征提取的积木。

高质量图像 VAE？

参考答案

深编解码、感知损失、层次潜变量、与扩散结合。

VAE 改进？

参考答案

β-VAE 解耦、VQ-VAE 离散潜、对抗训练减模糊。

CVAE？

参考答案

条件 y 输入编解码；控制生成类别/属性。

VAE 模糊原因与缓解？

参考答案

ELBO 似然下界+高斯假设致平均；对抗、感知损失、扩散。

β-VAE？

参考答案

β 加权 KL，更强正则→更可解释表示，可能牺牲重构。

GMMN？

参考答案

用 MMD 匹配生成分布与真实分布，无显式 GAN 判别器。

深度自回归？

参考答案

链式法则积条件概率；似然可 tractable；生成慢（逐步）。

GAN min-max 公式？

参考答案

minθ maxφ E_x[log D(x)]+E_z[log(1-D(G(z)))]（非饱和形式常改写）。

GMMN/自回归/GAN 稳定性与多样性？

参考答案

自回归稳但慢；GAN 多样强但难训；GMMN 介于二者。

自回归图像顺序？

参考答案

因果掩码定义顺序；可 raster 或螺旋等，需自洽条件概率。

GAN 损失改善梯度消失？

参考答案

非饱和损失、WGAN 的 Wasserstein 距离、谱归一化等。

MMD？

参考答案

核嵌入上分布均值差的范数；衡量两分布距离。

PixelCNN 卷积？

参考答案

掩码卷积保因果性，并行度高于 RNN。

GAN 评估指标？

参考答案

FID（Inception 特征分布距离）、IS；各有偏，需人评结合。

GAN 图像质量问题与评估？

参考答案

伪影、不连贯；FID+用户研究+下游任务。

GAN 超分？

参考答案

SRGAN 感知损失；对抗逼真纹理，注意幻觉。

GAN 医学增广？

参考答案

合成罕见病样本；需医生验证与分布监控。

GAN 其他领域？

参考答案

语音、文本（难）、异常检测；选一展开即可。

StyleGAN？

参考答案

风格与内容解耦映射网络+AdaIN；多尺度噪声控细节。

RL 应用例（状态动作奖励）？

参考答案

如推荐：状态=用户历史，动作=推荐 item，奖励=点击/停留。

Atari 预处理？

参考答案

灰度、缩放、帧堆叠、跳帧；减输入维与时序。

RL 典型场景？

参考答案

游戏、机器人、推荐、资源调度；挑战：安全、sim2real。

Learning to learn？

参考答案

MAML 学敏感初始化；ProtoNet 学度量空间等。

少样本实验设计？

参考答案

N-way K-shot、episode 训练、与基线比。

优化型 vs 度量型元学习？

参考答案

MAML 几步梯度适应；度量型比距离分类，训练简单。

奖励设计影响？

参考答案

错误奖励导致捷径、对齐失败；需迭代与反事实评估。

任务分布假设？

参考答案

训练任务与测试任务应同分布；偏移则适应失效。

RL 现实世界安全？

参考答案

约束 RL、安全层、仿真验证、人类在环。

元学习评估与基准局限？

参考答案

mini-ImageNet 等；与真实任务分布差距、过拟合基准。

深度学习 ​

⭐⭐⭐ 核心必背 ​

权重共享对参数量与效率？ ​

激活函数？ ​

RNN 基本结构？ ​

RNN 挑战与解决？ ​

LSTM 结构？ ​

GRU vs LSTM？ ​

长期依赖与梯度？ ​

LSTM 三门？ ​

梯度裁剪？ ​

Seq2Seq 编解码？ ​

注意力改进？ ​

GAN 博弈？ ​

扩散模型？ ​

RL 基本概念？ ​

MDP？ ​

V(s) vs Q(s,a)？ ​

TD 与 SARSA/Q-learning？ ​

DQN？ ​

经验回放？ ​

目标网络？ ​

策略梯度？ ​

Actor-Critic？ ​

PPO？ ​

回报与 γ？ ​

⭐⭐ 常见重点 ​

卷积在图像中的作用及与传统特征的区别？ ​

stride 与 padding？ ​

空洞卷积？ ​

转置卷积？ ​

深度可分离卷积与 MobileNet？ ​

1×1 卷积？ ​

标准/分组/深度可分离复杂度？ ​

CNN 为何适合图像？ ​

CNN 基本结构？ ​

卷积层作用？ ​

池化？ ​

全连接层？ ​

RNN vs 前馈？ ​

简单 RNN 难捕捉长距离？ ​

缓解长依赖？ ​

梯度消失 vs 爆炸现象？ ​

LSTM 核心与各门（同 26 展开）？ ​

LSTM 如何缓解梯度消失？ ​

Seq2Seq 长序列困难？ ​

邻接矩阵与节点特征？ ​

消息传递步骤？ ​

生成模型核心？ ​

VAE 如何工作？ ​

VAE vs AE？ ​

重参数化？ ​

ELBO？ ​

模式崩溃？ ​

D 要强但不能过强？ ​

GAN 工作原理（复述）？ ​

传统 GAN 问题与改进？ ​

训练不稳定成因与方案？ ​

WGAN 关键？ ​

策略迭代 vs 值迭代？ ​

MC 方法？ ​

探索-利用与 ε-贪心？ ​

MAB 与 RL？ ​

Q-learning 更新与收敛？ ​

DRL 挑战与思路？ ​

元学习 vs 传统 ML？ ​

⭐ 拓展了解 ​

Inception 多尺度思想？ ​

RNN 中 Dropout？ ​

为何不在循环连接上直接 Dropout？ ​

GRU 与 LSTM 长依赖异同？ ​

缓解梯度消失？ ​

GNN 应用例？ ​

GNN 与推荐？ ​

高阶连通性？ ​

GNN 推荐中消息传递作用？ ​

动态行为序列+GNN？ ​

GNN 与冷启动？ ​

异构图构建？ ​

GNN 推理能力？ ​

深度学习

⭐⭐⭐ 核心必背

权重共享对参数量与效率？

激活函数？

RNN 基本结构？

RNN 挑战与解决？

LSTM 结构？

GRU vs LSTM？

长期依赖与梯度？

LSTM 三门？

梯度裁剪？

Seq2Seq 编解码？

注意力改进？

GAN 博弈？

扩散模型？

RL 基本概念？

MDP？

V(s) vs Q(s,a)？

TD 与 SARSA/Q-learning？

DQN？

经验回放？

目标网络？

策略梯度？

Actor-Critic？

PPO？

回报与 γ？

⭐⭐ 常见重点

卷积在图像中的作用及与传统特征的区别？

stride 与 padding？

空洞卷积？

转置卷积？

深度可分离卷积与 MobileNet？

1×1 卷积？

标准/分组/深度可分离复杂度？

CNN 为何适合图像？

CNN 基本结构？

卷积层作用？

池化？

全连接层？

RNN vs 前馈？

简单 RNN 难捕捉长距离？

缓解长依赖？

梯度消失 vs 爆炸现象？

LSTM 核心与各门（同 26 展开）？

LSTM 如何缓解梯度消失？

Seq2Seq 长序列困难？

邻接矩阵与节点特征？

消息传递步骤？

生成模型核心？

VAE 如何工作？

VAE vs AE？

重参数化？

ELBO？

模式崩溃？

D 要强但不能过强？

GAN 工作原理（复述）？

传统 GAN 问题与改进？

训练不稳定成因与方案？

WGAN 关键？

策略迭代 vs 值迭代？

MC 方法？

探索-利用与 ε-贪心？

MAB 与 RL？

Q-learning 更新与收敛？

DRL 挑战与思路？

元学习 vs 传统 ML？

⭐ 拓展了解

Inception 多尺度思想？

RNN 中 Dropout？

为何不在循环连接上直接 Dropout？

GRU 与 LSTM 长依赖异同？

缓解梯度消失？

GNN 应用例？

GNN 与推荐？

高阶连通性？

GNN 推荐中消息传递作用？

动态行为序列+GNN？

GNN 与冷启动？

异构图构建？

GNN 推理能力？