推理与部署

⭐⭐⭐ 核心必背

FlashAttention 不减 FLOPs 为何加速？增量 softmax？

参考答案

瓶颈在 HBM 读写与 kernel launch；分块在 SRAM 上完成 softmax 与归一化，减少中间写回；在线 softmax 递推合并块。

RoPE vs 绝对位置？长文外推挑战？

参考答案

相对位置、常与线性插值/NTK 扩长；超训练长度仍可能注意力分散、需继续训练或缩放 base。

8K→32K 与 KV 挑战？

参考答案

长文继续训练+位置扩展；KV 显存线性增，需 GQA、量化 KV、PagedAttention、Offload。

TTFT、输入/输出吞吐？

参考答案

TTFT=预填充延迟；输入吞吐≈tokens/s 预填；输出吞吐=解码 tokens/s。交互重 TTFT，批服务重总吞吐。

预填充瓶颈？

参考答案

O(L²d) 算力与大矩阵乘；内存带宽与激活存取。

FlashAttention 思想？

参考答案

Tiling+SRAM、融合 kernel、重计算减激活驻留 HBM。

解码 KV 管理挑战？

参考答案

变长序列碎片、显存浪费；低效分配限制并发 batch。

PagedAttention？

参考答案

KV 按页非连续存，类似虚拟内存，减碎片、提高 batching。

INT8 权重量化流程？

参考答案

选粒度（per-tensor/channel）→校准集统计 scale/zero_point→量化→可选混合精度 GEMM。

FA 与速度（同 1、7）？

KV 与 PagedAttention（同 9、10）？

⭐⭐ 常见重点

无 KV cache 慢多少？

参考答案

解码从 O(t) 每步变 O(t²) 重复算；倍数随长度急剧升，常 一个数量级以上（依实现与长度）。

FA 对 FA-2/FlashDecoding 基础？

参考答案

分块 IO 最优、并行 warpgroup、解码阶段稀疏块优化。

GPTQ vs AWQ？

参考答案

GPTQ 逐层权重量化+二阶误差；AWQ 强调激活感知保护「显著」权重；粒度与校准集因实现而异，AWQ 常更少校准样本。

QAT vs PTQ？

参考答案

QAT 训练时模拟量化，梯度适应量化噪声；PTQ 快但分布漂移大时损更多。

推理与部署 ​

⭐⭐⭐ 核心必背 ​

FlashAttention 不减 FLOPs 为何加速？增量 softmax？ ​

RoPE vs 绝对位置？长文外推挑战？ ​

8K→32K 与 KV 挑战？ ​

TTFT、输入/输出吞吐？ ​

预填充瓶颈？ ​

FlashAttention 思想？ ​

解码 KV 管理挑战？ ​

PagedAttention？ ​

INT8 权重量化流程？ ​

FA 与速度（同 1、7）？ ​

KV 与 PagedAttention（同 9、10）？ ​

⭐⭐ 常见重点 ​

无 KV cache 慢多少？ ​

FA 对 FA-2/FlashDecoding 基础？ ​

GPTQ vs AWQ？ ​

QAT vs PTQ？ ​

推理与部署

⭐⭐⭐ 核心必背

FlashAttention 不减 FLOPs 为何加速？增量 softmax？

RoPE vs 绝对位置？长文外推挑战？

8K→32K 与 KV 挑战？

TTFT、输入/输出吞吐？

预填充瓶颈？

FlashAttention 思想？

解码 KV 管理挑战？

PagedAttention？

INT8 权重量化流程？

FA 与速度（同 1、7）？

KV 与 PagedAttention（同 9、10）？

⭐⭐ 常见重点

无 KV cache 慢多少？

FA 对 FA-2/FlashDecoding 基础？

GPTQ vs AWQ？

QAT vs PTQ？