Skip to content

推理与部署

⭐⭐⭐ 核心必背

FlashAttention 不减 FLOPs 为何加速?增量 softmax?

参考答案

瓶颈在 HBM 读写与 kernel launch;分块在 SRAM 上完成 softmax 与归一化,减少中间写回;在线 softmax 递推合并块。

RoPE vs 绝对位置?长文外推挑战?

参考答案

相对位置、常与线性插值/NTK 扩长;超训练长度仍可能注意力分散、需继续训练或缩放 base。

8K→32K 与 KV 挑战?

参考答案

长文继续训练+位置扩展;KV 显存线性增,需 GQA、量化 KV、PagedAttention、Offload。

TTFT、输入/输出吞吐?

参考答案

TTFT=预填充延迟;输入吞吐≈tokens/s 预填;输出吞吐=解码 tokens/s。交互重 TTFT,批服务重总吞吐。

预填充瓶颈?

参考答案

O(L²d) 算力与大矩阵乘;内存带宽与激活存取。

FlashAttention 思想?

参考答案

Tiling+SRAM、融合 kernel、重计算减激活驻留 HBM。

解码 KV 管理挑战?

参考答案

变长序列碎片、显存浪费;低效分配限制并发 batch。

PagedAttention?

参考答案

KV 按页非连续存,类似虚拟内存,减碎片、提高 batching。

INT8 权重量化流程?

参考答案

选粒度(per-tensor/channel)→校准集统计 scale/zero_point→量化→可选混合精度 GEMM。

FA 与速度(同 1、7)?

KV 与 PagedAttention(同 9、10)?

⭐⭐ 常见重点

无 KV cache 慢多少?

参考答案

解码从 O(t) 每步变 O(t²) 重复算;倍数随长度急剧升,常 一个数量级以上(依实现与长度)。

FA 对 FA-2/FlashDecoding 基础?

参考答案

分块 IO 最优、并行 warpgroup、解码阶段稀疏块优化。

GPTQ vs AWQ?

参考答案

GPTQ 逐层权重量化+二阶误差;AWQ 强调激活感知保护「显著」权重;粒度与校准集因实现而异,AWQ 常更少校准样本。

QAT vs PTQ?

参考答案

QAT 训练时模拟量化,梯度适应量化噪声;PTQ 快但分布漂移大时损更多。

仅供学习交流,题目与答案要点请结合业务与最新论文核对。