Skip to content

模型相关

【备考提示】 本节与具体论文版本强相关,面试多为「读过技术报告」加分项;未细读可答通用原理+承认需对照论文。

参考论文:

⭐⭐⭐ 核心必背

思考/非思考模式?

参考答案

推理任务开思考链;低延迟对话关思考;同一模型路由降成本。

稠密 vs MoE?

参考答案

稠密延迟稳、工程简;MoE 容量大、吞吐依赖路由与专家并行;在线低延迟常稠密,高吞吐服务可 MoE。

MoE 部署难题?

参考答案

负载均衡、跨机 all-to-all、显存放全量专家;缓解:EP、缓存热门专家、算子融合。

GQA(同大模型原理)?

⭐⭐ 常见重点

Qwen3 特点与创新?

参考答案

答前请扫一眼 Qwen3 报告:通常含双模(思考/非思考)、MoE 与稠密并存、长上下文与多语加强、GQA 等效率设计(以报告为准)。

思考预算?

参考答案

限制推理 token/步数,折中质量与延迟(实现因推理栈而异)。

思考 vs 非思考平衡?

参考答案

路由策略、用户/任务类型、SLA 驱动默认。

128 专家激活 8?

参考答案

总容量大、每步 FLOPs 约为 8/128 活跃专家;需负载均衡损失防坍塌。

RoPE base 10k→1M 与 ABF?

参考答案

更大 base 缓和长位置频率;ABF(attention base freq 调整类技术)助长度外推(以论文定义为准)。

拓展了解

Qwen3 多语优化?

参考答案

语料配比、分词与评测集扩展、跨语对齐(以技术报告列举为准)。

相对 Qwen2.5 多语改进?

参考答案

报告中的语言覆盖、基准分、数据清洗升级(答具体数字需背书)。

off-policy + on-policy 混合?

参考答案

蒸馏/回放利用旧数据(off),对齐阶段再 on-policy 微调;样本效率与稳定性折中。

移除 QKV bias?

参考答案

减参、训练稳定与正则略有变;需调 warmup 等;具体动机以 Qwen3 报告为准。

缩放定律超参举例?

参考答案

如 batch、学习率随规模调整;答「需查 Qwen3 三阶段报告中的具体曲线与参数名」。

仅供学习交流,题目与答案要点请结合业务与最新论文核对。