VLM
⭐⭐⭐ 核心必背
CLIP 为何 push 正 pull 负?
参考答案
对比学习拉大匹配图文、推远非匹配,形成共享嵌入空间。
VLM 核心挑战?
参考答案
跨模态对齐(语义粒度不同)、融合位置、幻觉与细粒度 grounding。
CLIP 原理?
参考答案
双编码器+对比损失,batch 内 InfoNCE,图文互检索。
LLaVA/MiniGPT-4 连接方式?
参考答案
视觉编码器→MLP/线性投影→与文本 token 拼接进 LLM;视觉指令微调对齐对话格式。
视觉指令微调?
参考答案
用图文指令数据教模型跟随人类多轮指令,补预训练对齐不足。
VLM 幻觉差异?
参考答案
编造图中不存在物体/关系;文本幻觉+视觉错配。
⭐⭐ 常见重点
ViT 为何不用离散 patch ID?
参考答案
图像块无天然词表大小;线性投影保留像素细粒度信息并便于与连续自注意力配合。
视频额外问题?
参考答案
时序建模、帧采样、长视频算力、事件对齐。
Grounding 与评估?
参考答案
文本指代像素/框;RefCOCO、IoU、Pointing 准确率。
VLM 范式对比?
参考答案
双塔快检索;交叉注意力融合表达强但重;Perceiver 类隐状态融合。
高分辨率?
参考答案
切片/金字塔、滑动窗口、降采样+全局 token;算力与显存暴涨。
⭐ 拓展了解
VLM 应用?
参考答案
文档理解、GUI Agent、医疗影像、自动驾驶感知描述、机器人。