VLM

⭐⭐⭐ 核心必背

CLIP 为何 push 正 pull 负？

参考答案

对比学习拉大匹配图文、推远非匹配，形成共享嵌入空间。

VLM 核心挑战？

参考答案

跨模态对齐（语义粒度不同）、融合位置、幻觉与细粒度 grounding。

CLIP 原理？

参考答案

双编码器+对比损失，batch 内 InfoNCE，图文互检索。

LLaVA/MiniGPT-4 连接方式？

参考答案

视觉编码器→MLP/线性投影→与文本 token 拼接进 LLM；视觉指令微调对齐对话格式。

视觉指令微调？

参考答案

用图文指令数据教模型跟随人类多轮指令，补预训练对齐不足。

VLM 幻觉差异？

参考答案

编造图中不存在物体/关系；文本幻觉+视觉错配。

⭐⭐ 常见重点

ViT 为何不用离散 patch ID？

参考答案

图像块无天然词表大小；线性投影保留像素细粒度信息并便于与连续自注意力配合。

视频额外问题？

参考答案

时序建模、帧采样、长视频算力、事件对齐。

Grounding 与评估？

参考答案

文本指代像素/框；RefCOCO、IoU、Pointing 准确率。

VLM 范式对比？

参考答案

双塔快检索；交叉注意力融合表达强但重；Perceiver 类隐状态融合。

高分辨率？

参考答案

切片/金字塔、滑动窗口、降采样+全局 token；算力与显存暴涨。

⭐ 拓展了解

VLM 应用？

参考答案

文档理解、GUI Agent、医疗影像、自动驾驶感知描述、机器人。

VLM ​

⭐⭐⭐ 核心必背 ​

CLIP 为何 push 正 pull 负？ ​

VLM 核心挑战？ ​

CLIP 原理？ ​

LLaVA/MiniGPT-4 连接方式？ ​

视觉指令微调？ ​

VLM 幻觉差异？ ​

⭐⭐ 常见重点 ​

ViT 为何不用离散 patch ID？ ​

视频额外问题？ ​

Grounding 与评估？ ​

VLM 范式对比？ ​

高分辨率？ ​

⭐ 拓展了解 ​

VLM 应用？ ​

VLM

⭐⭐⭐ 核心必背

CLIP 为何 push 正 pull 负？

VLM 核心挑战？

CLIP 原理？

LLaVA/MiniGPT-4 连接方式？

视觉指令微调？

VLM 幻觉差异？

⭐⭐ 常见重点

ViT 为何不用离散 patch ID？

视频额外问题？

Grounding 与评估？

VLM 范式对比？

高分辨率？

⭐ 拓展了解

VLM 应用？