Skip to content

VLM

⭐⭐⭐ 核心必背

CLIP 为何 push 正 pull 负?

参考答案

对比学习拉大匹配图文、推远非匹配,形成共享嵌入空间。

VLM 核心挑战?

参考答案

跨模态对齐(语义粒度不同)、融合位置、幻觉与细粒度 grounding。

CLIP 原理?

参考答案

双编码器+对比损失,batch 内 InfoNCE,图文互检索。

LLaVA/MiniGPT-4 连接方式?

参考答案

视觉编码器→MLP/线性投影→与文本 token 拼接进 LLM;视觉指令微调对齐对话格式。

视觉指令微调?

参考答案

用图文指令数据教模型跟随人类多轮指令,补预训练对齐不足。

VLM 幻觉差异?

参考答案

编造图中不存在物体/关系;文本幻觉+视觉错配。

⭐⭐ 常见重点

ViT 为何不用离散 patch ID?

参考答案

图像块无天然词表大小;线性投影保留像素细粒度信息并便于与连续自注意力配合。

视频额外问题?

参考答案

时序建模、帧采样、长视频算力、事件对齐。

Grounding 与评估?

参考答案

文本指代像素/框;RefCOCO、IoU、Pointing 准确率。

VLM 范式对比?

参考答案

双塔快检索;交叉注意力融合表达强但重;Perceiver 类隐状态融合。

高分辨率?

参考答案

切片/金字塔、滑动窗口、降采样+全局 token;算力与显存暴涨。

拓展了解

VLM 应用?

参考答案

文档理解、GUI Agent、医疗影像、自动驾驶感知描述、机器人。

仅供学习交流,题目与答案要点请结合业务与最新论文核对。