语言模型基础

⭐⭐⭐ 核心必背

什么是词向量，主要作用？

参考答案

将词映射为稠密实向量，供神经网络计算。作用：语义相似度、迁移初始化、传统 ML 特征；现代更多由子词嵌入+上下文表示替代「一词一向量」。

Skip-gram vs CBOW？

参考答案

CBOW 上下文→中心词；Skip-gram 中心词→上下文。后者罕见词、小数据常更优。

静态嵌入 vs 上下文化嵌入？静态还有何用？

参考答案

静态一词一向量；LLM 每层随上下文变。静态仍可用于轻量检索、小数据、与传统 ML 结合、分析词表覆盖。

上下文化如何解决一词多义？

参考答案

表示=f(整句)，不同语境不同激活；「推理」在数学语境与 sysadmin 语境向量不同。

静态对同义/多义局限？ELMo/BERT？

参考答案

多义混为一向量。ELMo/BERT：多层上下文表示动态消歧。

⭐⭐ 常见重点

稀疏词向量（one-hot）？

参考答案

维数=词表，仅一维为 1。优点：简单；缺点：高维稀疏、无语义相似、不共享统计强度。

分布式语义假设？

参考答案

「词义由上下文分布刻画」；体现：相似上下文→相似向量（Word2Vec、共现统计）。

稠密嵌入相对稀疏的优势？

参考答案

维数低、可泛化到相似词、从共现/预测任务中学得。获得方式：神经语言模型目标或矩阵分解。

GloVe？

参考答案

全局词-词共现对数双线性回归，融合全局计数与局部线性结构。

Word2Vec 负样本？

参考答案

近似 softmax 分母；二分类区分真实上下文与噪声词，加速训练。

king-man+woman≈queen？LLM 是否也有？

参考答案

线性结构来自训练目标的几何；类比在静态嵌入最明显。LLM 可取层向量做近似，但子词切分与上下文使关系更复杂，不保证同样线性。

BERT 后静态词向量地位？

参考答案

通用语义任务多转向预训练 Transformer；静态仍适合资源受限、传统 pipeline、特定检索。

用词向量算词/句相似度步骤？

参考答案

句：词向量平均/SIF/加权；词：直接取向量；再算余弦相似度或点积（若已 L2 归一）。

句向量经典方法？

参考答案

平均/TF-IDF 加权平均、SIF、RNN 最后隐状态、CLS 句向量（Sentence-BERT）。

句嵌入与挑战？

参考答案

整句固定维表示；挑战：组合语义、否定、长程依赖、与任务对齐。

⭐ 拓展了解

其他嵌入？

参考答案

FastText（子词 n-gram）、ELMo（上下文 LSTM）、BERT 子词嵌入等。

除余弦外？

参考答案

欧氏距离、点积、词类比准确率、下游任务探针。

词向量捕捉何种关系？何处弱？

参考答案

语义相关、部分句法（主谓）；弱于反义、稀有组合、需要世界知识的推理。

词向量平均何时有效/无效？

参考答案

有效：主题分类、短句、词序不敏感；无效：否定、细粒度情感、需要句法结构的推理任务。

语言模型基础 ​

⭐⭐⭐ 核心必背 ​

什么是词向量，主要作用？ ​

Skip-gram vs CBOW？ ​

静态嵌入 vs 上下文化嵌入？静态还有何用？ ​

上下文化如何解决一词多义？ ​

静态对同义/多义局限？ELMo/BERT？ ​

⭐⭐ 常见重点 ​

稀疏词向量（one-hot）？ ​

分布式语义假设？ ​

稠密嵌入相对稀疏的优势？ ​

GloVe？ ​

Word2Vec 负样本？ ​

king-man+woman≈queen？LLM 是否也有？ ​

BERT 后静态词向量地位？ ​

用词向量算词/句相似度步骤？ ​

句向量经典方法？ ​

句嵌入与挑战？ ​

⭐ 拓展了解 ​

其他嵌入？ ​

除余弦外？ ​

词向量捕捉何种关系？何处弱？ ​

词向量平均何时有效/无效？ ​

语言模型基础

⭐⭐⭐ 核心必背

什么是词向量，主要作用？

Skip-gram vs CBOW？

静态嵌入 vs 上下文化嵌入？静态还有何用？

上下文化如何解决一词多义？

静态对同义/多义局限？ELMo/BERT？

⭐⭐ 常见重点

稀疏词向量（one-hot）？

分布式语义假设？

稠密嵌入相对稀疏的优势？

GloVe？

Word2Vec 负样本？

king-man+woman≈queen？LLM 是否也有？

BERT 后静态词向量地位？

用词向量算词/句相似度步骤？

句向量经典方法？

句嵌入与挑战？

⭐ 拓展了解

其他嵌入？

除余弦外？

词向量捕捉何种关系？何处弱？

词向量平均何时有效/无效？