语言模型基础
⭐⭐⭐ 核心必背
什么是词向量,主要作用?
参考答案
将词映射为稠密实向量,供神经网络计算。作用:语义相似度、迁移初始化、传统 ML 特征;现代更多由子词嵌入+上下文表示替代「一词一向量」。
Skip-gram vs CBOW?
参考答案
CBOW 上下文→中心词;Skip-gram 中心词→上下文。后者罕见词、小数据常更优。
静态嵌入 vs 上下文化嵌入?静态还有何用?
参考答案
静态一词一向量;LLM 每层随上下文变。静态仍可用于轻量检索、小数据、与传统 ML 结合、分析词表覆盖。
上下文化如何解决一词多义?
参考答案
表示=f(整句),不同语境不同激活;「推理」在数学语境与 sysadmin 语境向量不同。
静态对同义/多义局限?ELMo/BERT?
参考答案
多义混为一向量。ELMo/BERT:多层上下文表示动态消歧。
⭐⭐ 常见重点
稀疏词向量(one-hot)?
参考答案
维数=词表,仅一维为 1。优点:简单;缺点:高维稀疏、无语义相似、不共享统计强度。
分布式语义假设?
参考答案
「词义由上下文分布刻画」;体现:相似上下文→相似向量(Word2Vec、共现统计)。
稠密嵌入相对稀疏的优势?
参考答案
维数低、可泛化到相似词、从共现/预测任务中学得。获得方式:神经语言模型目标或矩阵分解。
GloVe?
参考答案
全局词-词共现对数双线性回归,融合全局计数与局部线性结构。
Word2Vec 负样本?
参考答案
近似 softmax 分母;二分类区分真实上下文与噪声词,加速训练。
king-man+woman≈queen?LLM 是否也有?
参考答案
线性结构来自训练目标的几何;类比在静态嵌入最明显。LLM 可取层向量做近似,但子词切分与上下文使关系更复杂,不保证同样线性。
BERT 后静态词向量地位?
参考答案
通用语义任务多转向预训练 Transformer;静态仍适合资源受限、传统 pipeline、特定检索。
用词向量算词/句相似度步骤?
参考答案
句:词向量平均/SIF/加权;词:直接取向量;再算余弦相似度或点积(若已 L2 归一)。
句向量经典方法?
参考答案
平均/TF-IDF 加权平均、SIF、RNN 最后隐状态、CLS 句向量(Sentence-BERT)。
句嵌入与挑战?
参考答案
整句固定维表示;挑战:组合语义、否定、长程依赖、与任务对齐。
⭐ 拓展了解
其他嵌入?
参考答案
FastText(子词 n-gram)、ELMo(上下文 LSTM)、BERT 子词嵌入等。
除余弦外?
参考答案
欧氏距离、点积、词类比准确率、下游任务探针。
词向量捕捉何种关系?何处弱?
参考答案
语义相关、部分句法(主谓);弱于反义、稀有组合、需要世界知识的推理。
词向量平均何时有效/无效?
参考答案
有效:主题分类、短句、词序不敏感;无效:否定、细粒度情感、需要句法结构的推理任务。