Skip to content

语言模型基础

⭐⭐⭐ 核心必背

什么是词向量,主要作用?

参考答案

将词映射为稠密实向量,供神经网络计算。作用:语义相似度、迁移初始化、传统 ML 特征;现代更多由子词嵌入+上下文表示替代「一词一向量」。

Skip-gram vs CBOW?

参考答案

CBOW 上下文→中心词;Skip-gram 中心词→上下文。后者罕见词、小数据常更优。

静态嵌入 vs 上下文化嵌入?静态还有何用?

参考答案

静态一词一向量;LLM 每层随上下文变。静态仍可用于轻量检索、小数据、与传统 ML 结合、分析词表覆盖。

上下文化如何解决一词多义?

参考答案

表示=f(整句),不同语境不同激活;「推理」在数学语境与 sysadmin 语境向量不同。

静态对同义/多义局限?ELMo/BERT?

参考答案

多义混为一向量。ELMo/BERT:多层上下文表示动态消歧。

⭐⭐ 常见重点

稀疏词向量(one-hot)?

参考答案

维数=词表,仅一维为 1。优点:简单;缺点:高维稀疏、无语义相似、不共享统计强度。

分布式语义假设?

参考答案

「词义由上下文分布刻画」;体现:相似上下文→相似向量(Word2Vec、共现统计)。

稠密嵌入相对稀疏的优势?

参考答案

维数低、可泛化到相似词、从共现/预测任务中学得。获得方式:神经语言模型目标或矩阵分解。

GloVe?

参考答案

全局词-词共现对数双线性回归,融合全局计数与局部线性结构。

Word2Vec 负样本?

参考答案

近似 softmax 分母;二分类区分真实上下文与噪声词,加速训练。

king-man+woman≈queen?LLM 是否也有?

参考答案

线性结构来自训练目标的几何;类比在静态嵌入最明显。LLM 可取层向量做近似,但子词切分与上下文使关系更复杂,不保证同样线性。

BERT 后静态词向量地位?

参考答案

通用语义任务多转向预训练 Transformer;静态仍适合资源受限、传统 pipeline、特定检索。

用词向量算词/句相似度步骤?

参考答案

句:词向量平均/SIF/加权;词:直接取向量;再算余弦相似度或点积(若已 L2 归一)。

句向量经典方法?

参考答案

平均/TF-IDF 加权平均、SIF、RNN 最后隐状态、CLS 句向量(Sentence-BERT)。

句嵌入与挑战?

参考答案

整句固定维表示;挑战:组合语义、否定、长程依赖、与任务对齐。

拓展了解

其他嵌入?

参考答案

FastText(子词 n-gram)、ELMo(上下文 LSTM)、BERT 子词嵌入等。

除余弦外?

参考答案

欧氏距离、点积、词类比准确率、下游任务探针。

词向量捕捉何种关系?何处弱?

参考答案

语义相关、部分句法(主谓);弱于反义、稀有组合、需要世界知识的推理。

词向量平均何时有效/无效?

参考答案

有效:主题分类、短句、词序不敏感;无效:否定、细粒度情感、需要句法结构的推理任务。

仅供学习交流,题目与答案要点请结合业务与最新论文核对。