tokenizer

⭐⭐⭐ 核心必背

OOV 是什么，为何重要？

参考答案

词表外词无法索引；导致 UNK、信息丢失、检索/分类性能下降。

BPE 处理 OOV？

参考答案

统计最高频字节/子词对合并，迭代至词表规模；任意词可拆成已知子词，无严格 OOV。

word / subword / char？

参考答案

词：语义单元大、OOV 多；子词：平衡覆盖与效率；字符：无 OOV、序列长、难捕捉词级语义。

BPE / WordPiece / Unigram？

参考答案

目标都是控词表、控 OOV。BPE 合并频最高对；WordPiece 似然增益；Unigram 从大方表剪枝子词集。

LLM 分词器 vs 传统中文分词？分词唯一吗？

参考答案

LLM 多为子词 tokenizer，与语言学「词」不一致；BPE 贪心最长匹配，给定词表通常确定，但预处理（NFKC 等）可能影响。

字节级 BPE 优点？

参考答案

任意 UTF-8 可编码，多语言统一、无需语言专用预处理，减少未知字符。

LLM 中词元化作用？BPE/WordPiece 如何工作？

参考答案

文本→ID 序列；通过合并规则将字符串切为子词 token，平衡词表与序列长度。

单词/字符/子词比较与主流原因？

参考答案

子词在 OOV、词表大小、序列长度、多语言之间折中最优，故成 LLM 标配。

⭐⭐ 常见重点

处理 OOV 的技术？

参考答案

子词、字符级、回退 UNK、哈希特征、复制机制（生成）、扩大词表。

中英文「词」级挑战？

参考答案

英文有空格但形态变化；中文无空格需分词，分词错误传播，词边界模糊。

BM25 敏感而 LLM「不敏感」？

参考答案

BM25 依赖词边界与词表匹配；LLM 子词可组合还原语义，embedding 连续，对切分粒度相对鲁棒（仍受 tokenizer 影响）。

国产模型更少 token 表达中文？

参考答案

更大中文子词词表、中文语料优先 BPE、字-词混合策略、与英文词表比例调优。

1 万亿 tokens 量级？

参考答案

token≈子词片，英文常约 0.75 词/token 量级（因模型而异）；存储纯文本 UTF-8 约数 TB 量级，依语言与是否含代码/符号变化大，面试可答「数量级估算+需实测」。

⭐ 拓展了解

除子词外？

参考答案

指针网络复制源词、字形/拼音特征、开放词表。

字符级优缺点？

参考答案

覆盖全、序列长算力贵；适合形态丰富语言、低资源。

分词对下游影响？

参考答案

影响粒度、OOV 率、序列长度与速度；翻译/分类对边界敏感度不同。

多语言分词方案选择？

参考答案

统一字节级 BPE、语言采样平衡、词表大小、领域专有词、与下游对齐。

tokenizer ​

⭐⭐⭐ 核心必背 ​

OOV 是什么，为何重要？ ​

BPE 处理 OOV？ ​

word / subword / char？ ​

BPE / WordPiece / Unigram？ ​

LLM 分词器 vs 传统中文分词？分词唯一吗？ ​

字节级 BPE 优点？ ​

LLM 中词元化作用？BPE/WordPiece 如何工作？ ​

单词/字符/子词比较与主流原因？ ​

⭐⭐ 常见重点 ​

处理 OOV 的技术？ ​

中英文「词」级挑战？ ​

BM25 敏感而 LLM「不敏感」？ ​

国产模型更少 token 表达中文？ ​

1 万亿 tokens 量级？ ​

⭐ 拓展了解 ​

除子词外？ ​

字符级优缺点？ ​

分词对下游影响？ ​

多语言分词方案选择？ ​

tokenizer

⭐⭐⭐ 核心必背

OOV 是什么，为何重要？

BPE 处理 OOV？

word / subword / char？

BPE / WordPiece / Unigram？

LLM 分词器 vs 传统中文分词？分词唯一吗？

字节级 BPE 优点？

LLM 中词元化作用？BPE/WordPiece 如何工作？

单词/字符/子词比较与主流原因？

⭐⭐ 常见重点

处理 OOV 的技术？

中英文「词」级挑战？

BM25 敏感而 LLM「不敏感」？

国产模型更少 token 表达中文？

1 万亿 tokens 量级？

⭐ 拓展了解

除子词外？

字符级优缺点？

分词对下游影响？

多语言分词方案选择？