Skip to content

tokenizer

⭐⭐⭐ 核心必背

OOV 是什么,为何重要?

参考答案

词表外词无法索引;导致 UNK、信息丢失、检索/分类性能下降。

BPE 处理 OOV?

参考答案

统计最高频字节/子词对合并,迭代至词表规模;任意词可拆成已知子词,无严格 OOV。

word / subword / char?

参考答案

词:语义单元大、OOV 多;子词:平衡覆盖与效率;字符:无 OOV、序列长、难捕捉词级语义。

BPE / WordPiece / Unigram?

参考答案

目标都是控词表、控 OOV。BPE 合并频最高对;WordPiece 似然增益;Unigram 从大方表剪枝子词集。

LLM 分词器 vs 传统中文分词?分词唯一吗?

参考答案

LLM 多为子词 tokenizer,与语言学「词」不一致;BPE 贪心最长匹配,给定词表通常确定,但预处理(NFKC 等)可能影响。

字节级 BPE 优点?

参考答案

任意 UTF-8 可编码,多语言统一、无需语言专用预处理,减少未知字符。

LLM 中词元化作用?BPE/WordPiece 如何工作?

参考答案

文本→ID 序列;通过合并规则将字符串切为子词 token,平衡词表与序列长度。

单词/字符/子词比较与主流原因?

参考答案

子词在 OOV、词表大小、序列长度、多语言之间折中最优,故成 LLM 标配。

⭐⭐ 常见重点

处理 OOV 的技术?

参考答案

子词、字符级、回退 UNK、哈希特征、复制机制(生成)、扩大词表。

中英文「词」级挑战?

参考答案

英文有空格但形态变化;中文无空格需分词,分词错误传播,词边界模糊。

BM25 敏感而 LLM「不敏感」?

参考答案

BM25 依赖词边界与词表匹配;LLM 子词可组合还原语义,embedding 连续,对切分粒度相对鲁棒(仍受 tokenizer 影响)。

国产模型更少 token 表达中文?

参考答案

更大中文子词词表、中文语料优先 BPE、字-词混合策略、与英文词表比例调优。

1 万亿 tokens 量级?

参考答案

token≈子词片,英文常约 0.75 词/token 量级(因模型而异);存储纯文本 UTF-8 约数 TB 量级,依语言与是否含代码/符号变化大,面试可答「数量级估算+需实测」。

拓展了解

除子词外?

参考答案

指针网络复制源词、字形/拼音特征、开放词表。

字符级优缺点?

参考答案

覆盖全、序列长算力贵;适合形态丰富语言、低资源。

分词对下游影响?

参考答案

影响粒度、OOV 率、序列长度与速度;翻译/分类对边界敏感度不同。

多语言分词方案选择?

参考答案

统一字节级 BPE、语言采样平衡、词表大小、领域专有词、与下游对齐。

仅供学习交流,题目与答案要点请结合业务与最新论文核对。