tokenizer
⭐⭐⭐ 核心必背
OOV 是什么,为何重要?
参考答案
词表外词无法索引;导致 UNK、信息丢失、检索/分类性能下降。
BPE 处理 OOV?
参考答案
统计最高频字节/子词对合并,迭代至词表规模;任意词可拆成已知子词,无严格 OOV。
word / subword / char?
参考答案
词:语义单元大、OOV 多;子词:平衡覆盖与效率;字符:无 OOV、序列长、难捕捉词级语义。
BPE / WordPiece / Unigram?
参考答案
目标都是控词表、控 OOV。BPE 合并频最高对;WordPiece 似然增益;Unigram 从大方表剪枝子词集。
LLM 分词器 vs 传统中文分词?分词唯一吗?
参考答案
LLM 多为子词 tokenizer,与语言学「词」不一致;BPE 贪心最长匹配,给定词表通常确定,但预处理(NFKC 等)可能影响。
字节级 BPE 优点?
参考答案
任意 UTF-8 可编码,多语言统一、无需语言专用预处理,减少未知字符。
LLM 中词元化作用?BPE/WordPiece 如何工作?
参考答案
文本→ID 序列;通过合并规则将字符串切为子词 token,平衡词表与序列长度。
单词/字符/子词比较与主流原因?
参考答案
子词在 OOV、词表大小、序列长度、多语言之间折中最优,故成 LLM 标配。
⭐⭐ 常见重点
处理 OOV 的技术?
参考答案
子词、字符级、回退 UNK、哈希特征、复制机制(生成)、扩大词表。
中英文「词」级挑战?
参考答案
英文有空格但形态变化;中文无空格需分词,分词错误传播,词边界模糊。
BM25 敏感而 LLM「不敏感」?
参考答案
BM25 依赖词边界与词表匹配;LLM 子词可组合还原语义,embedding 连续,对切分粒度相对鲁棒(仍受 tokenizer 影响)。
国产模型更少 token 表达中文?
参考答案
更大中文子词词表、中文语料优先 BPE、字-词混合策略、与英文词表比例调优。
1 万亿 tokens 量级?
参考答案
token≈子词片,英文常约 0.75 词/token 量级(因模型而异);存储纯文本 UTF-8 约数 TB 量级,依语言与是否含代码/符号变化大,面试可答「数量级估算+需实测」。
⭐ 拓展了解
除子词外?
参考答案
指针网络复制源词、字形/拼音特征、开放词表。
字符级优缺点?
参考答案
覆盖全、序列长算力贵;适合形态丰富语言、低资源。
分词对下游影响?
参考答案
影响粒度、OOV 率、序列长度与速度;翻译/分类对边界敏感度不同。
多语言分词方案选择?
参考答案
统一字节级 BPE、语言采样平衡、词表大小、领域专有词、与下游对齐。