方案设计
【标注】 方案题为开放设计,以下为高频答题要点,面试需结合业务展开。
⭐⭐⭐ 核心必背
社交媒体情感分析:预处理→分词→表示?
参考答案
规范化(繁简、大小写)但保留表情与重复强调;子词/BPE tokenizer;去噪用规则+分类器;表示用预训练中文 RoBERTa 类或 LLM 嵌入+轻量分类头;网络用语可领域继续预训练或数据增广。
100 万评论仅千条标注?
参考答案
嵌入模型+千样本训练线性头/小模型;伪标签(高置信)+人工抽检;LLM 生成合成样本+人审;半监督 MixMatch/UDA 或一致性正则;迭代主动学习标难例。
BERT 句向量流程与池化?
参考答案
[CLS] 微调后直接用或配合句对任务;平均池化全词、max、attention pooling;句对任务常用 [CLS]+BiEncoder,STS 用 cosine+回归损失;更好可用 Sentence-BERT 双塔结构。
BERT 相似度微调?
参考答案
输入句子对 [SEP] 拼接;输出 [CLS] 接回归(余弦尺度)或分类(是否相似);损失:MSE、对比损失(InfoNCE)、或 cross-entropy 三分类。
旅行规划 Agent?
参考答案
工具:航班/酒店/地图 API、日历、预算计算;ReAct 循环;先澄清缺失信息;矛盾信息列出选项让用户确认;行程约束用结构化 JSON 校验。
数据分析助手?
参考答案
NL→受控 SQL(schema linking+权限沙箱)→执行→结果表格→图表 spec(如 Vega)→LLM 生成解读;核心:SQL 校验、行级权限、不执行危险写操作。
电商客服 LLM 方案?
参考答案
商品/政策 RAG;SFT 客服话术与拒答;关键信息模板化输出;人工兜底与满意度闭环;幻觉应对:仅答检索片段、引用订单号字段。
AI 伴侣长记忆?
参考答案
短期:滑动窗口;中期:会话摘要滚动写入;长期:事件结构化+向量检索(RAG)+时间索引;定期合并重复记忆;敏感信息加密与遗忘策略。