机器学习
⭐⭐⭐ 核心必背
请解释特征归一化的目的是什么,以及在哪些机器学习算法中特别重要?
参考答案
消除量纲与尺度差异,使优化更稳、收敛更快。对基于距离/KNN、梯度下降的线性模型、神经网络、SVM 等尤其重要;树模型对单调变换不敏感。
为什么在使用逻辑回归或神经网络时通常需要对数值型特征进行归一化?
参考答案
各维梯度尺度不一导致优化轨迹差、收敛慢;权重更新被大尺度特征主导;sigmoid/tanh 易饱和。
类别型特征有哪几种常见的编码方式?分别适用于什么情况?
参考答案
One-Hot(低基数)、Label(树模型可试)、Target Encoding(高基数,防泄漏需 CV)、Hashing(超高维)、Embedding(深度学习)。
在实际项目中,如何对训练集和测试集正确地进行特征归一化操作?需要注意哪些陷阱?
参考答案
仅用训练集拟合 scaler(均值方差等),同一变换应用到验证/测试;禁止用全量统计;时间序列用滚动/仅过去数据。
在构建模型时,为什么需要考虑特征交叉,特征交叉有哪些常用方法?
参考答案
捕捉非线性与协同(如用户×物品)。方法:显式乘积、多项式、哈希交叉、FM、深度交叉网络。
什么是 FM 模型,它如何解决稀疏数据下的特征组合问题?
参考答案
因子分解机:两两交互用隐向量内积近似,参数从 O(n²) 降到 O(nk),适合稀疏高维。
词袋模型如何表示文本数据,有什么局限性?
参考答案
词频向量,无序、无语义、维高稀疏、未区分词重要性。
TF-IDF 是如何改进词袋模型的,它的计算公式是怎样的?
参考答案
TF×IDF,突出文档内常见、语料内稀有的词;降低停用词权重。IDF 常用 log(N/df)。
Word2Vec 的基本思想是什么,CBOW 和 Skip-Gram 有何区别?
参考答案
预测式嵌入:CBOW 用上下文预测中心词;Skip-Gram 用中心词预测上下文,小数据/罕见词后者常更好。
图像数据增强有哪些常见方法,它们如何提升模型性能?
参考答案
翻转裁剪颜色抖动 MixUp/CutMix 等;增广等价扩大训练分布,减轻过拟合。
在模型评估中,准确率存在哪些局限性?
参考答案
类别不平衡时虚高;例:99% 负样本全判负也有 99% acc。
精确率和召回率之间有何区别?在什么场景下应优先考虑其中一个指标?
参考答案
P=预测正里真比例,R=真实正里找出比例;风控漏检代价高重 R,骚扰代价高重 P。
F1 分数是如何平衡精确率和召回率的?它的适用条件是什么?
参考答案
调和平均 2PR/(P+R);二分类或多类宏/微平均;需同时关心 P 与 R。
ROC 曲线的横轴和纵轴分别代表什么?如何通过 ROC 曲线判断模型性能?
参考答案
横轴 FPR,纵轴 TPR;越凸向左上越好,AUC 汇总。
AUC 值的含义是什么?AUC 为 0.5 和 1.0 分别代表怎样的模型表现?
参考答案
随机抽一正一负,正样本得分更高的概率;0.5 随机,1.0 完美可分。
在模型评估中,为何不能仅依赖准确率来判断模型性能?
参考答案
同 41,不平衡与错分代价不对称时误导。
对比交叉验证与留出法在模型评估中的优缺点。
参考答案
CV 方差小更稳但计算贵;留出简单快但方差大;大数据可单次留出。
什么是偏差-方差权衡?它与过拟合和欠拟合有何关系?
参考答案
偏差大欠拟合,方差大过拟合;总误差分解;模型复杂度上升常降偏差升方差。
如何判断一个模型是否出现过拟合?列举至少三种缓解过拟合的方法。
参考答案
训练好验证差、学习曲线分离。缓解:正则、Dropout、更多数据、早停、简化模型、数据增强。
欠拟合的表现是什么?可以从哪些方面入手改善欠拟合问题?
参考答案
训练验证都差。增模型容量、减正则、更久训练、更好特征。
请解释支持向量机的基本原理,并说明为什么它被称为「最大间隔分类器」?
参考答案
找间隔最大的分离超平面,等价约束优化;支持向量决定边界。
逻辑回归的输出值代表什么?如何从线性回归引出逻辑回归模型?
参考答案
正类概率(经 sigmoid)。线性回归输出不限于 [0,1],对数几率线性化得 LR。
逻辑回归中使用什么损失函数?为什么不能使用均方误差作为损失函数?
参考答案
对数损失(交叉熵)。MSE 非凸且与极大似然不一致,梯度性质差。
决策树是如何进行特征选择的?请比较信息增益、信息增益率和基尼指数的异同。
参考答案
选分裂使不纯度下降最大。增益偏好多值特征,增益率校正;基尼计算快,效果常接近。
在决策树中,如何防止过拟合?请列举至少三种剪枝方法并简要说明。
参考答案
预剪枝(深度叶子数阈值)、后剪枝(代价复杂度)、最小样本分裂、限制 max_depth。
主成分分析(PCA)的核心思想是什么?它的主要用途有哪些?
参考答案
方差最大正交投影降维;可视化、去噪、压缩、缓解多重共线性。
请解释 K 均值聚类的基本原理及其迭代过程。
参考答案
初始化 K 中心→分配最近中心→更新均值→迭代至收敛;最小化簇内平方和。
⭐⭐ 常见重点
有哪些常见的特征归一化方法?它们各自的适用场景和优缺点是什么?
参考答案
Min-Max 到固定区间,对异常值敏感;Z-score 假设近似高斯;RobustScaler 用分位数抗异常;Log/Box-Cox 处理偏态。按分布与异常值情况选用。
独热编码会产生高维稀疏特征,可能带来哪些问题?如何缓解?
参考答案
维度爆炸、共线性、存储与计算浪费。缓解:特征哈希、降维、嵌入、Target Encoding、特征选择。
当类别特征的取值数量非常大时,应如何处理以避免维度爆炸?
参考答案
Hash、频数截断+OTHER、聚类 ID、Target Encoding、学习嵌入;注意目标编码泄漏用交叉验证统计。
什么是目标编码?它可能引入的过拟合问题应如何解决?
参考答案
用目标变量(如均值)编码类别。解决:K-fold 目标编码、平滑(先验混合)、正则、噪声。
在处理高维稀疏特征时,模型可能会遇到哪些挑战?有哪些策略可以应对?
参考答案
样本不足、过拟合、计算贵。应对:正则、FM/FFM、嵌入、降维、特征选择、更多数据。
如何处理类别型特征的组合以生成新的组合特征?
参考答案
拼接字符串再哈希/嵌入;笛卡尔积+频数筛选;统计共现;深度学习里用交叉层/FM。
请说明笛卡尔积、哈希交叉和多阶交叉在组合特征中的应用与区别。
参考答案
笛卡尔积全组合爆炸;哈希交叉映射到固定桶控维;多阶交叉捕捉二阶以上交互,复杂度高。
在推荐系统中,用户特征和物品特征如何进行有效组合?
参考答案
内积/双塔召回;FM 二阶交互;深度侧交叉;图上的用户-物品边传播。
请解释 FFM 相较于 FM 在特征组合上的改进之处。
参考答案
每个特征对每个 field 一组向量,区分「与谁交叉」的语境,表达力更强,参数量更大。
n-gram 模型在文本表示中有何作用,如何构造 n-gram 特征?
参考答案
捕捉局部词序与短语;将连续 n 个 token 拼成一项再 BoW/TF-IDF,维数随 n 增。
文本数据为何需要向量化表示,常见的离散表示方法有哪些?
参考答案
模型需数值输入。BoW、TF-IDF、n-gram、共现矩阵等。
分布式表示相比传统文本表示有哪些优势?
参考答案
稠密低维、语义相似度、可迁移、缓解稀疏;静态嵌入仍缺语境消歧。
如何通过负采样优化 Word2Vec 的训练过程?
参考答案
多分类改二分类:正样本真实上下文,负样本从噪声分布采样,近似 softmax 降复杂度。
图像数据为何不能直接输入到传统的机器学习模型中?
参考答案
维度过高、像素排列敏感、需平铺丢空间结构;传统模型难处理高维非线性。
灰度化和归一化在图像预处理中的作用是什么?
参考答案
降维/去色偏;归一化稳定训练、适配激活动态范围。
为什么深度学习在图像特征提取上优于手工设计特征?
参考答案
层次化端到端学习、数据驱动自适应、可融合大规模监督。
卷积神经网络如何自动学习图像的层次化特征?
参考答案
浅层边缘纹理,深层部件与语义;感受野逐层扩大。
在什么情况下,ROC 曲线可能不再适合用于评估模型性能?
参考答案
极不平衡且关注正类排序成本时,PR 曲线更敏感;代价敏感场景需代价曲线。
余弦距离常用于衡量两个向量之间的相似性,请解释其计算原理及取值范围。
参考答案
cosθ=(a·b)/(‖a‖‖b‖);「距离」常用 1-cos,归一化向量后等价于欧氏与夹角关系。
在实际应用中,如何根据业务需求选择合适的评估指标组合?
参考答案
对齐业务代价(FP/FN);不平衡用 PR/F1;排序用 AUC/NDCG;综合校准与可解释。
在进行 A/B 测试时,如何确定样本量的大小?如果样本量过小会带来什么问题?
参考答案
功效分析(效应量、α、β);过小则 II 类错误高、结果不稳定。
为什么在 A/B 测试中需要进行显著性检验?p 值的作用是什么,它的常见误区有哪些?
参考答案
排除随机波动;p 为「原假设下观测到极端结果的概率」。误区:p 非效应大小、非 P(H1)。
网格搜索和随机搜索在超参数调优中的区别是什么?
参考答案
网格穷举维数灾难;随机从空间采样,高维往往更高效;可结合贝叶斯优化。
简述贝叶斯优化在超参数调优中的基本思想及其优势。
参考答案
用代理模型(如 GP)拟合目标,采集函数平衡探索利用;样本少时效率高。
在实际应用中,如何平衡模型的复杂度与泛化能力?
参考答案
验证集/交叉验证选模;正则与早停;奥卡姆原则结合业务指标。
在支持向量机中,什么是核函数?常用的核函数有哪些?
参考答案
隐式映射到高维。线性、多项式、RBF(通用)、sigmoid;RBF 需注意 γ。
当数据线性不可分时,支持向量机如何处理?请说明软间隔和松弛变量的作用。
参考答案
核技巧或软间隔;松弛允许误分,C 控制惩罚与间隔权衡。
请推导逻辑回归的 sigmoid 函数的求导过程,并解释其在梯度下降中的作用。
参考答案
σ'=σ(1-σ);梯度形式简洁,与误差×特征成正比,利于稳定更新。
决策树对连续型特征和缺失值如何处理?
参考答案
连续特征找最佳分裂点;缺失值分支或代理分裂、或用众数/模型填补。
什么是过拟合?支持向量机、逻辑回归和决策树分别有哪些防止过拟合的策略?
参考答案
训练过好泛化差。SVM:软间隔/C、核选择;LR:L1/L2;树:剪枝、集成。
在 PCA 中,如何确定主成分的数量?请说明基于方差贡献率的选择方法。
参考答案
累计方差贡献率达阈值(如 85%-95%)或拐点(碎石图)。
PCA 的计算步骤有哪些?在进行 PCA 之前为什么要对数据进行标准化?
参考答案
中心化→协方差矩阵→特征分解→取 top 特征向量。避免大方差特征主导。
简述线性判别分析(LDA)的基本思想及其对类间散度和类内散度的处理方式。
参考答案
投影使类间散度大、类内散度小;最大化 Fisher 准则 tr(Sb)/tr(Sw) 或广义特征值问题。
对比 PCA 和 LDA 在降维目标、适用场景以及对标签信息依赖方面的异同。
参考答案
PCA 无监督保方差;LDA 有监督保可分;分类任务 LDA 常更贴切,可视化两者都用。
如何选择 K 均值聚类中的最优聚类数目 K?
参考答案
肘部法则、轮廓系数、Gap statistic、业务可解释性、验证下游指标。
请描述高斯混合模型(GMM)与 K 均值聚类之间的异同点。
参考答案
K-means 硬分配、假设各向同性;GMM 软分配+协方差,可拟合椭圆簇;K-means 可视为 GMM 极限。
在高斯混合模型中,EM 算法的作用是什么?请简述 E 步和 M 步。
参考答案
极大似然含隐变量。E 步算后验责任 γ,M 步更新均值方差混合权重。
⭐ 拓展了解
如何评估不同特征编码方式对模型性能的影响?请设计一个实验流程。
参考答案
固定数据划分与模型,仅换编码;交叉验证比 AUC/F1;显著性检验;记录线上 A/B。
组合特征可能会带来哪些问题,如何缓解这些问题?
参考答案
稀疏、噪声、过拟合、维灾难。缓解:正则、剪枝低频组合、哈希、贝叶斯平滑。
相比于手动构造组合特征,自动特征交叉的方法有哪些优势?
参考答案
省人工、可发现隐含组合、与端到端学习结合;代价是可解释性差、需数据量支撑。
在高维稀疏场景下,如何高效地处理大量组合特征?
参考答案
FM/FFM、哈希交叉、嵌入、采样高频组合、深度学习自动交叉。
组合特征是否总是有助于提升模型性能,什么情况下应避免使用?
参考答案
非总是;数据少噪声大、组合爆炸、与树模型冗余时可能有害。应用验证集与正则约束。
Word2Vec 学习到的词向量可以用于哪些下游任务?
参考答案
相似度、聚类、作为神经网络初始化特征、传统 ML 输入(现多被预训练 LM 取代)。
在训练 Word2Vec 时,窗口大小的选择对结果有何影响?
参考答案
大窗口偏「主题」语义,小窗口偏「语法」局部;任务相关调参。
如何评估词向量的质量,有哪些常用的评价方法?
参考答案
词类比任务、与人类相似度相关、下游任务迁移效果、可视化。
原始像素作为特征有哪些缺点?
参考答案
对平移缩放光照敏感、维高冗余、语义弱。
什么是 HOG 特征,它如何用于图像表示?
参考答案
统计局部梯度方向直方图,刻画边缘纹理,常用于传统检测。
SIFT 特征在图像处理中具有什么特点?
参考答案
尺度不变局部描述子,对旋转光照有一定鲁棒,传统配准/检索用。
如何将图像转换为固定长度的特征向量用于分类任务?
参考答案
HOG/SIFT 袋、CNN 全局池化向量、展平+PCA 等。
对于非图像任务,是否可以使用 CNN 提取局部模式特征?
参考答案
可以,一维 CNN 用于序列、文本局部 n-gram 模式。
余弦距离与欧氏距离相比,在文本或高维数据中有哪些优势和劣势?
参考答案
余弦关注方向、对长度归一化文档友好;欧氏敏感绝对幅度;高维距离集中现象。
当使用余弦距离进行相似度计算时,如何处理向量的归一化问题?
参考答案
L2 归一化消除长度影响;TF-IDF 后常再归一;注意零向量。
PCA 是基于协方差矩阵还是相关矩阵?两者在 PCA 中的区别是什么?
参考答案
标准化后等价相关矩阵;未标准化用协方差,量纲不同则结果偏较大方差维。
降维可能带来哪些信息损失?在实际应用中如何权衡降维与信息保留?
参考答案
丢弃小特征值方向信息;用累计方差与下游任务验证折中。
请解释最大方差理论在 PCA 中的作用及其几何意义。
参考答案
第一主成分使投影后方差最大,保留最大波动方向。
从最小平方误差的角度出发,PCA 是如何寻找最优投影方向的?
参考答案
重构误差最小的子空间与最大方差子空间等价(对称矩阵谱定理)。
在什么情况下 LDA 可能优于 PCA?
参考答案
标签可靠且类间均值差异明显时,降维为分类服务。
推导 PCA 中协方差矩阵的特征值分解过程,并说明特征向量与主成分的关系。
参考答案
Σ=UΛU^T;U 的列为正交主方向,Λ 为各方向方差;主成分为 U^T x。
LDA 在处理多分类问题时如何扩展?
参考答案
多类散度矩阵,最大化 trace(Sw⁻¹ Sb) 或等价广义特征分解,得到多维投影。
假设数据集存在两类且完全线性可分,PCA 与 LDA 得到的投影方向是否一致?为什么?
参考答案
一般不一致;PCA 看全局方差,LDA 看类间分离。
在高维小样本情况下,LDA 可能遇到类内散度矩阵奇异的问题,有哪些解决方法?
参考答案
PCA 预处理降维、正则 Sw、子空间 LDA、收缩估计。
PCA 和 LDA 均可用于降维,但为何 LDA 更强调类别可分性?
参考答案
优化目标显式包含类间/类内散度,是判别式降维。
K 均值聚类对初始质心的选择敏感,有哪些策略可以缓解这一问题?
参考答案
K-means++、多次随机取最优、二分 K-means。
K 均值聚类假设簇是球形且大小相近,这一假设在实际应用中可能带来哪些问题?
参考答案
非球、大小不一、密度不同会切错簇;用 GMM、谱聚类、DBSCAN。
请举例说明高斯混合模型适用于哪些 K 均值无法有效处理的数据分布情况。
参考答案
重叠簇、椭圆拉长簇、需软归属与不确定性估计。