本文最后更新于：2024年6月24日晚上

基础概念

训练集

训练集是用来训练模型的数据集。

测试集

测试集是用于最终评估模型性能的数据集

验证集

验证集是用于评估模型性能和调整超参数的数据集

泛化能力

泛化能力是指模型对未知数据的适应能力。

过拟合

过拟合是指模型在训练集上表现很好，但在测试集上表现很差。

欠拟合

欠拟合则是模型在训练数据和测试数据上的表现都不佳。这可能是由于模型过于简单,无法捕捉到数据中的复杂模式。

归一化

什么是归一化

归一化是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。通常这个区间为[0,1]。

公式

$$
X_{new} = \frac{X - X_{min}}{X_{max} - X_{min}}
$$

模型性能评估指标计算

错误率

$$
\text{错误率} = \frac{\text{错误分类的样本数}}{\text{总样本数}}
$$

错误率越小，模型性能越好。

精确率

精确率是指分类器正确识别出的正例数据在所有识别为正例数据中的比例。
$$
\text{精确率} = \frac{\text{正确的个数}}{\text{识别到的样本个数}}
$$

召回率

召回率是指分类器正确识别出的正例数据在所有正例数据中的比例。
$$
\text{召回率} = \frac{\text{正确的个数}}{\text{样本中的个数}}
$$

调和平均值 F1指标

F1指标为精确率和召回率的调和平均数。
$$
F1 = \frac{2 \times \text{精确率} \times \text{召回率}}{\text{精确率} + \text{召回率}}
$$

均方误差MSE

均方误差是指预测值与真实值之间的差值的平方和的平均值。

$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2
$$

ROC曲线

ROC曲线是以假正例率为横轴，真正例率为纵轴的曲线。

AUC

AUC是ROC曲线下的面积，AUC越大，模型性能越好。

聚类算法

聚类算法是一种无监督学习算法，它将数据集中的数据分成若干个类，使得同一个类中的数据相似度较高，不同类之间的数据相似度较低。

通常的聚类算法有K-means、DBSCAN、层次聚类等。

怎么样评价好坏

通常评价方法有3种：外部有效性评价，内部有效性评价和相关性测试评价。

外部有效性评价

外部有效性评价可以反应聚类结果的整体直观效果。常用的外部有效性指标有Jaccard系数、FM指数、Rand指数等。

内部有效性评价

内部有效性评价利用数据集内部特征来评价聚类结果。常用的内部有效性指标有DB指数、Dunn指数、轮廓系数等。

回归算法

线性回归

线性回归是一种用于建立自变量和因变量之间关系的回归分析模型。通常用于预测连续型变量。

逻辑回归

逻辑回归是一种用于建立自变量和因变量之间关系的回归分析模型。通常用于预测二分类问题。

逻辑回归里面有线性回归和逻辑回归之间的区别和联系？

逻辑回归是在线性回归的基础上加了一个sigmoid函数，将线性回归的输出映射到[0,1]之间，用于预测二分类问题。

逻辑回归的损失函数

损失是指模型预测值与真实值之间的差异。逻辑回归的损失函数通常使用交叉熵损失函数。常见的损失函数有对数损失函数、平方损失函数、绝对损失函数等。
逻辑回归的损失函数是对数损失函数。损失函数约小，模型性能越好。

与线性回归区别与联系

线性回归是用于预测连续型变量，逻辑回归是用于预测二分类问题。逻辑回归是在线性回归的基础上加了一个sigmoid函数，将线性回归的输出映射到[0,1]之间。

支持向量机

支持向量机是一种用于分类和回归的监督学习算法。目标是在有限的数据星系下，渐进求解得到最优的结果。核心思想是假设一个函数集合，其每个函数都能渠道最小的误差。从中选择一个最优的函数。

线性判别分析LDA

什么是LDA

线性判别分析是一种用于降维和分类的监督学习算法。其目标是找到一个投影方向，使得同一类别的样本尽可能接近，不同类别的样本尽可能远离。在对新样本进行分类时，将其投影到这个方向上，根据投影值的大小来判断其类别。

思想

LDA的核心思想是找到一个投影方向，使得同一类别的样本尽可能接近，不同类别的样本尽可能远离。在对新样本进行分类时，将其投影到这个方向上，根据投影值的大小来判断其类别。

什么是核函数(课件p21)

核函数，统计学术语，支持向量机通过某非线性变换 φ( x) ，将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数 K(x, x′) ，它恰好等于在高维空间中这个内积，即K(x,x′) =φ(x)⋅φ(x′) ; 。那么支持向量机就不用计算复杂的非线性变换，而由这个函数 K(x, x′) 直接得到非线性变换的内积，使大大简化了计算。这样的函数 K(x, x′) 称为核函数。

核函数包括线性核函数、多项式核函数、高斯核函数等，其中高斯核函数最常用，可以将数据映射到无穷维，也叫做径向基函数（Radial Basis Function 简称 RBF），是某种沿径向对称的标量函数。通常定义为空间中任一点x到某一中心xc之间欧氏距离的单调函数，可记作 k（||x-xc||），其作用往往是局部的，即当x远离xc时函数取值很小。

#机器学习

机器学习期末考试重点

https://www.liahnu.top/2024/06/12/机器学习期末考试重点/

作者

liahnu

发布于

2024年6月12日

许可协议

数字图像处理期末复习上一篇

拯救安卓11中的System分区下一篇