基础知识补充:

期望

期望值,是指无限次重复一个随机实验,所能得到的长期平均结果。它是所有可能结果的概率加权和。

  • 计算方法:每个可能的结果乘以其发生的概率,然后将所有乘积相加。
    E(X)=∑[xi​⋅P(X=xi​)]
    (对于连续型变量,使用积分)

联系By大数定律

平均值和期望值通过大数定律 被深刻地联系在一起。

大数定律指出:当试验次数(样本容量 n)足够大时,样本的平均值 xˉ 会无限接近总体的期望值 E(X)

这就像在掷骰子的例子中,你掷的次数越多,你的平均点数就越接近理论期望值3.5。

通过例子区分平均值和期望:平均值是对已经发生的数据的概括,而期望值是对未来可能性的预测

方差

方差 是衡量随机变量与其平均值(期望值)的偏离程度的量。它描述了数据的离散程度

  • 计算公式:对于一个随机变量 X,其方差 Var(X) 定义为:
    Var(X)=E[(X−E[X])2]

  • 直观理解

    • 方差大:数据点散布得很开,远离均值。不确定性高。

    • 方差小:数据点紧密地聚集在均值周围。不确定性低。

中心极限定理

中心极限定理描述的是样本平均值分布

正态分布

正态分布描述的是数据在其平均值附近波动

正态分布的期望为 μ

区别方差和标准差

后者反应了数据在平均值上下的波动范围,前者由于是后者的平方,更多的是反映数据的分散程度,方差越大,数据越分散。

条件期望

  • 普通期望(无条件期望)E[y]

    • 这是随机变量 y 的全局平均值。它回答的问题是:“在所有可能的情况下,y 平均来看是多少?”

    • 例子E[身高] = 全体中国成年男性的平均身高(比如175cm)。它不考虑任何其他信息。

  • 条件期望E[y | x]

    • 这是在给定某些已知信息 x 的情况下,y 的条件平均值。它回答的问题是:“当我们知道了某个信息 x 后,y 平均来看是多少?”

    • 例子E[身高 | 年龄=10岁] = 已知一个男性年龄是10岁时,他的平均身高(比如140cm)。

核心思想:条件期望让我们能够根据已知信息,做出更精确、更“有条件”的预测。

条件期望随着条件的变化而变化:

  • E[房价 | 面积=50平米] = 可能是 300万(小房子更便宜)。

  • E[房价 | 面积=200平米] = 可能是 800万(大房子更贵)。

在这里,面积 就是变量 x条件期望 E[y | x] 是 x 的一个函数。在机器学习中,我们的模型 f(x)(比如线性回归 wᵀx)的目标,就是去近似估计这个真实的、但通常未知的条件期望函数。

条件期望与线性回归

通常我们进行模型训练是为的到参数w来进行预测;从条件期望的视角来看,条件期望” E[y|x],在给定 x 时 y 的真实平均值,我们无法真正的得到这个平均值,但是我们模型预测是对于这个平均值的估计,其结果是近似的;而我们的训练出来的模型就是对于这样一个条件期望函数的近似。

在线性回归(乃至许多监督学习模型)中,我们并不是在预测单个的、带有噪声的数据点 y,而是在预测这些数据点的中心趋势——即条件期望 E[y|x] 我们的模型 f(x) 就是这个中心趋势的预测器。

线性回归的概率解释

y | x ~ N(μ, σ²),其中 μ = wᵀx

对于任何一个给定的输入 x,我预测其输出 y 服从一个正态分布。这个正态分布的均值 μ,我通过一个线性模型 wᵀx 来计算得到。也就是说,y 以 wᵀx 为中心进行随机波动。

注意一下,下面的这个链接函数,线性回归中的链接函数就等于线性预测器,要清楚这不同于逻辑回归中的链接函数

可以对比下逻辑回归的图

其中sigmod函数是通过反解logit函数得到的,最终预测结果Y服从伯努利分布

广义线性模型

  • 线性回归:假设响应变量 y 服从 高斯分布(正态分布),其均值 μ 通过一个恒等链接函数与线性预测器相连:μ = η = wᵀx

  • 逻辑回归:假设响应变量 y 服从 伯努利分布,其均值 μ(即概率 p)通过一个对数几率链接函数与线性预测器相连:log(p / (1-p)) = η = wᵀx

  • GLM引入了一个关键概念——链接函数 g(·),它连接了线性预测器 η 和响应变量的均值 μ
    g(μ) = η

    • 对于线性回归,链接函数是恒等函数μ = η

    • 对于逻辑回归,链接函数是Logit函数log(μ / (1-μ)) = η

泊松分布

泊松分布是一种离散概率分布,它用于描述在固定时间或空间间隔内,某个随机事件发生特定次数的概率

softmax 回归

用于处理多分类问题