机器学习的概统基础-01
基础知识补充: 期望 期望值,是指无限次重复一个随机实验,所能得到的长期平均结果。它是所有可能结果的概率加权和。 计算方法:每个可能的结果乘以其发生的概率,然后将所有乘积相加。 E(X)=∑[xi⋅P(X=xi)] (对于连续型变量,使用积分) 联系By大数定律 平均值和期望值通过大数定律 被深刻地联系在一起。 大数定律指出:当试验次数(样本容量 n)足够大时,样本的平均值 xˉ 会无限接近总体的期望值 E(X)。 这就像在掷骰子的例子中,你掷的次数越多,你的平均点数就越接近理论期望值3.5。 通过例子区分平均值和期望:平均值是对已经发生的数据的概括,而期望值是对未来可能性的预测 方差 方差 是衡量随机变量与其平均值(期望值)的偏离程度的量。它描述了数据的离散程度。 计算公式:对于一个随机变量 X,其方差 Var(X) 定义为: Var(X)=E[(X−E[X])2] 直观理解: 方差大:数据点散布得很开,远离均值。不确定性高。 方差小:数据点紧密地聚集在均值周围。不确定性低。 中心极限定理 中心极限定理描述的是样本平均值分布 正态分布 正态分布描述的是数据在其平均值附近波动 正态分布的期望为 μ 区别方差和标准差 后者反应了数据在平均值上下的波动范围,前者由于是后者的平方,更多的是反映数据的分散程度,方差越大,数据越分散。 条件期望 普通期望(无条件期望):E[y] 这是随机变量 y 的全局平均值。它回答的问题是:“在所有可能的情况下,y 平均来看是多少?” 例子:E[身高] = 全体中国成年男性的平均身高(比如175cm)。它不考虑任何其他信息。 条件期望:E[y | x] 这是在给定某些已知信息 x 的情况下,y 的条件平均值。它回答的问题是:“当我们知道了某个信息 x 后,y 平均来看是多少?” 例子:E[身高 | 年龄=10岁] = 已知一个男性年龄是10岁时,他的平均身高(比如140cm)。 核心思想:条件期望让我们能够根据已知信息,做出更精确、更“有条件”的预测。 条件期望随着条件的变化而变化: E[房价 | 面积=50平米] = 可能是 300万(小房子更便宜)。 ...