Py学习  »  机器学习算法

概率统计与机器学习:常见分布性质总结

tonlin • 5 年前 • 619 次点击  

常见分布


正态分布

  • 来源:中心极限定理
    • 定义:大量独立的随机变量之和趋向于正态分布(高斯分布)
    • 前提:样本之间相互独立
  • 公式:p(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp (- \frac{(x-\mu )^{2}}{2\sigma ^{2}})
  • 图示:
    • 可以看出期望 \mu 代表了正态分布的偏移量(位置);方差\sigma^{2}代表了幅度
    • \mu=1,\sigma=0就是标准正态分布
  • 扩充:为什么测量误差服从正态分布
    • 误差公式: \bar{x}-x = (\frac{1}{N}\sum_{i=1}^{N}x_{i} ) - x^{*} (这里的 x^{*}指的是真实值)
    • 证明:由于每次测量误差都和其余测量误差的大小无关,因此是独立条件,所以 \sum_{i=1}^{N}x_{i}就是独立同分布的,乘以\frac{1}{N}并不影响,减去 x^{*}只改变了偏移量也不影响它的性质,因此测量误差服从独立同分布
    • 警告:在误差服从正态分布的情况下,测量量仍旧可以为其他分布

拉普拉斯分布

  • 公式:p(x) = \frac{1}{2b}\exp (-\frac{\left | x-\mu \right |}{b})
  • 描述:它是一种长尾分布,又名“双指数分布”,其中 \mu 是偏移量,b是尺度参数,若当 \mu=0 ,正半部分刚好是尺度为 \frac{1}{b} 的指数分布的一半 。
  • 图示:这里写图片描述
  • 不同于高斯分布的是,拉普拉斯分布是一种生长型分布函数,常用来处理样本空间奇葩的分布效果。常见的就是图像的边缘服从拉普拉斯分布

伯努利分布

  • 定义:是二项分布的特殊情况,又名“01分布”,描述了二值随机变量的性质,它是离散型随机变量分布,是试验一次的二项分布
  • 应用:在机器学习领域中,是经典二分类算法-logisitic回归的概率基础
  • 分布律:F(i) = \left\{\begin{array}{lr} 1-p & \text{n = 0} \\ p & \text{n = 1} \end{array}\right.
  • 性质:
    • 均值:E(x) = p
    • 方差:var(x) = p(1-p)

二项分布

  • 定义:也是离散型随机变量分布,是N次伯努利实验得到的结果,其中结果只有两种,结果之间相互独立。(其实二项分布并不是一正一反的感觉,容易让人误解)
  • 分布律:p(X=k) = C_{N}^{k}p^{k}(1-p)^{n-k} 这里的描述就是,N次试验中取k次是成功的,所以得到的概率。为了严谨,所以还要乘上相反的概率。
  • 性质:
    • 期望:\mu = np (即渴望得到p结果的均值)
    • 方差:\sigma^{2} = np(1-p)
  • 应用:进行两次掷骰子(N=2),点数之和为2~12的概率
  • 拓展:以掷骰子的点数和思考,当N趋近于无穷大的时候,二项分布所得到的骰子和非常的多,所以会被刻画出高斯分布的样子

多元正态分布

  • 前要知识点讲解:

    • 随机向量的期望:
      • 定义:本质上还是对N个数取平均的期望求法,但是这里是以向量表示出来
      • 公式:
        • X =\left [ \begin{array}{lr} x1 \\ x2 \\...\\x_{n} \end{array} \right ]是n维随机变量,那么它的期望(均值)为 E(x) =\left [ \begin{array}{lr} E(x1) \\ E(x2) \\...\\E(x_{n}) \end{array} \right ]
        • X =\left [ \begin{matrix} x_{11} & x_{12} & ... & x_{1q} \\ x_{21} & x_{22} & ... & x_{2q} \\... & ... & ... &...\\x_{p1} & x_{p2} & ... & x_{pq}\end{matrix} \right ]p*q阶随机矩阵,那么该随机矩阵的期望为 E(X) =\left [ \begin{matrix}  E(x_{11})& E(x_{12} )& ... & E(x_{1q}) \\ E(x_{21)} & E(x_{22}) & ... & E(x_{2q}) \\... & ... & ... &...\\E(x_{p1}) & E(x_{p2}) & ... & E(x_{pq})\end{matrix} \right ]
    • 协方差:
      • 定义:描述两个随机变量综合偏离程度,其中方差是协方差的特殊情况,即两个随机变量值相同
      • 公式:cov(X,Y) = E[(X-E[X])(Y-E[Y])],可见X,Y各自的偏移相乘后再求期望即协方差
      • 应用:思考联合分布率(X,Y),对于随机变量X,Y大概可以分为三种情况:
        • 当X,Y的偏移量同时满足增大或者减小,即cov(X,Y) > 0,呈正相关,这时它们的联合分布呈现一个X增大,Y增大趋势的椭圆
          (其中(EX,EY)就是椭圆的中心)
        • 当X,Y的偏移量满足X增大Y减小或X减小Y增大,即cov(X,Y) < 0,呈正相关,这时它们的联合分布呈现一个X增大,Y减小趋势的椭圆
        • 当X,Y的偏移量为0的时候,即cov(X,Y) = 0,即不相关,这时候他们的联合分布为一个圆
    • 协方差矩阵
      • 定义:协方差矩阵的每个元素是各个向量元素之间的协方差,而协方差只能处理二维问题,所以计算多维问题时候,即使用协方差矩阵。而协方差矩阵对角线上衡量的是各个纬度的协方差,当X=Y的时候,就是各个维度的方差,即某一维上的偏移程度。
      • 公式: Cov(X,Y) =\left [ \begin{matrix}  Cov(x_{1}, y_{1})& ... & Cov(x_{1},y_{q})) \\ \vdots   & \ddots &\vdots  \\Cov(x_{p},y_{1})  & ... & Cov(x_{p},y_{q})\end{matrix} \right ]
        X=Y的时候,Cov(X,X) =\left [ \begin{matrix}  D(x_{1})& ... & Cov(x_{1},x_{q})) \\ \vdots   & \ddots &\vdots  \\Cov(x_{p},x_{1})  & ... & D(x_{p})\end{matrix} \right ]
    • 正定矩阵
      • 定义:设M是n阶方阵,如果对于任何非零矩阵Z,都有 Z^{T}MZ>0,则M为正定矩阵
      • 判定:常用的判定性质是利用特征值,令M-\lambda E = 0 , 如果\lambda > 0,则M为正定矩阵
  • 多元正态分布:

    • 分布律:N(x|\mu , \Sigma) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{(\left |\Sigma  \right |)^{1/2}}\exp \left \{ -\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu) \right \}
    • 二元正态分布:
      • 举例:假设X,Y二人同时对小球半径进行测量,各自测100组,求误差的联合概率分布
      • 求解:二元正态分布的本质是两个随机变量都符合正态分布又测量误差是服从正态分布的,那么他们的联合分布就是二维正态分布因此求解P(X,Y) = P(X)*P(Y),忽略掉归一化系数得到公式:
        \exp (-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}-\frac{(y-\mu_{2})^{2}}{2\sigma_{2}^{2}}) (很显然这就是高中圆锥曲线知识那里的)
      • 这里我们为了加深理解,所以进行和分布律之间的化简:我们将(x-\mu_{1})看为X_{1}(y-\mu_{2})看作 X_{2},因此原公式变为-(\frac{1}{2\sigma_{1}^{2}}X_{1}^{2}+\frac{1}{2\sigma_{2}^{2}}X_{2}^{2}),因为我们多元正态分布的分布律就是一个正定二次型,二次型矩阵定义:X^{T}AX,所以X就是 [X_{1},X_{2}],而系数和分布律里的\frac{1}{2}化简了。
    • 扩展:根据分布律我们知道,\mu代表了该分布图像的中心偏置\Sigma决定了分布的形状。
      • \Sigma为单位矩阵的时候,即\sigma_{1}=\sigma_{2}=1,椭圆的长短半径都是1,那么就是一个圆,复合成三维即球体。
      • \Sigma为对角矩阵的时候,是椭球或椭圆了
      • \Sigma为非对角矩阵的时候,就是一个带偏置,旋转后的椭球体或者球体
    • 为什么要求\Sigma要求正定对称矩阵:
      • 为何要正定:假设\Sigma =\left [ \begin{matrix} -1 &  \\  & 1 \end{matrix} \right ] , 我们带入到分布律中,根据矩阵乘法得到-X^{2}+Y^{2},那么这样的曲线是不可描述的,有可能正相关有可能负相关,最终的曲线就不是正态分布了。
      • 为何要对称:做个旋转矩阵,假设\Sigma为对角阵,T为旋转矩阵,(Tx)^{T}\Sigma^{-1}(Tx)=x^{T}(T^{T}\Sigma^{-1}T)x,得到\Sigma^{*}= T^{T}\Sigma^{-1}T还是个对角矩阵!

今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/4fbyJUe1UG
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/19502
 
619 次点击