社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
建筑人坦白局 | AIGC如何引爆传统设计?
UTM坐标转WGS84坐标,以及怎么查看python源代码!
为什么Python是网络安全人最爱的编程语言?
危!比 Python 快 90,000 倍的 Mojo 官宣开源
为Python应用选择最好的Docker镜像
浙大 GIS 实验室融合机器学习及卫星测绘,发布全球海表溶解氧综合建模框架
用ChatGPT“翻译”?坑你没商量!
Github上开源的一款专注于教科书和研究论文的PDF阅读器:Sioyek
深度学习图论(Graph Theory)
ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 公司的努力将毫无意义
关注
Py学习
»
机器学习算法
概率统计与机器学习:常见分布性质总结
tonlin
• 5 年前 • 619 次点击
常见分布
正态分布
来源:中心极限定理
定义:大量独立的随机变量之和趋向于正态分布(高斯分布)
前提:样本之间相互独立
公式:
图示:
可以看出期望
代表了正态分布的偏移量(位置);方差
代表了幅度
当
=1,
=0就是标准正态分布
扩充:为什么测量误差服从正态分布
误差公式:
(这里的
指的是真实值)
证明:由于每次测量误差都和其余测量误差的大小无关,因此是独立条件,所以
就是独立同分布的,乘以
并不影响,减去
只改变了偏移量也不影响它的性质,因此测量误差服从独立同分布
警告:在误差服从正态分布的情况下,测量量仍旧可以为其他分布
拉普拉斯分布
公式:
描述:它是一种长尾分布,又名“双指数分布”,其中
是偏移量,b是尺度参数,若当
=0 ,正半部分刚好是尺度为
的指数分布的一半 。
图示:
不同于高斯分布的是,拉普拉斯分布是一种生长型分布函数,常用来处理样本空间奇葩的分布效果。常见的就是图像的边缘服从拉普拉斯分布
伯努利分布
定义:是二项分布的特殊情况,又名“01分布”,描述了二值随机变量的性质,它是离散型随机变量分布,是试验一次的二项分布
应用:在机器学习领域中,是经典二分类算法-logisitic回归的概率基础
分布律:
性质:
均值:
方差:
二项分布
定义:也是离散型随机变量分布,是N次伯努利实验得到的结果,其中结果只有两种,结果之间相互独立。(其实二项分布并不是一正一反的感觉,容易让人误解)
分布律:
这里的描述就是,N次试验中取k次是成功的,所以得到的概率。为了严谨,所以还要乘上相反的概率。
性质:
期望:
(即渴望得到p结果的均值)
方差:
应用:进行两次掷骰子(N=2),点数之和为2~12的概率
拓展:以掷骰子的点数和思考,当N趋近于无穷大的时候,二项分布所得到的骰子和非常的多,所以会被刻画出高斯分布的样子
多元正态分布
前要知识点讲解:
随机向量的期望:
定义:本质上还是对N个数取平均的期望求法,但是这里是以向量表示出来
公式:
设
是n维随机变量,那么它的期望(均值)为
;
设
是
阶随机矩阵,那么该随机矩阵的期望为
协方差:
定义:描述两个随机变量综合偏离程度,其中方差是协方差的特殊情况,即两个随机变量值相同
公式:
,可见X,Y各自的偏移相乘后再求期望即协方差
应用:思考联合分布率(X,Y),对于随机变量X,Y大概可以分为三种情况:
当X,Y的偏移量同时满足增大或者减小,即
,呈正相关,这时它们的联合分布呈现一个X增大,Y增大趋势的椭圆
(其中(EX,EY)就是椭圆的中心)
当X,Y的偏移量满足X增大Y减小或X减小Y增大,即
,呈正相关,这时它们的联合分布呈现一个X增大,Y减小趋势的椭圆
当X,Y的偏移量为0的时候,即
,即不相关,这时候他们的联合分布为一个圆
协方差矩阵
定义:协方差矩阵的每个元素是各个向量元素之间的协方差,而协方差只能处理二维问题,所以计算多维问题时候,即使用协方差矩阵。而协方差矩阵对角线上衡量的是各个纬度的协方差,当X=Y的时候,就是各个维度的方差,即某一维上的偏移程度。
公式:
当
的时候,
正定矩阵
定义:设M是n阶方阵,如果对于任何非零矩阵
,都有
,则M为正定矩阵
判定:常用的判定性质是利用特征值,令
, 如果
,则M为正定矩阵
多元正态分布:
分布律:
二元正态分布:
举例:假设X,Y二人同时对小球半径进行测量,各自测100组,求误差的联合概率分布
求解:二元正态分布的本质是两个随机变量都符合正态分布又测量误差是服从正态分布的,那么他们的联合分布就是二维正态分布因此求解
,忽略掉归一化系数得到公式:
(很显然这就是高中圆锥曲线知识那里的)
这里我们为了加深理解,所以进行和分布律之间的化简:我们将
,
看作
,因此原公式变为
,因为我们多元正态分布的分布律就是一个正定二次型,二次型矩阵定义:
,所以X就是
,而系数和分布律里的
化简了。
扩展:根据分布律我们知道,
代表了该分布图像的中心偏置
决定了分布的形状。
当
为单位矩阵的时候,即
,椭圆的长短半径都是1,那么就是一个圆,复合成三维即球体。
当
为对角矩阵的时候,是椭球或椭圆了
当
为非对角矩阵的时候,就是一个带偏置,旋转后的椭球体或者球体
为什么要求
要求正定对称矩阵:
为何要正定:假设
, 我们带入到分布律中,根据矩阵乘法得到
,那么这样的曲线是不可描述的,有可能正相关有可能负相关,最终的曲线就不是正态分布了。
为何要对称:做个旋转矩阵,假设
为对角阵,
为旋转矩阵,
=
,得到
还是个对角矩阵!
今天看啥 - 高品质阅读平台
本文地址:
http://www.jintiankansha.me/t/4fbyJUe1UG
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/19502
619 次点击
登录后回复