我们使用密度函数来描述随机变量 的概率分布。PMF:概率质量函数返回离散随机变量 等于 的值的概率。所有值的总和等于 1。PMF 只能用于离散变量。PMF。来源:https://en.wikipedia.org/wiki/Probability_mass_functionPDF:概率密度函数它类似于连续变量的 PMF 版本。返回连续随机变量 X 在某个范围内的概率。PDF。来源:https://byjus.com/maths/probability-density-function/CDF:累积分布函数返回随机变量 X 取小于或等于 x 的值的概率。CDF(指数分布的累积分布函数)。来源:https://en.wikipedia.org/wiki/Cumulative_distribution_function
import matplotlib.pyplot as plt from scipy.stats import binom n = 20 # 实验次数 p = 0.5 # 成功的概率 r = list(range(n + 1)) # the number of success # pmf值 pmf_list = [binom.pmf(r_i, n, p) for r_i in r ] # 绘图 plt.bar(r, pmf_list)plt.show()
学生 t 检验分布正态但有尾(更厚、更长)。t 分布和 z 分布。来源:https://www.geeksforgeeks.org/students-t-distribution-in-statistics/t 分布是具有较厚尾部的正态分布。如果可用数据较少(约 30 个),则使用 t 分布代替正态分布。在 t 分布中,自由度变量也被考虑在内。根据自由度和置信水平在 t 分布表中找到关键的 t 值。这些值用于假设检验。t 分布表情移步:https://www.sjsu.edu/faculty/gerstman/StatPrimer/t-table.pdf。
对数正态分布
随机变量 X 的对数服从正态分布的分布。
import numpy as np import matplotlib.pyplot as plt from scipy import stats X = np.linspace(0, 6, 1500) std = 1 mean = 0 lognorm_distribution = stats.lognorm([std], loc=mean) lognorm_distribution_pdf = lognorm_distribution.pdf(X) fig, ax = plt.subplots(figsize=(8, 5)) plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=1") ax.set_xticks(np.arange(min(X), max(X))) plt.title("Lognormal Distribution") plt.legend()plt.show()
指数分布
我们在 Poisson 分布中研究了在一定时间间隔内发生的事件。在指数分布中,我们关注的是两个事件之间经过的时间。如果我们把上面的例子倒过来,那么两个电话之间需要多长时间?因此,如果 X 是一个随机变量,遵循指数分布,则累积分布函数为: 是均值, 是常数。
from scipy.stats import expon import matplotlib.pyplot as plt x = expon.rvs(scale=2, size=10000) # 2 calls # 绘图 plt.hist(x, density=True, edgecolor='black')