0基础学习AI大模型必备数学知识之概率统计(二)分布的描述方法
AI是理科+工科的交叉学科,牢固的数学知识有助于理解算法的本质。
概率统计是AI领域的基础数学知识之一,掌握概率统计知识对于理解深度学习算法和模型至关重要。本系列将介绍AI大模型必备的概率统计知识,帮助大家更好地理解AI大模型的原理和应用。
我们会着重介绍各种基础概念,关键数学名词会加注英文以求更好的理解。我们也会分享一些大学里老师不会教的小知识,目的是帮助大家建立起对概率统计的直觉式认识。
期望(Expected Value)和方差(Variance)是概率论和统计学中的两个基本概念,它们分别描述了随机变量的 中心趋势 和 离散程度 。
期望是随机变量的平均值或长期平均值。对于离散型随机变量 $X$,其期望 $E(X)$ 定义为: $E(X) = \sum_{i} x_i \cdot P(x_i)$ 其中 $x_i$ 是随机变量 $X$ 的所有可能取值,$P(x_i)$ 是 $X$ 取值 $x_i$ 的概率。
对于连续型随机变量 $X$,其期望 $E(X)$ 定义为: $E(X) = \int_{-\infty}^{\infty} x \cdot f(x) \, dx$ 其中 $f(x)$ 是 $X$ 的概率密度函数。
方差是衡量随机变量离散程度的指标,它描述了随机变量的值与其期望值的偏离程度。对于离散型随机变量 $X$,其方差 $Var(X)$ 定义为: $Var(X) = E[(X - E(X))^2] = \sum_{i} (x_i - E(X))^2 \cdot P(x_i)$
对于连续型随机变量 $X$,其方差 $Var(X)$ 定义为: $Var(X) = E[(X - E(X))^2] = \int_{-\infty}^{\infty} (x - E(X))^2 \cdot f(x) \, dx$
方差的平方根称为标准差(Standard Deviation),它与原随机变量具有相同的单位,因此在实际应用中更直观。
期望的线性性质:对于任意常数 $a$ 和 $b$,以及随机变量 $X$ 和 $Y$,有: $E(aX + bY) = aE(X) + bE(Y)$
方差的性质:对于任意常数 $a$ 和 $b$,以及随机变量 $X$,有: $Var(aX + b) = a^2 Var(X)$ 注意,常数 $b$ 不会影响方差,因为方差只关心离散程度,与位置无关。
期望和方差是描述随机变量分布的中心趋势和离散程度的两个基本统计量。期望(Expected Value)给出了随机变量的平均值,而方差(Variance)描述了随机变量值与其期望值的偏离程度。尽管这两个统计量提供了随机变量分布的重要信息,但它们并不足以全面描述一个分布的所有特征,这就是为什么我们还需要偏度(Skewness)和峰度(Kurtosis)这两个统计量的原因。
偏度是描述分布不对称性的统计量。它衡量了分布的偏斜程度,即数据分布的尾部哪一侧更长或更短。如果一个分布是对称的,那么它的偏度为0。如果分布的右侧(正侧)比左侧长,那么偏度为正,称为右偏或正偏;如果左侧比右侧长,那么偏度为负,称为左偏或负偏。偏度的计算公式为: $Skewness = \frac{E[(X - \mu)^3]}{\sigma^3}$ 其中,$\mu$ 是均值,$\sigma$ 是标准差。
峰度是描述分布“尖峭”或“平坦”程度的统计量。它衡量了分布顶部的尖锐程度和尾部的厚度。峰度与正态分布相比较,正态分布的峰度为0。如果一个分布的峰度大于0,那么它比正态分布更尖锐,称为尖顶峰;如果峰度小于0,那么它比正态分布更平坦,称为平顶峰。峰度的计算公式为: $Kurtosis = \frac{E[(X - \mu)^4]}{\sigma^4} - 3$ 其中,$\mu$ 是均值,$\sigma$ 是标准差。
综上所述,偏度和峰度是描述随机变量分布特征的重要补充,它们与期望和方差一起,为我们提供了一个更完整的分布特征描述。
分位数(Quantile)是统计学中用来描述数据分布的特定值,它将数据集分为具有相同概率的连续区间。分位数可以用来衡量数据的相对位置,以及数据分布的形状和离散程度。
对于一个随机变量 $X$ 和一个给定的概率 $p$(其中 $0 < p < 1$),分位数 $Q(p)$ 是满足以下条件的值:
$P(X \leq Q(p)) = p$
这意味着分位数 $Q(p)$ 是随机变量 $X$ 的值,使得 $X$ 小于或等于 $Q(p)$ 的概率为 $p$。
对于一个给定的数据集,计算分位数的步骤如下:
分位数在统计学中有很多应用,例如:
分位数是理解数据分布的重要工具,它们提供了关于数据相对位置和分布特征的有用信息。
箱图(Boxplot),也称为箱线图或盒须图,是一种用于展示数据分布特征的统计图表。它能够提供数据的最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)和最大值的直观展示,以及异常值(如果有的话)。以下是绘制箱图的基本步骤:
收集数据:首先,你需要一组数据来进行分析。
排序:将数据从小到大排序。
import seaborn as sns
import matplotlib.pyplot as plt
# 假设data是一个Pandas Series或DataFrame的列
sns.boxplot(data)
plt.show()
核密度估计(Kernel Density Estimation,简称KDE)是一种用于估计概率密度函数(Probability Density Function,简称PDF)的非参数方法。它通过在每个数据点周围放置一个“核”(通常是一个平滑的、对称的函数,如高斯函数),然后将这些核函数加起来,得到一个平滑的、连续的概率密度函数。
假设我们有一个样本集 ${x_1, x_2, \ldots, x_n}$,我们想要估计这个样本集的概率密度函数 $f(x)$。核密度估计的方法是:
$\hat{f}(x) = \frac{1}{n} \sum_{i=1}^{n} K\left(\frac{x - x_i}{h}\right)$
其中:
高斯核(Gaussian Kernel): $K(u) = \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}}$ 高斯核是最常用的核函数,它具有良好的平滑性和对称性。
均匀核(Uniform Kernel):
$K(u) = \begin{cases}
\frac{1}{2} & \text{if } |u| \leq 1
0 & \text{otherwise}
\end{cases}$
均匀核在 $|u| \leq 1$ 时为常数,否则为0。
三角核(Triangular Kernel):
$K(u) = \begin{cases}
1 - |u| & \text{if } |u| \leq 1
0 & \text{otherwise}
\end{cases}$
三角核在 $|u| \leq 1$ 时为线性函数,否则为0。
带宽 $h$ 的选择对核密度估计的结果有重要影响。带宽太小,估计的密度函数会过于崎岖,出现过拟合;带宽太大,估计的密度函数会过于平滑,出现欠拟合。常用的带宽选择方法有:
小提琴图(Violin Plot)是一种数据可视化图表,它结合了箱线图和核密度图的特点,用于展示数据的分布情况.
QQ图(Quantile-Quantile Plot)是一种用于检验数据是否符合某种分布的图表。它通过比较数据的分位数与理论分位数之间的关系,来判断数据是否符合某种分布。
QQ图通过比较样本数据的分位数与一个理论分布(通常是正态分布)的分位数来检验数据的分布情况。具体来说,它将样本数据的分位数(称为经验分位数)与理论分布的相应分位数(称为理论分位数)进行配对,并在散点图上表示这些配对点。
如果样本数据服从特定的理论分布,那么QQ图上的点应该近似地落在一条直线上,这条直线的斜率等于样本的标准差,截距等于样本的均值。