0基础学习AI大模型必备数学知识之概率统计(一)贝叶斯定理和概率分布
AI是理科+工科的交叉学科,牢固的数学知识有助于理解算法的本质。
概率统计是AI领域的基础数学知识之一,掌握概率统计知识对于理解深度学习算法和模型至关重要。本系列将介绍AI大模型必备的概率统计知识,帮助大家更好地理解AI大模型的原理和应用。
我们会着重介绍各种基础概念,关键数学名词会加注英文以求更好的理解。我们也会分享一些大学里老师不会教的小知识,目的是帮助大家建立起对概率统计的直觉式认识。
每天都想死,但体检不能出问题!
当你看到体检报告上显示得了某种疾病,你会怎么想?
假设某种疾病的发病率是万分之一,而体检机构的检测准确率是99%,问:当你的体检报告显示得了这种疾病时,你真的得了这种疾病的概率是多少?
思考下,你的直觉是多少?是高还是低?
我们可以这样考虑的:
所以,当你的体检报告显示得了这种疾病时,你真的得了这种疾病的概率是:
和你想的一样吗?
先验概率 Prior Probability:在考虑任何新证据之前,我们对事件的概率的初始判断:
在这个场景下是一个人得病的概率;P(sick) = 0.0001
后验概率 Posterior Probability:在考虑了新证据之后,我们对事件的概率的修正判断:
在这个场景下是体检报告显示有病,那么这个人真的得病的概率。P(sick | diagnosed sick) = 0.0098 |
将假设某种疾病的发病率是万分之一,而体检机构的检测准确率是99%这个问题用数学公式表示:
\[P(sick) = 0.0001\] \[P(not\ sick) = 0.9999\] \[P(diagnosed\ sick|sick) = 0.99\] \[P(diagnosed\ sick|not sick) = 0.01\]我们的目标是求解:
\[P(sick|diagnosed\ sick)\]下面给出贝叶斯定理 Bayes’ Theorem:
\[P(sick|diagnosed\ sick) = \frac{P(diagnosed\ sick|sick)P(sick)}{P(diagnosed\ sick)}\]问题是我们不知道$P(diagnosed\ sick)$,但是我们可以用全概率公式 Total Probability Theorem 来求解:
\[P(diagnosed\ sick) = P(diagnosed\ sick|sick)P(sick) + P(diagnosed\ sick|not\ sick)P(not\ sick)\]所以:
\[P(sick|diagnosed\ sick) = \frac{P(diagnosed\ sick|sick)P(sick)}{P(diagnosed\ sick|sick)P(sick) + P(diagnosed\ sick|not\ sick)P(not\ sick)}\]代入数值:
\[P(sick|diagnosed\ sick) = \frac{0.99*0.0001}{0.99*0.0001 + 0.01*0.9999} = 0.0098\]所以,当你的体检报告显示得了这种疾病时,你真的得了这种疾病的概率是0.0098,不到1%。
贝叶斯定理的一个重要应用是朴素贝叶斯分类器 Naive Bayes Classifier。
朴素贝叶斯分类器是一种基于贝叶斯定理的简单概率分类器,它假设特征之间是相互独立的。
之所以叫朴素贝叶斯,是因为它假设特征之间是相互独立的(太天真了),这个假设在实际应用中往往不成立, 但是朴素贝叶斯分类器在实际应用中表现良好。
二项分布是统计学中的一种离散概率分布,它描述了在固定次数的独立实验中,每次实验只有两种可能结果(成功或失败),且每次实验成功的概率相同的情况下,成功次数的概率分布。
二项分布的公式为:
$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$
其中:
二项分布的期望值 $E(X)$ 和方差 $Var(X)$ 分别为:
$E(X) = np$ $Var(X) = np(1-p)$
二项分布的图形是一个离散的、非对称的分布,当 $p = 0.5$ 时,分布是对称的。当 $n$ 较大时,二项分布可以近似为正态分布。
伯努利分布是二项分布的特例,当 $n = 1$ 时,二项分布就是伯努利分布。
伯努利分布的公式为:
$P(X = k) = p^k (1-p)^{1-k}$
其中:
伯努利分布的期望值 $E(X)$ 和方差 $Var(X)$ 分别为:
$E(X) = p$
$Var(X) = p(1-p)$
概率密度函数(Probability Density Function,简称PDF)是连续型随机变量的概率分布的描述。对于连续型随机变量,我们不能像离散型随机变量那样直接给出每个值的概率,因为连续型随机变量可以取无限多个值,每个值的概率通常是0。因此,我们使用概率密度函数来描述连续型随机变量在某个区间内取值的概率。
概率密度函数 $f(x)$ 具有以下性质:
累积分布函数(Cumulative Distribution Function,简称CDF)是描述随机变量概率分布的函数,它给出了随机变量取值小于或等于某个值的概率。对于任意的实数 $x$,累积分布函数 $F(x)$ 定义为:
$F(x) = P(X \leq x)$
其中 $X$ 是随机变量。
累积分布函数具有以下性质:
对于离散型随机变量,累积分布函数是阶梯函数,它在随机变量的每个可能取值处跳跃,跳跃的高度等于该值的概率。
对于连续型随机变量,累积分布函数是连续的,它可以通过概率密度函数 $f(x)$ 积分得到:
$F(x) = \int_{-\infty}^{x} f(t) \, dt$
累积分布函数在统计学中非常重要,它用于计算随机变量落在某个区间内的概率,以及进行概率分布的比较和分析。通过累积分布函数,我们可以得到随机变量的中位数、分位数、期望值和方差等统计量。
均匀分布(Uniform Distribution)是一种简单的连续概率分布,它的概率密度函数 $f(x)$ 在一个区间内是常数,区间外是0。均匀分布的概率密度函数为:
\[f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & x < a \text{ 或 } x > b \end{cases}\]正态分布(Normal Distribution)是统计学中最重要的连续概率分布之一,它具有许多重要的性质,被广泛应用于自然科学、社会科学和工程技术等领域。
正态分布的概率密度函数 $f(x)$ 为:
\[f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]其中 $\mu$ 是均值,$\sigma$ 是标准差。
正态分布的期望值 $E(X)$ 和方差 $Var(X)$ 分别为:
\[E(X) = \mu\] \[Var(X) = \sigma^2\]正态分布有一个重要的性质,就是68-95-99.7法则,即在正态分布中,68%的数据落在均值的一个标准差范围内,95%的数据落在两个标准差范围内,99.7%的数据落在三个标准差范围内。
你是否考虑过:为什么正态分布是自然界中最常见的分布? 关注我后面继续分享:中心极限定理 Central Limit Theorem.
[2] 伯努利家族
[3] 伯努利定律
仓库上有原始的Markdown文件,完全开源,欢迎大家Star和Fork!