机器学习的数学基础:概率论

概率论公理

样本空间和事件

  • 对于一个试验,所有可能的结果构成的集合,称为该试验的样本空间,并即为$S$。

  • 并:对于一个样本空间$S$的任意两个事件$E$和$F$,事件$E\bigcup F$称为$E$和$F$的并。

  • 交:$EF$ 或 $E\bigcap F$,即事件$E$和$F$同时发生

  • 若$EF=\emptyset$,称事件 $E$ 和 $F$ 互不相容

  • 补: $\overline E$,包含在样本空间但不包含在 $E$ 中的所有结果

  • 事件的交、并、补遵循的运算法则:

    • 交换律:$E \bigcup F=F \bigcup E$, $EF=FE$
    • 结合律:$(E \bigcup F) \bigcup G=E \bigcup (F \bigcup G)$, $(EF)G=E(FG)$
    • 分配率:$(E \bigcup F) G=EG \bigcup FG$, $EF \bigcup G=(E \bigcup G)(F \bigcup G)$
  • 摩根定律:

    $$
    \overline{\left(\bigcup_{i=1}^{n}E_{i} \right)} = \bigcap_{i=1}^{n}\overline{E_{i}} \
    \overline{\left(\bigcap_{i=1}^{n}E_{i} \right)} = \bigcup_{i=1}^{n}\overline{E_{i}}
    $$

概率论公理

定义事件E的概率$P(E)$为E发生的次数占试验总次数的比例的极限:

$$
P(E)=\lim_{n \to \infty} \frac{n(E)}{n}
$$

概率论的三个公理:

  • 公理1:

$$
0 \leq P(E) \leq 1
$$

  • 公理2:

$$
P(S)=1
$$

  • 公理3:对任一系列互不相容事件$E_{1}, E_{2}, \dots$,有:

$$
P\left(\bigcup_{i=1}^{\infty}E_{i} \right)= \sum_{i=1}^{\infty}P(E_{i})
$$

我们把满足以上3条公理的$P(E)$称为事件E的概率

几个简单的命题

  • 命题1:
    $$
    P(\overline E)=1-P(E)
    $$

  • 命题2:
    $$
    P(E \bigcup F)=P(E)+P(F)-P(EF)
    $$

  • 命题3:

$$
P\left(\bigcup_{i=1}^{n}E_{i} \right)= \sum_{r=1}^{n}(-1)^{r+1} \sum_{i_{1}< \dots < i_{r}}P(E_{i_{1}}\dots E_{i_{r}})
$$

条件概率和独立性

条件概率

  • 假定A发生的情况下B发生的条件概率,即为$P(B|A)$。有如下定义:
    $$
    P(B|A)=\frac{P(AB)}{P(A)}
    $$
    将上式同乘$P(A)$,可得:
    $$
    P(AB)=P(A)P(B|A)
    $$
    说明A和B同时发生的概率等于A发生的概率乘以在A发生的条件下B发生的概率。推广可得乘法规则:
    $$
    P(E_{1}E_{2}E_{3}\dots E_{n})=P(E_{1})P(E_{2}|E_{1})P(E_{3}|E_{1}E_{2}) \dots P(E_{n}|E_{1} \dots E_{n-1})
    $$

  • 独立事件:若$P(EF)=P(E)P(F)$,那么 $E$ 和 $F$ 独立。

贝叶斯公式

  • 全概率公式:假定$F_{1}, F_{2}, \dots , F_{n}$是互不相容事件,且$\bigcup_{i=1}^{n}F_{i}=S$,换言之,这些事件中必有一件发生。记$E=\bigcup_{i=1}^{n}EF_{i}$,又由于事实上$EF_{i}$是互不相容的,可以得到如下公式:
    $$
    P(E)=\sum_{i=1}^{n}P(EF_{i})=\sum_{i}^{n}P(E|F_{i})P(F_{i})
    $$
    上述公式说明 $P(E)$ 发生的概率等于 $P(E|F_{i})$ 的加权平均,每项的权为 $F_{i}$ 发生的概率。

  • 贝叶斯公式:现假设 $E$ 发生了,需要计算$F_{j}$的概率:
    $$
    P(F_{j}|E)=\frac{P(EF_{j})}{P(E)}=\frac{P(E|F_{j})P(F_{j})}{\sum_{i=1}^{n}P(E|F_{i})P(F_{i})}
    $$

随机变量

离散型随机变量

若一个随机变量有多个可能的取值,则称这个变量为离散型的。对于随机变量 $X$,有如下定义的函数:

$$
F(X)=P \left\{ X \leq x \right\}, – \infty < x < + \infty
$$

称为 $X$ 的累计分布函数分布函数。对于任一给定的实数 $x$,分布函数为改随机变量小于等于 $x$ 的概率。$F(X)$ 是 $x$ 的单调非降函数。

定义 $X$ 的概率分布列为:

$$
p(a)=P\{X=1\}
$$

分布列最多可在可数个a上去正值。由于X必定取值于$\{x_1, x_2, \dots\}$,所以有$\sum_{i=1}^{\infty}p(x_i)=1$。

离散型随机变量的分布函数$F$可通过分布列$p(a)$进行计算:

$$
F(a)=\sum_{x \leq a}p(x)
$$

若X是个离散型随机变量,去可能取值为$\{x_1, x_2, \dots | x_1 < x_2 < \dots\}$,则它的分布函数是个阶梯函数。例如如果X的分布列为$P(1)=1/4, P(2)=1/2, P(3)=1/8, P(4)=1/8$,那么其累计分布函数为:

$$
F(A) =
\begin{cases}
0, & a<1 \\
\frac{1}{4} & 1 \leq a < 2 \\
\frac{3}{4} & 2 \leq a < 3 \\
\frac{7}{8} & 3 \leq a < 4 \\
1, & 4 \leq a
\end{cases}
$$

期望

随机变量X的分布列为$p(x)$,那么X的期望为:

$$
E[X]=\sum_{x:p(x)>0}xp(x)
$$

X的期望就是X的所有可能取值的一个加权平均,每个值得权重就是X取该值的概率。

  • 命题1:如果X是一个离散型随机变量,其可能取值为$x_i, i \geq 1 $,相应的取值概率为$p(x_i)$,那么对于任一实值函数$g$,都有:
    $$
    E[g(X)]=\sum_{i} g(x_i)p(x_i)
    $$

  • 推论1:若a和b是常数,则:
    $$
    E[aX+b]=aE[X]+b
    $$

  • 推论2:对于随机变量$X_1, X_2, \dots, X_n$:
    $$
    E[\sum_{i=1}^{n}X_{i}] = \sum_{i=1}^{n}E[X_{i}]
    $$

方差

如果随机变量X的期望为$\mu$,那么X的方差为:

$$
Var(X)=E[(X- \mu)^2]
$$

方差等于X与它的期望的差的平方的期望,它度量了X可能取值的分散程度。下面是一个有用的恒等式:

$$
Var(X)=E[X^2]-(E[X])^2
$$

$\sqrt{Var(X)}$称为X的标准差

连续型随机变量

连续型随机变量

设X是一个随机变量,如果存在一个定义在实数轴上的非负函数$f$,使得对于任一实数集$B$,满足:

$$
P{X \in B }=\int_{B}f(x){\rm d}{x}
$$

则称X为连续型随机变量,函数$f$为随机变量X的概率密度函数。上式表明了X属于B的概率可由概率密度函数$f(x)$在集合B上的积分得到。例如令$B=[a, b]$,那么可得:

$$
P{a \leq X \leq b }=\int_{a}^{b}f(d){\rm d}x
$$

若令a=b,则有$P{X=a}=\int_{a}^{a}f(d){\rm d}x=0$。也就是说,连续型随机变量取任何固定值的概率都等于0。因此,对于一个连续型随机变量X,有:

$$
P{X < a }=P{X \leq a } = F(a)=\int_{-\infty}^{a}f(x){\rm d}x
$$

连续型随机变量的期望和方差

  • 定义连续型随机变量的期望为:
    $$
    E[X]=\int_{-\infty }^{+\infty}xf(x){\rm d}x
    $$

    • 命题:设X是一个连续型随机变量,其概率密度函数为$f(x)$,那么对于任一实值函数$g$,有:
      $$
      E[g(X)]=\int_{-\infty }^{+\infty}g(x)f(x){\rm d}x
      $$

    • 引理:对于一个非负随机变量$Y$,有:
      $$
      E[Y]=\int_{0}^{+\infty }P{Y>y}{\rm d}y
      $$

    • 推论:如果a和b都是常数,那么:
      $$
      E[aX+b]=aE[X]+b
      $$

$$
Var(X)=E[(X- \mu)^2]
$$

另一种公式为:

$$
Var(X)=E[X^2]-(E[X])^2
$$

【未完待续】

参考资料

  • 《概率论基础教程(原书第9版)》[美]Sheldon M. Ross
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇