概率论公理
样本空间和事件
-
对于一个试验,所有可能的结果构成的集合,称为该试验的样本空间,并即为$S$。
-
并:对于一个样本空间$S$的任意两个事件$E$和$F$,事件$E\bigcup F$称为$E$和$F$的并。
-
交:$EF$ 或 $E\bigcap F$,即事件$E$和$F$同时发生
-
若$EF=\emptyset$,称事件 $E$ 和 $F$ 互不相容
-
补: $\overline E$,包含在样本空间但不包含在 $E$ 中的所有结果
-
事件的交、并、补遵循的运算法则:
- 交换律:$E \bigcup F=F \bigcup E$, $EF=FE$
- 结合律:$(E \bigcup F) \bigcup G=E \bigcup (F \bigcup G)$, $(EF)G=E(FG)$
- 分配率:$(E \bigcup F) G=EG \bigcup FG$, $EF \bigcup G=(E \bigcup G)(F \bigcup G)$
-
摩根定律:
$$
\overline{\left(\bigcup_{i=1}^{n}E_{i} \right)} = \bigcap_{i=1}^{n}\overline{E_{i}} \
\overline{\left(\bigcap_{i=1}^{n}E_{i} \right)} = \bigcup_{i=1}^{n}\overline{E_{i}}
$$
概率论公理
定义事件E的概率$P(E)$为E发生的次数占试验总次数的比例的极限:
$$
P(E)=\lim_{n \to \infty} \frac{n(E)}{n}
$$
概率论的三个公理:
- 公理1:
$$
0 \leq P(E) \leq 1
$$
- 公理2:
$$
P(S)=1
$$
- 公理3:对任一系列互不相容事件$E_{1}, E_{2}, \dots$,有:
$$
P\left(\bigcup_{i=1}^{\infty}E_{i} \right)= \sum_{i=1}^{\infty}P(E_{i})
$$
我们把满足以上3条公理的$P(E)$称为事件E的概率
几个简单的命题
-
命题1:
$$
P(\overline E)=1-P(E)
$$ -
命题2:
$$
P(E \bigcup F)=P(E)+P(F)-P(EF)
$$ - 命题3:
$$
P\left(\bigcup_{i=1}^{n}E_{i} \right)= \sum_{r=1}^{n}(-1)^{r+1} \sum_{i_{1}< \dots < i_{r}}P(E_{i_{1}}\dots E_{i_{r}})
$$
条件概率和独立性
条件概率
-
假定A发生的情况下B发生的条件概率,即为$P(B|A)$。有如下定义:
$$
P(B|A)=\frac{P(AB)}{P(A)}
$$
将上式同乘$P(A)$,可得:
$$
P(AB)=P(A)P(B|A)
$$
说明A和B同时发生的概率等于A发生的概率乘以在A发生的条件下B发生的概率。推广可得乘法规则:
$$
P(E_{1}E_{2}E_{3}\dots E_{n})=P(E_{1})P(E_{2}|E_{1})P(E_{3}|E_{1}E_{2}) \dots P(E_{n}|E_{1} \dots E_{n-1})
$$ - 独立事件:若$P(EF)=P(E)P(F)$,那么 $E$ 和 $F$ 独立。
贝叶斯公式
-
全概率公式:假定$F_{1}, F_{2}, \dots , F_{n}$是互不相容事件,且$\bigcup_{i=1}^{n}F_{i}=S$,换言之,这些事件中必有一件发生。记$E=\bigcup_{i=1}^{n}EF_{i}$,又由于事实上$EF_{i}$是互不相容的,可以得到如下公式:
$$
P(E)=\sum_{i=1}^{n}P(EF_{i})=\sum_{i}^{n}P(E|F_{i})P(F_{i})
$$
上述公式说明 $P(E)$ 发生的概率等于 $P(E|F_{i})$ 的加权平均,每项的权为 $F_{i}$ 发生的概率。 - 贝叶斯公式:现假设 $E$ 发生了,需要计算$F_{j}$的概率:
$$
P(F_{j}|E)=\frac{P(EF_{j})}{P(E)}=\frac{P(E|F_{j})P(F_{j})}{\sum_{i=1}^{n}P(E|F_{i})P(F_{i})}
$$
随机变量
离散型随机变量
若一个随机变量有多个可能的取值,则称这个变量为离散型的。对于随机变量 $X$,有如下定义的函数:
$$
F(X)=P \left\{ X \leq x \right\}, – \infty < x < + \infty
$$
称为 $X$ 的累计分布函数或分布函数。对于任一给定的实数 $x$,分布函数为改随机变量小于等于 $x$ 的概率。$F(X)$ 是 $x$ 的单调非降函数。
定义 $X$ 的概率分布列为:
$$
p(a)=P\{X=1\}
$$
分布列最多可在可数个a上去正值。由于X必定取值于$\{x_1, x_2, \dots\}$,所以有$\sum_{i=1}^{\infty}p(x_i)=1$。
离散型随机变量的分布函数$F$可通过分布列$p(a)$进行计算:
$$
F(a)=\sum_{x \leq a}p(x)
$$
若X是个离散型随机变量,去可能取值为$\{x_1, x_2, \dots | x_1 < x_2 < \dots\}$,则它的分布函数是个阶梯函数。例如如果X的分布列为$P(1)=1/4, P(2)=1/2, P(3)=1/8, P(4)=1/8$,那么其累计分布函数为:
$$
F(A) =
\begin{cases}
0, & a<1 \\
\frac{1}{4} & 1 \leq a < 2 \\
\frac{3}{4} & 2 \leq a < 3 \\
\frac{7}{8} & 3 \leq a < 4 \\
1, & 4 \leq a
\end{cases}
$$
期望
随机变量X的分布列为$p(x)$,那么X的期望为:
$$
E[X]=\sum_{x:p(x)>0}xp(x)
$$
X的期望就是X的所有可能取值的一个加权平均,每个值得权重就是X取该值的概率。
-
命题1:如果X是一个离散型随机变量,其可能取值为$x_i, i \geq 1 $,相应的取值概率为$p(x_i)$,那么对于任一实值函数$g$,都有:
$$
E[g(X)]=\sum_{i} g(x_i)p(x_i)
$$ -
推论1:若a和b是常数,则:
$$
E[aX+b]=aE[X]+b
$$ - 推论2:对于随机变量$X_1, X_2, \dots, X_n$:
$$
E[\sum_{i=1}^{n}X_{i}] = \sum_{i=1}^{n}E[X_{i}]
$$
方差
如果随机变量X的期望为$\mu$,那么X的方差为:
$$
Var(X)=E[(X- \mu)^2]
$$
方差等于X与它的期望的差的平方的期望,它度量了X可能取值的分散程度。下面是一个有用的恒等式:
$$
Var(X)=E[X^2]-(E[X])^2
$$
$\sqrt{Var(X)}$称为X的标准差。
连续型随机变量
连续型随机变量
设X是一个随机变量,如果存在一个定义在实数轴上的非负函数$f$,使得对于任一实数集$B$,满足:
$$
P{X \in B }=\int_{B}f(x){\rm d}{x}
$$
则称X为连续型随机变量,函数$f$为随机变量X的概率密度函数。上式表明了X属于B的概率可由概率密度函数$f(x)$在集合B上的积分得到。例如令$B=[a, b]$,那么可得:
$$
P{a \leq X \leq b }=\int_{a}^{b}f(d){\rm d}x
$$
若令a=b,则有$P{X=a}=\int_{a}^{a}f(d){\rm d}x=0$。也就是说,连续型随机变量取任何固定值的概率都等于0。因此,对于一个连续型随机变量X,有:
$$
P{X < a }=P{X \leq a } = F(a)=\int_{-\infty}^{a}f(x){\rm d}x
$$
连续型随机变量的期望和方差
-
定义连续型随机变量的期望为:
$$
E[X]=\int_{-\infty }^{+\infty}xf(x){\rm d}x
$$-
命题:设X是一个连续型随机变量,其概率密度函数为$f(x)$,那么对于任一实值函数$g$,有:
$$
E[g(X)]=\int_{-\infty }^{+\infty}g(x)f(x){\rm d}x
$$ -
引理:对于一个非负随机变量$Y$,有:
$$
E[Y]=\int_{0}^{+\infty }P{Y>y}{\rm d}y
$$ - 推论:如果a和b都是常数,那么:
$$
E[aX+b]=aE[X]+b
$$
-
$$
Var(X)=E[(X- \mu)^2]
$$
另一种公式为:
$$
Var(X)=E[X^2]-(E[X])^2
$$
【未完待续】
参考资料
- 《概率论基础教程(原书第9版)》[美]Sheldon M. Ross