概率论公理
样本空间和事件
-
对于一个试验,所有可能的结果构成的集合,称为该试验的样本空间,并即为S。
-
并:对于一个样本空间S的任意两个事件E和F,事件E\bigcup F称为E和F的并。
-
交:EF 或 E\bigcap F,即事件E和F同时发生
-
若EF=\emptyset,称事件 E 和 F 互不相容
-
补: \overline E,包含在样本空间但不包含在 E 中的所有结果
-
事件的交、并、补遵循的运算法则:
- 交换律:E \bigcup F=F \bigcup E, EF=FE
- 结合律:(E \bigcup F) \bigcup G=E \bigcup (F \bigcup G), (EF)G=E(FG)
- 分配率:(E \bigcup F) G=EG \bigcup FG, EF \bigcup G=(E \bigcup G)(F \bigcup G)
-
摩根定律:
\overline{\left(\bigcup_{i=1}^{n}E_{i} \right)} = \bigcap_{i=1}^{n}\overline{E_{i}} \ \overline{\left(\bigcap_{i=1}^{n}E_{i} \right)} = \bigcup_{i=1}^{n}\overline{E_{i}}
概率论公理
定义事件E的概率P(E)为E发生的次数占试验总次数的比例的极限:
P(E)=\lim_{n \to \infty} \frac{n(E)}{n}
概率论的三个公理:
- 公理1:
0 \leq P(E) \leq 1
- 公理2:
P(S)=1
- 公理3:对任一系列互不相容事件E_{1}, E_{2}, \dots,有:
P\left(\bigcup_{i=1}^{\infty}E_{i} \right)= \sum_{i=1}^{\infty}P(E_{i})
我们把满足以上3条公理的P(E)称为事件E的概率
几个简单的命题
-
命题1:
P(\overline E)=1-P(E) -
命题2:
P(E \bigcup F)=P(E)+P(F)-P(EF) - 命题3:
P\left(\bigcup_{i=1}^{n}E_{i} \right)= \sum_{r=1}^{n}(-1)^{r+1} \sum_{i_{1}< \dots < i_{r}}P(E_{i_{1}}\dots E_{i_{r}})
条件概率和独立性
条件概率
-
假定A发生的情况下B发生的条件概率,即为P(B|A)。有如下定义:
P(B|A)=\frac{P(AB)}{P(A)}
将上式同乘P(A),可得:
P(AB)=P(A)P(B|A)
说明A和B同时发生的概率等于A发生的概率乘以在A发生的条件下B发生的概率。推广可得乘法规则:
P(E_{1}E_{2}E_{3}\dots E_{n})=P(E_{1})P(E_{2}|E_{1})P(E_{3}|E_{1}E_{2}) \dots P(E_{n}|E_{1} \dots E_{n-1}) - 独立事件:若P(EF)=P(E)P(F),那么 E 和 F 独立。
贝叶斯公式
-
全概率公式:假定F_{1}, F_{2}, \dots , F_{n}是互不相容事件,且\bigcup_{i=1}^{n}F_{i}=S,换言之,这些事件中必有一件发生。记E=\bigcup_{i=1}^{n}EF_{i},又由于事实上EF_{i}是互不相容的,可以得到如下公式:
P(E)=\sum_{i=1}^{n}P(EF_{i})=\sum_{i}^{n}P(E|F_{i})P(F_{i})
上述公式说明 P(E) 发生的概率等于 P(E|F_{i}) 的加权平均,每项的权为 F_{i} 发生的概率。 - 贝叶斯公式:现假设 E 发生了,需要计算F_{j}的概率:
P(F_{j}|E)=\frac{P(EF_{j})}{P(E)}=\frac{P(E|F_{j})P(F_{j})}{\sum_{i=1}^{n}P(E|F_{i})P(F_{i})}
随机变量
离散型随机变量
若一个随机变量有多个可能的取值,则称这个变量为离散型的。对于随机变量 X,有如下定义的函数:
F(X)=P \left\{ X \leq x \right\}, – \infty < x < + \infty
称为 X 的累计分布函数或分布函数。对于任一给定的实数 x,分布函数为改随机变量小于等于 x 的概率。F(X) 是 x 的单调非降函数。
定义 X 的概率分布列为:
p(a)=P\{X=1\}
分布列最多可在可数个a上去正值。由于X必定取值于\{x_1, x_2, \dots\},所以有\sum_{i=1}^{\infty}p(x_i)=1。
离散型随机变量的分布函数F可通过分布列p(a)进行计算:
F(a)=\sum_{x \leq a}p(x)
若X是个离散型随机变量,去可能取值为\{x_1, x_2, \dots | x_1 < x_2 < \dots\},则它的分布函数是个阶梯函数。例如如果X的分布列为P(1)=1/4, P(2)=1/2, P(3)=1/8, P(4)=1/8,那么其累计分布函数为:
F(A) = \begin{cases} 0, & a<1 \\ \frac{1}{4} & 1 \leq a < 2 \\ \frac{3}{4} & 2 \leq a < 3 \\ \frac{7}{8} & 3 \leq a < 4 \\ 1, & 4 \leq a \end{cases}
期望
随机变量X的分布列为p(x),那么X的期望为:
E[X]=\sum_{x:p(x)>0}xp(x)
X的期望就是X的所有可能取值的一个加权平均,每个值得权重就是X取该值的概率。
-
命题1:如果X是一个离散型随机变量,其可能取值为x_i, i \geq 1 ,相应的取值概率为p(x_i),那么对于任一实值函数g,都有:
E[g(X)]=\sum_{i} g(x_i)p(x_i) -
推论1:若a和b是常数,则:
E[aX+b]=aE[X]+b - 推论2:对于随机变量X_1, X_2, \dots, X_n:
E[\sum_{i=1}^{n}X_{i}] = \sum_{i=1}^{n}E[X_{i}]
方差
如果随机变量X的期望为\mu,那么X的方差为:
Var(X)=E[(X- \mu)^2]
方差等于X与它的期望的差的平方的期望,它度量了X可能取值的分散程度。下面是一个有用的恒等式:
Var(X)=E[X^2]-(E[X])^2
\sqrt{Var(X)}称为X的标准差。
连续型随机变量
连续型随机变量
设X是一个随机变量,如果存在一个定义在实数轴上的非负函数f,使得对于任一实数集B,满足:
P{X \in B }=\int_{B}f(x){\rm d}{x}
则称X为连续型随机变量,函数f为随机变量X的概率密度函数。上式表明了X属于B的概率可由概率密度函数f(x)在集合B上的积分得到。例如令B=[a, b],那么可得:
P{a \leq X \leq b }=\int_{a}^{b}f(d){\rm d}x
若令a=b,则有P{X=a}=\int_{a}^{a}f(d){\rm d}x=0。也就是说,连续型随机变量取任何固定值的概率都等于0。因此,对于一个连续型随机变量X,有:
P{X < a }=P{X \leq a } = F(a)=\int_{-\infty}^{a}f(x){\rm d}x
连续型随机变量的期望和方差
-
定义连续型随机变量的期望为:
E[X]=\int_{-\infty }^{+\infty}xf(x){\rm d}x-
命题:设X是一个连续型随机变量,其概率密度函数为f(x),那么对于任一实值函数g,有:
E[g(X)]=\int_{-\infty }^{+\infty}g(x)f(x){\rm d}x -
引理:对于一个非负随机变量Y,有:
E[Y]=\int_{0}^{+\infty }P{Y>y}{\rm d}y - 推论:如果a和b都是常数,那么:
E[aX+b]=aE[X]+b
-
Var(X)=E[(X- \mu)^2]
另一种公式为:
Var(X)=E[X^2]-(E[X])^2
【未完待续】
参考资料
- 《概率论基础教程(原书第9版)》[美]Sheldon M. Ross