概率论基础

随机试验

满足以下三个条件的实验称为随机试验:

  1. 试验的结果不确定,不能事先预知。
  2. 可以在相同的条件下重复进行。
  3. 试验的结果属于一个确定的集合,这个集合称为样本空间,记作 $S$。样本空间中的每一个元素称为样本点,记作 $\omega$。样本空间中所有可能的结果构成了试验的结果集。

样本空间$S$的子集称为事件,记作$A$。事件可以是单个样本点,也可以是多个样本点的集合。其中,$S$也是样本空间的子集,称为必然事件;空集$\emptyset$也是样本空间的子集,称为不可能事件。

事件的关系如下:

  • 并事件:若事件A和事件B至少有一个发生,则记该事件为$A \cup B$,称为事件A或事件B发生。
  • 积事件:若事件A和事件B同时发生,则记该事件为$A \cap B$,称为事件A且事件B发生。
  • 互不相容事件:若事件A和事件B互不相容,则记该事件为$A \cap B = \emptyset$,称为事件A和事件B不相容。
  • 包含事件:若事件A发生必导致事件B发生,则称事件B包含事件A,记作$A \subseteq B$。
  • 相等事件:若$A \subseteq B,B \subseteq A$,记作$A = B$。
  • 对立事件:若$A \cup B = S$,$A \cap B = \emptyset$,则称事件A和事件B为对立事件,也称逆事件,记作$\bar{A} = B$。对立事件是互不相容事件的特殊情况。

事件的概率

事件的概率是指在随机试验中,事件发生的可能性大小。用$P(A)$表示事件A发生的概率,$P(\bar{A})$表示事件A不发生的概率。满足以下条件:

  • 非负性:$P(A) \geq 0$。
  • 规范性:$P(S) = 1$。
  • 可加性:如果$A_1, A_2, \ldots, A_n$是互不相容事件,则$P(A_1 \cup A_2 \cup \ldots \cup A_n) = P(A_1) + P(A_2) + \ldots + P(A_n)$。

有以下推论:

  • 逆事件的概率
  • 加法公式

    加法公式的推广:

条件概率

条件概率是指在事件B发生的条件下,事件A发生的概率,记作$P(A|B)$:

条件概率也满足以下三个性质:

  1. 非负性:$P(A|B) \geq 0$。
  2. 规范性:$P(S|B) = 1$。
  3. 可加性:如果$A_1, A_2, \ldots, A_n$是互不相容事件,则$P(A_1 \cup A_2 \cup \ldots \cup A_n | B) = P(A_1|B) + P(A_2|B) + \ldots + P(A_n|B)$。

一些上述的推论也适用于条件概率,比如加法公式:

条件概率满足乘法定理:

乘法定理的推广:

全概率公式:

其中$B_1, B_2, \ldots, B_n$是互不相容的事件,且$B_1 \cup B_2 \cup \ldots \cup B_n = S$。

贝叶斯公式:

如果$P(A|B_i) = P(A)$,即$P(AB)=P(A)P(B)$,则称事件A和事件$B_i$是独立的,记作$A \perp B_i$。如果$P(A|B_i) \neq P(A)$,则称事件A和事件$B_i$是相关的。

随机变量及其分布

分布函数和概率密度函数

随机变量是指在随机试验中,取值为实数的变量。设$X$是一个随机变量,$x$是$X$的取值,则有:

其中$F(x)$称为随机变量$X$的分布函数,满足以下条件:

  1. $F(x)$是单调不减的。
  2. $\lim_{x \to -\infty} F(x) = 0$,$\lim_{x \to +\infty} F(x) = 1$。
  3. $F(x)$是右连续的,即$\lim_{h \to 0^+} F(x + h) = F(x)$。

概率密度函数是指随机变量$X$在某个区间内的概率密度,记作$f(x)$。满足以下条件:

  1. $f(x) \geq 0$。
  2. $\int_{a}^{b} f(x) dx = 1$或$\sum_{i=1}^n f(x_i) = 1$。

两者的关系为:

随机变量的数字特征

  • 数学期望:随机变量$X$的数学期望是指$X$的取值与其概率的加权平均,记作$E(X)$或$\mu_X$。离散型随机变量的数学期望为:连续型随机变量的数学期望为:
  • 方差:随机变量$X$的方差是指$X$的取值与其数学期望的偏差平方的加权平均,记作$D(X)$或$\sigma_X^2$。离散型随机变量的方差为:连续型随机变量的方差为:
  • 标准差:随机变量$X$的标准差是指$X$的方差的平方根,记作$\sigma_X$。即:

离散型随机变量

离散型随机变量是指取值为有限个或可列无限个实数的随机变量。设$X$是一个离散型随机变量,$x_1, x_2, \ldots, x_n$是$X$的所有可能取值,则有:

其中$p_i$是$X$取值为$x_i$的概率,称为随机变量$X$的概率分布。满足以下条件:

  1. $p_i \geq 0$。
  2. $\sum_{i=1}^n p_i = 1$。

以下是重要的离散型随机变量的分布:

  • 0-1分布:$X$服从0-1分布,记作$X \sim B(1, p)$,则有:
  • 二项分布:$X$服从二项分布,记作$X \sim B(n, p)$,则有:其中$C(n, k) = \frac{n!}{k!(n - k)!}$,$k = 0, 1, \ldots, n$。
  • 泊松分布:$X$服从泊松分布,记作$X \sim P(\lambda)$,则有:其中$k = 0, 1, 2, \ldots$。

二项分布可以趋近于泊松分布,称为泊松定理:

三大分布的数字特征如下表格:

分布类型 数学期望 方差 标准差
0-1分布 $p$ $p(1 - p)$ $\sqrt{p(1 - p)}$
二项分布 $np$ $np(1 - p)$ $\sqrt{np(1 - p)}$
泊松分布 $\lambda$ $\lambda$ $\sqrt{\lambda}$

连续型随机变量

连续型随机变量是指取值为区间内的实数的随机变量。常见的连续性随机变量分布有:

  • 均匀分布:$X$服从均匀分布,记作$X \sim U(a, b)$,则有:
  • 正态分布:$X$服从正态分布,记作$X \sim N(\mu, \sigma^2)$,则有:其中$\mu$是数学期望,$\sigma^2$是方差。
  • 指数分布:$X$服从指数分布,记作$X \sim E(\lambda)$,则有:

指数分布和泊松分布的关系:

这说明

以下是数字特征表格:

分布类型 数学期望 方差 标准差
均匀分布 $\frac{a + b}{2}$ $\frac{(b - a)^2}{12}$ $\frac{b - a}{\sqrt{12}}$
正态分布 $\mu$ $\sigma^2$ $\sigma$
指数分布 $\frac{1}{\lambda}$ $\frac{1}{\lambda^2}$ $\frac{1}{\lambda}$

矩、生成函数与特征函数

n阶矩是指随机变量$X$的$n$次幂的数学期望,记作$E(X^n)$。所谓矩,和物理学中的矩的概念类似,是描述随机变量分布特征的一个重要指标。对于一阶矩,可以类比物理学中的质心,而二阶矩可以类比物理学中的转动惯量,高阶矩可以类比物理学中的非对称性。

生成函数是定义为:

其中$z$是一个实数,$p_k$是随机变量$X$取值为$k$的概率。生成函数可以完全描述一个分布(相当于用事件数个点确定一个同样自由度的函数)。

生成函数具有以下性质:

  • $G(1) = 1$,即生成函数在$z=1$处的值为1。
  • $\dfrac{G^{(m)}(0)}{m!}=P(X=m)$,即生成函数在$z=0$处的$m$阶导数除以$m!$等于随机变量$X$取值为$m$的概率。
  • 各阶矩的计算:

矩生成函数定义为:

这实质上是一个拉普拉斯变换。矩生成函数具有以下性质:

  • $M_X(0) = 1$,即矩生成函数在$t=0$处的值为1。
  • 各阶矩的计算:

对于某些分布,矩生成函数不存在,但可以定义特征函数:

特征函数具有以下性质:

  • $\phi_X(0) = 1$,即特征函数在$t=0$处的值为1。
  • 各阶矩的计算:

常见分布的生成函数、矩生成函数和特征函数如下表格:

分布类型 生成函数 $G(z)$ 矩生成函数 $M_X(t)$ 特征函数 $\phi_X(t)$
0-1分布 $G(z) = 1 - p + pz$ $M_X(t) = 1 - p + pe^t$ $\phi_X(t) = 1 - p + pe^{it}$
二项分布 $G(z) = (1 - p + pz)^n$ $M_X(t) = (1 - p + pe^t)^n$ $\phi_X(t) = (1 - p + pe^{it})^n$
泊松分布 $G(z) = e^{\lambda(z - 1)}$ $M_X(t) = e^{\lambda(e^t - 1)}$ $\phi_X(t) = e^{\lambda(e^{it} - 1)}$
正态分布 None $M_X(t) = e^{\mu t + \frac{\sigma^2 t^2}{2}}$ $\phi_X(t) = e^{i\mu t - \frac{\sigma^2 t^2}{2}}$

一个常见的运用特征函数的例子是计算高斯分布的随机变量的$\cos X$均值: