概率论基础

随机试验

满足以下三个条件的实验称为随机试验：

试验的结果不确定，不能事先预知。
可以在相同的条件下重复进行。
试验的结果属于一个确定的集合，这个集合称为样本空间，记作 $S$。样本空间中的每一个元素称为样本点，记作 $\omega$。样本空间中所有可能的结果构成了试验的结果集。

样本空间$S$的子集称为事件，记作$A$。事件可以是单个样本点，也可以是多个样本点的集合。其中，$S$也是样本空间的子集，称为必然事件；空集$\emptyset$也是样本空间的子集，称为不可能事件。

事件的关系如下：

并事件：若事件A和事件B至少有一个发生，则记该事件为$A \cup B$，称为事件A或事件B发生。
积事件：若事件A和事件B同时发生，则记该事件为$A \cap B$，称为事件A且事件B发生。
互不相容事件：若事件A和事件B互不相容，则记该事件为$A \cap B = \emptyset$，称为事件A和事件B不相容。
包含事件：若事件A发生必导致事件B发生，则称事件B包含事件A，记作$A \subseteq B$。
相等事件：若$A \subseteq B，B \subseteq A$，记作$A = B$。
对立事件：若$A \cup B = S$，$A \cap B = \emptyset$，则称事件A和事件B为对立事件，也称逆事件，记作$\bar{A} = B$。对立事件是互不相容事件的特殊情况。

事件的概率

事件的概率是指在随机试验中，事件发生的可能性大小。用$P(A)$表示事件A发生的概率，$P(\bar{A})$表示事件A不发生的概率。满足以下条件：

非负性：$P(A) \geq 0$。
规范性：$P(S) = 1$。
可加性：如果$A_1, A_2, \ldots, A_n$是互不相容事件，则$P(A_1 \cup A_2 \cup \ldots \cup A_n) = P(A_1) + P(A_2) + \ldots + P(A_n)$。

有以下推论：

逆事件的概率： $P(\bar{A}) = 1 - P(A)$
加法公式： $P(A \cup B) = P(A) + P(B) - P(A \cap B)$

加法公式的推广：
$\begin{aligned} P(A_1 \cup A_2 \cup \ldots \cup A_n) &= \sum_{i=1}^n P(A_i) \\&- \sum_{1 \leq i < j \leq n} P(A_i \cap A_j) \\&+ \sum_{1 \leq i < j < k \leq n} P(A_i \cap A_j \cap A_k) \\&- \ldots \\&+ (-1)^{n-1} P(A_1 \cap A_2 \cap \ldots \cap A_n)\end{aligned}$

条件概率

条件概率是指在事件B发生的条件下，事件A发生的概率，记作$P(A|B)$：

$P(A|B) = \frac{P(A \cap B)}{P(B)}$

条件概率也满足以下三个性质：

非负性：$P(A|B) \geq 0$。
规范性：$P(S|B) = 1$。
可加性：如果$A_1, A_2, \ldots, A_n$是互不相容事件，则$P(A_1 \cup A_2 \cup \ldots \cup A_n | B) = P(A_1|B) + P(A_2|B) + \ldots + P(A_n|B)$。

一些上述的推论也适用于条件概率，比如加法公式：

$P(A \cup B | C) = P(A|C) + P(B|C) - P(A \cap B | C)$

条件概率满足乘法定理：

$P(A \cap B) = P(A|B) \cdot P(B) = P(B|A) \cdot P(A)$

乘法定理的推广：
$P(A_1 \cap A_2 \cap \ldots \cap A_n) = P(A_1) \cdot P(A_2|A_1) \cdot P(A_3|A_1 \cap A_2) \cdots P(A_n|A_1 \cap A_2 \cap \ldots \cap A_{n-1})$

全概率公式：

$P(A) = \sum_{i=1}^n P(A|B_i) \cdot P(B_i)$

其中$B_1, B_2, \ldots, B_n$是互不相容的事件，且$B_1 \cup B_2 \cup \ldots \cup B_n = S$。

贝叶斯公式：

$P(B_i|A) = \frac{P(A|B_i) \cdot P(B_i)}{P(A)}=\frac{P(A|B_i) \cdot P(B_i)}{\sum_{j=1}^n P(A|B_j) \cdot P(B_j)}$

如果$P(A|B_i) = P(A)$，即$P(AB)=P(A)P(B)$，则称事件A和事件$B_i$是独立的，记作$A \perp B_i$。如果$P(A|B_i) \neq P(A)$，则称事件A和事件$B_i$是相关的。

随机变量及其分布

分布函数和概率密度函数

随机变量是指在随机试验中，取值为实数的变量。设$X$是一个随机变量，$x$是$X$的取值，则有：

$P(X \leq x) = F(x)$

其中$F(x)$称为随机变量$X$的分布函数，满足以下条件：

$F(x)$是单调不减的。
$\lim_{x \to -\infty} F(x) = 0$，$\lim_{x \to +\infty} F(x) = 1$。
$F(x)$是右连续的，即$\lim_{h \to 0^+} F(x + h) = F(x)$。

概率密度函数是指随机变量$X$在某个区间内的概率密度，记作$f(x)$。满足以下条件：

$f(x) \geq 0$。
$\int_{a}^{b} f(x) dx = 1$或$\sum_{i=1}^n f(x_i) = 1$。

两者的关系为：

$F(x_2)-F(x_1) = \int_{x_1}^{x_2} f(t) dt$

随机变量的数字特征

数学期望：随机变量$X$的数学期望是指$X$的取值与其概率的加权平均，记作$E(X)$或$\mu_X$。离散型随机变量的数学期望为： $E(X) = \sum_{i=1}^n x_i p_i$ 连续型随机变量的数学期望为： $E(X) = \int_{-\infty}^{+\infty} x f(x) dx$
方差：随机变量$X$的方差是指$X$的取值与其数学期望的偏差平方的加权平均，记作$D(X)$或$\sigma_X^2$。离散型随机变量的方差为： $D(X) = \sum_{i=1}^n (x_i - E(X))^2 p_i$ 连续型随机变量的方差为： $D(X) = \int_{-\infty}^{+\infty} (x - E(X))^2 f(x) dx$
标准差：随机变量$X$的标准差是指$X$的方差的平方根，记作$\sigma_X$。即： $\sigma_X = \sqrt{D(X)}$

离散型随机变量

离散型随机变量是指取值为有限个或可列无限个实数的随机变量。设$X$是一个离散型随机变量，$x_1, x_2, \ldots, x_n$是$X$的所有可能取值，则有：

$P(X = x_i) = p_i$

其中$p_i$是$X$取值为$x_i$的概率，称为随机变量$X$的概率分布。满足以下条件：

$p_i \geq 0$。
$\sum_{i=1}^n p_i = 1$。

以下是重要的离散型随机变量的分布：

0-1分布：$X$服从0-1分布，记作$X \sim B(1, p)$，则有： $P(X = 1) = p, P(X = 0) = 1 - p$
二项分布：$X$服从二项分布，记作$X \sim B(n, p)$，则有： $P(X = k) = C(n, k) p^k (1 - p)^{n - k}$ 其中$C(n, k) = \frac{n!}{k!(n - k)!}$，$k = 0, 1, \ldots, n$。
泊松分布：$X$服从泊松分布，记作$X \sim P(\lambda)$，则有： $P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$ 其中$k = 0, 1, 2, \ldots$。

二项分布可以趋近于泊松分布，称为泊松定理：

$\lim_{n \to \infty} P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$

三大分布的数字特征如下表格：

分布类型	数学期望	方差	标准差
0-1分布	$p$	$p(1 - p)$	$\sqrt{p(1 - p)}$
二项分布	$np$	$np(1 - p)$	$\sqrt{np(1 - p)}$
泊松分布	$\lambda$	$\lambda$	$\sqrt{\lambda}$

连续型随机变量

连续型随机变量是指取值为区间内的实数的随机变量。常见的连续性随机变量分布有：

均匀分布：$X$服从均匀分布，记作$X \sim U(a, b)$，则有： $f(x) = \begin{cases} \frac{1}{b - a}, & a \leq x \leq b \\ 0, & \text{otherwise} \end{cases}$
正态分布：$X$服从正态分布，记作$X \sim N(\mu, \sigma^2)$，则有： $f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}$ 其中$\mu$是数学期望，$\sigma^2$是方差。
指数分布：$X$服从指数分布，记作$X \sim E(\lambda)$，则有： $f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & \text{otherwise} \end{cases}$

指数分布和泊松分布的关系：
$P(X \leq x) = 1 - e^{-\lambda x}$
这说明

以下是数字特征表格：

分布类型	数学期望	方差	标准差
均匀分布	$\frac{a + b}{2}$	$\frac{(b - a)^2}{12}$	$\frac{b - a}{\sqrt{12}}$
正态分布	$\mu$	$\sigma^2$	$\sigma$
指数分布	$\frac{1}{\lambda}$	$\frac{1}{\lambda^2}$	$\frac{1}{\lambda}$

矩、生成函数与特征函数

n阶矩是指随机变量$X$的$n$次幂的数学期望，记作$E(X^n)$。所谓矩，和物理学中的矩的概念类似，是描述随机变量分布特征的一个重要指标。对于一阶矩，可以类比物理学中的质心，而二阶矩可以类比物理学中的转动惯量，高阶矩可以类比物理学中的非对称性。

生成函数是定义为：

$G(z)=E(z^X) = \sum_{k=0}^{\infty} p_k z^k$

其中$z$是一个实数，$p_k$是随机变量$X$取值为$k$的概率。生成函数可以完全描述一个分布（相当于用事件数个点确定一个同样自由度的函数）。

生成函数具有以下性质：

$G(1) = 1$，即生成函数在$z=1$处的值为1。
$\dfrac{G^{(m)}(0)}{m!}=P(X=m)$，即生成函数在$z=0$处的$m$阶导数除以$m!$等于随机变量$X$取值为$m$的概率。
各阶矩的计算： $\left(z\frac{d}{dz}\right)^n G(z)|_{z=1}=\sum_{k=0}^{\infty} k^n p_k=E(X^n)$

矩生成函数定义为：

$M_X(t) = E(e^{tX}) = \int e^{tx} f(x) dx$

这实质上是一个拉普拉斯变换。矩生成函数具有以下性质：

$M_X(0) = 1$，即矩生成函数在$t=0$处的值为1。
各阶矩的计算： $\left(\frac{d}{dt}\right)^n M_X(t)|_{t=0} = E(X^n)$

对于某些分布，矩生成函数不存在，但可以定义特征函数：

$\phi_X(t) = E(e^{itX}) = \int e^{itx} f(x) dx$

特征函数具有以下性质：

$\phi_X(0) = 1$，即特征函数在$t=0$处的值为1。
各阶矩的计算： $\left(\frac{d}{dt}\right)^n \phi_X(t)|_{t=0} = (-i)^n E(X^n)$

常见分布的生成函数、矩生成函数和特征函数如下表格：

分布类型	生成函数 $G(z)$	矩生成函数 $M_X(t)$	特征函数 $\phi_X(t)$
0-1分布	$G(z) = 1 - p + pz$	$M_X(t) = 1 - p + pe^t$	$\phi_X(t) = 1 - p + pe^{it}$
二项分布	$G(z) = (1 - p + pz)^n$	$M_X(t) = (1 - p + pe^t)^n$	$\phi_X(t) = (1 - p + pe^{it})^n$
泊松分布	$G(z) = e^{\lambda(z - 1)}$	$M_X(t) = e^{\lambda(e^t - 1)}$	$\phi_X(t) = e^{\lambda(e^{it} - 1)}$
正态分布	None	$M_X(t) = e^{\mu t + \frac{\sigma^2 t^2}{2}}$	$\phi_X(t) = e^{i\mu t - \frac{\sigma^2 t^2}{2}}$

一个常见的运用特征函数的例子是计算高斯分布的随机变量的$\cos X$均值：

$E(\cos X) = \text{Re}(\phi_X(1)) = \text{Re}(e^{i\mu - \frac{\sigma^2}{2}}) = e^{-\frac{\sigma^2}{2}} \cos(\mu)$