随机变量及其分布
概率论基础
随机试验
满足以下三个条件的实验称为随机试验:
- 试验的结果不确定,不能事先预知。
- 可以在相同的条件下重复进行。
- 试验的结果属于一个确定的集合,这个集合称为样本空间,记作 $S$。样本空间中的每一个元素称为样本点,记作 $\omega$。样本空间中所有可能的结果构成了试验的结果集。
样本空间$S$的子集称为事件,记作$A$。事件可以是单个样本点,也可以是多个样本点的集合。其中,$S$也是样本空间的子集,称为必然事件;空集$\emptyset$也是样本空间的子集,称为不可能事件。
事件的关系如下:
- 并事件:若事件A和事件B至少有一个发生,则记该事件为$A \cup B$,称为事件A或事件B发生。
- 积事件:若事件A和事件B同时发生,则记该事件为$A \cap B$,称为事件A且事件B发生。
- 互不相容事件:若事件A和事件B互不相容,则记该事件为$A \cap B = \emptyset$,称为事件A和事件B不相容。
- 包含事件:若事件A发生必导致事件B发生,则称事件B包含事件A,记作$A \subseteq B$。
- 相等事件:若$A \subseteq B,B \subseteq A$,记作$A = B$。
- 对立事件:若$A \cup B = S$,$A \cap B = \emptyset$,则称事件A和事件B为对立事件,也称逆事件,记作$\bar{A} = B$。对立事件是互不相容事件的特殊情况。
事件的概率
事件的概率是指在随机试验中,事件发生的可能性大小。用$P(A)$表示事件A发生的概率,$P(\bar{A})$表示事件A不发生的概率。满足以下条件:
- 非负性:$P(A) \geq 0$。
- 规范性:$P(S) = 1$。
- 可加性:如果$A_1, A_2, \ldots, A_n$是互不相容事件,则$P(A_1 \cup A_2 \cup \ldots \cup A_n) = P(A_1) + P(A_2) + \ldots + P(A_n)$。
有以下推论:
- 逆事件的概率:
- 加法公式:
加法公式的推广:
条件概率
条件概率是指在事件B发生的条件下,事件A发生的概率,记作$P(A|B)$:
条件概率也满足以下三个性质:
- 非负性:$P(A|B) \geq 0$。
- 规范性:$P(S|B) = 1$。
- 可加性:如果$A_1, A_2, \ldots, A_n$是互不相容事件,则$P(A_1 \cup A_2 \cup \ldots \cup A_n | B) = P(A_1|B) + P(A_2|B) + \ldots + P(A_n|B)$。
一些上述的推论也适用于条件概率,比如加法公式:
条件概率满足乘法定理:
乘法定理的推广:
全概率公式:
其中$B_1, B_2, \ldots, B_n$是互不相容的事件,且$B_1 \cup B_2 \cup \ldots \cup B_n = S$。
贝叶斯公式:
如果$P(A|B_i) = P(A)$,即$P(AB)=P(A)P(B)$,则称事件A和事件$B_i$是独立的,记作$A \perp B_i$。如果$P(A|B_i) \neq P(A)$,则称事件A和事件$B_i$是相关的。
随机变量及其分布
分布函数和概率密度函数
随机变量是指在随机试验中,取值为实数的变量。设$X$是一个随机变量,$x$是$X$的取值,则有:
其中$F(x)$称为随机变量$X$的分布函数,满足以下条件:
- $F(x)$是单调不减的。
- $\lim_{x \to -\infty} F(x) = 0$,$\lim_{x \to +\infty} F(x) = 1$。
- $F(x)$是右连续的,即$\lim_{h \to 0^+} F(x + h) = F(x)$。
概率密度函数是指随机变量$X$在某个区间内的概率密度,记作$f(x)$。满足以下条件:
- $f(x) \geq 0$。
- $\int_{a}^{b} f(x) dx = 1$或$\sum_{i=1}^n f(x_i) = 1$。
两者的关系为:
随机变量的数字特征
- 数学期望:随机变量$X$的数学期望是指$X$的取值与其概率的加权平均,记作$E(X)$或$\mu_X$。离散型随机变量的数学期望为:连续型随机变量的数学期望为:
- 方差:随机变量$X$的方差是指$X$的取值与其数学期望的偏差平方的加权平均,记作$D(X)$或$\sigma_X^2$。离散型随机变量的方差为:连续型随机变量的方差为:
- 标准差:随机变量$X$的标准差是指$X$的方差的平方根,记作$\sigma_X$。即:
离散型随机变量
离散型随机变量是指取值为有限个或可列无限个实数的随机变量。设$X$是一个离散型随机变量,$x_1, x_2, \ldots, x_n$是$X$的所有可能取值,则有:
其中$p_i$是$X$取值为$x_i$的概率,称为随机变量$X$的概率分布。满足以下条件:
- $p_i \geq 0$。
- $\sum_{i=1}^n p_i = 1$。
以下是重要的离散型随机变量的分布:
- 0-1分布:$X$服从0-1分布,记作$X \sim B(1, p)$,则有:
- 二项分布:$X$服从二项分布,记作$X \sim B(n, p)$,则有:其中$C(n, k) = \frac{n!}{k!(n - k)!}$,$k = 0, 1, \ldots, n$。
- 泊松分布:$X$服从泊松分布,记作$X \sim P(\lambda)$,则有:其中$k = 0, 1, 2, \ldots$。
二项分布可以趋近于泊松分布,称为泊松定理:
三大分布的数字特征如下表格:
分布类型 | 数学期望 | 方差 | 标准差 |
---|---|---|---|
0-1分布 | $p$ | $p(1 - p)$ | $\sqrt{p(1 - p)}$ |
二项分布 | $np$ | $np(1 - p)$ | $\sqrt{np(1 - p)}$ |
泊松分布 | $\lambda$ | $\lambda$ | $\sqrt{\lambda}$ |
连续型随机变量
连续型随机变量是指取值为区间内的实数的随机变量。常见的连续性随机变量分布有:
- 均匀分布:$X$服从均匀分布,记作$X \sim U(a, b)$,则有:
- 正态分布:$X$服从正态分布,记作$X \sim N(\mu, \sigma^2)$,则有:其中$\mu$是数学期望,$\sigma^2$是方差。
- 指数分布:$X$服从指数分布,记作$X \sim E(\lambda)$,则有:
指数分布和泊松分布的关系:
这说明
以下是数字特征表格:
分布类型 | 数学期望 | 方差 | 标准差 |
---|---|---|---|
均匀分布 | $\frac{a + b}{2}$ | $\frac{(b - a)^2}{12}$ | $\frac{b - a}{\sqrt{12}}$ |
正态分布 | $\mu$ | $\sigma^2$ | $\sigma$ |
指数分布 | $\frac{1}{\lambda}$ | $\frac{1}{\lambda^2}$ | $\frac{1}{\lambda}$ |
矩、生成函数与特征函数
n阶矩是指随机变量$X$的$n$次幂的数学期望,记作$E(X^n)$。所谓矩,和物理学中的矩的概念类似,是描述随机变量分布特征的一个重要指标。对于一阶矩,可以类比物理学中的质心,而二阶矩可以类比物理学中的转动惯量,高阶矩可以类比物理学中的非对称性。
生成函数是定义为:
其中$z$是一个实数,$p_k$是随机变量$X$取值为$k$的概率。生成函数可以完全描述一个分布(相当于用事件数个点确定一个同样自由度的函数)。
生成函数具有以下性质:
- $G(1) = 1$,即生成函数在$z=1$处的值为1。
- $\dfrac{G^{(m)}(0)}{m!}=P(X=m)$,即生成函数在$z=0$处的$m$阶导数除以$m!$等于随机变量$X$取值为$m$的概率。
- 各阶矩的计算:
矩生成函数定义为:
这实质上是一个拉普拉斯变换。矩生成函数具有以下性质:
- $M_X(0) = 1$,即矩生成函数在$t=0$处的值为1。
- 各阶矩的计算:
对于某些分布,矩生成函数不存在,但可以定义特征函数:
特征函数具有以下性质:
- $\phi_X(0) = 1$,即特征函数在$t=0$处的值为1。
- 各阶矩的计算:
常见分布的生成函数、矩生成函数和特征函数如下表格:
分布类型 | 生成函数 $G(z)$ | 矩生成函数 $M_X(t)$ | 特征函数 $\phi_X(t)$ |
---|---|---|---|
0-1分布 | $G(z) = 1 - p + pz$ | $M_X(t) = 1 - p + pe^t$ | $\phi_X(t) = 1 - p + pe^{it}$ |
二项分布 | $G(z) = (1 - p + pz)^n$ | $M_X(t) = (1 - p + pe^t)^n$ | $\phi_X(t) = (1 - p + pe^{it})^n$ |
泊松分布 | $G(z) = e^{\lambda(z - 1)}$ | $M_X(t) = e^{\lambda(e^t - 1)}$ | $\phi_X(t) = e^{\lambda(e^{it} - 1)}$ |
正态分布 | None | $M_X(t) = e^{\mu t + \frac{\sigma^2 t^2}{2}}$ | $\phi_X(t) = e^{i\mu t - \frac{\sigma^2 t^2}{2}}$ |
一个常见的运用特征函数的例子是计算高斯分布的随机变量的$\cos X$均值: