随机过程

阅读数:398 评论数:0

跳转到新版页面

分类

数学

正文

一、概率论基本知识

1、概率空间与随机变量

2、随机变量的矩

矩是随机变量分布的量数特征,包括位置、尺度、偏度和峰度等属性。矩主要分为原点矩(raw moments)和中心矩(central moments)。

(1)原点矩(Raw Moments)

对于随机变量 $X$,其第 $n$ 阶原点矩定义为:

$$ \mu'_n = E[X^n] $$

其中 $E[\cdot]$ 表示期望值运算。原点矩直接基于随机变量的幂的期望值。

  • 第一阶原点矩是随机变量的期望值,即 $E[X]$。
  • 第二阶原点矩是随机变量平方的期望值,即 $E[X^2]$。

(2)中心矩(Central Moments)

中心矩是相对于随机变量的均值的矩,第 $n$ 阶中心矩定义为:

$$ \mu_n = E[(X - E[X])^n] $$

中心矩描述了随机变量值的偏离其均值的程度。

  • 第一阶中心矩总是 0,因为 $E[X - E[X]] = E[X] - E[X] = 0$。
  • 第二阶中心矩是随机变量的方差,即 $Var(X) = E[(X - E[X])^2]$。
  • 第三阶中心矩与随机变量的偏度(Skewness)有关,偏度是衡量概率分布偏离对称性的程度。
  • 第四阶中心矩与随机变量的峰度(Kurtosis)有关,峰度是衡量概率分布尾部厚度的指标。

3、联合分布函数

联合分布函数是多个随机变量分布特征的描述。对于两个随机变量 $X$ 和 $Y$,它们的联合分布函数 $F_{X,Y}(x, y)$ 定义为同时考虑这两个随机变量时,它们取值小于或等于某个特定值的概率:

$$
F_{X,Y}(x, y) = P(X \leq x, Y \leq y)
$$

这里,$(x, y)$ 是一对实数,而 $P$ 表示概率。联合分布函数满足以下性质:

(1)**非降性**:对于任意 $x_1 \leq x_2$ 和 $y_1 \leq y_2$,有 $F_{X,Y}(x_1, y_1) \leq F_{X,Y}(x_2, y_2)$。

(2)**右连续性**:对于任意的 $(x, y)$,函数在点 $(x, y)$ 是右连续的。

(3)**边界条件**:

  • 当 $x \to -\infty$ 或 $y \to -\infty$ 时,$F_{X,Y}(x, y) \to 0$。
  • 当 $x \to \infty$ 和 $y \to \infty$ 时,$F_{X,Y}(x, y) \to 1$。

(4)**非负性**:对于任意的 $(x, y)$,有 $F_{X,Y}(x, y) \geq 0$。

如果随机变量 $X$ 和 $Y$ 是离散的,那么它们的联合分布可以用联合概率质量函数(joint probability mass function, PMF)来描述。如果 $X$ 和 $Y$ 是连续的,那么它们的联合分布可以用联合概率密度函数(joint probability density function, PDF)来描述。

联合概率密度函数 $f_{X,Y}(x, y)$ 与联合分布函数 $F_{X,Y}(x, y)$ 之间的关系是:

$$
F_{X,Y}(x, y) = \int_{-\infty}^{y} \int_{-\infty}^{x} f_{X,Y}(u, v) \, du \, dv
$$

反过来,联合密度函数可以通过对联合分布函数进行偏导数来获得(如果偏导数存在的话):

$$
f_{X,Y}(x, y) = \frac{\partial^2}{\partial x \partial y} F_{X,Y}(x, y)
$$

4、条件概率与全概率分布

(1)条件概率

条件概率是指在某个事件发生的条件下,另一个事件发生的概率。对于两个事件 $A$ 和 $B$,其中 $P(B) > 0$,$A$ 在 $B$ 发生的条件下发生的条件概率表示为 $P(A|B)$,计算公式为:

$$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$$

这个公式说明了在事件 $B$ 发生的情况下,事件 $A$ 和 $B$ 同时发生的概率与仅事件 $B$ 发生的概率的比值。

(2)全概率定理

全概率定理是指如果有一组事件 $B_1, B_2, \ldots, B_n$ 构成样本空间的一个完备事件组(即这些事件两两互斥,并且它们的并集是整个样本空间),那么任意事件 $A$ 的概率可以表示为这组事件与事件 $A$ 的交集的概率之和,即:

$$
P(A) = \sum_{i=1}^{n} P(A|B_i) P(B_i)
$$

这里假设 $P(B_i) > 0$ 对所有 $i$ 都成立。全概率定理提供了一种在已知条件概率的情况下计算总概率的方法。

(3) 条件概率与全概率定理的关系

条件概率和全概率定理常常一起使用,尤其是在贝叶斯定理中。贝叶斯定理是条件概率的一个扩展,它允许我们在知道某些事件的概率后,更新我们对另一组事件概率的估计。贝叶斯定理的表达式为:

$$
P(B_i|A) = \frac{P(A|B_i) P(B_i)}{P(A)}
$$

其中 $P(A)$ 可以通过全概率定理计算得出。

5、几类重要的离散型分布

(1)伯努力分布

伯努利分布(Bernoulli distribution)是最简单的离散概率分布之一,它描述了一个只有两种可能结果的单次随机试验,这两种结果通常被称为“成功”和“失败”。在伯努利分布中,成功的概率为 $p$,失败的概率为 $1-p$。随机变量 $X$ 表示这个试验的结果,通常用 $1$ 表示成功,$0$ 表示失败。

伯努利分布的概率质量函数(probability mass function, PMF)可以写作:

$$
P(X = x) =
\begin{cases}
p & \text{if } x = 1, \\
1-p & \text{if } x = 0.
\end{cases}
$$

或者更紧凑地表示为:

$$
P(X = x) = p^x (1-p)^{1-x} \quad \text{for } x \in \{0, 1\}
$$

伯努利分布的期望值(mean)和方差(variance)分别是:

- 期望值:$E[X] = p$
- 方差:$\text{Var}(X) = p(1-p)$

伯努利试验是许多其他概率分布的基础,例如二项分布(Binomial distribution)是多次独立重复的伯努利试验的总成功次数的分布。当我们进行 $n$ 次独立的伯努利试验,并关心成功的次数时,我们就得到了二项分布。

(2)二项分布与多项分布

二项分布是一种离散概率分布,描述了在固定次数的独立且相同的伯努利试验中成功的次数。一个伯努利试验是指只有两种可能结果的随机试验,通常称为成功(通常用1表示)和失败(通常用0表示)。二项分布假设每次试验成功的概率都是相同的。

二项分布的概率质量函数(PMF)给出了在 $n$ 次独立伯努利试验中恰好得到 $k$ 次成功的概率,数学上表示为:

$$
P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}
$$

其中:

  • $X$ 是成功次数的随机变量。
  • $n$ 是试验的总次数。
  • $k$ 是成功的次数,$k = 0, 1, 2, \ldots, n$。
  • $p$ 是每次试验成功的概率。
  • $\binom{n}{k} = \frac{n!}{k!(n-k)!}$ 是组合数,表示从 $n$ 次试验中选择 $k$ 次成功的方式数。

二项分布的期望值(mean)和方差(variance)分别是:

  • 期望值:$E[X] = np$
  • 方差:$\text{Var}(X) = np(1-p)$

多项分布是二项分布的推广,用于描述具有多于两个可能结果的随机试验。在多项分布中,每次试验有 $k$ 个可能的结果,每个结果有一个特定的概率,所有结果的概率之和为1。多项分布关注的是在 $n$ 次独立试验中,每种结果分别出现的次数。

设随机变量 $X_1, X_2, \ldots, X_k$ 分别表示 $k$ 个不同结果在 $n$ 次试验中出现的次数,而 $p_1, p_2, \ldots, p_k$ 是这些结果出现的概率,则多项分布的概率质量函数(PMF)为:

$$
P(X_1 = x_1, X_2 = x_2, \ldots, X_k = x_k) = \frac{n!}{x_1! x_2! \ldots x_k!} p_1^{x_1} p_2^{x_2} \ldots p_k^{x_k}
$$

其中 $x_1, x_2, \ldots, x_k$ 是非负整数,且满足 $x_1 + x_2 + \ldots + x_k = n$。

多项分布的期望和方差分别为:

  • 期望值:$E[X_i] = n p_i$
  • 方差:$\text{Var}(X_i) = n p_i (1 - p_i)$
  • 协方差:$\text{Cov}(X_i, X_j) = -n p_i p_j$ (对于 $i \neq j$)

(3)几何分布与负二项分布

几何分布之所以被称为“几何”分布,是因为其概率质量函数(probability mass function,PMF)的图形呈现出一种几何级数的衰减形态。在数学中,几何级数是指一个各项比值为常数的无穷级数,即形如 $a, ar, ar^2, ar^3, \ldots$ 的序列,其中 $a$ 是首项,$r$ 是公比。当 $|r| < 1$ 时,这个级数收敛。

几何分布是一种离散概率分布,它描述了在一系列独立且相同的伯努利试验中,得到第一次成功所需要的试验次数。每次试验成功的概率为 $p$,失败的概率为 $1 - p$。

几何分布的关键特点是具有无记忆性(memorylessness),这意味着未来成功的概率不依赖于过去的失败次数。换句话说,每次试验成功的概率始终保持不变。

几何分布的概率质量函数(PMF)给出了第 $k$ 次试验中首次成功的概率,数学上表示为:

$$
P(X = k) = (1-p)^{k-1}p
$$

其中:

  • $X$ 是首次成功的试验次数的随机变量。
  • $k$ 是试验次数,$k = 1, 2, 3, \ldots$(注意:$k$ 从1开始,因为至少需要一次试验)。
  • $p$ 是每次试验成功的概率。

几何分布的期望值(mean)和方差(variance)分别是:

  • 期望值:$E[X] = \frac{1}{p}$
  • 方差:$\text{Var}(X) = \frac{1-p}{p^2}$

负二项分布(Negative Binomial Distribution),又称为帕斯卡分布(Pascal Distribution),是统计学中的一种离散概率分布。它描述了在一系列独立的伯努利试验中,要达到一定数量的成功所需进行的试验次数。与几何分布类似,负二项分布也是等待成功的分布,但它计算的是达到$r$次成功所需的试验次数,而不仅仅是第一次成功。

负二项分布的概率质量函数(PMF)为:

$$
P(X = k) = \binom{k-1}{r-1}p^r(1-p)^{k-r}
$$

其中:

  • $X$ 是随机变量,表示实现$r$次成功所需的试验次数。
  • $k$ 是总的试验次数,$k = r, r+1, r+2, \ldots$。
  • $r$ 是要观察到的成功次数。
  • $p$ 是每次试验成功的概率。
  • $\binom{k-1}{r-1}$ 是组合数,表示从$k-1$次试验中选择$r-1$次成功的方式数。

特别地,当$r=1$时,负二项分布退化为几何分布。

负二项分布的期望值和方差分别是:

  • 期望值:$E[X] = \frac{r}{p}$
  • 方差:$\text{Var}(X) = \frac{r(1-p)}{p^2}$

(4)泊松分布

泊松分布(Poisson Distribution)是一种离散概率分布,用于描述在固定时间间隔或空间区域内,某事件发生的次数的概率。这种分布适用于描述平均率或强度固定、事件之间相互独立的情况。泊松分布通常用于建模计数数据,特别是当这些事件发生的频率较低时。

泊松分布的概率质量函数(PMF)定义为:

$$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}
$$

其中:

  • $X$ 是在给定时间间隔或空间区域内事件发生的次数。
  • $k$ 是可能观察到的非负整数次数($k = 0, 1, 2, \ldots$)。
  • $\lambda$ 是单位时间或单位空间内事件发生的平均次数(即事件的率或强度)。
  • $e$ 是自然对数的底数,约等于2.71828。

泊松分布的关键特性包括:

  • 它只有一个参数 $\lambda$,这个参数既是该分布的期望值也是方差,即 $E[X] = \text{Var}(X) = \lambda$。
  • 事件在不同的小时间间隔或空间区域内发生是相互独立的。
  • 事件在极短的时间间隔内同时发生的概率是可以忽略的。

6、几类重要的连续性分布

(1)均匀分布

连续均匀分布是定义在实数轴的某个区间内的所有数值上,每个数值发生的概率密度都相等。这个区间通常被表示为 $[a, b]$,其中 $a$ 是区间的下界,$b$ 是区间的上界,且 $a < b$。

连续均匀分布的概率密度函数(PDF)为:

$$
f(x) = \begin{cases}
\frac{1}{b - a} & \text{如果 } x \in [a, b] \\
0 & \text{如果 } x \notin [a, b]
\end{cases}
$$

由于概率密度在区间 $[a, b]$ 上是常数,因此这个分布称为“均匀”或“平坦”。

连续均匀分布的期望值(均值)和方差分别是:

  • 期望值:$E[X] = \frac{a + b}{2}$
  • 方差:$\text{Var}(X) = \frac{(b - a)^2}{12}$

(2)正态分布与多维正态分布

正态分布(Normal distribution),也称为高斯分布(Gaussian distribution),是连续概率分布的一种。它在统计学、自然科学及社会科学中广泛应用,因为许多自然和社会现象的随机变量近似地服从正态分布。

正态分布的概率密度函数(PDF)由以下公式给出:

$$
f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$

其中:

  • $x$ 是随机变量的值。
  • $\mu$ 是分布的均值(期望值),也是分布的中心位置。
  • $\sigma$ 是标准差,度量分布的离散程度。
  • $\pi$ 是圆周率,约等于3.14159。
  • $e$ 是自然对数的底,约等于2.71828。

正态分布的关键特性包括:

  • 形状为对称的钟形曲线,均值、中位数和众数在同一点。
  • 分布的完全性质由其均值($\mu$)和标准差($\sigma$)决定。
  • 曲线下的总面积等于1,表示概率的总和。
  • 曲线以均值为中心,左右对称。
  • 大约68%的数据值位于均值的一个标准差范围内($\mu \pm \sigma$),约95%的数据值位于两个标准差范围内($\mu \pm 2\sigma$),几乎所有(99.7%)的数据值位于三个标准差范围内($\mu \pm 3\sigma$)。

多维正态分布(Multivariate normal distribution),也称为多元高斯分布,是单变量正态分布在多维空间上的推广。在多维正态分布中,一个随机向量的各个分量可以是相关的。多维正态分布在多个领域中都有应用,包括统计学、金融学、机器学习、工程学等。

一个$n$维随机向量$\mathbf{X} = (X_1, X_2, \dots, X_n)$服从多维正态分布,如果它的概率密度函数可以写为:

$$
f(\mathbf{x}; \mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{\sqrt{(2\pi)^n |\mathbf{\Sigma}|}} \exp\left( -\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) \right)
$$

其中:

  • $\mathbf{x}$ 是一个$n$维向量,表示随机变量的一个实例。
  • $\mathbf{\mu}$ 是一个$n$维向量,表示各个分量的均值。
  • $\mathbf{\Sigma}$ 是一个$n \times n$的协方差矩阵,表示随机变量分量之间的协方差。
  • $|\mathbf{\Sigma}|$ 是协方差矩阵的行列式。
  • $\mathbf{\Sigma}^{-1}$ 是协方差矩阵的逆矩阵。

多维正态分布的特点包括:

  • 每个分量$X_i$本身是正态分布的。
  • 任意线性组合的分量也服从正态分布。
  • 分量之间的相关性是通过协方差矩阵$\mathbf{\Sigma}$来描述的。

协方差矩阵的对角线元素$\Sigma_{ii}$表示第$i$个分量的方差,而非对角线元素$\Sigma_{ij}$表示第$i$个分量和第$j$个分量的协方差。如果协方差矩阵是对角阵(主对角线之外的元素全都为零的矩阵),这意味着随机向量的各个分量是相互独立的。

(3)对数正态分布

如果随机变量 $X$ 服从对数正态分布,那么 $\ln(X)$ 服从正态分布。设 $\ln(X)$ 的正态分布的参数是均值 $\mu$ 和标准差 $\sigma$,则 $\ln(X)$ 的概率密度函数为:

$$
f_{\ln(X)}(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
$$

这是一个正态分布的概率密度函数。然而,$X$ 的概率密度函数需要通过变量变换得到。由于 $X = e^{\ln(X)}$,我们可以使用变量变换的方法来找到 $X$ 的概率密度函数。变量变换公式如下:

$$
f_X(x) = f_{\ln(X)}(\ln(x)) \left| \frac{d}{dx} \ln(x) \right| = \frac{1}{x\sigma\sqrt{2\pi}} \exp\left(-\frac{(\ln(x) - \mu)^2}{2\sigma^2}\right), \quad x > 0
$$

其中 $\mu$ 和 $\sigma$ 是 $\ln(X)$ 的均值和标准差,不是 $X$ 的均值和标准差。对数正态分布的特点包括:

  • $X$ 的取值范围为 $(0, \infty)$。
  • 分布是偏斜的,右尾(正向偏斜)较长。
  • 分布的峰态和偏度取决于 $\mu$ 和 $\sigma$ 的值。
  • 对数正态分布的均值和方差分别为 $e^{\mu + \sigma^2/2}$ 和 $(e^{\sigma^2} - 1)e^{2\mu + \sigma^2}$。

(4)指数分布

指数分布是一种连续概率分布,常用来描述独立随机事件发生的时间间隔。例如,它可以用来模拟电话呼入的时间间隔、机器零件的寿命、顾客进店的时间间隔等。指数分布是一种无记忆的分布,这意味着过去的事件不会影响未来事件的概率。

指数分布的概率密度函数(PDF)是:

$$
f(x;\lambda) =
\begin{cases}
\lambda e^{-\lambda x} & x \geq 0, \\
0 & x < 0.
\end{cases}
$$

其中,$\lambda > 0$ 是分布的参数,通常称为率参数(rate parameter),它是单位时间内平均发生事件的次数。$\frac{1}{\lambda}$ 是该分布的平均值或期望,也是事件发生的平均时间间隔。

指数分布的累积分布函数(CDF),即随机变量 $X$ 小于或等于 $x$ 的概率,为:

$$
F(x;\lambda) =
\begin{cases}
1 - e^{-\lambda x} & x \geq 0, \\
0 & x < 0.
\end{cases}
$$

指数分布具有以下几个重要性质:

  • 无记忆性:对于所有的 $s, t \geq 0$,指数分布满足 $P(X > s + t | X > s) = P(X > t)$。
  • 指数分布是连续随机变量的唯一无记忆分布。
  • 指数分布与泊松过程紧密相关。如果事件以恒定平均率随机且独立地发生,则事件发生的时间间隔将遵循指数分布

(5)伽玛分布与贝塔分布

伽玛分布(Gamma distribution)是一种连续概率分布,它是指数分布的推广,用于描述多个独立指数事件发生所需的等待时间。伽玛分布由两个参数控制:形状参数 $\alpha$(有时也用 k 或 n 表示)和尺度参数 $\beta$(有时也用 $\theta$ 表示)。当形状参数 $\alpha$ 为正整数时,伽玛分布也称为爱尔朗分布。

伽玛分布的概率密度函数(PDF)定义为:

$$
f(x;\alpha,\beta) = \frac{x^{\alpha-1}e^{-x/\beta}}{\beta^\alpha\Gamma(\alpha)}, \quad x > 0, \alpha > 0, \beta > 0
$$

其中 $\Gamma(\alpha)$ 是伽玛函数,它对于正整数参数等于 $(\alpha-1)!$。

伽玛分布的几个特殊情况包括:

  • 当 $\alpha = 1$ 时,伽玛分布就是参数为 $\lambda = 1/\beta$ 的指数分布。
  • 当 $\alpha$ 是正整数时,伽玛分布描述了 $\alpha$ 个独立且相同分布的指数随机变量的和的分布,这种情况下的伽玛分布也被称为爱尔朗分布。

伽玛分布的累积分布函数(CDF)没有简单的封闭形式,但可以通过下面的不完全伽玛函数来表示:

$$
F(x;\alpha,\beta) = \frac{\gamma(\alpha, x/\beta)}{\Gamma(\alpha)}
$$

其中 $\gamma(\alpha, x)$ 是下不完全伽玛函数。

伽玛分布的期望值和方差分别是:

$$
\text{E}[X] = \alpha\beta
$$

$$
\text{Var}[X] = \alpha\beta^2
$$

贝塔分布(Beta distribution)是定义在区间 $[0, 1]$ 上的一种连续概率分布,它由两个正参数 $\alpha$ 和 $\beta$ 控制,通常用来作为随机变量的先验分布,特别是在贝叶斯统计中,它可以表示固定区间内的概率的不确定性。

贝塔分布的概率密度函数(PDF)是:

$$
f(x;\alpha,\beta) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}
$$

对于 $0 \leq x \leq 1$,其中 $B(\alpha,\beta)$ 是贝塔函数,它是伽玛函数的一个特殊形式,定义为:

$$
B(\alpha,\beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}
$$

贝塔分布的形状取决于参数 $\alpha$ 和 $\beta$:

  • 当 $\alpha = \beta = 1$ 时,贝塔分布是均匀分布。
  • 当 $\alpha > 1$ 且 $\beta > 1$ 时,分布是单峰的,其中峰值(众数)位于 $(\alpha - 1)/(\alpha + \beta - 2)$。
  • 当 $\alpha < 1$ 且 $\beta < 1$ 时,分布在 $0$ 和 $1$ 处有两个峰值,中间是凹陷的。
  • 当 $\alpha > 1$ 且 $\beta < 1$ 时,分布是偏向 $1$ 的。
  • 当 $\alpha < 1$ 且 $\beta > 1$ 时,分布是偏向 $0$ 的。

贝塔分布的期望值和方差分别是:

$$
\text{E}[X] = \frac{\alpha}{\alpha + \beta}
$$

$$
\text{Var}[X] = \frac{\alpha \beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}
$$

7、条件分布与条件数期望

(1)条件分布

条件分布(Conditional distribution)是给定一个或多个事件发生的条件下,随机变量的分布。在统计学和概率论中,条件分布是理解和描述随机变量之间依赖关系的重要工具。

假设有两个连续随机变量 $X$ 和 $Y$,它们的联合概率密度函数为 $f(x, y)$。$X$ 的边缘概率密度函数是 $f_X(x)$,$Y$ 的边缘概率密度函数是 $f_Y(y)$。如果我们想找到给定 $Y=y$ 的条件下 $X$ 的条件概率密度函数,我们可以使用以下公式:

$$
f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)}
$$

其中 $f_{X|Y}(x|y)$ 是 $X$ 的条件概率密度函数,给定 $Y=y$。

类似地,如果我们想找到给定 $X=x$ 的条件下 $Y$ 的条件概率密度函数,我们可以使用:

$$
f_{Y|X}(y|x) = \frac{f(x, y)}{f_X(x)}
$$

对于离散随机变量,条件概率质量函数(PMF)的定义类似,只是使用概率质量函数而不是概率密度函数,并且用求和代替积分来计算边缘概率。

在贝叶斯统计中,条件分布是特别重要的,因为它允许我们更新关于未知参数的知识,给定新的数据或证据。例如,后验分布是给定数据的参数的条件分布,可以表示为:

$$
f(\theta|data) = \frac{f(data|\theta)f(\theta)}{f(data)}
$$

其中 $f(\theta|data)$ 是后验分布,$f(data|\theta)$ 是似然函数,$f(\theta)$ 是先验分布,$f(data)$ 是边缘似然。

条件分布可以帮助我们理解变量之间的关系,并且在建模和推断中扮演着中心角色。

(2)条件数期望

条件数期望,通常称为条件期望(Conditional Expectation),是指在给定另一个随机变量的值或者某个事件发生的情况下,一个随机变量的期望值。条件期望本身也是一个随机变量,因为它依赖于条件变量的值。

对于离散随机变量,如果我们有两个随机变量 $X$ 和 $Y$,并且我们想要计算在给定 $Y=y$ 的情况下 $X$ 的条件期望,我们可以使用以下公式:

$$
E[X | Y = y] = \sum_{x} x \cdot P(X = x | Y = y)
$$

其中 $P(X = x | Y = y)$ 是在 $Y=y$ 条件下 $X=x$ 的条件概率。

对于连续随机变量,条件期望的定义通过条件概率密度函数来表示:

$$
E[X | Y = y] = \int x \cdot f_{X|Y}(x|y) \,dx
$$

其中 $f_{X|Y}(x|y)$ 是给定 $Y=y$ 时 $X$ 的条件概率密度函数。

在多变量的情况下,条件期望可以提供给定其他变量值时,某个随机变量的平均行为。条件期望的一个重要性质是它的线性,即如果 $X$ 和 $Y$ 是随机变量,$a$ 和 $b$ 是常数,则:

$$
E[aX + bY | Z] = aE[X | Z] + bE[Y | Z]
$$

二、随机过程基本知识

1、随机过程的定义

(1)最小$\delta$ 代数

最小 $\delta$-代数(或最小 $\sigma$-代数)指的是包含特定集合族的最小 $\sigma$-代数。$\sigma$-代数是一类集合的集合,它满足以下性质:

  • 空集是 $\sigma$-代数的元素。
  • 如果某个集合属于 $\sigma$-代数,则其补集也属于 $\sigma$-代数。
  • 如果一系列集合(可数无限多个)属于 $\sigma$-代数,则这些集合的并集也属于 $\sigma$-代数。

(2)随机过程的定义

2、随机过程的分类与举例

3、随机过程的有限维分布族与数学特征

三、布朗运动

1、布朗运动的性质

布朗运动(Brownian motion),也称为维纳过程(Wiener process),是一个连续时间随机过程。

它可以用以下特性来定义:

(1)**起始条件**:$W(0) = 0$。这意味着维纳过程在时间$t = 0$时从原点开始。

(2)**独立增量**:对于任意的$0 \leq s < t$,增量$W(t) - W(s)$与过程在时间$s$之前的行为独立。

(3)**正态分布增量**:对于$0 \leq s < t$,增量$W(t) - W(s)$服从均值为$0$、方差为$t - s$的正态分布,即$W(t) - W(s) \sim \mathcal{N}(0, t - s)$。

(4)**连续路径**:维纳过程的样本路径几乎必然是连续的,没有跳跃。

(5)**无处可微**:尽管样本路径是连续的,但几乎必然在任何点上都不可微。

除了上述基本属性,维纳过程还具有其他重要的数学性质:

  • **自相似性**:维纳过程在适当的缩放下是不变的。如果$ W(t) $是一个维纳过程,那么对于任何正常数$ a $,过程$ \frac{1}{\sqrt{a}} W(at) $也是一个维纳过程。
  • **鞅性质**:维纳过程是一个鞅,这意味着对于任何时间$ t $,在给定之前所有信息的条件下,$ W(t) $的期望值等于当前值。也就是说,$ E[W(t) | \mathcal{F}_s] = W(s) $,其中$ s < t $,$ \mathcal{F}_s $是过程直到时间$ s $的信息。
  • **四阶矩的连续性**:尽管维纳过程的路径不可微,但其四阶矩(即$ E[W(t)^4] $)是连续的。实际上,$ E[W(t)^4] = 3t^2 $。

2、布朗运动样本轨迹的不可微性

3、与布朗运动相关的随机过程

4、布朗运动的逼近与仿真

四、跳跃随机过程

1、泊松过程的基本性质

泊松过程是一种用来模拟在连续时间内随机事件发生次数的随机过程。它是一种计数过程,其中的计数可以表示为一系列随机事件的累积次数。泊松过程具有一些独特的基本性质,使其成为许多领域中理想的随机模型:

(1)**独立增量**:泊松过程的增量是独立的,这意味着任何两个不重叠时间间隔内事件发生的次数是相互独立的。

(2)**平稳增量**:泊松过程的增量是平稳的,即事件在任何相等长度的时间间隔内发生的概率分布是相同的,不依赖于时间间隔的具体位置。

(3)**无后效性**:泊松过程是无记忆的,也就是说,未来的事件发生与过去发生的事件无关,仅与当前状态有关。例如,一个事件发生后,下一个事件发生的概率不依赖于上一个事件发生的时间。

(4)**事件的稀疏性**:在任何足够短的时间间隔内,两个或两个以上事件同时发生的概率几乎为零。这意味着在极短的时间内,要么一个事件发生,要么没有事件发生。

(5)**泊松分布的增量**:泊松过程在任何固定时间间隔内的事件数遵循泊松分布。如果泊松过程的平均事件率是 $\lambda$(即单位时间内的平均事件数),那么在时间间隔 $t$ 内观察到 $k$ 个事件的概率由下式给出:
$$ P(N(t) = k) = \frac{e^{-\lambda t}(\lambda t)^k}{k!} $$
其中,$N(t)$ 是时间 $t$ 时的计数。

(6)**随机时间间隔的指数分布**:泊松过程中两个连续事件之间的时间间隔遵循指数分布。如果平均事件率是 $\lambda$,那么两个事件之间时间间隔的概率密度函数为:
$$ f(t) = \lambda e^{-\lambda t} $$
这表明较短的时间间隔比较长的时间间隔更有可能发生。

2、泊松过程跳的0-1律

泊松过程的0-1律是指在极短的时间间隔内,要么恰好发生一个事件,要么一个事件也不发生,而同时发生两个或两个以上事件的概率几乎为零。这是泊松过程“稀疏性”属性的一个直接结果。

更正式地说,对于任何给定的泊松过程,其参数为 $\lambda$(即单位时间内平均发生事件的次数),在非常小的时间间隔 $\Delta t$ 内,可以得到以下概率:

- 恰好发生一个事件的概率约为 $\lambda \Delta t$。
- 一个事件也不发生的概率约为 $1 - \lambda \Delta t$。
- 发生两个或更多事件的概率是 $\Delta t$ 的高阶无穷小,可以表示为 $o(\Delta t)$。

当 $\Delta t \to 0$ 时,发生两个或更多事件的概率趋于零,这就是所谓的0-1律。这表明,在极短的时间内,泊松过程几乎不可能有多于一个事件发生。这个性质是建立在事件发生是相互独立的假设上的,并且是泊松过程的标准特性之一。它在数学上可以通过泊松分布的定义来证明,因为泊松分布的概率质量函数在 $k \geq 2$ 时,随着 $\Delta t$ 的减小,概率迅速趋于零。

3、复合泊松过程

复合泊杽过程的定义如下:

设 $N(t)$ 为一个泊松过程,它的参数为 $\lambda$,表示单位时间内事件发生的平均次数。另外,设 $\{X_i\}_{i=1}^\infty$ 为一列独立同分布的随机变量,它们与 $N(t)$ 独立,代表每个事件发生时相应的随机量的大小。则复合泊松过程 $S(t)$ 定义为:

$$
S(t) = \sum_{i=1}^{N(t)} X_i
$$

其中,$S(t)$ 表示在时间 $t$ 内所有事件的随机量的累积总和。

4、泊松点过程

泊松点过程是泊松过程在多维空间的推广,它假设每个点独立随机地分布在空间中。

泊松点过程通常由两个参数来描述:

  • **强度(或密度)参数** $\lambda$:在一维情况下,这表示单位长度上的平均点数。在高维空间中,它可以是单位面积或单位体积上的平均点数。
  • **空间区域**:这是点可以出现的区域,例如在时间轴上的一个区间,在二维空间中的一个面积,在三维空间中的一个体积等。

在数学定义上,如果 $N(A)$ 表示在区域 $A$ 中点的数量,那么对于任何不相交的区域 $A_1, A_2, \ldots, A_n$,随机变量 $N(A_1), N(A_2), \ldots, N(A_n)$ 是相互独立的,并且对于任何区域 $A$,$N(A)$ 遵循参数为 $\lambda \cdot m(A)$ 的泊松分布,其中 $m(A)$ 表示区域 $A$ 的测量(例如长度、面积或体积)。

五、平衡过程

1、平衡过程的定义

平稳过程(Stationary Process)是随机过程的一个重要类别,其统计特性不随时间变化。根据平稳性的强度,平稳过程可以分为两类:严格(强)平稳过程和宽(弱)平稳过程。

(1)**严格(强)平稳过程**:如果一个随机过程的所有统计性质都与时间起点的选择无关,则该过程是严格平稳的。这意味着对于任何时间点 $t_1, t_2, \ldots, t_n$ 和任何时间差 $\tau$,随机变量 $X(t_1), X(t_2), \ldots, X(t_n)$ 的联合分布与 $X(t_1 + \tau), X(t_2 + \tau), \ldots, X(t_n + \tau)$ 的联合分布相同。

(2)**宽(弱)平稳过程**:如果一个随机过程的一阶和二阶矩(即均值和自协方差函数)不随时间变化,则该过程是宽平稳的。具体来说,一个宽平稳过程需要满足以下条件:

  • 均值函数 $\mu_X(t) = E[X(t)]$ 是常数,不依赖于时间 $t$。
  • 自协方差函数 $C_X(t + \tau, t) = E[(X(t + \tau) - \mu_X)(X(t) - \mu_X)]$ 仅依赖于时间间隔 $\tau$,而不依赖于具体的时间点 $t$。
  • 方差函数必须是有限的,即对于任何时间点 $t$,随机变量 $X(t)$ 的方巧 $Var[X(t)]$ 是有限的。这是确保自协方差函数 $C_X(t + \tau, t)$ 有意义的一个条件,因为自协方差函数在 $\tau = 0$ 时就是方差。

2、平衡过程的相关函数

(1)**自相关函数**:

自相关函数是宽平稳过程中随机变量与其自身在不同时间点的相关性度量。对于宽平稳过程 $X(t)$,自相关函数 $R_X(\tau)$ 定义为:

$$
R_X(\tau) = E[X(t) \cdot X(t+\tau)]
$$

其中 $E[\cdot]$ 表示期望值,$\tau$ 是时间间隔。由于过程是平稳的,这个期望值不依赖于时间 $t$,而只依赖于时间间隔 $\tau$。

(2)**互相关函数**:

对于两个随机过程 $X(t)$ 和 $Y(t)$,互相关函数衡量的是两个过程在不同时间点的值之间的相关性。对于宽平稳过程,互相关函数 $R_{XY}(\tau)$ 定义为:

$$
R_{XY}(\tau) = E[X(t) \cdot Y(t+\tau)]
$$

同样地,互相关函数只依赖于时间间隔 $\tau$,而不依赖于具体的时间点 $t$。

3、平衡过程的各态历经性

一个各态历经的过程允许我们从一个足够长的单个样本函数中估计整个过程的统计特性。

对于一个平稳过程,各态历经性意味着时间平均等于集合平均。例如,考虑一个平稳随机过程 $X(t)$,它的均值由集合平均给出:

$$
\mu_X = E[X(t)]
$$

如果过程是各态历经的,那么对于任意一个样本函数 $x(t)$,其时间平均也会趋于该均值:

$$
\lim_{T \to \infty} \frac{1}{T} \int_{0}^{T} x(t) dt = \mu_X
$$

同样,对于自相关函数,一个平稳且各态历经的过程满足:

$$
R_X(\tau) = E[X(t)X(t+\tau)] = \lim_{T \to \infty} \frac{1}{T} \int_{0}^{T} x(t)x(t+\tau) dt
$$

各态历经性是一个强条件,它不仅要求过程是平稳的,还要求过程的每一个样本函数都能代表整个过程的统计特性。在实际应用中,这个性质非常有用,因为它允许我们基于单个实现的时间平均来估计整个过程的统计参数,如均值、方差和自相关函数等。

4、平稳过程的功率谱密度

平稳随机过程的功率谱密度(Power Spectral Density,PSD)是描述该过程频率内容的函数,它是过程自相关函数的傅里叶变换。功率谱密度提供了一个随机信号功率分布在频率域上的描述,是信号处理和系统分析中的一个重要工具。

对于一个连续时间的宽平稳随机过程 $X(t)$,其自相关函数 $R_X(\tau)$ 表示为:

$$
R_X(\tau) = E[X(t)X(t+\tau)]
$$

功率谱密度 $S_X(f)$ 可以通过自相关函数的傅里叶变换得到:

$$
S_X(f) = \int_{-\infty}^{\infty} R_X(\tau) e^{-j2\pi f\tau} d\tau
$$

其中,$f$ 是频率,$j$ 是虚数单位。这个关系也是可逆的,即可以通过功率谱密度来求得自相关函数,这是通过傅里叶逆变换实现的:

$$
R_X(\tau) = \int_{-\infty}^{\infty} S_X(f) e^{j2\pi f\tau} df
$$

这种变换关系表明,自相关函数和功率谱密度是傅里叶变换对,它们在时间域和频率域中提供了随机过程的等价描述。

功率谱密度有以下几个重要性质:

(1) **实数性**:由于自相关函数是偶函数($R_X(\tau) = R_X(-\tau)$),功率谱密度是实数函数。

(2)**非负性**:对于所有的频率,功率谱密度都是非负的,即 $S_X(f) \geq 0$。

(3)**总功率**:过程的总平均功率可以通过功率谱密度在所有频率上积分得到,即 $E[X^2(t)] = R_X(0) = \int_{-\infty}^{\infty} S_X(f) df$。

(4)**带宽**:功率谱密度的分布可以用来定义信号的带宽。通常信号的主要能量集中在某个频率范围内,这个范围可以被视为信号的带宽。

在离散时间随机过程中,功率谱密度的概念也是适用的,不过自相关函数和功率谱密度之间的变换关系会通过离散时间傅里叶变换(DTFT)来表达。

5、平稳过程的谱分解

6、线性系统中的平稳过程

在线性系统理论中,当一个平稳随机过程作为输入信号传递到一个线性系统时,系统的输出也是一个随机过程,其性质由输入信号和系统的特性共同决定。线性系统对随机信号的处理可以通过系统的冲击响应或频率响应来描述。

(1)线性时不变(LTI)系统

对于一个线性时不变(LTI)系统,其特性可以由冲击响应函数 $h(t)$ 或系统函数 $H(f)$(即频率响应)来描述。冲击响应函数是系统对冲击信号(即单位脉冲信号)的响应,而系统函数是冲击响应函数的傅里叶变换。

(2)输入和输出关系

如果一个平稳随机过程 $X(t)$ 作为输入传递到一个LTI系统,输出过程 $Y(t)$ 可以通过卷积积分得到:

$$
Y(t) = (h * X)(t) = \int_{-\infty}^{\infty} h(\tau)X(t - \tau) \, d\tau
$$

在频率域,这个关系可以表示为:

$$
Y(f) = H(f)X(f)
$$

这里的 $X(f)$ 和 $Y(f)$ 分别是输入和输出过程的傅里叶变换。

(3)功率谱密度的变换

由于输出是输入和系统冲击响应的卷积,输出的功率谱密度 $S_Y(f)$ 可以通过输入的功率谱密度 $S_X(f)$ 与系统函数的幅度平方 $|H(f)|^2$ 相乘得到:

$$
S_Y(f) = |H(f)|^2 S_X(f)
$$

这个结果说明,线性系统以一种特定的方式修改通过它的随机信号的频率成分。系统函数的幅度平方 $|H(f)|^2$ 被称为系统的频率响应或传递函数的幅度平方,它决定了不同频率成分是如何被放大或衰减的。

(4)输出过程的性质

  • 如果输入过程是宽平稳的,且系统是稳定的(即其冲击响应是绝对可积的),那么输出过程也是宽平稳的。
  • 如果输入过程是严格平稳的,那么只要系统是因果的和稳定的,输出过程也是严格平稳的。

六、离散时间马尔可夫链

1、可尔可夫链的定义

马尔可夫链(Markov chain)是一种随机过程,它具有“无记忆”的性质,即系统的下一个状态只依赖于当前状态,而与之前的历史状态无关。这种性质被称为马尔可夫性质或马尔可夫假设。

马尔可夫链可以是离散时间的(例如,基于时间步的系统)或连续时间的(例如,随机事件发生的系统),并且它们的状态空间可以是离散的(有限或可数无限多的状态)或连续的。在最常见的形式中,我们考虑的是离散时间和离散状态空间的马尔可夫链。

一个离散时间马尔可夫链可以通过以下元素来定义:

  • **状态空间**:一个集合 $S=\{s_1, s_2, \ldots, s_n\}$,其中包含所有可能的状态。状态空间可以是有限的或无限的。
  • **初始概率分布**:一个向量 $\pi=(\pi_1, \pi_2, \ldots, \pi_n)$,其中 $\pi_i$ 表示在时间 $t=0$ 时系统处于状态 $s_i$ 的概率。
  • **转移矩阵**:一个 $n \times n$ 的矩阵 $P$,其中的元素 $P_{ij}$ 表示从状态 $s_i$ 转移到状态 $s_j$ 的一步转移概率。对于所有的 $i$ 和 $j$,有 $0 \leq P_{ij} \leq 1$,并且每一行的和等于1,即 $\sum_{j=1}^n P_{ij} = 1$。

马尔可夫链的核心性质是马尔可夫性质,数学上可以表述为:

$$
P(X_{t+1} = s_j | X_t = s_i, X_{t-1} = s_{i_{t-1}}, \ldots, X_0 = s_{i_0}) = P(X_{t+1} = s_j | X_t = s_i)
$$

这意味着,给定当前状态 $X_t = s_i$,未来的状态 $X_{t+1}$ 与过去的状态序列 $X_{t-1}, \ldots, X_0$ 无关。

2、马尔可夫链的概率分布

(1)初始概率分布

初始概率分布是马尔可夫链在时间 $t = 0$ 时的状态概率分布。通常表示为一个向量 $\pi^{(0)} = (\pi_1^{(0)}, \pi_2^{(0)}, \ldots, \pi_n^{(0)})$,其中 $\pi_i^{(0)}$ 表示系统在时间 $t = 0$ 开始时位于状态 $i$ 的概率。初始概率分布必须满足以下条件:

  • 所有的概率都是非负的:$\pi_i^{(0)} \geq 0$ 对于所有 $i$;
  • 概率之和为1:$\sum_{i=1}^n \pi_i^{(0)} = 1$。

(2)转移概率分布

转移概率分布由转移矩阵 $P$ 描述,其中 $P_{ij}$ 是从状态 $i$ 转移到状态 $j$ 的一步转移概率。转移矩阵满足以下条件:

  • 所有的转移概率都是非负的:$P_{ij} \geq 0$ 对于所有 $i, j$;
  • 每一行的概率之和为1:$\sum_{j=1}^n P_{ij} = 1$ 对于所有 $i$。

(3)时间演化和概率分布

随着时间的推移,马尔可夫链的状态概率分布会根据转移矩阵进行更新。如果我们用 $\pi^{(t)}$ 表示时间 $t$ 的状态概率分布,则从时间 $t$ 到时间 $t+1$ 的更新可以通过矩阵乘法来进行:

$$
\pi^{(t+1)} = \pi^{(t)} P
$$

这意味着,要得到下一时间步的概率分布,我们可以将当前的概率分布向量左乘转移矩阵。

随着时间的推移,马尔可夫链可能会收敛到一个稳态分布,这个分布是转移矩阵的特征向量,并满足:

$$
\pi^{*} P = \pi^{*}
$$

其中 $\pi^{*}$ 是稳态分布。在稳态分布下,系统的状态概率不再随时间变化。

3、马尔可夫链的状态分布

(1)状态类型定义

(2)状态类型判别

(3)状态之间的关系

(4)状态空间的分解

4、转移概率的极限与平衡分布

(1)转移概率的极限

对于一个马尔可夫链,我们感兴趣的是当 $n$ 趋向于无穷大时,$n$ 步转移概率矩阵 $P^n$ 的行为。在某些条件下,$P^n$ 会趋向于一个极限矩阵。这个极限矩阵的每一行都是相同的,并且给出了从任何初始状态出发,在长期内状态出现的概率分布。

(2)平衡分布(稳态分布)

一个马尔可夫链的平衡分布或稳态分布是一个概率分布 $\pi$,满足以下条件:

$$
\pi P = \pi
$$

这意味着如果系统处于平衡分布,那么经过一步转移之后,系统的分布不会改变。在数学上,平衡分布是转移矩阵的左特征向量,对应于特征值 1。

(3)极限与平衡分布的关系

如果一个马尔可夫链是遍历的,那么:

  • 存在一个唯一的平衡分布 $\pi$。
  • 对于任何初始分布 $\mu$,我们有 $\lim_{n \to \infty} \mu P^n = \pi$。

也就是说,无论系统最初处于什么状态,随着时间的推移,系统的状态分布都会趋向于平衡分布。

(4) 遍历性和非遍历性

  • **遍历性**:如果一个马尔可夫链有一个唯一的平衡分布,并且对于任何初始分布,链都会收敛到这个分布,那么这个链是遍历的。
  • **非遍历性**:如果一个马尔可夫链没有唯一的平衡分布,或者它不收敛到一个唯一的分布,那么这个链是非遍历的。在这种情况下,可能存在多个平衡分布,或者链的行为可能依赖于初始状态。

5、马尔可夫链的模拟与计算

七、连续时间马尔可夫链

1、基本概念

(1)定义

(2)转移概率函数

在连续时间马尔可夫链(CTMC)中,转移概率函数 $P(t)$ 描述了在时间 $t$ 内系统从状态 $i$ 转移到状态 $j$ 的概率。这个函数是时间的函数,并且对于每个固定的时间 $t$,$P(t)$ 都是一个概率矩阵。对于任意两个状态 $i$ 和 $j$,$P_{ij}(t)$ 表示在时间 $t$ 内从状态 $i$ 转移到状态 $j$ 的概率。

转移概率函数的性质:

  • **初始条件**:$P(0)$ 是单位矩阵 $I$,因为在时间 $t = 0$ 时,系统保持在其初始状态的概率是1。
  • **Chapman-Kolmogorov方程**:对于任意时间 $s$ 和 $t$,转移概率函数满足

    $$
    P(t + s) = P(t)P(s)
    $$

    这意味着系统在时间 $t + s$ 内从状态 $i$ 到状态 $j$ 的转移概率可以通过考虑所有可能的中间状态 $k$ 并将从 $i$ 到 $k$ 的转移概率与从 $k$ 到 $j$ 的转移概率相乘然后求和来计算。

  • **Kolmogorov微分方程**:转移概率函数满足Kolmogorov向前和向后微分方程,这两组方程描述了转移概率如何随时间变化。

(3)状态分类与状态空间分解

2、转移强度矩阵

(1)转移概率的可微性

  • **Kolmogorov微分方程**:$P(t)$ 的可微性是由Kolmogorov向前和向后微分方程保证的。这些方程表明,转移概率矩阵 $P(t)$ 关于时间 $t$ 是可微的,并且它们的导数可以通过转移率矩阵 $Q$ 来表示。
  • **Kolmogorov向前微分方程**:

    $$
    \frac{dP(t)}{dt} = P(t)Q
    $$

    这个方程说明了转移概率矩阵 $P(t)$ 关于时间的导数是 $P(t)$ 和转移率矩阵 $Q$ 的乘积。这个方程保证了 $P(t)$ 关于时间的每一点都是可微的,只要 $Q$ 是有限的并且 $P(t)$ 存在。

  • **Kolmogorov向后微分方程**:

    $$
    \frac{dP(t)}{dt} = QP(t)
    $$

    这个方程与向前方程类似,但是 $Q$ 在乘积中的位置不同。向后方程同样保证了 $P(t)$ 的可微性。

  • **矩阵指数函数**:如果我们使用矩阵指数函数来表示 $P(t)$:

    $$
    P(t) = e^{Qt}
    $$

    这里 $e^{Qt}$ 通过泰勒级数定义,是无限可微的。这是因为矩阵指数函数是通过无限级数定义的,每一项都是关于 $t$ 的多项式,而多项式函数是无限可微的。

  • **连续性和可微性**:连续时间马尔可夫链的转移概率函数不仅是可微的,而且通常是连续的。这意味着随着时间的变化,转移概率平滑地变化,没有跳跃或不连续的点。

(2)转移强度矩阵

在连续时间马尔可夫链(CTMC)中,转移强度矩阵(也称为速率矩阵或生成器矩阵),记作 $Q$,是一个描述状态之间转移强度(即转移速率)的方阵。该矩阵的元素具有以下特性:

  • **非对角线元素**:$Q_{ij}$(对于 $i \neq j$)表示系统在极小时间内从状态 $i$ 转移到不同状态 $j$ 的速率。这些元素必须是非负的,因为它们代表了转移的速率。
  • **对角线元素**:$Q_{ii}$ 是负的,其绝对值等于系统从状态 $i$ 转移到任何其他状态的速率之和。换句话说,$Q_{ii} = -\sum_{j \neq i} Q_{ij}$。这反映了状态 $i$ 被保持的速率是负的,因为系统倾向于离开这个状态。
  • **行和**:$Q$ 矩阵的每一行的和必须等于零。这是因为概率的总和必须保持为1,即系统必须转移到某个状态(包括它自己)。

转移强度矩阵 $Q$ 与转移概率矩阵 $P(t)$ 之间的关系可以通过Kolmogorov的微分方程来描述:

  • **Kolmogorov向前方程**:$\frac{dP(t)}{dt} = P(t)Q$
  • **Kolmogorov向后方程**:$\frac{dP(t)}{dt} = QP(t)$

这些方程表明,转移概率矩阵 $P(t)$ 的时间导数可以通过 $Q$ 来计算,而 $P(t)$ 本身可以通过对 $Q$ 进行矩阵指数运算来得到:

$$
P(t) = e^{Qt}
$$

(3)平稳分布

3、生灭过程及应用

八、更新过程

1、更新过程的基本概念

(1)基本概念

  • **更新时刻**:这是指更新事件发生的具体时间点。如果我们将这些时刻记为 $T_1, T_2, T_3, \ldots$,那么 $T_n$ 就是第 $n$ 次更新发生的时间。
  • **更新间隔**:这是指两个连续更新时刻之间的时间长度。通常,我们将第一个更新间隔记为 $X_1 = T_1$,第二个更新间隔记为 $X_2 = T_2 - T_1$,以此类推。在标准的更新过程中,$X_1, X_2, X_3, \ldots$ 被假设为独立同分布的随机变量。
  • **计数过程**:更新过程通常与一个计数过程 $N(t)$ 相关联,它表示在时间 $t$ 之前发生的更新次数。例如,如果在时间 $t$ 之前发生了三次更新,那么 $N(t) = 3$。
  • **更新函数**:更新函数 $M(t)$ 是指在时间 $t$ 之前所有更新间隔的总和的期望值。如果更新间隔是独立同分布的,那么 $M(t)$ 可以表示为:

    $$
    M(t) = \mathbb{E}[N(t)] = \sum_{n=1}^{\infty} P(T_n \leq t)
    $$

    这里 $P(T_n \leq t)$ 表示第 $n$ 次更新在时间 $t$ 之前发生的概率。

  • **更新定理**:更新定理提供了计数过程的长期平均行为的信息。它表明,如果更新间隔的期望值是有限的,那么随着时间 $t$ 趋向无穷大,计数过程的平均速率趋向于更新间隔的倒数:

    $$
    \lim_{t \to \infty} \frac{N(t)}{t} = \frac{1}{\mathbb{E}[X]}
    $$

    其中 $\mathbb{E}[X]$ 是单个更新间隔的期望值。

  • **遗留时间和过剩时间**:在任何给定的时间点 $t$,遗留时间(或剩余时间)是指从时间 $t$ 到下一个更新时刻的时间长度。过剩时间是指从上一个更新时刻到时间 $t$ 的时间长度。这两个随机变量的分布对于理解和建模等待时间和系统的响应时间非常关键。

2、极限定理

(1)大数定律

大数定律描述了随机变量序列平均值的收敛性质。它表明,在一定条件下,随机变量序列的算术平均值会随着序列中包含的随机变量数量的增加而趋近于期望值。大数定律有多个版本,如弱大数定律和强大数定律。

  • **弱大数定律**(Khinchin定律):如果 $(X_1, X_2, \ldots)$ 是一系列独立同分布的随机变量,且它们有公共的期望值 $\mu$ 和有限的方差,则随机变量的算术平均 $\bar{X}_n = (X_1 + X_2 + \ldots + X_n)/n$ 在概率上收敛到 $\mu$。
  • **强大数定律**(Kolmogorov定律):在更强的条件下,这个平均值不仅在概率上收敛,而且几乎必然收敛,这意味着收敛发生的概率为1。

(2)**中心极限定理**:中心极限定理是概率论中的一个核心概念,它描述了独立随机变量的和在条件适当的情况下趋近于正态分布。即使原始随机变量本身不是正态分布的,只要随机变量的数量足够多,它们的和的分布也会接近正态分布。

  • **林德伯格-列维中心极限定理**:如果 $(X_1, X_2, \ldots)$ 是一系列独立同分布的随机变量,且它们有公共的期望值 $\mu$ 和方差 $\sigma^2$,则随机变量之和的标准化形式 $\frac{1}{\sqrt{n}} \sum_{i=1}^{n} (X_i - \mu)$ 在分布上收敛到标准正态分布。

(3)**极值定理**:极值定理关注随机变量序列中的最大值或最小值的分布。它表明,在适当的条件下,随机变量序列的极值可以收敛到一定类型的极限分布,这些极限分布包括Gumbel、Frechet和Weibull分布。

(4)**泊松定理**:泊松定理是关于稀有事件的计数过程的极限定理。它表明,在适当的条件下,这些事件的计数过程趋于泊松分布。

(5)**更新定理**:在更新过程中,更新定理(也称为更新奖励定理)提供了更新次数的长期平均行为的信息。它表明,在某些条件下,随着时间的推移,更新次数的平均速率趋向于更新间隔期望值的倒数。

3、更新方程与更新定理

4、马尔可夫更新过程

九、鞅过程初步

1、关于事件域子$\delta$代数域的条件期望

(1)子$\sigma$-代数 $\mathcal{G}$

子$\sigma$-代数 $\mathcal{G}$是原始$\sigma$-代数$\mathcal{F}$的一个子集,它自己也构成一个$\sigma$-代数。$\mathcal{G}$代表了概率空间中的一部分信息。例如,在一个投掷两个骰子的实验中,$\mathcal{F}$可以包含所有可能的结果的集合,而$\mathcal{G}$可以仅包含与第一个骰子的结果相关的事件。

(2)条件期望 $E[X|\mathcal{G}]$

条件期望$E[X|\mathcal{G}]$是一个随机变量,它满足以下两个条件:

  • **$\mathcal{G}$-可测性**:$E[X|\mathcal{G}]$是一个$\mathcal{G}$-可测的随机变量,这意味着对于任何$B$属于$\mathcal{G}$,$E[X|\mathcal{G}]$的逆映射$E[X|\mathcal{G}]^{-1}(B)$也属于$\mathcal{G}$。
  • **积分性质**:对于$\mathcal{G}$中的每个事件$A$,$E[X|\mathcal{G}]$在$A$上的积分等于$X$在$A$上的积分。这可以用数学语言表达为:
    $$
    \int_A E[X|\mathcal{G}] \, dP = \int_A X \, dP, \quad \forall A \in \mathcal{G}
    $$

    这个性质表明,$E[X|\mathcal{G}]$在$\mathcal{G}$中的每个事件上保持了$X$的“平均行为”。

(3)条件期望的性质

条件期望有许多有用的性质,例如:

  • **线性**:如果$X$和$Y$是两个随机变量,$a$和$b$是常数,那么$E[aX+bY|\mathcal{G}] = aE[X|\mathcal{G}] + bE[Y|\mathcal{G}]$。
  • **迭代**:如果有三个$\sigma$-代数$\mathcal{H} \subseteq \mathcal{G} \subseteq \mathcal{F}$,那么$E[E[X|\mathcal{G}]|\mathcal{H}] = E[X|\mathcal{H}]$。
  • **取值**:如果$X$是$\mathcal{G}$-可测的,那么$E[X|\mathcal{G}] = X$。

2、离散时间鞅过程

对于离散时间的情况,鞅过程可以定义如下:

设 $(\Omega, \mathcal{F}, P)$ 是一个概率空间,并且 $\{\mathcal{F}_n\}_{n=0}^\infty$ 是一个信息量逐渐增加的$\sigma$-代数序列,即 $\mathcal{F}_0 \subseteq \mathcal{F}_1 \subseteq \mathcal{F}_2 \subseteq \cdots$,这样的序列被称为一个**过滤**(filtration)。

一个**离散时间鞅**是一个适应于过滤 $\{\mathcal{F}_n\}$ 的随机变量序列 $\{X_n\}_{n=0}^\infty$,满足以下条件:

(1)**适应性**:对于每个 $n$,$X_n$ 是 $\mathcal{F}_n$-可测的。这意味着到时间 $n$ 为止的信息决定了 $X_n$ 的值。

(2)**积分性**:对于每个 $n$,$X_n$ 是可积的,即 $E[|X_n|] < \infty$。

(3)**鞅性质**:对于所有 $n \geq 0$,有 $E[X_{n+1}|\mathcal{F}_n] = X_n$ 几乎必然成立。这意味着给定当前和过去的信息,下一时刻的期望值等于当前的值。

直观上,鞅过程可以被认为是没有“趋势”的随机过程,其中每一步的期望值都不会增加也不会减少,就像一个公平的赌博游戏一样,你的预期收益在每一轮都是零。

鞅的变体:

  • **次鞅**(Submartingale):如果对所有 $n$,有 $E[X_{n+1}|\mathcal{F}_n] \geq X_n$,则称 $\{X_n\}$ 为次鞅。
  • **超鞅**(Supermartingale):如果对所有 $n$,有 $E[X_{n+1}|\mathcal{F}_n] \leq X_n$,则称 $\{X_n\}$ 为超鞅。

3、连续时间鞅过程

设 $(\Omega, \mathcal{F}, P)$ 是一个概率空间,$\{\mathcal{F}_t\}_{t \geq 0}$ 是一个随时间增加的$\sigma$-代数序列(过滤器),即对于任意的 $0 \leq s < t$,有 $\mathcal{F}_s \subseteq \mathcal{F}_t$。

一个**连续时间鞅**是一个适应于过滤 $\{\mathcal{F}_t\}$ 的随机过程 $\{X_t\}_{t \geq 0}$,满足以下条件:

(1)**适应性**:对于每个 $t \geq 0$,$X_t$ 是 $\mathcal{F}_t$-可测的。

(2)**积分性**:对于每个 $t \geq 0$,$X_t$ 是可积的,即 $E[|X_t|] < \infty$。

(3)**鞅性质**:对于所有 $0 \leq s < t$,有 $E[X_t|\mathcal{F}_s] = X_s$ 几乎必然成立。

布朗运动是最著名的连续时间鞅过程。如果 $W_t$ 是一个标准布朗运动,则对于所有 $s < t$,有 $E[W_t | \mathcal{F}_s] = W_s$。

4、布朗运动相关过程的鞅性

(1)布朗运动 $W_t$ 具有以下性质

  • $W_0 = 0$ 几乎必然成立。
  • 对于任何 $0 \leq s < t$,增量 $W_t - W_s$ 都是均值为0、方差为 $t-s$ 的正态分布。
  • 对于任何 $0 \leq s < t$,增量 $W_t - W_s$ 与过去的历史 $\mathcal{F}_s$ 独立。

布朗运动的鞅性质可以从它的定义直接得出。由于布朗运动的增量是独立且具有零均值的,我们可以得出对于任何 $s < t$:

$$ E[W_t | \mathcal{F}_s] = E[W_t - W_s + W_s | \mathcal{F}_s] = E[W_t - W_s | \mathcal{F}_s] + E[W_s | \mathcal{F}_s] = W_s + 0 = W_s $$

这表明布朗运动 $W_t$ 是一个鞅。

(2)几何布朗运动

另一个与布朗运动相关的重要过程是几何布朗运动,它是许多金融模型的基础。几何布朗运动的形式为:

$$ S_t = S_0 \exp\left( (\mu - \frac{1}{2} \sigma^2) t + \sigma W_t \right) $$

其中,$S_0$ 是初始值,$\mu$ 是期望回报率,$\sigma$ 是波动率。尽管几何布朗运动本身不是鞅,但在某些条件下,它的贴现过程(即考虑无风险利率的影响)可以是鞅。

十、随机积分与伊藤公式

1、关于随机游动的随机积分

这种积分不同于经典的定积分,因为随机过程的路径通常不是光滑的,而是具有不可预测的变动,这导致传统的积分技术不再适用。在随机积分中,最著名的两种积分是伊藤积分和斯特拉托诺维奇积分。

(1)伊藤积分

伊藤积分是对布朗运动或更一般的伊藤过程进行积分的方法,伊藤积分的定义是基于布朗运动的样本路径的分段线性逼近。

给定一个布朗运动 $W_t$ 和一个与之相关的适应性过程 $\phi_t$(即在时间 $t$ 之前的信息都是已知的),伊藤积分定义为:

$$
I(t) = \int_0^t \phi_s \, dW_s
$$

这个积分通过以下步骤来构造:

  • **时间划分**:将时间区间 $[0,t]$ 划分为 $n$ 个小区间,每个区间的形式为 $[t_{i-1}, t_i]$。
  • **逼近**:在每个小区间上,选择一个代表点 $s^*_i$,通常取为区间的左端点 $t_{i-1}$。
  • **积分逼近**:构造积分的逼近和,即 $\sum_{i=1}^n \phi_{s^*_i} (W_{t_i} - W_{t_{i-1}})$。
  • **极限**:当划分的区间越来越小,即 $n \to \infty$,这个和的极限(在某种意义下的极限,比如 $L^2$ 极限)就定义了伊藤积分。

伊藤积分的一个关键特性是它是一个鞅,这意味着它的期望值在任何时间点都等于其初始值,假设积分核 $\phi_t$ 满足一定的条件(例如局部平方可积)。

(2)斯特拉托诺维奇积分

斯特拉托诺维奇积分(或称Stratonovich积分)是另一种随机积分,它的定义类似于伊藤积分,但在构造逼近和时,代表点 $s^*_i$ 取为每个小区间的中点 $(t_{i-1} + t_i)/2$。斯特拉托诺维奇积分与物理学中的随机过程更加契合,因为它满足链式法则,这使得在物理学中的某些问题中更加自然。

2、关于布朗运动的随机积分

3、伊藤公式

伊藤公式(Ito's Lemma)是随机过程理论中的一个基本结果,特别是在随机微积分中,它是对多元函数的泰勒展开的随机版本。伊藤公式允许我们计算一个随机过程经过一个光滑函数变换后的动态。

伊藤公式的一般形式如下。假设 $W_t$ 是一个标准布朗运动,$f(t, x)$ 是一个在两个变量上都至少二阶连续可微的函数,则对 $f$ 应用伊藤公式给出了 $f(t, W_t)$ 的微分:

$$
df(t, W_t) = \frac{\partial f}{\partial t} dt + \frac{\partial f}{\partial x} dW_t + \frac{1}{2} \frac{\partial^2 f}{\partial x^2} (dW_t)^2
$$

由于 $(dW_t)^2$ 可以用 $dt$ 来代替(因为布朗运动的二次变差等于时间的增量),我们可以将公式简化为:

$$
df(t, W_t) = \left( \frac{\partial f}{\partial t} + \frac{1}{2} \frac{\partial^2 f}{\partial x^2} \right) dt + \frac{\partial f}{\partial x} dW_t
$$

此公式的关键在于理解$(dW_t)^2$ 的处理,它在随机积分的语境下不同于一般的微积分中的 $(dx)^2 = 0$。这是因为布朗运动具有无限的变差,所以当我们计算它的二次项时,需要特别的处理。




相关推荐

一、概率论的基本概述 1、随机试验 它指的是在相同的条件下可重复进行、其结果具有不确定性的试验或过程。随机试验的结果是不可预测的,但是结果的集合是已知的。以下是随机试验的一些关键特征: **可重复性