概率论与数理统计
阅读数:389 评论数:0
跳转到新版页面分类
数学
正文
一、概率论的基本概述
它指的是在相同的条件下可重复进行、其结果具有不确定性的试验或过程。随机试验的结果是不可预测的,但是结果的集合是已知的。以下是随机试验的一些关键特征:
- **可重复性**:随机试验可以在相同的条件下重复进行多次。
- **结果的不确定性**:每次进行试验时,其结果不能提前确定。
- **结果的确定性**:尽管单次试验的结果不确定,但试验所有可能结果的集合是已知的,这个集合称为样本空间。
- **结果的互斥性**:试验的每个可能结果都是互斥的,即在一次试验中只能出现一个结果。
(1)样本空间
随机试验的所有可能结果构成的集合称为样本空间(Sample Space),通常用大写字母S表示。样本空间可以是有限的,也可以是无限的。例如,掷一枚硬币的样本空间是{正面,反面},这是一个有限样本空间。
(2)随机事件
在随机试验中,事件(Event)是样本空间的一个子集,通常用大写字母如A、B来表示。一个事件可以包含一个或多个试验结果。如果事件包含试验的单个结果,它被称为基本事件或元事件。
随机试验中,事件发生的可能性用概率(Probability)来量化。概率是一个介于0和1之间的数,包括0和1。如果一个事件的概率是0,意味着它几乎不可能发生;如果一个事件的概率是1,意味着它几乎肯定会发生。
等可能概率模型是概率论中的一个基本概念,它适用于那些每个基本事件发生的机会都相同的随机试验。在这种模型中,如果样本空间中有 $n$ 个基本事件,并且假设每个事件发生的可能性相同,那么每个基本事件发生的概率是 $\frac{1}{n}$。
(1)特点
- **均匀性**:每个结果发生的概率相同。
- **简单性**:计算各种复杂事件的概率变得简单,因为它们可以通过计数基本事件的数目来计算。
(2)公式
如果一个随机试验有 $n$ 个等可能的结果,并且事件 $A$ 包含其中的 $m$ 个结果,那么事件 $A$ 发生的概率 $P(A)$ 由下面的公式给出:
$$
P(A) = \frac{m}{n}
$$
(1)定义
条件概率通常表示为 $P(A|B)$,读作“在事件B发生的条件下事件A发生的概率”。
条件概率的定义如下:
$$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$$
其中:
- $P(A|B)$ 是在B发生的条件下A发生的概率。
- $P(A \cap B)$ 是A和B同时发生的概率。
- $P(B)$ 是B发生的概率,且 $P(B) \neq 0$。
(2)贝叶斯定理
贝叶斯定理的数学表达式如下:
$$
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
$$
其中:
- $P(A|B)$ 是在事件B发生的情况下事件A发生的条件概率,也被称为后验概率。
- $P(B|A)$ 是在事件A发生的情况下事件B发生的条件概率。
- $P(A)$ 是事件A发生的先验概率,即在没有额外信息的情况下事件A发生的概率。
- $P(B)$ 是事件B发生的概率。
为了计算分母 $P(B)$,如果事件A可以分解为若干互斥事件 $A_1, A_2, ..., A_n$,那么可以使用全概率公式:
$$
P(B) = P(B|A_1) \cdot P(A_1) + P(B|A_2) \cdot P(A_2) + ... + P(B|A_n) \cdot P(A_n)
$$
这样,贝叶斯定理可以重新写为:
$$
P(A_i|B) = \frac{P(B|A_i) \cdot P(A_i)}{\sum_{j} P(B|A_j) \cdot P(A_j)}
$$
如果两个事件A和B是独立的,那么知道B发生并不会改变A发生的概率,这意味着:
$$
P(A|B) = P(A)
$$
这同时意味着:
$$
P(A \cap B) = P(A) \cdot P(B)
$$
二、随机变量及其分布
它是对实验或随机试验结果的数值表示。随机变量通常用大写字母(如X, Y, Z)表示,它们可以取不同的值,每个值对应于试验结果的一种可能性。
随机变量分为两大类:
(1)离散随机变量:这类随机变量的可能取值是可数的,即它们的取值可以列成一个序列。例如,掷骰子的结果可以用一个离散随机变量X来表示,X的可能取值为{1, 2, 3, 4, 5, 6}。
(2)连续随机变量:这类随机变量的可能取值是不可数的,它们可以取在某个区间或整个实数线上的任何一个数值。例如,一个人的身高可以用一个连续随机变量H来表示,H的取值范围可能是从最矮的成人身高到最高的成人身高的任何数值。
对于离散型随机变量,我们可以列出一个或多个可能的结果,以及每个结果发生的概率。这种概率的列表被称为随机变量的分布律,也称为概率分布或概率质量函数(probability mass function, PMF)。
(1) 概率质量函数(PMF)
对于离散型随机变量 $X$,其概率质量函数 $p(x)$ 定义为 $X$ 取特定值 $x$ 的概率:
$$
p(x) = P(X = x)
$$
对于所有的 $x$,$p(x)$ 满足以下条件:
- $0 \leq p(x) \leq 1$,即每个概率值都在0和1之间。
- $\sum_{x} p(x) = 1$,即所有概率值之和等于1。
(2)常见的离散型随机变量分布
-
**伯努利分布**:这是一个只有两个可能结果的随机变量的分布,通常称为"成功"(通常用1表示)和"失败"(通常用0表示)。如果随机变量 $X$ 是伯努利分布,那么它的PMF是:
$$
p(x) = \begin{cases}
p & \text{if } x=1 \\
1-p & \text{if } x=0
\end{cases}
$$其中 $p$ 是成功的概率。
-
**二项分布**:当我们重复 $n$ 次独立的伯努利试验,并对成功的次数进行计数时,得到的随机变量 $X$ 遵循二项分布。其PMF为:
$$
p(x) = P(X = x) = \binom{n}{x} p^x (1-p)^{n-x}
$$其中 $x = 0, 1, 2, ..., n$,且 $p$ 是每次试验成功的概率。
-
**泊松分布**:这是一个描述在特定时间间隔或空间区域内发生某事件次数的分布。它由一个参数 $\lambda$(事件的平均发生率)决定,其PMF为:
$$
p(x) = P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}
$$其中 $x$ 可以取任何非负整数值。
-
**几何分布**:这是描述在获得第一次成功之前进行了多少次伯努利试验的分布。如果随机变量 $X$ 遵循几何分布,其PMF为:
$$
p(x) = P(X = x) = (1-p)^{x-1} p
$$其中 $x = 1, 2, 3, ...$,且 $p$ 是每次试验成功的概率。
-
**负二项分布(帕斯卡分布)**:这是几何分布的一般化,描述在获得第 $r$ 次成功之前进行了多少次伯努利试验。其PMF为:
$$
p(x) = P(X = x) = \binom{x-1}{r-1} p^r (1-p)^{x-r}
$$其中 $x = r, r+1, r+2, ...$,且 $p$ 是每次试验成功的概率。
(1)定义
它描述了随机变量取值小于或等于某个值的概率。对于任何随机变量 $X$,其分布函数 $F(x)$ 定义为:
$$
F(x) = P(X \leq x)
$$
分布函数具有以下性质:
- **单调不减**:如果 $x_1 < x_2$,那么 $F(x_1) \leq F(x_2)$。这意味着随着 $x$ 的增加,分布函数是非递减的。
- **右连续**:对于任何 $x$,函数在 $x$ 点右侧是连续的,即 $F(x+)=F(x)$。
- **极限性质**:分布函数的极限值为 $0$ 和 $1$,即
$$
\lim_{x \to -\infty} F(x) = 0 \quad \text{和} \quad \lim_{x \to \infty} F(x) = 1
$$ - **概率值**:对于任意两个数 $a$ 和 $b$,其中 $a < b$,随机变量 $X$ 在区间 $(a, b]$ 内取值的概率为
$$
P(a < X \leq b) = F(b) - F(a)
$$
(2)离散随机变量的分布函数
对于离散随机变量,分布函数是一个阶梯函数,因为随机变量的取值是离散的。在每个可能的取值点上,分布函数会有一个跳跃,跳跃的高度等于该点的概率质量。
例如,考虑随机变量 $X$,其概率质量函数 $p(x)$ 如下:
$$
p(x) = \begin{cases}
0.2 & \text{if } x = 1, \\
0.5 & \text{if } x = 2, \\
0.3 & \text{if } x = 3, \\
0 & \text{otherwise.}
\end{cases}
$$
那么分布函数 $F(x)$ 为:
$$
F(x) = \begin{cases}
0 & \text{if } x < 1, \\
0.2 & \text{if } 1 \leq x < 2, \\
0.7 & \text{if } 2 \leq x < 3, \\
1 & \text{if } x \geq 3.
\end{cases}
$$
(3)连续随机变量的分布函数
对于连续随机变量,分布函数是一个连续函数。分布函数 $F(x)$ 可以通过概率密度函数(Probability Density Function, PDF) $f(x)$ 来计算,即:
$$
F(x) = \int_{-\infty}^{x} f(t) \, dt
$$
其中 $f(x)$ 是随机变量 $X$ 的概率密度函数。
连续型随机变量的概率分布不能用分布律来描述,而是通过概率密度函数(Probability Density Function, PDF)来定义。
(1)概率密度函数(PDF)
对于连续型随机变量 $X$,其概率密度函数 $f(x)$ 满足以下条件:
$f(x) \geq 0$ 对于所有的 $x$。
$\int_{-\infty}^{\infty} f(x) \, dx = 1$,即概率密度函数在整个定义域上的积分等于1。
对于任意区间 $[a, b]$,随机变量 $X$ 落在这个区间内的概率由概率密度函数在这个区间上的积分给出:
$$
P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx
$$
概率密度函数不直接给出概率,而是给出了随机变量在某个区间上取值的概率密度。因为对于连续型随机变量,任何单一具体值的概率都是0,所以只有通过积分概率密度函数来获得随机变量落在某个区间内的概率。
(2)常见的连续型随机变量分布
- **均匀分布**:如果随机变量 $X$ 在区间 $[a, b]$ 上有相同的概率密度,并在这个区间之外的概率密度为0,则称 $X$ 有均匀分布。其概率密度函数为:
$$
f(x) = \begin{cases}
\frac{1}{b-a} & \text{if } a \leq x \leq b, \\
0 & \text{otherwise.}
\end{cases}
$$ - **正态分布(高斯分布)**:正态分布是连续型随机变量中最重要的分布之一,其概率密度函数由均值 $\mu$ 和方差 $\sigma^2$ 确定:
$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
$$ - **指数分布**:指数分布描述了独立随机事件发生的时间间隔,其概率密度函数由参数 $\lambda$ 确定,这个参数是事件发生的平均率:
$$
f(x) = \begin{cases}
\lambda e^{-\lambda x} & \text{if } x \geq 0, \\
0 & \text{if } x < 0.
\end{cases}
$$ - **$\chi^2$(卡方)分布**:$\chi^2$ 分布是统计学中常用的分布,当独立的标准正态随机变量的平方和服从 $\chi^2$ 分布。其概率密度函数依赖于自由度 $k$:
$$
f(x) = \frac{1}{2^{k/2}\Gamma(k/2)} x^{k/2 - 1} e^{-x/2}
$$
随机变量的函数分布涉及对随机变量进行一些变换,然后研究变换后随机变量的分布。如果我们有一个随机变量 $X$,并且我们定义一个新的随机变量 $Y = g(X)$,其中 $g$ 是一个函数,那么 $Y$ 的分布就是我们感兴趣的对象。
(1)离散随机变量的函数分布
如果 $X$ 是一个离散随机变量,那么我们可以通过考察 $g$ 在 $X$ 的所有可能值上的取值来确定 $Y$ 的分布。如果 $X$ 取值于集合 $\{x_1, x_2, \ldots, x_n\}$,并且 $X$ 的概率质量函数为 $p_X(x)$,那么我们可以得到 $Y$ 的概率质量函数 $p_Y(y)$,通过以下方式:
$$
p_Y(y) = P(Y = y) = P(g(X) = y) = \sum_{\{x: g(x) = y\}} p_X(x)
$$
这里的求和是对所有使得 $g(x) = y$ 成立的 $x$ 值进行的。
(2)连续随机变量的函数分布
对于连续随机变量的情形,如果 $g$ 是一个单调函数(即严格增加或严格减少),那么我们可以通过以下方式得到 $Y$ 的概率密度函数 $f_Y(y)$:
-
**单调递增函数**:如果 $g$ 是单调递增的,那么对于 $y$ 的任何值,我们有:
$$
F_Y(y) = P(Y \leq y) = P(g(X) \leq y) = P(X \leq g^{-1}(y)) = F_X(g^{-1}(y))
$$因此,$Y$ 的概率密度函数为:
$$
f_Y(y) = \frac{d}{dy}F_Y(y) = f_X(g^{-1}(y)) \left|\frac{d}{dy}g^{-1}(y)\right|
$$ -
**单调递减函数**:如果 $g$ 是单调递减的,那么对于 $y$ 的任何值,我们有:
$$
F_Y(y) = P(Y \leq y) = P(g(X) \leq y) = P(X \geq g^{-1}(y)) = 1 - F_X(g^{-1}(y))
$$因此,$Y$ 的概率密度函数为:
$$
f_Y(y) = \frac{d}{dy}F_Y(y) = f_X(g^{-1}(y)) \left|\frac{d}{dy}g^{-1}(y)\right|
$$注意,由于 $g$ 是单调递减的,$g^{-1}$ 的导数将是负的,但是我们在概率密度函数中取绝对值,因为密度函数必须是非负的。
对于非单调函数 $g$,确定 $Y$ 的分布可能会更复杂,并且可能涉及到分段函数或多个函数的反函数。在某些情况下,可能没有封闭形式的解,需要使用数值方法或模拟来估计分布。
三、多维随机变量及其分布
二维随机变量(或称为随机向量)是由两个随机变量组成的向量,通常表示为 $(X, Y)$。在二维随机变量中,$X$ 和 $Y$ 可以是离散的、连续的,或者一个离散一个连续。二维随机变量的概率分布描述了每一对可能的 $(x, y)$ 值的概率。
(1)离散二维随机变量
对于离散的二维随机变量,其概率分布可以通过联合概率质量函数(joint probability mass function,简称 jpmf)来描述,记为 $p(x, y)$,它给出了随机变量 $X$ 和 $Y$ 同时取特定值的概率:
$$
p(x, y) = P(X = x \text{ 和 } Y = y)
$$
对于所有可能的值对 $(x, y)$,联合概率质量函数满足:
$$
\sum_{x} \sum_{y} p(x, y) = 1
$$
(2)连续二维随机变量
对于连续的二维随机变量,其概率分布则通过联合概率密度函数(joint probability density function,简称 pdf)来描述,记为 $f(x, y)$。这个函数对于任意的矩形区域 $A$ 满足:
$$
P((X, Y) \in A) = \int \int_{A} f(x, y) \, dx \, dy
$$
对于整个二维平面,联合概率密度函数满足:
$$
\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) \, dx \, dy = 1
$$
对于二维随机变量 $(X, Y)$,我们还可以研究单个随机变量的分布,这称为边缘分布。
(1)对于离散随机变量,边缘概率质量函数为:
$$
p_X(x) = \sum_{y} p(x, y) \quad \text{和} \quad p_Y(y) = \sum_{x} p(x, y)
$$
(2)对于连续随机变量,边缘概率密度函数为:
$$
f_X(x) = \int_{-\infty}^{\infty} f(x, y) \, dy \quad \text{和} \quad f_Y(y) = \int_{-\infty}^{\infty} f(x, y) \, dx
$$
有时我们对在给定一个随机变量的值的情况下,另一个随机变量的分布感兴趣,这称为条件分布。例如,$X$ 给定时 $Y$ 的条件概率质量函数或密度函数分别为:
$$
p(y|x) = \frac{p(x, y)}{p_X(x)} \quad \text{对于离散随机变量}
$$
或者
$$
f(y|x) = \frac{f(x, y)}{f_X(x)} \quad \text{对于连续随机变量}
$$
如果二维随机变量 $X$ 和 $Y$ 是独立的,那么它们的联合概率分布可以表示为它们各自边缘分布的乘积:
$$
p(x, y) = p_X(x) \cdot p_Y(y) \quad \text{对于离散随机变量}
$$
或者
$$
f(x, y) = f_X(x) \cdot f_Y(y) \quad \text{对于连续随机变量}
当我们考虑两个随机变量 $X$ 和 $Y$ 的函数时,我们可能对形如 $Z = g(X, Y)$ 的新随机变量的分布感兴趣。这个问题的复杂性取决于函数 $g$ 的形式以及 $X$ 和 $Y$ 的联合分布。
以下是一些常见情况:
(1) 线性组合
如果 $Z = aX + bY$,其中 $a$ 和 $b$ 是常数,且 $X$ 和 $Y$ 是独立的,则 $Z$ 的分布可以通过 $X$ 和 $Y$ 的分布来确定。
- 如果 $X$ 和 $Y$ 是离散随机变量,那么 $Z$ 的概率质量函数可以通过卷积求得。
- 如果 $X$ 和 $Y$ 是连续随机变量,那么 $Z$ 的概率密度函数可以通过卷积积分求得。
(2)乘积
如果 $Z = XY$,且 $X$ 和 $Y$ 是独立的,则 $Z$ 的分布可以通过变换方法求得。
- 对于离散随机变量,我们需要对所有可能的 $(x, y)$ 对求和,使得 $xy = z$。
- 对于连续随机变量,我们可以使用二重积分来求解。
(3) 比率
如果 $Z = X/Y$,且 $X$ 和 $Y$ 是独立的,则 $Z$ 的分布可以通过变换方法求得。这通常涉及到计算一个二重积分。
(4)最大值和最小值
对于 $Z = \max(X, Y)$ 或 $Z = \min(X, Y)$,我们可以通过 $X$ 和 $Y$ 的联合分布来找到 $Z$ 的分布。
对于连续随机变量:
- $F_Z(z) = P(Z \leq z) = P(\max(X, Y) \leq z) = P(X \leq z \text{ 和 } Y \leq z)$
- $F_Z(z) = P(Z \leq z) = P(\min(X, Y) \leq z) = 1 - P(X > z \text{ 和 } Y > z)$
四、随机变量的数字特征
它提供了随机变量可能结果的长期平均值。数学期望是随机变量取值的概率加权平均。
对于随机变量 $X$,其数学期望记为 $E[X]$ 或 $\mu$
(1)离散随机变量
如果 $X$ 是一个离散随机变量,其可能的值为 $x_1, x_2, \ldots, x_n$,对应的概率质量函数为 $p(x_i)$,那么 $X$ 的数学期望定义为:
$$
E[X] = \sum_{i} x_i \cdot p(x_i)
$$
这里的求和是对所有可能的 $x_i$ 进行的。
(2)连续随机变量
如果 $X$ 是一个连续随机变量,其概率密度函数为 $f(x)$,那么 $X$ 的数学期望定义为:
$$
E[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx
$$
这里的积分是在整个 $X$ 的支撑集上进行的。
(3)性质
- **线性性**:如果 $a$ 和 $b$ 是常数,那么 $E[aX + b] = aE[X] + b$。
- **非线性性**:一般而言,$E[g(X)] \neq g(E[X])$,除非 $g$ 是线性函数。
- **独立性**:如果两个随机变量 $X$ 和 $Y$ 是独立的,那么 $E[XY] = E[X]E[Y]$。
(4)常见离散分布的期望
- **二项分布**:如果 $X \sim B(n, p)$,则 $E[X] = np$。
- **泊松分布**:如果 $X \sim Poisson(\lambda)$,则 $E[X] = \lambda$。
泊松分布是描述在固定时间或空间区间内发生某事件的次数的概率分布。它由一个参数 $\lambda$ 定义,表示单位时间(或单位空间)内事件平均发生的次数。泊松分布的概率质量函数(PMF)为:
$$
P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}
$$
其中 $k$ 是可能观察到的事件数($k = 0, 1, 2, \ldots$),$e$ 是自然对数的底数(约等于2.71828),而 $k!$ 是 $k$ 的阶乘。
泊松分布的期望值 $E[X]$ 可以通过它的PMF来推导:
$$
E[X] = \sum_{k=0}^{\infty} k \cdot P(X = k) = \sum_{k=0}^{\infty} k \cdot \frac{e^{-\lambda} \lambda^k}{k!}
$$
为了计算这个求和,我们可以观察到 $\lambda^k / k!$ 的形式与泊松分布的PMF相似,但少了一个 $k$ 因子。我们可以对求和中的 $k$ 进行操作,使其与泊松分布的形式对齐:
$$
E[X] = \sum_{k=0}^{\infty} k \cdot \frac{e^{-\lambda} \lambda^k}{k!} = e^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^k}{(k-1)!}
$$
注意,我们从 $k=1$ 开始求和,因为当 $k=0$ 时,$k \cdot P(X=k)$ 为0。现在,我们可以将 $\lambda^k$ 分解为 $\lambda \cdot \lambda^{k-1}$:
$$
E[X] = e^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda \cdot \lambda^{k-1}}{(k-1)!}
$$
然后我们将 $\lambda$ 提出求和符号外:
$$
E[X] = \lambda e^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1)!}
$$
现在,如果我们将求和索引变量从 $k$ 改为 $j$,其中 $j=k-1$,则求和变为:
$$
E[X] = \lambda e^{-\lambda} \sum_{j=0}^{\infty} \frac{\lambda^{j}}{j!}
$$
注意到上面的求和就是 $e^{\lambda}$ 的泰勒级数展开。因此,我们有:
$$
E[X] = \lambda e^{-\lambda} e^{\lambda} = \lambda
$$
所以泊松分布的期望值就是它的参数 $\lambda$。这意味着如果我们知道单位时间内事件平均发生的次数 $\lambda$,那么这也是我们期望在相同的时间内观察到的事件的次数。
- **几何分布**:如果 $X \sim Geometric(p)$,则 $E[X] = \frac{1}{p}$。
几何分布是描述在一系列独立的伯努利试验中,试验成功(即结果为1)之前需要进行的失败(即结果为0)次数的概率分布。如果每次试验成功的概率是 $p$,那么失败的概率就是 $1-p$。几何分布的概率质量函数(PMF)是:
$$
P(X = k) = (1-p)^k p
$$
其中 $k$ 是试验成功之前的失败次数($k = 0, 1, 2, \ldots$)。
要推导几何分布的期望值,我们可以使用期望的定义:
$$
E[X] = \sum_{k=0}^{\infty} k \cdot P(X = k) = \sum_{k=0}^{\infty} k \cdot (1-p)^k p
$$
这个无穷级数不容易直接计算,但我们可以使用一个技巧:首先考虑一个无穷级数的求和,该级数与上面的级数非常相似,即幂级数:
$$
S = \sum_{k=0}^{\infty} x^k
$$
这是一个几何级数,其和为:
$$
S = \frac{1}{1-x}
$$
只要 $|x| < 1$。我们对 $S$ 求导,得到:
$$
\frac{dS}{dx} = \sum_{k=0}^{\infty} kx^{k-1} = \frac{1}{(1-x)^2}
$$
如果我们将 $x$ 替换为 $1-p$,我们得到:
$$
\sum_{k=0}^{\infty} k(1-p)^{k-1} = \frac{1}{p^2}
$$
现在,我们将每一项乘以 $(1-p)$,得到:
$$
\sum_{k=0}^{\infty} k(1-p)^k = \frac{1-p}{p^2}
$$
最后,我们乘以 $p$ 来匹配几何分布的期望值的形式:
$$
E[X] = \sum_{k=0}^{\infty} k \cdot (1-p)^k p = \frac{1-p}{p^2} \cdot p = \frac{1-p}{p}
$$
因此,几何分布的期望值是:
$$
E[X] = \frac{1}{p} - 1
$$
这表示在成功概率为 $p$ 的伯努利试验中,我们期望在第一次成功之前会有 $\frac{1}{p} - 1$ 次失败。如果我们包括成功的那一次试验,期望的试验次数就是 $\frac{1}{p}$。
- **超几何分布**:如果 $X \sim Hypergeometric(N, K, n)$,则 $E[X] = n\frac{K}{N}$。
超几何分布是描述在不放回的情况下从有限个体中抽取样本时成功个体的数量的概率分布。设总体中有 $N$ 个个体,其中有 $K$ 个是成功的,$N-K$ 个是失败的。如果我们不放回地随机抽取 $n$ 个个体,那么抽到 $k$ 个成功个体的概率由超几何分布给出。
超几何分布的概率质量函数(PMF)为:
$$
P(X = k) = \frac{{\binom{K}{k} \binom{N-K}{n-k}}}{{\binom{N}{n}}}
$$
其中 $X$ 是成功个体的数量,$\binom{a}{b}$ 表示从 $a$ 个不同元素中无序地抽取 $b$ 个元素的组合数。
超几何分布的期望(均值)$E(X)$ 可以通过以下推导得出:
1. **直观理解**:
- 由于每次抽取都是随机的,因此每个个体被抽中的概率是相等的,即 $\frac{n}{N}$。
- 因此,期望中成功个体的数量就是总成功个体数量 $K$ 乘以每个个体被抽中的概率,即 $E(X) = K \cdot \frac{n}{N}$。
2. **数学推导**:
- 我们可以将超几何分布的期望看作是所有可能的 $k$ 值的概率加权和。
- 每个样本点被选中的期望值是 $\frac{n}{N}$,因此期望的成功次数就是总的成功个体数 $K$ 乘以每次被选中的期望值。
这样,我们得到超几何分布的期望值为:
$$
E(X) = K \cdot \frac{n}{N}
$$
- **负二项分布**(或帕斯卡分布):如果 $X \sim NB(r, p)$,则 $E[X] = \frac{rp}{1-p}$。
负二项分布是统计学中的一种离散概率分布,用于描述在一系列独立同分布的伯努利试验中,达到指定数目的成功所需的失败次数。具体来说,如果我们进行重复的独立试验,每次试验成功的概率为 $p$(失败的概率为 $1-p$),负二项分布给出了在第 $r$ 次成功之前观察到 $k$ 次失败的概率。
负二项分布的概率质量函数(PMF)为:
$$
P(X = k) = \binom{k + r - 1}{k} (1-p)^k p^r
$$
其中 $X$ 是失败次数,$r$ 是我们希望观察到的成功次数,$\binom{k + r - 1}{k}$ 是组合数,代表从 $k + r - 1$ 个不同元素中无序抽取 $k$ 个元素的方式数。
负二项分布可以看作是 $r$ 个独立的几何分布的和,其中每个几何分布代表到达下一次成功之前的失败次数。
几何分布的期望值是 $\frac{1-p}{p}$。
因此,负二项分布的期望值是 $r$ 个几何分布期望值的和。
我们可以很容易地得出负二项分布的期望值:
$$
E(X) = r \cdot \frac{1-p}{p}
$$
(5)常见连续分布的期望
- **均匀分布**:如果 $X \sim U(a, b)$,则 $E[X] = \frac{a+b}{2}$。
- **指数分布**:如果 $X \sim Exponential(\lambda)$,则 $E[X] = \frac{1}{\lambda}$。
指数分布是描述在某些连续时间过程中,事件发生的时间间隔的概率分布。它是泊松过程的时间间隔分布,其中泊松过程是描述单位时间内随机事件发生次数的模型。
如果随机变量 $X$ 服从参数为 $\lambda$ 的指数分布,则其概率密度函数(PDF)为:
$$
f(x; \lambda) =
\begin{cases}
\lambda e^{-\lambda x}, & x \geq 0, \\
0, & x < 0.
\end{cases}
$$
这里 $\lambda > 0$ 是率参数,它描述了事件发生的平均速率。指数分布的期望值(均值)可以通过积分来计算。期望值的定义为:
$$
E(X) = \int_{0}^{\infty} x f(x; \lambda) \, dx
$$
将指数分布的PDF代入,我们得到:
$$
E(X) = \int_{0}^{\infty} x \lambda e^{-\lambda x} \, dx
$$
为了解这个积分,我们可以使用分部积分法。分部积分法的公式是:
$$
\int u \, dv = uv - \int v \, du
$$
在这个情况下,我们可以选择 $u = x$ 和 $dv = \lambda e^{-\lambda x} \, dx$。则 $du = dx$ 和 $v = -e^{-\lambda x}$。应用分部积分法,我们得到:
$$
E(X) = \left[ -xe^{-\lambda x} \right]_{0}^{\infty} + \int_{0}^{\infty} e^{-\lambda x} \, dx
$$
现在,我们逐项解决这个表达式:
对于第一项 $\left[ -xe^{-\lambda x} \right]_{0}^{\infty}$,我们需要计算当 $x$ 趋向于无穷大时的极限。由于 $e^{-\lambda x}$ 的衰减速率比 $x$ 增长的速率快得多,这个极限是0。
对于第二项 $\int_{0}^{\infty} e^{-\lambda x} \, dx$,这是一个标准的指数函数积分,其结果为 $\frac{1}{\lambda}$。
因此,我们有:
$$
E(X) = 0 + \frac{1}{\lambda} = \frac{1}{\lambda}
$$
这就是指数分布的期望值。它表明,如果事件以平均速率 $\lambda$ 发生,那么我们可以期望事件的平均时间间隔是 $\frac{1}{\lambda}$。这个结果与直觉相符,因为如果事件发生得更频繁($\lambda$ 较大),我们期望的时间间隔应该更短,而如果事件发生得不那么频繁($\lambda$ 较小),我们期望的时间间隔应该更长。
- **正态分布**:如果 $X \sim N(\mu, \sigma^2)$,则 $E[X] = \mu$。
正态分布(也称为高斯分布)是一个连续概率分布,其概率密度函数(PDF)在均值 $\mu$ 处对称并呈钟形。正态分布的数学表达式为:
$$
f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
$$
其中 $\mu$ 是均值,$\sigma^2$ 是方差。
对于正态分布,期望值(均值)$E(X)$ 实际上就是参数 $\mu$,这是因为正态分布是关于其均值对称的。这个性质意味着分布的“中心”或“平衡点”就是均值 $\mu$。但是,我们仍然可以通过积分来形式化地推导期望值。
期望值的定义为:
$$
E(X) = \int_{-\infty}^{\infty} x f(x; \mu, \sigma^2) \, dx
$$
将正态分布的PDF代入,我们得到:
$$
E(X) = \int_{-\infty}^{\infty} x \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \, dx
$$
这个积分可以通过将 $x$ 分解为 $(x - \mu) + \mu$ 来简化:
$$
E(X) = \int_{-\infty}^{\infty} (x - \mu + \mu) \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \, dx
$$
这个式子可以分为两部分:
$$
\int_{-\infty}^{\infty} (x - \mu) \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \, dx + \mu \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \, dx
$$
第一部分是一个奇函数关于对称区间 $(-\infty, \infty)$ 的积分,因此它的值为0。第二部分是正态分布的PDF在整个实数范围内的积分,这个积分的值为1。因此,我们得到:
$$
E(X) = 0 + \mu \cdot 1 = \mu
$$
因此,正态分布的期望值就是其均值参数 $\mu$。这个结果不需要通过复杂的积分计算来获得,因为正态分布的对称性和均值的定义已经隐含了这个结论。
- **伽玛分布**:如果 $X \sim Gamma(\alpha, \beta)$,则 $E[X] = \alpha\beta$。
伽玛分布是一个连续概率分布,用于描述非负实数上的随机变量。它由两个参数定义:形状参数 $k$(也称为 $\alpha$)和尺度参数 $\theta$(也称为 $\beta$)。伽玛分布的概率密度函数(PDF)为:
$$
f(x; k, \theta) = \frac{x^{k-1} e^{-\frac{x}{\theta}}}{\theta^k \Gamma(k)} \quad \text{for } x > 0, \text{ and } k, \theta > 0
$$
其中 $\Gamma(k)$ 是伽玛函数,它是阶乘在实数和复数上的推广,对于正整数 $n$,有 $\Gamma(n) = (n-1)!$。
伽玛分布的期望值(均值)可以通过积分来计算。期望值的定义为:
$$
E(X) = \int_{0}^{\infty} x f(x; k, \theta) \, dx
$$
代入伽玛分布的PDF,我们得到:
$$
E(X) = \int_{0}^{\infty} x \frac{x^{k-1} e^{-\frac{x}{\theta}}}{\theta^k \Gamma(k)} \, dx
$$
这个积分可以通过变量代换来简化。我们可以让 $t = x / \theta$,因此 $x = t \theta$ 和 $dx = \theta dt$。代入这些变量代换,积分变为:
$$
E(X) = \int_{0}^{\infty} (t \theta) \frac{(t \theta)^{k-1} e^{-t}}{\theta^k \Gamma(k)} \theta \, dt
$$
简化得到:
$$
E(X) = \frac{\theta^{k+1}}{\theta^k \Gamma(k)} \int_{0}^{\infty} t^k e^{-t} \, dt
$$
$$
E(X) = \frac{\theta}{\Gamma(k)} \int_{0}^{\infty} t^{(k+1)-1} e^{-t} \, dt
$$
注意到,积分中的表达式实际上是参数为 $k+1$ 的伽玛函数的定义。因此,我们有:
$$
E(X) = \frac{\Gamma(k+1)}{\Gamma(k)}\theta
$$
由于伽玛函数的性质 $\Gamma(k+1) = k \Gamma(k)$,我们可以简化期望值为:
$$
E(X) = k \theta
$$
这就是伽玛分布的期望值。它表明伽玛分布的期望值是其形状参数 $k$ 与尺度参数 $\theta$ 的乘积。
- **贝塔分布**:如果 $X \sim Beta(\alpha, \beta)$,则 $E[X] = \frac{\alpha}{\alpha + \beta}$。
贝塔分布的期望值的推导过程应该是这样的:
$$
E(X) = \int_{0}^{1} x \frac{x^{\alpha - 1}(1 - x)^{\beta - 1}}{B(\alpha, \beta)} dx
$$
我们可以通过识别积分中的一个贝塔函数来简化这个表达式。贝塔函数的定义为:
$$
B(\alpha, \beta) = \int_{0}^{1} t^{\alpha - 1}(1 - t)^{\beta - 1} dt
$$
考虑到这一点,我们可以将期望值的积分重新写为:
$$
E(X) = \frac{1}{B(\alpha, \beta)} \int_{0}^{1} x^{\alpha}(1 - x)^{\beta - 1} dx
$$
为了将上面的积分转换为贝塔函数的形式,我们做一个指数的增加:
$$
E(X) = \frac{1}{B(\alpha, \beta)} \int_{0}^{1} x^{(\alpha + 1) - 1}(1 - x)^{\beta - 1} dx
$$
现在,这个积分与贝塔函数 $B(\alpha + 1, \beta)$ 的形式相匹配:
$$
E(X) = \frac{B(\alpha + 1, \beta)}{B(\alpha, \beta)}
$$
使用贝塔函数和伽玛函数的关系,我们可以将它写为:
$$
E(X) = \frac{\Gamma(\alpha + 1) \Gamma(\beta)}{\Gamma(\alpha + \beta + 1)} \cdot \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)}
$$
由于伽玛函数的性质 $\Gamma(\alpha + 1) = \alpha \Gamma(\alpha)$,我们可以简化上面的表达式:
$$
E(X) = \frac{\alpha \Gamma(\alpha) \Gamma(\beta)}{(\alpha + \beta) \Gamma(\alpha + \beta)} \cdot \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)}
$$
取消相同的项,我们得到:
$$
E(X) = \frac{\alpha}{\alpha + \beta}
$$
所以,贝塔分布的期望值是 $\alpha / (\alpha + \beta)$。这个结果直接来自于贝塔分布的定义和伽玛函数的性质。
方差是统计学中测量数据点分散程度的一个度量,它描述了这些数据点与其均值(平均值)的偏差的平方的平均值。对于一个随机变量 $X$,其方差定义为:
$$
Var(X) = E[(X - E[X])^2]
$$
这里,$E[X]$ 表示随机变量 $X$ 的期望值(或均值),$E[(X - E[X])^2]$ 表示随机变量 $X$ 与其期望值之差的平方的期望值。
方差的平方根被称为标准差,它提供了一个与原始数据同单位的分散度量。
在具体的数据集合中,如果我们有 $n$ 个观测值 $x_1, x_2, \ldots, x_n$,那么样本方差(通常用 $s^2$ 表示)可以通过以下公式计算:
$$
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$
这里,$\bar{x}$ 是样本均值,计算为 $\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$。注意,样本方差使用的是 $n-1$ 而不是 $n$ 作为分母,这是为了得到一个无偏估计,这种修正通常称为贝塞尔校正。
(1)**正态分布(Normal distribution)**:
方差:$\sigma^2$ (其中 $\sigma$ 是标准差)
(2)**二项分布(Binomial distribution)**:
- 方差:$np(1-p)$ (其中 $n$ 是试验次数,$p$ 是每次试验成功的概率)
一个有用的性质是二项随机变量的平均值和方差可以从伯努利随机变量的平均值和方差导出。
每次实验可以看作一个伯努利实验,伯努利随机变量的方差是 $pq$(其中 $q = 1 - p$)。因为二项分布是多个伯努利实验的和,所以方差是各个伯努利实验方差的和(因为它们是独立的):
$$
Var(X) = npq
$$
因此,二项分布的方差是 $npq$。
(3) **泊松分布(Poisson distribution)**:
- 方差:$\lambda$ (其中 $\lambda$ 是单位时间或单位面积内事件发生的平均次数)
泊松分布是一种描述在固定时间间隔或空间范围内发生某事件次数的概率分布。对于泊松分布,事件在不同的小时间间隔或空间区域内发生的概率是相同的,并且事件在不同的时间间隔或空间区域内发生是相互独立的。
泊松分布的概率质量函数(PMF)为:
$$
P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}
$$
其中,$X$ 是在给定时间间隔或空间范围内事件发生的次数,$k$ 是可能的非负整数次数,$\lambda$ 是事件的平均发生率(即期望值),$e$ 是自然对数的底数。
泊松分布的期望值(均值)和方差都等于 $\lambda$。我们可以通过定义计算泊松分布的方差:
$$
Var(X) = E[X^2] - (E[X])^2
$$
我们知道 $E[X] = \lambda$,所以我们需要计算 $E[X^2]$,即平方的期望值。
$E[X^2]$ 可以通过泊松分布的PMF直接计算:
$$
E[X^2] = \sum_{k=0}^{\infty} k^2 \cdot P(X = k) = \sum_{k=0}^{\infty} k^2 \cdot \frac{e^{-\lambda} \lambda^k}{k!}
$$
这个求和可以通过泊松分布的性质进行简化。首先,我们可以将 $k^2$ 写成 $k(k-1) + k$,然后分别计算这两个部分的期望值:
$$
E[X^2] = \sum_{k=0}^{\infty} (k(k-1) + k) \cdot \frac{e^{-\lambda} \lambda^k}{k!}
$$
分开两部分计算:
$$
\begin{align*}
E[X(X-1)] &= \sum_{k=0}^{\infty} k(k-1) \cdot \frac{e^{-\lambda} \lambda^k}{k!} \\
&= e^{-\lambda} \sum_{k=2}^{\infty} \frac{\lambda^k}{(k-2)!} \\
&= e^{-\lambda} \lambda^2 \sum_{k=2}^{\infty} \frac{\lambda^{k-2}}{(k-2)!} \\
&= e^{-\lambda} \lambda^2 \sum_{j=0}^{\infty} \frac{\lambda^j}{j!} \\
&= e^{-\lambda} \lambda^2 e^{\lambda} \\
&= \lambda^2
\end{align*}
$$
和
$$
\begin{align*}
E[X] &= \sum_{k=0}^{\infty} k \cdot \frac{e^{-\lambda} \lambda^k}{k!} \\
&= e^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^k}{(k-1)!} \\
&= e^{-\lambda} \lambda \sum_{j=0}^{\infty} \frac{\lambda^j}{j!} \\
&= e^{-\lambda} \lambda e^{\lambda} \\
&= \lambda
\end{align*}
$$
将两部分合并,我们得到:
$$
E[X^2] = \lambda^2 + \lambda
$$
现在我们可以计算方差:
$$
Var(X) = E[X^2] - (E[X])^2 = (\lambda^2 + \lambda) - \lambda^2 = \lambda
$$
所以,泊松分布的方差 $Var(X)$ 等于它的均值 $\lambda$。
(4)**均匀分布(Uniform distribution)**:
- 方差:$\frac{(b-a)^2}{12}$ (其中 $a$ 和 $b$ 是均匀分布的最小值和最大值)
对于连续型均匀分布,如果随机变量 $X$ 在区间 $[a, b]$ 上均匀分布,其概率密度函数(PDF)为:
$$
f(x) =
\begin{cases}
\frac{1}{b-a} & \text{for } a \leq x \leq b \\
0 & \text{otherwise}
\end{cases}
$$
均匀分布的期望值(均值)$E(X)$ 是:
$$
E(X) = \int_{-\infty}^{\infty} x f(x) dx = \int_{a}^{b} x \frac{1}{b-a} dx = \frac{1}{b-a} \frac{x^2}{2} \bigg|_{a}^{b} = \frac{b^2 - a^2}{2(b-a)} = \frac{a + b}{2}
$$
方差 $Var(X)$ 的定义是:
$$
Var(X) = E(X^2) - [E(X)]^2
$$
我们已经有了 $E(X) = \frac{a + b}{2}$,所以现在我们需要计算 $E(X^2)$:
$$
E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx = \int_{a}^{b} x^2 \frac{1}{b-a} dx
$$
计算这个积分:
$$
E(X^2) = \frac{1}{b-a} \int_{a}^{b} x^2 dx = \frac{1}{b-a} \frac{x^3}{3} \bigg|_{a}^{b} = \frac{1}{b-a} \left( \frac{b^3 - a^3}{3} \right) = \frac{b^3 - a^3}{3(b-a)}
$$
简化得到:
$$
E(X^2) = \frac{b^2 + ab + a^2}{3}
$$
现在我们可以计算方差:
$$
Var(X) = E(X^2) - [E(X)]^2 = \frac{b^2 + ab + a^2}{3} - \left(\frac{a + b}{2}\right)^2
$$
$$
Var(X) = \frac{b^2 + ab + a^2}{3} - \frac{a^2 + 2ab + b^2}{4}
$$
$$
Var(X) = \frac{4(b^2 + ab + a^2) - 3(a^2 + 2ab + b^2)}{12}
$$
$$
Var(X) = \frac{4b^2 + 4ab + 4a^2 - 3a^2 - 6ab - 3b^2}{12}
$$
$$
Var(X) = \frac{b^2 - 2ab + a^2}{12}
$$
$$
Var(X) = \frac{(b - a)^2}{12}
$$
所以,对于区间 $[a, b]$ 上的均匀分布,方差 $Var(X)$ 是 $(b - a)^2/12$。
(5)**指数分布(Exponential distribution)**:
- 方差:$\frac{1}{\lambda^2}$ (其中 $\lambda$ 是事件发生率的参数)
(1)协方差
在统计学和概率论中,协方差的正负可以指示变量之间的倾向性,而它的绝对值大小(但不是数值本身)可以提供变量之间线性关系强度的一些信息。
对于两个随机变量 $X$ 和 $Y$,它们的协方差定义为:
$$
\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]
$$
在实际应用中,当我们根据样本来估计总体协方差时,公式变为:
$$
\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
$$
这里 $E[X]$ 和 $E[Y]$ 分别是 $X$ 和 $Y$ 的期望值(均值),$x_i$ 和 $y_i$ 是对应的样本值,$\bar{x}$ 和 $\bar{y}$ 是样本均值,$n$ 是样本大小。
在计算样本协方差时使用 $n-1$ 而不是 $n$ 作为分母,这个做法叫做“贝塞尔修正”(Bessel's correction)。这种修正用于样本方差和样本协方差的计算中,目的是为了给出一个无偏估计量,即在多次抽样后平均能够等于总体的参数。
当你从一个总体中抽取样本时,你只能用这个样本来估计总体的性质。样本均值是总体均值的无偏估计,但是如果使用 $n$ 作为分母来计算样本方差或协方差,那么得到的结果往往会低估总体的方差或协方差。这是因为样本中的每个数据点都是对总体的一个估计,而样本均值作为总体均值的估计,实际上减少了样本数据点之间的变异性。
使用 $n-1$ 而不是 $n$ 可以修正这种倾向,因为它通过减少分母的大小来增加方差或协方差的估计,从而补偿了因使用样本均值而损失的分散度。这样,我们得到的样本方差或协方差的估计在统计上是无偏的,即长期平均下来,它能够正确估计总体方差或协方差。
- **正协方差**:如果 $X$ 的值高于其平均值时,$Y$ 也倾向于高于其平均值,那么协方差是正的。这表明 $X$ 和 $Y$ 倾向于同向变化。
- **负协方差**:如果 $X$ 的值高于其平均值时,$Y$ 倾向于低于其平均值,那么协方差是负的。这意味着 $X$ 和 $Y$ 倾向于反向变化。
- **零协方差**:如果 $X$ 和 $Y$ 之间没有线性关系,或者它们的变化完全独立,那么协方差为零。然而,零协方差并不意味着两个变量完全独立,因为它们之间可能存在非线性关系。
协方差的一个主要局限在于它的大小和变量的量纲有关,这使得它难以解释,也不能用来比较不同的变量对。为了解决这个问题,通常会使用相关系数来代替协方差,相关系数是协方差除以两个变量标准差的乘积,因此是无量纲的,可以用来比较不同变量对的相关强度。
(2)相关系数
最常用的相关系数是皮尔逊产品矩相关系数(Pearson's r),计算公式为:
$$
r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}
$$
其中 $\text{Cov}(X, Y)$ 是 $X$ 和 $Y$ 的协方差,$\sigma_X$ 和 $\sigma_Y$ 分别是 $X$ 和 $Y$ 的标准差。
如果我们有一组数据,包含 $n$ 个观测值,可以使用下面的公式计算样本的皮尔逊相关系数:
$$
r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}}
$$
这里 $\bar{x}$ 和 $\bar{y}$ 分别是 $X$ 和 $Y$ 的样本均值。
- **只能衡量线性关系**:相关系数只能捕捉到线性关系的强度和方向,对于非线性关系可能无法有效反映。
- **受异常值影响**:极端的数据点或异常值可以显著地影响相关系数的值。
- **无因果关系**:相关系数不意味着因果关系,即使两个变量高度相关,也不能从中得出一个变量导致另一个变量的变化的结论。
协方差矩阵是一个方阵,它的每个元素表示一对变量之间的协方差。对于一个有 $n$ 个变量的数据集,其协方差矩阵是一个 $n \times n$ 的矩阵,其中每个元素 $C_{ij}$ 是第 $i$ 个和第 $j$ 个变量的协方差。
如果我们有 $n$ 个随机变量 $X_1, X_2, ..., X_n$,它们的协方差矩阵 $\Sigma$ 可以表示为:
$$
\Sigma = \begin{bmatrix}
\text{Var}(X_1) & \text{Cov}(X_1, X_2) & \cdots & \text{Cov}(X_1, X_n) \\
\text{Cov}(X_2, X_1) & \text{Var}(X_2) & \cdots & \text{Cov}(X_2, X_n) \\
\vdots & \vdots & \ddots & \vdots \\
\text{Cov}(X_n, X_1) & \text{Cov}(X_n, X_2) & \cdots & \text{Var}(X_n)
\end{bmatrix}
$$
其中 $\text{Var}(X_i)$ 是第 $i$ 个变量的方差,而 $\text{Cov}(X_i, X_j)$ 是第 $i$ 个和第 $j$ 个变量的协方巛。
协方差矩阵有以下特点:
- **对称性**:协方差矩阵是对称的,因为 $\text{Cov}(X_i, X_j) = \text{Cov}(X_j, X_i)$。
- **对角线元素**:对角线上的元素是每个变量自己的方差。
五、大数字律及中心极限定理
大数定律是概率论中的一组定理,它们描述了随着试验次数的增加,样本均值会越来越接近总体均值的现象。大数定律有两个主要形式:弱大数定律和强大数定律。
(1)弱大数定律
弱大数定律(Weak Law of Large Numbers,WLLN)指出,对于一个给定的总体,如果从这个总体中独立同分布地抽取样本,并计算这些样本的平均值,那么随着样本量的增加,样本平均值会以高概率趋近于总体的期望值。换句话说,样本均值会在概率上收敛到总体均值。
数学上,如果 $X_1, X_2, ..., X_n$ 是独立同分布的随机变量序列,且具有相同的期望 $E(X_i) = \mu$ 和方差 $Var(X_i) = \sigma^2 < \infty$,那么对于任何正数 $\epsilon > 0$,有:
$$
\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \epsilon\right) = 1
$$
这意味着,随着样本量 $n$ 的增大,样本均值 $\frac{1}{n}\sum_{i=1}^n X_i$ 与总体均值 $\mu$ 的差距小于任意小的正数 $\epsilon$ 的概率趋于 1。
(2)强大数定律
强大数定律(Strong Law of Large Numbers,SLLN)提供了一个更强的结果。它表明,随机变量序列的样本平均值不仅在概率上收敛到总体均值,而且几乎必然收敛。也就是说,样本均值几乎肯定会趋近于总体均值,这种收敛是以概率为 1 的方式发生的。
数学上,如果 $X_1, X_2, ..., X_n$ 是独立同分布的随机变量序列,且具有相同的期望 $E(X_i) = \mu$,那么:
$$
P\left(\lim_{n \to \infty} \frac{1}{n}\sum_{i=1}^n X_i = \mu\right) = 1
$$
这意味着,对几乎所有的样本路径(即几乎所有的可能样本序列),样本均值随着样本量的增加而收敛到总体均值 $\mu$。
中心极限定理主要有几种不同的版本,但其基本思想是一致的。以下是中心极限定理的一般形式:
设 $X_1, X_2, ..., X_n$ 是一系列独立同分布(i.i.d.)的随机变量,每一个都有有限的期望值 $\mu$ 和有限的方差 $\sigma^2$。考虑这些随机变量的和:
$$ S_n = \sum_{i=1}^n X_i $$
随后考虑这个和的标准化形式,即从和中减去其期望值,然后除以其标准差:
$$ Z_n = \frac{S_n - n\mu}{\sigma\sqrt{n}} $$
那么,随着 $n$ 的增大,$Z_n$ 的分布趋近于标准正态分布 $N(0,1)$。即对于任何实数 $z$,
$$ \lim_{n \to \infty} P(Z_n \leq z) = \Phi(z) $$
其中 $\Phi(z)$ 是标准正态分布的累积分布函数(CDF)。
中心极限定理的适用条件:
- **独立性**:随机变量必须是相互独立的。
- **同分布**:随机变量必须具有相同的分布(即同分布)。
- **有限的期望值和方差**:随机变量必须有有限的期望值和有限的方差。
六、样本及抽样分布
随机样本(Random Sample)是从一个总体中按照随机的方式抽取的样本集合。在统计学中,随机样本的概念是核心原则之一,因为它能够保证样本数据代表了整个总体,使得从样本中得到的统计结论可以推广到整个总体上。
(1)抽样方法
- 简单随机抽样(Simple Random Sampling):每个成员被选中的概率相同。
- 分层抽样(Stratified Sampling):总体被分成不同的“层”,每层内部进行简单随机抽样。
- 系统抽样(Systematic Sampling):从总体的第一个成员开始,每隔固定数目抽取一个成员。
- 整群抽样(Cluster Sampling):将总体分成多个“群”或“簇”,随机选择几个群,然后对被选中的群进行全面调查。
- 多阶段抽样(Multi-stage Sampling):结合了以上几种方法,在多个阶段进行抽样。
(2)抽样误差与非抽样误差
- 抽样误差(Sampling Error):即使抽样过程是随机的,由于只观察了总体的一部分而非全部,从样本中得到的估计可能与总体的真实值存在差异。这种误差通常随着样本量的增加而减少。
- 非抽样误差(Non-sampling Error):这类误差源于抽样过程之外的因素,如数据收集错误、数据处理错误、样本选择偏差等。这些误差不一定随样本量的增加而减少。
(1)直方图
直方图是一种表现数值数据分布的图形表示方法。它通过将数据范围分割成一系列连续的、不重叠的区间(通常称为“桶”或“bin”),然后计算每个区间中的数据点数量来绘制。直方图的轴通常如下:
- 横轴(X轴):表示数据分布的区间或类别。
- 纵轴(Y轴):表示频数(Frequency)或频率(Frequency Density)。
(2)箱线图
箱线图是另一种用于展示数据分布的图表,特别是用于显示数据的中位数、四分位数和异常值。箱线图的组成如下:
- 箱子(Box):表示数据的中间50%,即第一四分位数(Q1)到第三四分位数(Q3)的范围。箱子内通常还会有一条线表示中位数(Median)。
- 须(Whiskers):从箱子外伸出的线条,表示数据的范围。通常,须的长度为1.5倍的四分位距(Interquartile Range, IQR),超出这个范围的点被认为是异常值。
- 异常值(Outliers):用点表示,通常是那些小于Q1减去1.5倍IQR或大于Q3加上1.5倍IQR的值。
抽样分布(Sampling Distribution)是一个统计术语,它指的是某个统计量(如样本均值、样本比例、样本方差等)的所有可能值的分布,这些值来自于在相同的总体中抽取的所有可能的样本。
七、参数估计
点估计(Point Estimation)是统计推断的一种方法,其目的是利用样本数据来计算一个单一的值,这个值被用来作为总体参数(如总体均值、总体比例或总体方差)的最佳估计。点估计是对未知总体参数的直接估计,而不是给出一个参数值的区间估计。
(1)主要特点
- **单一值**:点估计提供一个数值,而不是一个区间。
- **无置信区间**:它不直接提供估计的不确定性或可信度。
- **统计量作为估计量**:常用的点估计量包括样本均值、样本比例、样本方差等。
(2)常用的点估计量
- **总体均值的点估计($\mu$)**:通常使用样本均值($\bar{x}$)作为总体均值的点估计。
- **总体比例的点估计($p$)**:使用样本比例($\hat{p}$)作为总体比例的点估计。
- **总体方差的点估计($\sigma^2$)**:使用样本方差($s^2$)作为总体方差的点估计。
基于截尾样本的最大似然估计(Maximum Likelihood Estimation, MLE)是一种处理不完全数据的估计方法,特别是在数据受到某种形式限制,如左截尾、右截尾或双截尾时。截尾样本意味着样本中的一部分数据未被观察到或未被包括在分析中,通常是因为它们落在了某个特定的取值范围之外。
在截尾样本的情况下,传统的最大似然估计方法需要调整以适应仅观察到部分数据的事实。这种调整通常涉及到对似然函数的修改,以反映观察到的数据的实际概率分布。
(1)数据截尾的方式
- 右截尾:只包括大于某个截尾值 c 的观测值。
- 左截尾:只包括小于某个截尾值 c 的观测值。
- 双截尾:只包括落在两个截尾值之间的观测值。
(2)最大似然估计的步骤
- 定义似然函数:根据截尾样本的性质,确定似然函数的形式,确保它仅反映观察到的数据。
- 取对数:为了便于计算,通常对似然函数取自然对数,得到对数似然函数。
- 求导数:对对数似然函数求参数的偏导数。
- 求极值:将偏导数设为零,解方程找到参数的估计值。
- 检查二阶导数:确保所得到的参数值确实是使似然函数最大化的值。
(3)例子
假设我们有一个正态分布的变量,但只能观测到大于某个阈值 \( c \) 的值(即右截尾)。我们的目标是估计正态分布的参数,即均值 \( \mu \) 和标准差 \( \sigma \)。
- 定义似然函数
对于一个正态分布的变量 \( X \),其概率密度函数为:
$$
f(x | \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
$$
由于是右截尾,我们只观测到 \( X > c \) 的值。因此,观测到的每个数据点 \( x_i \) 的概率密度应该除以 \( P(X > c) \),这是一个规范化常数,确保概率密度函数在截尾后的范围内积分为 1。这个概率可以用正态分布的累积分布函数 \( \Phi \) 表示为 \( 1 - \Phi\left(\frac{c-\mu}{\sigma}\right) \)。
因此,似然函数 \( L(\mu, \sigma) \) 是给定参数 \( \mu \) 和 \( \sigma \) 下,观测到的所有数据点 \( x_i \) 的联合概率密度函数:
$$
L(\mu, \sigma) = \prod_{i=1}^{n} \frac{f(x_i | \mu, \sigma)}{1 - \Phi\left(\frac{c-\mu}{\sigma}\right)}
$$
- 取对数
取对数似然函数 \( \ell(\mu, \sigma) \),这通常简化了求导和最大化的过程:
$$
\ell(\mu, \sigma) = \sum_{i=1}^{n} \log\left(f(x_i | \mu, \sigma)\right) - n \log\left(1 - \Phi\left(\frac{c-\mu}{\sigma}\right)\right)
$$
- 求导数
对 \( \ell(\mu, \sigma) \) 分别对 \( \mu \) 和 \( \sigma \) 求偏导数。
- 求极值
偏导数设置为零,得到关于 \( \mu \) 和 \( \sigma \) 的方程组。这通常需要数值解法来求解。
- 检查二阶导数
确保所得到的参数值确实是使似然函数最大化的值。
区间估计是统计学中的一种方法,用于估计未知参数的可能取值范围。与点估计不同,它不是给出单一的数值作为参数的估计,而是给出一个区间,在某个置信水平下,这个区间内包含参数真实值的概率很高。
(1)均值的区间估计
假设我们有一个来自正态分布的样本,其均值为 \( \mu \) 且标准差为 \( \sigma \)。样本均值为 \( \bar{x} \),样本标准差为 \( s \)。
- 已知总体标准差(\( \sigma \) 已知)
当总体标准差 \( \sigma \) 已知时,样本均值 \( \bar{x} \) 的抽样分布遵循正态分布。置信区间可由下式给出:
$$
\bar{x} \pm z \frac{\sigma}{\sqrt{n}}
$$
其中 \( z \) 是标准正态分布的临界值,\( n \) 是样本大小。
标准正态分布的临界值是指在标凘正态分布曲线下,与水平轴围成的面积等于某个特定概率时,对应的Z分数。标准正态分布是一个均值为0,标准差为1的正态分布。
例如,如果你想知道在标准正态分布中,哪个Z分数对应于累积面积(从最左端到该Z分数)为95%的点,你会查找Z表找到这个值。对于95%的累积面积(即左侧面积为0.95),临界值大约是1.96。这意味着大约95%的面积位于Z=1.96左侧,而右侧有5%的面积。
对于双尾测试,如果你想要的是总共95%的面积在两个临界值之间,那么每一侧会有2.5%的面积。在这种情况下,你会查找Z表找到累积面积为0.025和0.975的Z分数。这些值分别约为-1.96和+1.96。
总结一下,标准正态分布的一些常见临界值如下:
- 对于90%的置信水平(两尾),临界值大约是±1.645。
- 对于95%的置信水平(两尾),临界值大约是±1.96。
- 对于99%的置信水平(两尾),临界值大约是±2.576。
这些临界值可以通过查阅Z分数表或使用统计软件来获得。
- 未知总体标准差(\( \sigma \) 未知)
当总体标准差 \( \sigma \) 未知时,样本均值 \( \bar{x} \) 的抽样分布遵循t分布。置信区间可由下式给出:
$$
\bar{x} \pm t \frac{s}{\sqrt{n}}
$$
其中 \( t \) 是t分布的临界值,\( s \) 是样本标准差,\( n \) 是样本大小。
当我们知道总体标准差 $\sigma$ 时,我们可以使用Z统计量来标准化样本均值,即 $(\bar{x} - \mu)/(\sigma/\sqrt{n})$,这将遵循标准正态分布(Z分布)。然而,当 $\sigma$ 未知时,我们必须使用样本标准差 $s$ 来估计 $\sigma$。此时,我们使用的标准化形式变成 $(\bar{x} - \mu)/(s/\sqrt{n})$,这个比例中包含了一个额外的不确定性因素——样本标准差 $s$。
t分布是一系列概率分布,它们看起来类似于正态分布,但有更厚的尾部。这意味着相比于正态分布,t分布在其尾部有更多的概率质量,这反映了使用样本标准差作为总体标准差估计时的额外不确定性。t分布的形状取决于自由度——自由度越大,t分布越接近正态分布。
(2) 方差的区间估计
对于总体方差 \( \sigma^2 \) 的估计,我们使用卡方分布(chi-squared distribution)。
假设样本大小为 \( n \),样本方差为 \( s^2 \),总体方差 \( \sigma^2 \) 的 \( (1-\alpha) \) 置信区间可以通过以下公式计算:
$$
\left( \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} \right)
$$
其中,\( \chi^2_{\alpha/2, n-1} \) 和 \( \chi^2_{1-\alpha/2, n-1} \) 分别是自由度为 \( n-1 \) 的卡方分布在 \( \alpha/2 \) 和 \( 1-\alpha/2 \) 分位数。
如果你有一个正态分布的总体,其真实方差是 $\sigma^2$,并从这个总体中抽取了大小为 $n$ 的样本,那么样本方差 $s^2$ 是总体方差的一个无偏估计。样本方差的计算公式是:
$$
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$
其中,$x_i$ 是单个观测值,$\bar{x}$ 是样本均值。
当你从正态分布的总体中抽取样本时,样本方差 $s^2$ 乘以样本的大小减去1(即自由度),除以总体方差 $\sigma^2$,遵循自由度为 $n-1$ 的卡方分布:
$$
\frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{(n-1)}
$$
这个性质允许我们使用卡方分布来构建总体方差 $\sigma^2$ 的置信区间。如果我们从卡方分布中选择适当的临界值 $\chi^2_{\alpha/2}$ 和 $\chi^2_{1-\alpha/2}$(其中 $\alpha$ 是第一类错误的概率),我们可以构建一个 $(1-\alpha)$ 置信水平的双侧置信区间,如下:
$$
\left( \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}, \frac{(n-1)s^2}{\chi^2_{\alpha/2}} \right)
$$
这个区间给出了我们对总体方差 $\sigma^2$ 的估计范围。随着样本量的增加,这个区间的宽度会减小,估计会更加精确。这就是为什么方差的区间估计可以使用卡方分布的原因。
0-1分布,也称为伯努利分布,是描述二元随机变量的分布,其中每次试验只有两种可能的结果:1(成功)和0(失败)。对于伯努利分布,我们通常对成功概率 $p$ 感兴趣,并希望对其进行估计。
当我们有一个样本,它包含了多次独立的伯努利试验,我们可以使用样本中成功的比例来估计成功概率 $p$。如果我们进行了 $n$ 次独立的伯努利试验,并且有 $X$ 次成功,那么样本比例 $\hat{p} = X/n$ 是 $p$ 的点估计。
为了构建 $p$ 的区间估计,我们可以使用以下几种方法:
(1)**正态近似法**(当样本量足够大时适用):
当样本量较大时,根据中心极限定理,样本比例 $\hat{p}$ 的分布会接近正态分布。这时,我们可以使用正态近似来构建 $p$ 的置信区间。置信区间的一般形式是:
$$
\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}
$$
其中 $z_{\alpha/2}$ 是正态分布的第 $(1 - \alpha/2)$ 分位数,$\alpha$ 是置信区间的补数(例如,对于95%的置信区间,$\alpha = 0.05$)。
(2)**Clopper-Pearson区间**(精确方法):
这是一个基于二项分布的精确置信区间。对于每个尾部的概率 $\alpha/2$,我们找到对应的二项分布的分位数。这个方法不依赖于大样本量,因此适用于任何大小的样本。置信区间可以通过查表或使用统计软件来找到。
(3)**Wilson区间**(改进的近似方法):
Wilson区间是另一种近似方法,比正态近似法更加精确,尤其是在 $p$ 接近0或1时。Wilson置信区间的形式是:
$$
\frac{\hat{p} + \frac{z_{\alpha/2}^2}{2n}}{1 + \frac{z_{\alpha/2}^2}{n}} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1 - \hat{p}) + \frac{z_{\alpha/2}^2}{4n}}{n + \frac{z_{\alpha/2}^2}{n}}}
$$
这个方法考虑了估计的不确定性,并且在 $p$ 的估计值很小或很大时,给出更准确的置信区间。
单侧置信区间是指只有一个界限的置信区间,它可以是左侧置信区间(下限)或右侧置信区间(上限)。
八、假设检验
假设检验是统计学中的一种方法,用于根据样本数据来评估一个统计假设的可信度。假设检验的目的是确定观察到的数据是否与某个特定的理论或假设相一致,或者说这些数据是否可能在假设为真时出现。
对于正态总体均值的假设检验,我们通常关心的是总体均值 $\mu$ 是否等于某个特定值 $\mu_0$。这里是进行正态总体均值假设检验的基本步骤:
(1)**建立假设**:
- 零假设($H_0$):$\mu = \mu_0$,即总体均值等于某个特定值。
- 对立假设($H_1$ 或 $H_a$):$\mu \neq \mu_0$(双侧检验)、$\mu > \mu_0$(右侧检验)或 $\mu < \mu_0$(左侧检验)。
(2)**选择检验统计量**:
- 如果总体方差 $\sigma^2$ 已知,使用Z检验:
$$
Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}
$$
其中 $\bar{X}$ 是样本均值,$n$ 是样本大小。 - 如果总体方差未知,使用t检验:
$$
t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}}
$$
其中 $s$ 是样本标准差。
(3)**确定显著性水平**($\alpha$):
$\alpha$ 是错误拒绝零假设的概率,常用的 $\alpha$ 值有 0.05、0.01 等。
(4)**计算p值或使用临界值**:
- p值是在零假设为真的条件下,观察到的结果或更极端结果出现的概率。如果 p值小于 $\alpha$,则拒绝 $H_0$。
- 对于 Z 检验,使用标准正态分布表或计算机软件来找到 p值或临界值 $Z_{\alpha/2}$(双侧检验)或 $Z_{\alpha}$(单侧检验)。
- 对于 t 检验,使用 t 分布表或计算机软件来找到 p值或临界值 $t_{\alpha/2, n-1}$(双侧检验)或 $t_{\alpha, n-1}$(单侧检验),其中 $n-1$ 是自由度。
(5)**做出决策**:
如果 p值小于 $\alpha$,或检验统计量落在拒绝区域内,则拒绝 $H_0$;否则,不拒绝 $H_0$。
对于正态总体方差的假设检验,我们通常关心的是总体方差 $\sigma^2$ 是否等于某个特定值 $\sigma_0^2$。这里是进行正态总体方差假设检验的基本步骤:
(1)**建立假设**:
- 零假设($H_0$):$\sigma^2 = \sigma_0^2$,即总体方差等于某个特定值。
- 对立假设($H_1$ 或 $H_a$):$\sigma^2 \neq \sigma_0^2$(双侧检验)、$\sigma^2 > \sigma_0^2$(右侧检验)或 $\sigma^2 < \sigma_0^2$(左侧检验)。
(2)**选择检验统计量**:
使用卡方检验(Chi-square test):
$$
\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}
$$
其中 $s^2$ 是样本方差,$n$ 是样本大小。
(3)**确定显著性水平**($\alpha$):
$\alpha$ 是错误拒绝零假设的概率,常用的 $\alpha$ 值有 0.05、0.01 等。
(4)**计算p值或使用临界值**:
- p值是在零假设为真的条件下,观察到的结果或更极端结果出现的概率。如果 p值小于 $\alpha$,则拒绝 $H_0$。
- 使用卡方分布表或计算机软件来找到 p值或临界值 $\chi^2_{\alpha/2, n-1}$(双侧检验的左侧临界值)、$\chi^2_{1-\alpha/2, n-1}$(双侧检验的右侧临界值)、$\chi^2_{\alpha, n-1}$(右侧检验的临界值)或 $\chi^2_{1-\alpha, n-1}$(左侧检验的临界值),其中 $n-1$ 是自由度。
(5)**做出决策**:
如果 p值小于 $\alpha$,或检验统计量落在拒绝区域内,则拒绝 $H_0$;否则,不拒绝 $H_0$。
假设检验的零假设通常涉及总体参数等于某个特定值(如$\mu = \mu_0$)。如果这个特定值落在对应的置信区间之外,那么我们有足够的证据拒绝零假设。
假设检验中的显著性水平(如$\alpha = 0.05$)与置信区间的置信水平(如95%)是互补的。对于双侧检验,一个100(1 - $\alpha$)%的置信区间与显著性水平$\alpha$的假设检验是一致的。
分布拟合检验是一种统计方法,用于评估一组数据是否来自某个特定的概率分布。
在进行分布拟合检验时,应先使用图形方法(如直方图、QQ图)对数据进行初步评估,然后选择合适的统计检验方法来进行更严格的检验。此外,还应考虑样本大小、数据的特性(如是否存在离群值)以及检验的敏感性和假设条件。
秩和检验是一种非参数统计检验方法,用于评估两个独立样本是否来自具有相同中位数的总体。这种检验不假设数据遵循特定的分布,因此它对于不满足正态分布假设的数据特别有用。
假设检验是统计学中用于决定样本数据是否支持某个关于总体参数的假设的方法。p值(概率值)检验法是在假设检验中用来确定统计显著性的一个概念。
九、方差分析及回归分析
单因素方差分析(ANOVA,Analysis of Variance)是一种统计方法,用于检验三个或更多组间的均值是否存在显著差异。这里的“单因素”指的是试验设计中只有一个自变量或因素,该因素可以有多个水平(即组别)。方差分析的基本思想是比较组内变异和组间变异来判断各组均值是否相等。
双因素方差分析(Two-Way ANOVA)是一种统计方法,用来研究两个不同独立变量(因素)对一个连续因变量的影响,以及这两个因素之间是否存在交互作用。这种分析方法可以帮助我们理解不同因素对结果变量的相对影响,以及它们是否相互依赖。
一元线性回归(Simple Linear Regression)是统计学中的一种基本分析方法,用于研究两个连续变量之间的线性关系。在这种关系中,一个变量是自变量(或解释变量、预测变量),通常表示为 $X$;另一个变量是因变量(或响应变量、被预测变量),通常表示为 $Y$。一元线性回归假设两个变量之间的关系可以通过一个直线方程来描述,该方程的一般形式为:
$$ Y = \beta_0 + \beta_1X + \epsilon $$
其中:
- $Y$ 是因变量;
- $X$ 是自变量;
- $\beta_0$ 是截距(intercept),即 $X=0$ 时 $Y$ 的期望值;
- $\beta_1$ 是斜率(slope),表示 $X$ 变化一个单位时 $Y$ 的平均变化量;
- $\epsilon$ 是误差项,代表了除了 $X$ 以外影响 $Y$ 的其他因素。
进行一元线性回归分析的基本步骤如下:
(1)**收集数据**:收集自变量 $X$ 和因变量 $Y$ 的观测值。
(2)**绘制散点图**:在直角坐标系中绘制数据点,观察 $X$ 和 $Y$ 之间是否可能存在线性关系。
(3) **计算回归系数**:使用最小二乘法(Least Squares Method)来估计回归方程中的截距 $\beta_0$ 和斜率 $\beta_1$。
(4)**拟合回归线**:根据估计出的回归系数,在散点图上绘制回归线。
(5)**计算拟合优度**:使用决定系数($R^2$)来评价回归线对数据的拟合程度。$R^2$ 越接近1,表示回归线对数据点的解释越好。
(6)**假设检验**:进行统计检验来确定回归系数是否显著不为零。通常使用 $t$-检验来检验 $\beta_1$。
(7)**使用回归方程进行预测**:利用拟合好的回归方程对于新的自变量 $X$ 值进行因变量 $Y$ 的预测。
最小二乘法(Least Squares Method)是一种数学优化技术,广泛用于数据拟合。在统计学中,最小二乘法用于估计线性回归模型的参数。其基本思想是找到回归系数的值,使得观测值与模型预测值之间的残差(误差)平方和最小。
对于一元线性回归,假设有数据点集合 $\{(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\}$,我们希望找到一条直线 $y = \beta_0 + \beta_1x$,使得这条直线尽可能地接近这些数据点。按照最小二乘法,我们需要最小化残差平方和,即:
$$ S(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 $$
为了找到最小化残差平方和的参数 $\beta_0$ 和 $\beta_1$,我们对 $S(\beta_0, \beta_1)$ 分别对 $\beta_0$ 和 $\beta_1$ 求偏导数,并将偏导数设置为零:
$$ \frac{\partial S}{\partial \beta_0} = -2\sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i)) = 0 $$
$$ \frac{\partial S}{\partial \beta_1} = -2\sum_{i=1}^{n} x_i(y_i - (\beta_0 + \beta_1 x_i)) = 0 $$
求解这两个方程可以得到回归系数的估计值 $\hat{\beta}_0$ 和 $\hat{\beta}_1$。这个过程叫做普通最小二乘估计(Ordinary Least Squares estimation, OLS)。
对于多元线性回归,思路是相同的,但是涉及到的数学会更加复杂。如果有 $k$ 个自变量,模型是:
$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_k X_k + \epsilon $$
我们需要最小化的残差平方和是:
$$ S(\beta_0, \beta_1, \ldots, \beta_k) = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_k x_{ik}))^2 $$
同样地,通过求偏导数并令其等于零,可以得到一个方程组,解这个方程组可以得到回归系数的估计值。
在实际应用中,最小二乘法的计算通常不是手工完成的,而是通过计算机软件来实现,尤其是对于多元线性回归,可以通过矩阵运算来更加高效地求解。
十、bootstrap方法
非参数bootstrap方法是一种强大的统计工具,用来估计几乎任何统计量的抽样分布,包括均值、中位数、方差、回归系数等。这种方法不依赖于数据的潜在分布,因此被称为“非参数”方法。
Bootstrap方法的基本思想是通过从原始样本中进行大量的有放回抽样来模拟抽样分布。对于每次抽样,计算感兴趣的统计量,重复这个过程足够多的次数(例如1000次或更多),可以构建出统计量的经验分布。然后可以根据这个经验分布来估计统计量的标准误、置信区间等。
非参数bootstrap的基本步骤如下:
(1)原始样本:从总体中抽取一个大小为n的随机样本,这个样本包含了n个观测值。
(2)重复抽样:从这个原始样本中进行有放回的抽样,每次抽取n个观测值,形成一个bootstrap样本。这个过程模拟了从总体中抽取一个新样本的行为。
(3)计算统计量:在每个bootstrap样本上计算感兴趣的统计量(如均值、中位数、方差等)。
(4)重复步骤2和3:重复步骤2和3多次(通常是1000次或更多),生成大量的统计量值。
(5)构建经验分布:使用所有计算出的统计量值来构建其经验分布。
(6)估计标准误和置信区间:根据经验分布,可以估计统计量的标准误(即统计量值的标准差)和置信区间(如,可以取经验分布的2.5%分位数和97.5%分位数作为参数的95%置信区间)。
参数bootstrap方法是bootstrap技术的一个变种,其区别在于它依赖于对数据分布的某些假设。在参数bootstrap中,我们首先假设数据来自一个特定的概率分布(如正态分布),然后从那个分布中进行抽样,而不是直接从原始数据中抽样。
参数bootstrap的步骤通常包括:
(1)**模型假设**:基于原始数据,假设一个概率分布模型。例如,假设数据服从正态分布。
(2)**参数估计**:从原始数据中估计该分布的参数。例如,估计正态分布的均值和标准差。
(3)**模拟抽样**:根据估计出的分布参数,从这个假设的分布中生成大量的随机样本。这些样本被称为bootstrap样本。
(4)**计算统计量**:在每个bootstrap样本上计算感兴趣的统计量。
(5)**重复步骤3和4**:重复步骤3和4多次(通常是1000次或更多),生成大量的统计量值。
(6)**构建经验分布**:使用所有计算出的统计量值来构建其经验分布。
(7)**估计标准误和置信区间**:根据经验分布,可以估计统计量的标准误和置信区间。
当原始样本较小或者原始数据分布已知时,参数bootstrap方法可能比非参数方法更为合适。
十一、随机过程及其统计描述
随机过程是一个数学概念,用于描述随机变量随时间(或者其他参数,比如空间)变化的规律。在随机过程中,任何特定时刻的状态都是随机的,但是这些随机变量的集合可能遵循某种统计规律或结构。
(1)**均值函数(期望值函数)**:
对于随机过程 $X(t)$,均值函数是时间的函数,定义为每一个时间点 $t$ 的随机变量 $X(t)$ 的期望值:
$$ \mu_X(t) = E[X(t)] $$
这表示在时间 $t$ 的所有可能实现中 $X(t)$ 的平均值。
(2)**方差函数和标准差函数**:
方差函数衡量随机过程在每个时间点的波动大小:
$$ \sigma^2_X(t) = Var[X(t)] = E\left[\left(X(t) - \mu_X(t)\right)^2\right] $$
标准差函数是方差函数的平方根,提供了与原始数据相同单位的波动度量。
(3)**协方差函数**:
协方差函数描述了随机过程在两个不同时间点的依赖关系:
$$ \text{Cov}[X(t), X(s)] = E\left[\left(X(t) - \mu_X(t)\right)\left(X(s) - \mu_X(s)\right)\right] $$
这表示在时间 $t$ 和时间 $s$ 的随机变量之间的平均关系。
(4)**相关函数**:
相关函数是归一化的协方差函数,衡量两个时间点之间的线性关系强度:
$$ \rho_{X}(t, s) = \frac{\text{Cov}[X(t), X(s)]}{\sigma_X(t)\sigma_X(s)} $$
这提供了一个介于 -1 和 1 之间的度量,其中 1 表示完全正相关,-1 表示完全负相关,0 表示无相关。
(5)**自相关函数**:
自相关函数是相关函数的特殊情况,它衡量随机过程在同一时间点的不同滞后时间的依赖性:
$$ R_{X}(t, t+\tau) = \frac{\text{Cov}[X(t), X(t+\tau)]}{\sigma_X(t)\sigma_X(t+\tau)} $$
其中 $\tau$ 是滞后时间。
(6) **概率分布函数**:
每个时间点 $t$ 上的随机变量 $X(t)$ 都有一个概率分布函数 $F_X(x; t)$,它描述了随机变量取值小于或等于 $x$ 的概率:
$$ F_X(x; t) = P(X(t) \leq x) $$
(7)**平稳性**:
如果随机过程的统计性质(如均值、方差、自相关函数)不随时间变化,则该过程是平稳的。严格意义上的平稳过程要求所有时刻和滞后时间的联合分布保持不变。
(8)**遍历性**:
遍历性是指从单个实现(样本路径)的长期观测中可以获得整个过程的统计性质。对于遍历的随机过程,时间平均等于集合平均。
(1) 泊松过程
泊松过程是一种计数过程,用来模拟在连续时间内发生的独立随机事件的数量。它由以下特性定义:
- **独立增量**:在不同时间间隔内发生的事件数是独立的。
- **平稳增量**:在任意相等长度的时间间隔内事件发生的平均速率(或强度)是常数,通常用 $\lambda$ 表示。
- **无同时发生**:在任意短的时间间隔内,两个或两个以上事件同时发生的概率几乎为零。
泊松过程常用来模拟电话呼叫到达、顾客到达服务台、放射性粒子衰变等现象。如果 $N(t)$ 表示时间 $t$ 内发生的事件总数,那么 $N(t)$ 遵循泊松分布:
$$ P(N(t) = n) = \frac{e^{-\lambda t}(\lambda t)^n}{n!} $$
其中,$n$ 是可能观察到的事件数量,$\lambda$ 是单位时间内事件发生的平均速率。
(2)维纳过程
维纳过程,也称为标准布朗运动,是连续时间随机过程的一个基本模型,具有以下特性:
- **连续路径**:维纳过程几乎必然具有连续的样本路径。
- **独立增量**:在不重叠的时间间隔内的增量是独立的。
- **正态增量**:在任意时间间隔 $[t, t+\Delta t]$ 内的增量 $W(t+\Delta t) - W(t)$ 遵循均值为0、方差为 $\Delta t$ 的正态分布。
- **起点为零**:$W(0) = 0$。
十二、马尔可夫链
马尔可夫过程是一类随机过程,其核心特征是“无记忆性”或“马尔可夫性质”,即过程的未来状态只依赖于当前状态,而与过去的历史状态无关。这一性质可以用数学语言表达为:
$$
P(X_{n+1} = x | X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) = P(X_{n+1} = x | X_n = x_n)
$$
其中,$X_n$ 表示在第 $n$ 步的状态。
马尔可夫过程可以是离散的或连续的,既可以在离散的时间点上取值,也可以在连续的时间内取值。下面是两种常见的马尔可夫过程:
(1)离散时间马尔可夫链(DTMC)
在离散时间马尔可夫链中,每个时间点上的状态都是从一个有限或可数无限的状态空间中取值。其概率分布通常由初始概率分布和转移概率矩阵给出:
- **初始概率分布**:描述在时间 $t=0$ 时系统处于每个可能状态的概率。
- **转移概率矩阵**:$P_{ij}$ 表示从状态 $i$ 在下一时间点转移到状态 $j$ 的概率。
对于离散时间马尔可夫链,如果状态空间是有限的,转移概率可以用一个矩阵 $P$ 来表示,其中 $P_{ij}$ 是矩阵中的元素。
(2)连续时间马尔可夫链(CTMC)
在连续时间马尔可夫链中,状态转换可以在任意连续时间点发生。其概率分布通常由初始概率分布和转移率矩阵(或称为强度矩阵)给出:
- **初始概率分布**:与离散时间情况相同,描述初始时刻系统处于每个状态的概率。
- **转移率矩阵**:$Q_{ij}$(对于 $i \neq j$)表示单位时间内从状态 $i$ 转移到状态 $j$ 的速率。对角线元素 $Q_{ii}$ 是负的,表示从状态 $i$ 离开的总速率。
在离散时间马尔可夫链中,状态的概率分布随着时间的推移通过连续应用转移概率矩阵来更新。而在连续时间马尔可夫链中,状态的概率分布是通过解微分方程来获得的。
泊松过程和维纳过程都是马尔可夫过程的特例。泊松过程是计数过程中事件发生的次数随时间的变化,而维纳过程是连续路径上的随机游走。在这两种情况下,未来的演化只取决于当前状态,与之前的路径无关。
在离散时间马尔可夫链(DTMC)中,多步转移概率是指系统从某一状态转移到另一状态经过多个时间步的概率。这些概率可以通过转移概率矩阵的连续乘积来确定。
设 $P$ 是一个转移概率矩阵,其中元素 $P_{ij}$ 表示从状态 $i$ 转移到状态 $j$ 的一步转移概率。那么,经过 $n$ 步从状态 $i$ 转移到状态 $j$ 的概率可以通过计算 $P$ 的 $n$ 次幂来获得。
具体来说,$n$ 步转移概率矩阵 $P^n$ 的元素 $(P^n)_{ij}$ 表示从状态 $i$ 经过 $n$ 步转移到状态 $j$ 的概率。计算 $P^n$ 通常涉及到矩阵乘法,可以直接通过连续进行矩阵乘法来实现,也可以使用更高级的数学工具,如特征值分解,来优化计算过程。
在实际应用中,如果状态空间很大,直接计算 $P^n$ 可能会很复杂。在这种情况下,可以使用数值方法,如迭代方法或者利用转移矩阵的稀疏性来简化计算。
对于连续时间马尔可夫链(CTMC),多步转移概率的概念不太适用,因为转移可以在任意连续时间点发生。然而,我们可以计算经过特定时间长度 $t$ 后的转移概率,这通常涉及到求解由转移率矩阵定义的微分方程系统。这类问题通常需要数值方法来解决,特别是在状态空间很大的情况下。
马尔可夫链的遍历性(或称为遍历理论)是指马尔可夫链长期行为的性质。具体来说,一个遍历的马尔可夫链会随着时间的推移趋于一个稳定的分布,称为稳态分布或平稳分布。这意味着无论初始状态如何,经过足够长时间后,系统状态的概率分布将收敛到这个分布,而且一旦达到这个分布,系统将保持在这个分布中。
一个遍历的马尔可夫链必须满足以下条件:
(1)不可约(Irreducible):从任何状态出发,都有可能到达任何其他状态(可能需要经过多步)。
(2)非周期性(Aperiodic):系统返回到任何特定状态的时间间隔没有固定周期。
(3)正常返(Positive recurrent):对于有限状态空间的链来说,每个状态都是正常返的,意味着从任何状态出发,预期返回到该状态的时间是有限的。
如果一个马尔可夫链是有限状态空间的、不可约的、非周期性的,则它一定是遍历的。对于无限状态空间的链,还需要正常返的条件。
为了确定一个马尔可夫链是否是遍历的,通常需要分析其转移概率矩阵。对于有限状态空间的马尔可夫链,可以通过计算转移概率矩阵的极限或者评估其特定属性(如周期性和不可约性)来确定其遍历性。对于无限状态空间的链,分析可能更为复杂,可能需要额外的数学工具。
十三、平稳随机过程
平衡随机过程(Stationary Stochastic Process)是一种特殊的随机过程,其统计特性随时间的推移保持不变。在数学和统计学中,平衡随机过程通常指的是一类具有不变统计性质的过程,这意味着过程的概率分布不会随时间的变化而变化。
平衡随机过程可以分为两类:
(1)**严格平稳(Strict-sense stationary)**: 一个随机过程是严格平稳的,如果它的所有统计特性都不随时间改变。这意味着对于任意时刻 $t_1, t_2, ..., t_n$ 和任意时间延迟 $\tau$,随机过程的联合概率分布 $P(X_{t_1}, X_{t_2}, ..., X_{t_n})$ 和 $P(X_{t_1+\tau}, X_{t_2+\tau}, ..., X_{t_n+\tau})$ 是相同的。
(2)**宽平稳(Wide-sense stationary)或者弱平稳**: 一个随机过程是宽平稳的,如果它满足以下条件:
- 均值函数 $\mu_X(t) = E[X_t]$ 是常数,与时间 $t$ 无关。
- 方差函数 $\sigma_X^2(t) = E[(X_t - \mu_X)^2]$ 是有限的,与时间 $t$ 无关。
- 自相关函数 $R_X(t, s) = E[X_t X_s]$ 只依赖于时间间隔 $|t-s|$,而不依赖于具体的时间点 $t$ 和 $s$。
各态历经性(Ergodicity)是指随机过程的长期平均行为与其在整个状态空间的平均行为相同。
对于平稳随机过程,各态历经性意味着过程的单个实现(或样本函数)足以反映整个过程的统计特性。这允许我们通过观察单个实现的时间平均来估计整个过程的统计参数,如均值和自相关函数。
具体来说,一个平稳随机过程 $X(t)$ 是各态历经的,如果对于所有的时间 $t$ 和延迟 $\tau$,以下条件成立:
(1)时间平均等于统计平均(集合平均):
$$ \lim_{T \to \infty} \frac{1}{T} \int_{0}^{T} X(t) dt = E[X(t)] $$
(2)时间平均的自相关函数等于统计自相关函数:
$$ \lim_{T \to \infty} \frac{1}{T} \int_{0}^{T} X(t)X(t+\tau) dt = E[X(t)X(t+\tau)] $$
平稳随机过程的相关函数,特别是自相关函数,具有一些特殊的性质,这些性质来源于过程的平稳性。这里我们主要讨论宽平稳(弱平稳)随机过程的自相关函数性质,因为宽平稳性是实际应用中最常用的定义。一个宽平稳随机过程的自相关函数 $R(\tau)$ 与时间间隔 $\tau$ 有关,而与时间点 $t$ 无关,即:
$$ R(\tau) = E[X(t)X(t+\tau)] $$
对于宽平稳随机过程,自相关函数 $R(\tau)$ 具有以下性质:
(1)**对称性**:
自相关函数是关于时间延迟 $\tau$ 的偶函数,这意味着 $R(\tau) = R(-\tau)$。这是因为时间的平稳性导致前后时刻的统计特性相同。
(2)**最大值在零延迟**:
自相关函数在 $\tau = 0$ 时达到最大值,即 $R(0) \geq |R(\tau)|$ 对所有 $\tau$ 都成立。这是因为 $R(0)$ 实际上是随机变量的方差,而自相关函数度量的是同一随机过程在不同时间点的线性关联程度。
(3)**非负定性**:
对于任意整数 $n$ 和任意时刻 $t_1, t_2, ..., t_n$,自相关函数构成的矩阵是非负定的。这意味着对于任何实数集合 $a_1, a_2, ..., a_n$,都有:
$$ \sum_{i=1}^{n}\sum_{j=1}^{n} a_i a_j R(t_i - t_j) \geq 0 $$
(4)**衰减性**:
如果随机过程不包含确定性的周期分量,则自相关函数应随着 $\tau$ 的增加而衰减,并趋向于零。这表示随着时间间隔的增加,随机变量之间的线性关系减弱。
(5)**傅里叶变换**:
自相关函数的傅里叶变换是随机过程的功率谱密度函数(Power Spectral Density, PSD)。功率谱密度函数描述了随机过程的功率如何分布在不同的频率上。
$$ S(f) = \int_{-\infty}^{\infty} R(\tau) e^{-i2\pi f\tau} d\tau $$
其中 $S(f)$ 是频率 $f$ 处的功率谱密度。
平稳随机过程的功率谱密度(Power Spectral Density,PSD)是描述过程功率如何随频率分布的函数。对于一个平稳随机过程,其功率谱密度是该过程自相关函数的傅里叶变换。功率谱密度为我们提供了从频域角度分析随机信号的工具,它在信号处理、控制理论和其他工程领域中非常重要。
对于一个宽平稳随机过程 $X(t)$,其自相关函数 $R(\tau)$ 与功率谱密度 $S(f)$ 之间的关系可以通过傅里叶变换来表达:
$$ S(f) = \int_{-\infty}^{\infty} R(\tau) e^{-i2\pi f\tau} d\tau $$
这里 $S(f)$ 表示频率 $f$ 处的功率谱密度,而 $R(\tau)$ 是自相关函数,它表示随机过程在任意两个时间点 $t$ 和 $t+\tau$ 之间的相关性。
功率谱密度的主要性质包括:
(1)**实数和非负性**:
功率谱密度总是实数且非负,因为它表示在特定频率下的功率,而功率不能为负。
(2)**对称性**:
对于实值随机过程,功率谱密度是频率的偶函数,即 $S(f) = S(-f)$。
(3)**总功率**:
过程的总功率可以通过对功率谱密度在所有频率上积分得到,这与自相关函数在零延迟时的值相等,即 $R(0)$,它代表了随机过程的方差。
$$ \int_{-\infty}^{\infty} S(f) df = R(0) $$
**帕塞瓦尔定理**:
自相关函数和功率谱密度之间满足帕塞瓦尔定理,这意味着时域中的能量等于频域中的总功率。
$$ \int_{-\infty}^{\infty} |X(t)|^2 dt = \int_{-\infty}^{\infty} S(f) df $$