机器学习:数学基础
主要包括:
- 随机变量
- 期望
- 线性代数
- 随机向量
- 边缘分布与条件分布
- 独立性与链式法则
- 贝叶斯定理
随机变量
- 定义:
随机变量(X)是在集合$\mathcal{X}$中按一定概率取值的数值量:- 离散型:定义域$\mathcal{X}$包含有限离散值(例如$\mathcal{X} = {0,1}$)
- 连续型:定义域$\mathcal{X}$是连续统(例如$\mathcal{X} = \mathbb{R}$)
- 示例:
- 离散型:文本、电子游戏操作
- 连续型:温度、像素亮度
符号表示:
- 随机变量$X$ vs. 具体取值$x$:$X = x$表示随机变量X取值为x的事件
离散型随机变量
- 概率质量函数(probability mass function, pmf):
对于离散随机变量$X \sim p(x)$:
$$ p(x) = \Pr[X = x], \quad 0 \leq p(x) \leq 1, \quad \sum_{x \in \mathcal{X}} p(x) = 1. $$
频率派解释:
$$ p(x) \approx \frac{\text{取值为}x的样本数}{\text{总样本数}}. $$ - 示例:
- 伯努利分布:$X \sim \text{Bern}(q)$,$\mathcal{X} = {0,1}$:
$$ p(1) = q, \quad p(0) = 1 - q. $$ - 范畴分布:$X \sim \text{Cat}(\mathbf{q})$,$\mathcal{X} = {0,1,\dots,C-1}$:
$$ p(k) = q_k, \quad \mathbf{q} = [q_0, q_1, \dots, q_{C-1}], \quad \sum_{k=0}^{C-1} q_k = 1. $$
- 伯努利分布:$X \sim \text{Bern}(q)$,$\mathcal{X} = {0,1}$:
- 独热编码:将$X=k$表示为第$k+1$位为1的向量
连续型随机变量
- 概率密度函数(probability density function, pdf):
对于连续随机变量$X \sim p(x)$:
$$ p(x) \geq 0, \quad \int_{-\infty}^{+\infty} p(x) , dx = 1. $$
示例(高斯分布):
$$ p(x) = \mathcal{N}(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right). $$
期望
- 离散型随机变量:
$$ \mathbb{E}{X \sim p(x)}[X] = \sum{x \in \mathcal{X}} p(x) \cdot x. $$
随机变量的函数:
$$ \mathbb{E}{X \sim p(x)}[f(X)] = \sum{x \in \mathcal{X}} p(x) \cdot f(x). $$ - 连续型随机变量:
$$ \mathbb{E}{X \sim p(x)}[f(X)] = \int{-\infty}^{+\infty} p(x) f(x) , dx. $$
线性性质:
$$ \mathbb{E}[af(X) + bg(X)] = a\mathbb{E}[f(X)] + b\mathbb{E}[g(X)]. $$
示例(高斯分布):
$$ \mathbb{E}_{X \sim \mathcal{N}(\mu,\sigma^2)}[X] = \mu, \quad \mathbb{E}[X^2] = \mu^2 + \sigma^2. $$
线性代数
-
向量:
- $L \times 1$向量$\mathbf{x} = [x_1, x_2, \dots, x_L]^T$
- 转置:$\mathbf{x}^T = [x_1, x_2, \dots, x_L]$
-
内积:
$$ \mathbf{x}^T \mathbf{y} = \sum_{i=1}^L x_i y_i. $$ -
范数:
- $\ell_2$范数:$||\mathbf{x}|| = \sqrt{\mathbf{x}^T \mathbf{x}}$
- 单位化向量:$\tilde{\mathbf{x}} = \frac{\mathbf{x}}{||\mathbf{x}||}$
矩阵: - $L \times M$矩阵$\mathbf{A}$,元素为$a_{ij}$
- 转置:$[\mathbf{A}^T]{ij} = a{ji}$
-
矩阵-向量乘法:
- 定义 $[A]{r:} = [a{r1}, a_{r2}, …, a_{rM}]$ 为包含矩阵 $A$ 第 $r$ 行的 $M \times 1$ 向量。
- 一个 $L \times M$ 矩阵 $A$ 右乘一个 $M \times 1$ 向量 $x$,得到 $L \times 1$ 向量: $$ \mathbf{A} \mathbf{x} = \begin{bmatrix} [\mathbf{A}]{1:} \mathbf{x} \ \vdots \ [\mathbf{A}]{L:} \mathbf{x} \end{bmatrix}. $$
- 交换率: 对于 $L \times M$ 矩阵 $A$ 和 $L \times 1$ 向量 $\mathbf{x}$,其左乘(使用转置向量)运算产生 $1 \times M$ 行向量: $$ \mathbf{x}^T A = (A^T \mathbf{x})^T $$
- 示例:对于任意两个 $L \times 1$ 向量 $\mathbf{x}$ 和 $\mathbf{y}$,满足: $$ \mathrm{Diag}(\mathbf{x})\mathbf{y} = \mathrm{Diag}(\mathbf{y})\mathbf{x} = \begin{bmatrix} x_1 y_1 \ x_2 y_2 \ \vdots \ x_L y_L \ \end{bmatrix} = \mathbf{x} \circ \mathbf{y} $$ 其中 $\circ$ 表示逐元素乘积(Hadamard积)。
-
矩阵-矩阵乘法:
- 对于维度分别为 $L \times M$ 和 $M \times D$ 的矩阵 $A$ 和 $B$,其乘积 $AB$ 定义为 $L \times D$ 矩阵: $$ AB = \Big[ A[B]{:1} \quad A[B]{:2} \quad \cdots \quad A[B]{:D} \Big] = \begin{bmatrix} [A]{1:}B \ [A]{2:}B \ \vdots \ [A]{L:}B \ \end{bmatrix} $$
- 对于 $L \times 1$ 向量 $\mathbf{x}$ 和 $\mathbf{y}$,有: $$ \mathrm{Diag}(\mathbf{x})\mathrm{Diag}(\mathbf{y}) = \mathrm{Diag}(\mathbf{x} \circ \mathbf{y}) $$
-
方阵与对称矩阵
- 方阵:$L \times L$ 矩阵 $A$ 具有相等的行数和列数
- 对称矩阵:满足 $A^T = A$ 的方阵,具有性质:
- 对角矩阵都是对称矩阵
- 等价表述:$\forall i \neq j$,有 $[A]{i,j} = [A]{j,i}$
随机向量
- 联合分布:
对于随机向量$\mathbf{X} = [X_1, \dots, X_L]^T$:- 离散型:联合pmf $p(\mathbf{x}) = \Pr[X_1 = x_1, \dots, X_L = x_L]$
- 连续型:联合pdf $p(\mathbf{x})$
边缘分布与条件分布
- 边缘分布(Marginal Distribution):
$$ p(x_1) = \sum_{x_2 \in \mathcal{X}} p(x_1, x_2). $$ - 条件分布(conditional distribution):
$$ p(x_1 | x_2) = \frac{p(x_1, x_2)}{p(x_2)}. $$ - 计算要点:
- 边缘分布 $p(x_2)$ 的计算需要:
- 对另一变量 $x_1$ 的所有可能值进行求和(离散情况)或积分(连续情况): $$ p(x_2) = \sum_{x_1} p(x_1, x_2) \quad \text{或} \quad p(x_2) = \int p(x_1, x_2) dx_1 $$
- 条件分布 $p(x_1|x_2)$ 的计算需要:
- 首先计算边缘分布 $p(x_2)$
- 对于另一变量 $x_2$ 的固定值,对 $x_1$ 的所有可能值进行归一化: $$ p(x_1|x_2) = \frac{p(x_1, x_2)}{p(x_2)} $$
- 边缘分布 $p(x_2)$ 的计算需要:
- 链式法则:
$$ p(x_1, x_2) = p(x_1) p(x_2 | x_1). $$ - 独立性:
$$ p(x_1, x_2) = p(x_1) p(x_2). $$
贝叶斯定理
- 核心思想: 贝叶斯定理提供了一种数学方法,用于描述如何根据新观察到的证据(数据)更新我们对某事件的信念(概率)。
- 通俗理解:一开始你对某事有一个初始判断(先验概率),当获得新信息后,如何理性调整你的判断(后验概率)。
- 关键概念
- 先验概率(Prior Probability, ( p(x_2) ))
- 定义:在观察到任何证据前,你对事件 ( x_2 ) 的初始概率假设。
- 例子:你认为“发生火灾”的概率是 ( 1% )(即 ( p(x_2=1) = 0.01 ))。
- 似然函数(Likelihood, ( p(x_1 \mid x_2) ))
- 定义:在事件 ( x_2 ) 发生的条件下,观察到证据 ( x_1 ) 的概率。
- 例子:如果发生火灾(( x_2=1 )),火灾警报响的概率是 ( 99% )(即 ( p(x_1=1 \mid x_2=1) = 0.99 ));如果没有火灾(( x_2=0 )),误报的概率是 ( 5% )(即 ( p(x_1=1 \mid x_2=0) = 0.05 ))。
- 后验概率(Posterior Probability, ( p(x_2 \mid x_1) ))
- 定义:在观察到证据 ( x_1 ) 后,事件 ( x_2 ) 发生的更新概率。
- 目标:计算“听到警报响后,实际发生火灾的概率”。
- 先验概率(Prior Probability, ( p(x_2) ))
- 贝叶斯公式: $$p(x_2 \mid x_1) = \frac{p(x_1 \mid x_2) \cdot p(x_2)}{p(x_1)}$$ 其中:分母 ( p(x_1) ) 是边缘概率,表示观察到 ( x_1 ) 的总概率,可通过全概率公式计算:$$ p(x_1) = p(x_1 \mid x_2=1) \cdot p(x_2=1) + p(x_1 \mid x_2=0) \cdot p(x_2=0) $$
- 例子:
- 假设:
- 先验概率:( p(x_2=1) = 0.01 )(火灾概率 1%)。
- 似然函数:
- ( p(x_1=1 \mid x_2=1) = 0.99 )(火灾时警报响的概率)。
- ( p(x_1=1 \mid x_2=0) = 0.05 )(无火灾时误报概率)。
- 问题:如果听到警报响(( x_1=1 )),实际发生火灾的概率是多少?
- 计算步骤:
- 计算边缘概率 ( p(x_1=1) ): $$p(x_1=1) = 0.99 \times 0.01 + 0.05 \times 0.99 = 0.0099 + 0.0495 = 0.0594$$
- 代入贝叶斯公式: $$p(x_2=1 \mid x_1=1) = \frac{0.99 \times 0.01}{0.0594} \approx 0.1667$$ 结论:即使警报响了,实际发生火灾的概率仅约 16.67%(远低于直觉预期)。
- 假设:
Last modified on 2025-08-16