机器学习:数学基础

主要包括:

  • 随机变量
  • 期望
  • 线性代数
  • 随机向量
  • 边缘分布与条件分布
  • 独立性与链式法则
  • 贝叶斯定理

随机变量

  • 定义
    随机变量(X)是在集合$\mathcal{X}$中按一定概率取值的数值量:
    • 离散型:定义域$\mathcal{X}$包含有限离散值(例如$\mathcal{X} = {0,1}$)
    • 连续型:定义域$\mathcal{X}$是连续统(例如$\mathcal{X} = \mathbb{R}$)
  • 示例
    • 离散型:文本、电子游戏操作
    • 连续型:温度、像素亮度
      符号表示
  • 随机变量$X$ vs. 具体取值$x$:$X = x$表示随机变量X取值为x的事件

离散型随机变量

  • 概率质量函数(probability mass function, pmf)
    对于离散随机变量$X \sim p(x)$:
    $$ p(x) = \Pr[X = x], \quad 0 \leq p(x) \leq 1, \quad \sum_{x \in \mathcal{X}} p(x) = 1. $$
    频率派解释
    $$ p(x) \approx \frac{\text{取值为}x的样本数}{\text{总样本数}}. $$
  • 示例
    • 伯努利分布:$X \sim \text{Bern}(q)$,$\mathcal{X} = {0,1}$:
      $$ p(1) = q, \quad p(0) = 1 - q. $$
    • 范畴分布:$X \sim \text{Cat}(\mathbf{q})$,$\mathcal{X} = {0,1,\dots,C-1}$:
      $$ p(k) = q_k, \quad \mathbf{q} = [q_0, q_1, \dots, q_{C-1}], \quad \sum_{k=0}^{C-1} q_k = 1. $$
  • 独热编码:将$X=k$表示为第$k+1$位为1的向量

连续型随机变量

  • 概率密度函数(probability density function, pdf)
    对于连续随机变量$X \sim p(x)$:
    $$ p(x) \geq 0, \quad \int_{-\infty}^{+\infty} p(x) , dx = 1. $$
    示例(高斯分布)
    $$ p(x) = \mathcal{N}(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right). $$

期望

  • 离散型随机变量
    $$ \mathbb{E}{X \sim p(x)}[X] = \sum{x \in \mathcal{X}} p(x) \cdot x. $$
    随机变量的函数
    $$ \mathbb{E}{X \sim p(x)}[f(X)] = \sum{x \in \mathcal{X}} p(x) \cdot f(x). $$
  • 连续型随机变量
    $$ \mathbb{E}{X \sim p(x)}[f(X)] = \int{-\infty}^{+\infty} p(x) f(x) , dx. $$
    线性性质
    $$ \mathbb{E}[af(X) + bg(X)] = a\mathbb{E}[f(X)] + b\mathbb{E}[g(X)]. $$
    示例(高斯分布)
    $$ \mathbb{E}_{X \sim \mathcal{N}(\mu,\sigma^2)}[X] = \mu, \quad \mathbb{E}[X^2] = \mu^2 + \sigma^2. $$

线性代数

  • 向量

    • $L \times 1$向量$\mathbf{x} = [x_1, x_2, \dots, x_L]^T$
    • 转置:$\mathbf{x}^T = [x_1, x_2, \dots, x_L]$
  • 内积
    $$ \mathbf{x}^T \mathbf{y} = \sum_{i=1}^L x_i y_i. $$

  • 范数

    • $\ell_2$范数:$||\mathbf{x}|| = \sqrt{\mathbf{x}^T \mathbf{x}}$
    • 单位化向量:$\tilde{\mathbf{x}} = \frac{\mathbf{x}}{||\mathbf{x}||}$
      矩阵
    • $L \times M$矩阵$\mathbf{A}$,元素为$a_{ij}$
    • 转置:$[\mathbf{A}^T]{ij} = a{ji}$
  • 矩阵-向量乘法

    • 定义 $[A]{r:} = [a{r1}, a_{r2}, …, a_{rM}]$ 为包含矩阵 $A$ 第 $r$ 行的 $M \times 1$ 向量。
    • 一个 $L \times M$ 矩阵 $A$ 右乘一个 $M \times 1$ 向量 $x$,得到 $L \times 1$ 向量: $$ \mathbf{A} \mathbf{x} = \begin{bmatrix} [\mathbf{A}]{1:} \mathbf{x} \ \vdots \ [\mathbf{A}]{L:} \mathbf{x} \end{bmatrix}. $$
    • 交换率: 对于 $L \times M$ 矩阵 $A$ 和 $L \times 1$ 向量 $\mathbf{x}$,其左乘(使用转置向量)运算产生 $1 \times M$ 行向量: $$ \mathbf{x}^T A = (A^T \mathbf{x})^T $$
    • 示例:对于任意两个 $L \times 1$ 向量 $\mathbf{x}$ 和 $\mathbf{y}$,满足: $$ \mathrm{Diag}(\mathbf{x})\mathbf{y} = \mathrm{Diag}(\mathbf{y})\mathbf{x} = \begin{bmatrix} x_1 y_1 \ x_2 y_2 \ \vdots \ x_L y_L \ \end{bmatrix} = \mathbf{x} \circ \mathbf{y} $$ 其中 $\circ$ 表示逐元素乘积(Hadamard积)。
  • 矩阵-矩阵乘法

    • 对于维度分别为 $L \times M$ 和 $M \times D$ 的矩阵 $A$ 和 $B$,其乘积 $AB$ 定义为 $L \times D$ 矩阵: $$ AB = \Big[ A[B]{:1} \quad A[B]{:2} \quad \cdots \quad A[B]{:D} \Big] = \begin{bmatrix} [A]{1:}B \ [A]{2:}B \ \vdots \ [A]{L:}B \ \end{bmatrix} $$
    • 对于 $L \times 1$ 向量 $\mathbf{x}$ 和 $\mathbf{y}$,有: $$ \mathrm{Diag}(\mathbf{x})\mathrm{Diag}(\mathbf{y}) = \mathrm{Diag}(\mathbf{x} \circ \mathbf{y}) $$
  • 方阵与对称矩阵

    • 方阵:$L \times L$ 矩阵 $A$ 具有相等的行数和列数
    • 对称矩阵:满足 $A^T = A$ 的方阵,具有性质:
      • 对角矩阵都是对称矩阵
      • 等价表述:$\forall i \neq j$,有 $[A]{i,j} = [A]{j,i}$

随机向量

  • 联合分布
    对于随机向量$\mathbf{X} = [X_1, \dots, X_L]^T$:
    • 离散型:联合pmf $p(\mathbf{x}) = \Pr[X_1 = x_1, \dots, X_L = x_L]$
    • 连续型:联合pdf $p(\mathbf{x})$

边缘分布与条件分布

  • 边缘分布(Marginal Distribution)
    $$ p(x_1) = \sum_{x_2 \in \mathcal{X}} p(x_1, x_2). $$
  • 条件分布(conditional distribution)
    $$ p(x_1 | x_2) = \frac{p(x_1, x_2)}{p(x_2)}. $$
  • 计算要点
    • 边缘分布 $p(x_2)$ 的计算需要:
      • 对另一变量 $x_1$ 的所有可能值进行求和(离散情况)或积分(连续情况): $$ p(x_2) = \sum_{x_1} p(x_1, x_2) \quad \text{或} \quad p(x_2) = \int p(x_1, x_2) dx_1 $$
    • 条件分布 $p(x_1|x_2)$ 的计算需要:
      • 首先计算边缘分布 $p(x_2)$
      • 对于另一变量 $x_2$ 的固定值,对 $x_1$ 的所有可能值进行归一化: $$ p(x_1|x_2) = \frac{p(x_1, x_2)}{p(x_2)} $$
  • 链式法则
    $$ p(x_1, x_2) = p(x_1) p(x_2 | x_1). $$
  • 独立性
    $$ p(x_1, x_2) = p(x_1) p(x_2). $$

贝叶斯定理

  • 核心思想: 贝叶斯定理提供了一种数学方法,用于描述如何根据新观察到的证据(数据)更新我们对某事件的信念(概率)
    • 通俗理解:一开始你对某事有一个初始判断(先验概率),当获得新信息后,如何理性调整你的判断(后验概率)。
  • 关键概念
    • 先验概率(Prior Probability, ( p(x_2) ))
      • 定义:在观察到任何证据前,你对事件 ( x_2 ) 的初始概率假设。
      • 例子:你认为“发生火灾”的概率是 ( 1% )(即 ( p(x_2=1) = 0.01 ))。
    • 似然函数(Likelihood, ( p(x_1 \mid x_2) ))
      • 定义:在事件 ( x_2 ) 发生的条件下,观察到证据 ( x_1 ) 的概率。
      • 例子:如果发生火灾(( x_2=1 )),火灾警报响的概率是 ( 99% )(即 ( p(x_1=1 \mid x_2=1) = 0.99 ));如果没有火灾(( x_2=0 )),误报的概率是 ( 5% )(即 ( p(x_1=1 \mid x_2=0) = 0.05 ))。
    • 后验概率(Posterior Probability, ( p(x_2 \mid x_1) ))
      • 定义:在观察到证据 ( x_1 ) 后,事件 ( x_2 ) 发生的更新概率。
      • 目标:计算“听到警报响后,实际发生火灾的概率”。
  • 贝叶斯公式: $$p(x_2 \mid x_1) = \frac{p(x_1 \mid x_2) \cdot p(x_2)}{p(x_1)}$$ 其中:分母 ( p(x_1) ) 是边缘概率,表示观察到 ( x_1 ) 的总概率,可通过全概率公式计算:$$ p(x_1) = p(x_1 \mid x_2=1) \cdot p(x_2=1) + p(x_1 \mid x_2=0) \cdot p(x_2=0) $$
  • 例子:
    • 假设:
      • 先验概率:( p(x_2=1) = 0.01 )(火灾概率 1%)。
      • 似然函数:
        • ( p(x_1=1 \mid x_2=1) = 0.99 )(火灾时警报响的概率)。
        • ( p(x_1=1 \mid x_2=0) = 0.05 )(无火灾时误报概率)。
    • 问题:如果听到警报响(( x_1=1 )),实际发生火灾的概率是多少?
    • 计算步骤:
      1. 计算边缘概率 ( p(x_1=1) ): $$p(x_1=1) = 0.99 \times 0.01 + 0.05 \times 0.99 = 0.0099 + 0.0495 = 0.0594$$
      2. 代入贝叶斯公式: $$p(x_2=1 \mid x_1=1) = \frac{0.99 \times 0.01}{0.0594} \approx 0.1667$$ 结论:即使警报响了,实际发生火灾的概率仅约 16.67%(远低于直觉预期)。

Last modified on 2025-08-16