本文最后更新于 807 天前，其中的信息可能已经有所发展或是发生改变。

基本概念

向量及其转置

一个 $d$ 维列向量 $x$ 及其转置 $x^t$ 可记作：

$$x=\left[
\begin{matrix}
x_1 \\
x_2 \\
\vdots \\
x_d \\
\end{matrix} \right] 和
x^t=\left[
\begin{matrix}
x_1 & x_2 & \dots & x_d \\
\end{matrix} \right] \tag{1}$$

矩阵及其转置

一个$n \times d$的矩阵$\mathbf M$及其$d \times n$的转置矩阵$\mathbf M^t$为：

$$\mathbf M = \left[
\begin{matrix}
m_{11} & m_{12} & \dots & m_{1d} \\
m_{21} & m_{22} & \dots & m_{2d} \\
\vdots & \vdots & \ddots & \vdots \\
m_{n1} & m_{n2} & \dots & m_{nd} \\
\end{matrix} \right] \tag{2}$$

和

$$\mathbf M^t =\left[
\begin{matrix}
m_{11} & m_{21} & \dots & m_{n1} \\
m_{12} & m_{22} & \dots & m_{n2} \\
\vdots & \vdots & \ddots & \vdots \\
m_{1d} & m_{2d} & \dots & m_{nd} \\
\end{matrix} \right]\tag{3}$$

对称矩阵与反对称矩阵

一个$d \times d$的方阵，如果其元素满足 $m_{ij}= m_{ji}$，则称为对称矩阵；一个的 $d \times d$ 方阵，如果其元素满足$m_{ij}=-m_{ji}$，则称为斜对称矩阵或反对称矩阵。

单位矩阵$ \mathbf I$

单位矩阵必须为方阵，其对角线元素均为1，非对角线元素均为0。

对角矩阵

非对角线元素均为0的矩阵，也记作$diag(m_{11}, m_{22}, \dots, m_{dd})$

向量或矩阵相加减

向量或矩阵的相加减即为对应元素相加减，参与运算的两个向量或矩阵维数必须相等。

矩阵与向量相乘

矩阵与向量相乘$\mathbf M \mathbf x=\mathbf y$可以表示为：

$$\left[
\begin{matrix}
m_{11} & m_{21} & \dots & m_{n1}\\
m_{12} & m_{22} & \dots & m_{n2} \\
\vdots & \vdots & \ddots & \vdots \\
m_{1d} & m_{2d} & \dots & m_{nd} \\
\end{matrix} \right]
\left[
\begin{matrix}
x_1 \\
x_2 \\
\vdots\\
x_d \\
\end{matrix} \right] =
\left[
\begin{matrix}
y_1 \\
y_2 \\
\vdots\\
y_n \\
\end{matrix} \right ] \tag{4}
$$

其中：$y_i=\sum\limits_{j=0}^d m_{ij}x_j$。注意矩阵的列数必须等于向量的行数。

向量内积与外积

向量内积

两个具有相同维数的向量$\mathbf x$与$\mathbf y$的内积记为$\mathbf x^t \mathbf y$，这是一个标量：

$$\mathbf x^t \mathbf y=\sum\limits_{i=0}^dx_i y_i=\mathbf y^t \mathbf x \tag{5}$$

内积也称作点积，记为$\mathbf x \cdot \mathbf y$或$\langle \mathbf x , \mathbf y \rangle$。

欧几里德范数

向量的欧几里德范数即为向量的长度，定义为：

$$\begin{Vmatrix}\mathbf x \end{Vmatrix}= \sqrt{\mathbf x^t \mathbf x} \tag{6}$$

如果一个向量$\mathbf x$满足$\begin{Vmatrix}\mathbf x \end{Vmatrix}= 1$，则称这个向量是归一化的。

两个向量的夹角

两个d维向量的夹角为：

$$cos\theta= \frac{\mathbf x^t\mathbf y}{\begin{Vmatrix}\mathbf x \end{Vmatrix}\begin{Vmatrix}\mathbf y \end{Vmatrix}}\tag{7}$$

当$\mathbf x^t\mathbf y=0$时，这两个向量是正交的。当$\begin{Vmatrix}\mathbf x^t \mathbf y\end{Vmatrix}= \begin{Vmatrix}\mathbf x \end{Vmatrix}\begin{Vmatrix}\mathbf y \end{Vmatrix}$时，这两个向量是共线的。

由于对于任意角度$\theta$都有$|cos\theta|\leq 1$，由式(7)可得柯西-施瓦茨不等式：

$$|\mathbf x^t \mathbf y| \leq \begin{Vmatrix}\mathbf x \end{Vmatrix} \begin{Vmatrix}\mathbf y \end{Vmatrix}\tag{8}$$

线性相关与线性无关

对于一组给定的向量$\lbrace \mathbf x_1, \mathbf x_2, \dots, \mathbf x_n \rbrace$，如果其中不存在任何一个能被表示为其余向量的线性组合的向量，那么这组向量是线性无关的，反之则是线性相关。一组d个线性无关的d维向量能够张成一个d维向量空间，也就是说，这个空间中的任意向量都可以表示为这些线性无关向量的线性组合。

向量的外积

两个向量的外积为一个矩阵：

$$\mathbf M= \mathbf x \mathbf y^t=
\left[
\begin{matrix}
x_1 \\
x_2 \\
\vdots\\
x_d \\
\end{matrix} \right]
\left[
\begin{matrix}
y_1 & y_2 & \dots & y_d\\
\end{matrix} \right]=
\left[
\begin{matrix}
x_1 y_1 & x_1 y_2 & \dots & x_1 y_n \\
x_2 y_1 & x_2 y_2 & \dots & x_2 y_n \\
\vdots & \vdots & \ddots & \vdots \\
x_d y_1 & x_d y_2 & \dots & x_d y_n \\
\end{matrix} \right]\tag{9}
$$

矩阵的导数

取标量值的函数的导数

设$f(\mathbf x)$是一个取标量值得函数，有d个自变量$x_i(i=1,2, \dots, d)$，用向量$\mathbf x$表示。则函数$f(\cdot)$关于自变量$\mathbf x$的梯度为：

$$\nabla f(\mathbf x)= \frac{\partial f(\mathbf x)}{\partial \mathbf x}=
\left[
\begin{matrix}
\frac{\partial f(\mathbf x)}{\partial x_1} \\
\frac{\partial f(\mathbf x)}{\partial x_2} \\
\vdots\\
\frac{\partial f(\mathbf x)}{\partial x_d} \\
\end{matrix} \right]\tag{10}
$$

取值为向量的函数的导数

设$\mathbf f$是一个值为n维向量的向量函数，其自变量为d维向量$\mathbf x$，则$\mathbf f$关于自变量的梯度为：

$$\mathbf J(\mathbf x)= \frac{\partial \mathbf f(\mathbf x)}{\partial \mathbf x}=
\left[
\begin{matrix}
\frac{\partial f_1(\mathbf x)}{\partial x_1} & \dots & \frac{\partial f_1(\mathbf x)}{\partial x_d} \\
\vdots & \ddots & \vdots \\
\frac{\partial f_n(\mathbf x)}{\partial x_1} & \dots & \frac{\partial f_n(\mathbf x)}{\partial x_d} \\
\end{matrix} \right]\tag{11}
$$

称矩阵$\mathbf J(\mathbf x)$为雅克比矩阵。

矩阵$\mathbf M$关于标量参数$\theta$的导数

设矩阵$\mathbf M$的每个元素都是关于某个标量参数$\theta$的函数，则此矩阵关于参数的导数为：

$$\frac{\partial \mathbf M}{\partial \theta}=
\left[
\begin{matrix}
\frac{\partial m_{11}}{\partial \theta} & \dots & \frac{\partial m_{1d}}{\partial \theta}\\
\vdots & \ddots & \vdots \\
\frac{\partial m_{n1}}{\partial \theta} & \dots & \frac{\partial m_{nd}}{\partial \theta} \\
\end{matrix} \right]\tag{12}
$$

常用公式

$$\begin{align}{1}
\frac{\partial}{\partial \mathbf x}[\mathbf M \mathbf x]= \mathbf M \tag{13} \\
\frac{\partial}{\partial \mathbf x}[\mathbf y^t \mathbf x]=
\frac{\partial}{\partial \mathbf x}[\mathbf x^t \mathbf y]=
\mathbf y \tag{14} \\
\frac{\partial}{\partial \mathbf x}[\mathbf x^t \mathbf M \mathbf x]= [\mathbf M + \mathbf M^t]\mathbf x \tag{15}
\end{align}$$

行列式和迹

求解行列式

$2 \times 2$的矩阵的行列式：

$$|\mathbf {M_{2 \times 2}}|= m_{11}m_{22}-m_{21}m_{12}\tag{16}$$

余子式：如果$\mathbf M$为$d \times d$的矩阵，任一元素$m_{ij}$的余子式$\mathbf M_{i|j}$定义为，从原始矩阵$\mathbf M$中分别划去第$i$行和第$j$列的所有元素后，得到的$(d-1) \times (d-1)$的矩阵。$m_{ij}$的代数余子式$C_{ij}$为余子式$\mathbf M_{i|j}$与$(-1)^{i+j}$的乘积。

以三维矩阵$\mathbf A$为例：

$$
\mathbf A=\left[
\begin{matrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23} \\
a_{31} & a_{32} & a_{33} \\
\end{matrix} \right]
$$

$a_{12}$的余子式$\mathbf A_{1|2}$表示为：

$$
\left[
\begin{matrix}
\times & \times & \times \\
a_{21} & \times & a_{23} \\
a_{31} & \times & a_{33} \\
\end{matrix} \right]
\to
\mathbf A_{1|2}=\left[
\begin{matrix}
a_{21} & a_{23} \\
a_{31} & a_{33} \\
\end{matrix} \right]
$$

$a_{12}$的代数余子式$C_{12}$表示为：

$$C_{12}=(-1)^{1+2}|\mathbf A_{1|2}|=-a_{21}a_{33}+a_{23}a_{31}$$

高阶矩阵的行列式：对于二阶矩阵的行列式，我们可以通过式（16）计算，对于更阶的矩阵，我们通过余子式来计算。如果$|\mathbf M_{i|j}|$已经计算得到，那么高阶矩阵行列式的计算有如下公式：

$$
|\mathbf M|=\sum\limits_{i=1}^d \sum\limits_{j=1}^d (-1)^{i+j} m_{ij} |\mathbf M_{i|j}|\tag{17}
$$

行列式的一些性质：对于任意矩阵，有：

$$|\mathbf M|=|\mathbf M^t|\tag{18}$$

当两个矩阵$\mathbf M$与$\mathbf N$的大小相同时，有：

$$|\mathbf M \mathbf N|=|\mathbf M| \times |\mathbf N|\tag{19}$$

矩阵的行列式在坐标系旋转时保持不变。

矩阵的迹

定义：对于$d \times d$的方阵，矩阵的迹定义为主对角线上的元素之和，即：

$$tr[\mathbf M]= \sum\limits_{i=1}^d m_{ii}\tag{20}$$

矩阵的迹在坐标系旋转时保持不变。

矩阵的逆

定义：只要一个$d \times d$矩阵$\mathbf M$的行列式不为零，那么它对应的逆矩阵$\mathbf M^{-1}$就存在，并且满足：

$$\mathbf M \mathbf M^{-1}= \mathbf I\tag{21}$$

伴随矩阵：矩阵$\mathbf M$的伴随矩阵记为$Adj[\mathbf M]$，它的第$i$行第$j$列元素为矩阵第$j$行第$i$列的余子式$C_{ji}$，即：

$$
Adj[\mathbf M]=
\left[
\begin{matrix}
C_{11} & C_{21} & \dots & C_{d1}\\
C_{12} & C_{22} & \dots & C_{d2} \\
\vdots & \vdots & \ddots & \vdots\\
C_{1d} & C_{2d} & \dots & C_{dd}\\
\end{matrix} \right]\tag{22}
$$

逆的计算：

$$
\mathbf M^{-1}=\frac{Adj[\mathbf M]}{|\mathbf M|}\tag{23}
$$

伪逆：如果$\mathbf M$不是方阵，或者$\mathbf M$的列向量不是线性无关的，则$\mathbf M^{-1}$不存在，我们通常用伪逆矩阵$\mathbf M^{\dagger}$来代替$\mathbf M^{-1}$。如果$\mathbf M^t \mathbf M$非奇异（即$|\mathbf M^t \mathbf M|\neq0$），则伪逆矩阵定义为：

$$\mathbf M^{\dagger}=[\mathbf M^{t} \mathbf M]^{-1} \mathbf M^{t}\tag{24}$$

逆的性质：

$$[\mathbf M \mathbf N]^{-1}=\mathbf M^{-1} \mathbf N^{-1}\tag{25}$$

特征值与特征向量

线性方程组的解：对于$d \times d$的矩阵$\mathbf M$，一类非常重要的线性方程组的形式为：

$$\mathbf M \mathbf x= \lambda \mathbf x\tag{26}$$

其中$\lambda$为标量。上式可以写为：

$$(\mathbf M- \lambda \mathbf I) \mathbf x=\mathbf 0 \tag{27}$$

其中$\mathbf I$为单位阵，为d维零向量。线性方程组（26）的解向量$\mathbf x=\mathbf e_i$和对应的标量系数$\lambda = \lambda_i$即为特征向量和特征值。
一种求解特征向量和特征值得方法是求解特征方程：

$$|\mathbf M- \lambda \mathbf I|=0\tag{28}$$

特征方程的各个根就是特征值。然后对应每个根，我们通过求解线性方程组来得到特征值对应的特征向量。

重要性质：全部特征值之和为矩阵的迹，全部特征值的乘积为矩阵的行列式，即：
$$
\begin{align}{}
tr[\mathbf M]=\sum\limits_{i=1}^d \lambda_i \tag{29} \\
|\mathbf M|= \prod\limits_{i=1}^d \lambda_i\tag{30}
\end{align}{}
$$

访问统计

基本概念

向量及其转置

矩阵及其转置

对称矩阵与反对称矩阵

单位矩阵$ \mathbf I$

对角矩阵

向量或矩阵相加减

矩阵与向量相乘

向量内积与外积

向量内积

欧几里德范数

两个向量的夹角

线性相关与线性无关

向量的外积

矩阵的导数

取标量值的函数的导数

取值为向量的函数的导数

矩阵$\mathbf M$关于标量参数$\theta$的导数

常用公式

行列式和迹

求解行列式

矩阵的迹

矩阵的逆

特征值与特征向量

发送评论编辑评论

基本概念

向量及其转置

矩阵及其转置

对称矩阵与反对称矩阵

单位矩阵$ \mathbf I$

对角矩阵

向量或矩阵相加减

矩阵与向量相乘

向量内积与外积

向量内积

欧几里德范数

两个向量的夹角

线性相关与线性无关

向量的外积

矩阵的导数

取标量值的函数的导数

取值为向量的函数的导数

矩阵$\mathbf M$关于标量参数$\theta$的导数

常用公式

行列式和迹

求解行列式

矩阵的迹

矩阵的逆

特征值与特征向量

发送评论 编辑评论

推荐文章

发送评论编辑评论