MIT线性代数网课笔记
-
对于方程组(Lecture #1)
\[\mathbf A \mathbf x=\mathbf b\]$\textbf A$为$N\times N$矩阵,$\textbf{x,b}$均为$N$维列向量
-
如果从行来看,每一个方程代表了一个超平面,这个方程组就是要求解$N$个超平面的交集
-
如果从列来看,每一列参数代表了一个$N$维向量,需要找到解$\mathbf x$使得对这些列向量进行线性组合之后得到$\mathbf b$
将上面列的视角应用到矩阵乘法当中
这里$\mathbf A$为$N\times M$矩阵,$\mathbf B$为$M\times P$矩阵,$\mathbf C$为$N\times P$矩阵
可以看作是$\mathbf A$的列向量通过$\mathbf B$的第$i$列进行线性组合得到$\mathbf C$的第$i$列
-
-
考虑对上述方程组进行高斯消元(Lecture #2)
也即通过矩阵行变化将原矩阵消元(变为上三角矩阵)再回代(变为对角矩阵)从而求解方程组
-
对于
\[\textbf{x}^\mathrm T\textbf A=\textbf b^\mathrm T\]相当于将$\textbf A$的行向量通过$\textbf x^\mathrm T$进行线性组合得到$\textbf b^\mathrm T$
同样应用到矩阵乘法中
\[\textbf {AB}=\textbf C\]可以看作是$\textbf B$的行向量通过$\textbf A$的第$i$行进行线性组合得到$\textbf C$的第$i$行
-
高斯消元中的一系列矩阵行变换可以看作是不断左乘行变换矩阵实现。
-
-
矩阵乘法的五种方式(Lecture #3) \(\mathbf{AB}=\mathbf C\)
-
公式 \(c_{ij}=\sum_k^Ma_{ik}*b_{kj}\)
- 之前提到的两种
- 列:$\mathbf A$的列向量通过$\mathbf B$的第$i$列进行线性组合得到$\mathbf C$的第$i$列
- 行:$\textbf B$的行向量通过$\textbf A$的第$i$行进行线性组合得到$\textbf C$的第$i$行
-
可以看作是$\mathbf A$的列向量($N\times 1)$与$\mathbf B$的行向量($1\times P$)的矩阵成绩的和
\[\mathbf C=\sum_i^M \mathbf A_{:,i}*\mathbf B_{i,:}\]这种方式下,$\mathbf C$可以看作$M$个矩阵的和,而每一个矩阵都是由一个列向量乘一个行向量得到,这样的矩阵有一个性质,就是每一行/列都会是进行乘法的两个行/列向量的倍数,因此该矩阵行/列空间就是一条直线。
- 最后一种方法就是分块
-
-
逆矩阵(Lecture #3)
-
如何理解可逆概念:
若存在非零向量$\mathbf x$使得 \(\mathbf {Ax}=0\)
则$\mathbf A$不可逆,因为如果逆存在,就会得到$\mathbf x=0$,与条件矛盾 上面的方程组实际含义:不可逆/奇异矩阵其列能通过线性组合得到$0$
-
对于逆矩阵的求解,可以看作是多个方程组的同时求解
\[\mathbf {AA}^{-1}=\mathbf I\]$\mathbf A^{-1}$的第$i$列与$\mathbf I$的第$i$列对应之前讨论方程组中的$\mathbf x$和$\mathbf b$,并且每一列的求解是互相独立的,因此可以增广矩阵直接将所有方程组一起求解,也就是课本中学习到的消元求逆的过程了
-
- 矩阵LU分解后L矩阵就代表消元所用的乘数(Lecture #4)
-
向量空间、子空间(Lecture #5)
-
如$\mathbb R^2,\mathbb R^3$都是向量空间
-
子空间:子空间内的向量进行加法、数乘运算后得到的向量依然在子空间中
- 对于$\mathbb R^2$:1.空间本身、2.过原点的直线、3.单独的零向量都是其子空间
- 直线子空间与$\mathbb R^1$并不相同,因为该子空间虽然也是直线,但是向量维度是$2$
-
从矩阵中构造子空间:对于如下矩阵,它的两个列向量的线性组合构成一个子空间,即列空间
\[\begin{align} \begin{bmatrix} 1&3\\ 2&3\\ 4&1\\ \end{bmatrix} \end{align}\]
-
-
列空间(Lecture #6)
-
两个子空间的交集也是子空间,因为交集显然满足运算封闭
-
考虑方程组求解
\[\mathbf A\mathbf x=\mathbf b\]其中$\mathbf A$不一定是方阵,这里方程组有解也就是说$\mathbf b$可以表示为矩阵$\mathbf A$的列向量的线性组合,即$\mathbf b$在矩阵$\mathbf A$的列空间中
-
$\mathrm{Nullspace}$:(也许可以叫一般零空间)方程组$\mathbf {Ax}=\mathbf 0$的解的集合${\mathbf x}$
-
- 方程组$\mathbf {Ax}=\mathbf b$求解(Lecture #8)
- 最后解的形式为特解$\mathbf x_p$+$\mathrm{Nullspace}$中的向量
- 特解即满足$\mathbf {Ax}_p=\mathbf b$的某一个向量
- $\mathrm{Nullspace}$空间中的向量是一个子空间
- 因此最后解集是一个经过特解的超平面(不是子空间,因为不经过原点)
- 最后解的形式为特解$\mathbf x_p$+$\mathrm{Nullspace}$中的向量
- 矩阵的秩决定了方程组解的数目($0/1/\infty$)(Lecture #8)
- 若$\mathbf A$为$m\times n$矩阵,则有
- $rank=m=n$:$1$个解(可逆方阵)
- $rank=n<m$:$0/1$个解(仅列满秩)
- $rank=m<n$:$1/\infty$个解(仅行满秩)
- $rank<m,rank<n$:$0/\infty$个解
- 若$\mathbf A$为$m\times n$矩阵,则有
- 线性相关、张成(span)空间、基(Lecture #9)
- $\mathbf {Ax}=\mathbf 0$有非零解,则$\mathbf A$的列向量线性相关;无非零解,则线性无关
- 张成空间为向量组的所有线性组合
- 空间的基是一组线性无关、能够生成整个空间的向量组
- 矩阵的四个基本子空间(Lecture #10)
- 列空间、行空间(转置后的列空间)、零空间、转置后的零空间
- 矩阵空间(Lecture #11)
- 例如$3\times 3$的矩阵空间$\mathrm M$,等大小的对称矩阵、上三角矩阵都是其子空间
- 与向量空间不同的是,由于描述中不同位置不再完全独立,原空间$\mathrm M$的基向量可能不能覆盖子空间的基向量
- 如矩阵空间$\mathrm M$的基向量可以由$9$个只有$1$维为$1$的向量组成,但是这些基向量中的一部分无法组成对称矩阵空间的基向量,对称矩阵空间维度为$6$
- 子空间的交集也是子空间,如对称矩阵与上三角矩阵的交集就是对角矩阵
- $rank=1$的矩阵可以分解为列向量与行向量的乘积,任何矩阵可以分解成$rank$个秩为$1$的矩阵的和
-
从图到矩阵(Lecture #12)
-
关联矩阵(Incidence Matrix)
- 每一行记录一条边,列数为结点数量,$-1$表示边从该点指出,$1$表示边指向该点,其他为$0$
- 如果存在回路,则关联矩阵的行线性相关
- 考虑一个环,相邻两边的行相加会形成一条新的边并和其他边依然组成一个环,最后两条相同边的环可以得到零向量,即线性相关
-
考虑一个实例
- $\mathbf x$表示每个结点的电势,则$\mathbf {Ax}$表示电势差(电流$\mathbf y=C\mathbf {Ax}$)
- $\mathbf y$表示每条边的电流,则$\mathbf A^\mathrm T\mathbf y$表示每个结点流出的电流,$\mathbf A^\mathrm T\mathbf y=0$即为基尔霍夫电流定律(流入等于流出)
- $\mathbf A^\mathrm T$的$\mathrm{nullspace}$维度就是图中环的数量,又$\mathrm{dim}\ N(\mathbf A^\mathrm T)=m-r$,即欧拉公式
-
-
习题课(Lecture #13)
-
判断题:如果有$\mathbf B^2=\mathbf 0$,则有$\mathbf B=\mathbf 0$(错误)
- \[\mathbf B=\begin{bmatrix}0&1\\0&0\end{bmatrix}\]
-
一个非零向量不可能同时存在于零空间和行空间
- \[\mathbf {Ax}=\mathbf 0\]
-
$\mathbf x$与$\mathbf A$的每一行点积都是$0$说明$\mathbf x$与行空间的超平面垂直,因此不可能同时存在于零空间和行空间
-
零空间与行空间是列数维度空间下的子空间,零空间维度$n(列数)-rank$,行空间维度$rank$,两空间交集只有零向量。
- 更进一步,两空间正交(后面章节内容)
-
-
正交(Lecture #14)
-
两个子空间正交定义:子空间的任意向量都与另一子空间的任意向量正交,则子空间正交
- 行空间与零空间正交:根据方程,每一行与$\mathbf x$的乘积都是$0$,根据分配律,可以得到行空间所有向量与解的点积都是$0$
- 由于行空间与零空间的维度之和为其中向量的维度$N$,他们被称为$\mathbb R^N$的正交补(orthogonal complement)
- 零空间是行空间的正交补表示,零空间包含所有与行空间正交的向量
-
提出结论:(Lecture 16证明)
-
$N(\mathbf A)$表示矩阵的零空间$(\mathrm{nullspace})$
\[N(\mathbf A^\mathrm T\mathbf A)=N(\mathbf A)\\ rank(\mathbf A^\mathrm T\mathbf A)=rank(\mathbf A)\] -
证明(Lecture #16)
- \[\mathbf A^\mathrm T\mathbf {Ax}=\mathbf 0\\ \mathbf x^\mathrm T\mathbf A^\mathrm T\mathbf {Ax}=\mathbf 0\\ \mathbf {Ax}=\mathbf 0\\\]
-
因此$\mathbf A^\mathrm T\mathbf A$可逆的充要条件是$\mathbf A$的列向量线性无关,$\mathbf A^\mathrm T\mathbf A$与$\mathbf A$的秩和零空间都相同
-
-
-
投影(Lecture #15)
be perpendicular to:垂直于-
考虑空间两个向量$\mathbf {a, b}$,两向量不在同一直线上,考虑$\mathbf b$在$\mathbf a$上的投影$\mathbf p=x\mathbf a$,有$\mathbf e=\mathbf b-\mathbf p ,\mathbf e\perp \mathbf a$
- 即
- 则有投影矩阵$\mathbf P=\frac{\mathbf {aa}^\mathrm T}{\mathbf a^\mathrm T\mathbf a}$,显然投影矩阵是对称矩阵,同时做多次投影的结果和只做一次投影的结果相同,即:
-
考虑$\mathbf A\mathbf x=\mathbf b$,如果$\mathbf b$在$\mathbf A$的列空间中,则方程组有解,否则无解。
-
对于无解的情况,考虑找到$\mathbf{\hat x}$使得$\mathbf A\mathbf {\hat x}=\mathbf p$与$\mathbf b$尽可能接近,$\mathbf p$也就会是$\mathbf b$在列空间上的投影
-
则有向量$\mathbf b-\mathbf p$与列空间垂直,即与$\mathbf A$的所有列向量垂直,即:
\[\mathbf A^\mathrm T(\mathbf b-\mathbf {A\hat x})=\mathbf 0\\ \mathbf A^\mathrm T\mathbf b=\mathbf A^\mathrm T\mathbf {A\hat x}\\ \mathbf {\hat x}=(\mathbf A^\mathrm T\mathbf A)^{-1}\mathbf A^\mathrm T\mathbf b\\ \mathbf p=\mathbf {A\hat x}=\mathbf A(\mathbf A^\mathrm T\mathbf A)^{-1}\mathbf A^\mathrm T\mathbf b\\ \mathbf P=\mathbf A(\mathbf A^\mathrm T\mathbf A)^{-1}\mathbf A^\mathrm T\] -
第一个式子实际意义就是误差向量一定在$\mathbf A^\mathrm T$的零空间中,符合之前的定理:零空间中包含了所有与行空间正交的向量
-
上面的公式虽然非常漂亮,但是在实际应用中,$\mathbf A^\mathrm T\mathbf A$可逆的条件是很苛刻的,如果不可逆,可以在对角线加上一个小常数来近似
-
$\mathbf A^\mathrm T\mathbf A$的逆不能拆开是因为无法保证$\mathbf A$是可逆方阵,这里如果$\mathbf A$是可逆方阵,则显然有投影矩阵为单位阵,也即原方程就有解
-
超平面的投影矩阵同样满足
- \[\mathbf P^\mathrm T=\mathbf P\\ \mathbf P^2=\mathbf P\]
-
-
最小二乘法的实际就是找到$\mathbf b$在列空间的投影(误差向量模最小)
-
- 将向量$\mathbf b$投影到列空间会将其分成两个向量$\mathbf b=\mathbf p+\mathbf e$,其中$\mathbf p$是在列空间的投影,而$\mathbf e$就是在转置后的零空间(列空间的正交补)的投影(Lecture #16)
-
标准正交(Lecture #17)
-
标准正交基:模为$1$并且互相正交,数量不定
-
正交矩阵:标准正交基组成列向量的方阵
- 由标准正交性质:$\mathbf Q^\mathrm T\mathbf Q=\mathbf I$
- 可得$\mathbf Q$与$\mathbf Q^\mathrm T$互为逆矩阵,也有$\mathbf {QQ}^\mathrm T=\mathbf I$,即正交矩阵的行向量也是一组标准正交基
-
考虑一组标准正交基构成列向量的矩阵$\mathbf Q$,求向量$\mathbf b$在其列空间的投影 \(\mathbf Q^\mathrm T\mathbf Q\mathbf {\hat x}=\mathbf Q^\mathrm T\mathbf b\\ \mathbf {\hat x}=\mathbf Q^\mathrm T\mathbf b\\ \hat x_i=\mathbf q_i^\mathrm T\mathbf b\)
-
Gram-Schmidt标准正交化:将一组线性无关的向量基转化为标准正交基- 对线性无关的向量组,按照一个顺序,依次让当前向量减去在前面每一个处理后向量上的投影,然后再除以模长,就能够得到一组标准正交基
- 向量$\mathbf b$减去其在$\mathbf a$上的投影为$\mathbf b-\mathbf a(\mathbf a^\mathrm T\mathbf a)^{-1}\mathbf a^\mathrm T\mathbf b=\mathbf b-\frac{\mathbf a^\mathrm T\mathbf b}{\mathbf a^\mathrm T\mathbf a}\mathbf a$
- 如果用矩阵乘法来表示这个标准正交化过程$\mathbf A=\mathbf {QR}$,则由$\mathbf R$为上三角矩阵,因为$\mathbf Q^\mathrm T\mathbf A=\mathbf R$,而$\mathbf Q$的第$i$列与$\mathbf A$的小于$i$的列是正交的。
-
- 行列式(Lecture #18,19,20)
- 行列式的三个性质
- $\mathrm{det}\ \mathbf I=\vert\mathbf I\vert=1$
- 交换矩阵的两行会使行列式符号改变
- \[\begin{vmatrix} ta+a'&tb+b'\\ c&d \end{vmatrix} =t\begin{vmatrix} a&b\\ c&d \end{vmatrix}+\begin{vmatrix}a'&b'\\c&d\end{vmatrix}\]
- 基于上面三个性质可以推出
- 如果某两行相同,则行列式为$0$(交换后行列式符号改变)
- 任意一行减去另外一行的$k$倍,行列式不变(性质$3$+性质$2$)
- 某一行全是$0$则行列式为$0$(性质$3$)
- 根据上面的所有性质,可以发现求解行列式的时候任意一个矩阵都可以被化为一个对角矩阵
- 一个对角矩阵的行列式值为对角元素的乘积(性质$1$+性质$3$)
- $\mathrm {det}\ \mathbf A=0$当且仅当$\mathbf A$是奇异矩阵,$\mathrm{det}\mathbf A\neq0$当且仅当$\mathbf A$可逆
- $\mathrm{det}\ \mathbf {AB}=(\mathrm{det}\ \mathbf A)(\mathrm{det}\ \mathbf B)$
-
$\mathrm{det}\ \mathbf A^\mathrm T=\mathrm{det}\mathbf A$
-
行列式的直接计算公式,也就是分解为排列数量的乘积相加的公式,实际上就是将矩阵通过前面的性质$3$不断分解直到每行每列最多只有一个非零值
- \[\begin{vmatrix} a&b\\ c&d \end{vmatrix}=\begin{vmatrix} a&0\\ c&d \end{vmatrix}+\begin{vmatrix} 0&b\\ c&d \end{vmatrix}=\begin{vmatrix} a&0\\ c&0 \end{vmatrix}+\begin{vmatrix} a&0\\ 0&d \end{vmatrix}+\begin{vmatrix} 0&b\\ c&0 \end{vmatrix}+\begin{vmatrix} 0&b\\ 0&d \end{vmatrix}\]
-
代数余子式计算行列式(跳过)
-
逆矩阵可以用行列式和代数余子式表示,下面$\mathbf C$为代数余子式组成的矩阵,又称伴随矩阵
- $\mathbf {AC}^\mathrm T=(\mathrm{det\ \mathbf A})\mathbf I$
- 考虑$\mathbf A$的各行与$\mathbf C^\mathrm T$的各列点乘的结果,最终就会得到右边的式子
-
克莱姆法则,也就是上面的公式应用到方程组的求解当中
- \[\mathbf {Ax}=\mathbf b\\\mathbf x=\mathbf A^{-1}\mathbf b=\frac{1}{\mathrm{det}\ \mathbf A}\mathbf C^\mathrm T\mathbf b\]
-
行列式的绝对值代表矩阵各个行向量在空间中生成的多面体的体积
- 要证明这个定理,只需要证明行向量对应的体积也跟行列式一样满足最前面的三个性质即可
- 行列式的三个性质
-
特征值与特征向量(Lecture #21,22)
-
$\mathbf {Ax}$与$\mathbf x$平行
- \[\mathbf {Ax}=\lambda\mathbf x\\ (\mathbf{A}-\lambda\mathbf I)\mathbf x=\mathbf 0\]
-
根据上面方程,如果存在非零特征向量,则$(\mathbf A-\lambda\mathbf I)$必须为奇异矩阵,由此得到特征方程/特征值方程
- $\mathrm{det}(\mathbf A-\lambda \mathbf I)=0$
- 通过上面的方程得到$n$个$\lambda$的解
-
矩阵加上$k\mathbf I$后特征向量不变,所有特征值加$k$
-
假设$\mathbf A$有$n$个线性无关的特征向量,按列组合成矩阵$\mathbf S$($\mathbf S$矩阵可逆),则有
- \[\mathbf S^{-1}\mathbf {AS}=\mathbf \Lambda\\ \mathbf A=\mathbf {S\Lambda S}^{-1}\\ \mathbf A^K=\mathbf {S\Lambda}^K\mathbf S^{-1}\]
-
从上面也可以看出,特征值分解提供了一个计算矩阵幂的方法,从方程中也可以看出,如果所有特征值的绝对值都小于$1$,则随着$K$增大矩阵的幂变为$\mathbf 0$
- 如果$n$个特征值不相同,则一定有$n$个特征向量线性无关(注意不一定正交)
-
矩阵的迹与特征值之和相等;矩阵的行列式与特征值的乘积相等
- 为什么对于矩阵的幂运算算法特征向量的方法没有很好地应用?感觉可能是会涉及到小数精度问题,比如$\mathrm{fibonacci}$数列,每一个值都是正整数,但是递推矩阵的特征值确是一个小数,因此在实际计算时会有精度损失
-
- 微分方程组(Lecture #23)
- $n$阶常微分方程组可以转化为$n\times n$的一阶常微分方程组,然后通过矩阵特征值绝对值是否大于$1$大小判断解收敛/发散
- 马尔科夫矩阵(Lecture #24)
- 定义
- 所有元素大于等于$0$
- 列向量元素之和为$1$
- 性质
- 矩阵的幂依然是马尔科夫矩阵
- 所有特征值绝对值小于等于$1$,且有特征值为$1$
- 考虑$\mathbf A-\mathbf I$,有定义可知,$\mathbf A-\mathbf I$每列元素之和为$1$,因此所有行的和是零向量,是奇异矩阵,行列式为$0$,即$1$一定是一个特征值
- 定义
- 投影与傅里叶级数(Lecture #24)
- 一组标准正交基$\mathbf q_1,…,\mathbf q_n$
- 对于任意向量$\mathbf v$一定存在$\mathbf x$使得$\mathbf v=x_1\mathbf q_1+…+x_n\mathbf q_n$
- $x_i=\mathbf q_i^\mathrm T\mathbf v$
- 矩阵形式$\mathbf {Qx}=\mathbf v,\ \mathbf x=\mathbf Q^{-1}\mathbf v=\mathbf Q^\mathrm T\mathbf v$
- 对于任意向量$\mathbf v$一定存在$\mathbf x$使得$\mathbf v=x_1\mathbf q_1+…+x_n\mathbf q_n$
- 傅里叶级数
- $f(x)=a_0+a_1\cos x+b_1\sin x+a_2\cos 2x+b_2\sin 2x+…$
- 从有限维度到无限维度
- 将函数看作无限维度的向量$f(x)$
- 函数的点积$f^\mathrm Tg=\int_a^b f(x)g(x)\mathrm dx$
- 对傅里叶级数有$f(x)=f(x+2\pi)$
- 令点积$f^\mathrm Tg=\int_0^{2\pi}f(x)g(x)\mathrm dx$
- 函数$1,\cos x,\sin x,\cos 2x,\sin 2x…$构成该空间下的一组无穷正交基(不同基函数点积为$0$)
- 根据$x_i=\mathbf q_i^\mathrm T \mathbf v$则有
- \[a_0=\int_0^{2\pi}f(x)\mathrm dx\\a_k=\int_0^{2\pi}f(x)\cos kx\ \mathrm dx\\ b_k=\int_0^{2\pi}f(x)\sin kx\ \mathrm dx\]
- 一组标准正交基$\mathbf q_1,…,\mathbf q_n$
-
实对称矩阵(Lecture #25)
- 性质
- 特征值也是实数(满足共轭对称就会有这个性质)
- 特征向量是/可以选择成标准正交的(当特征值都不同时,每个特征向量可以在一个直线上选择,当出现相同的特征值,则可以在一个超平面上选择相互正交的特征向量)
- 特征值数值计算方法(只适用于实对称矩阵)
- 矩阵消元后主元中大于$0$和小于$0$的数量与特征值大于$0$和小于 $0$的数量对应
- 因此可以让矩阵减去$k$倍单位阵后计算主元来确定特征值大于$k$和小于$k$的数量
- 正定矩阵(实对称矩阵的一种)
- 所有特征值都是正数
- 所有主元都是正数
- 所有主子行列式都是正数
-
特征值是实数(证明)
-
已知$\mathbf {A}=\mathbf {\overline A}^\mathrm T$
- \[\overline{\mathbf {Ax}}^\mathrm T=\overline{\lambda\mathbf x}^\mathrm T\\ \overline{\mathbf x^\mathrm T{\mathbf A}^\mathrm T}=\overline \lambda\ \overline {\mathbf x^\mathrm T}\\ \overline{\mathbf x^\mathrm T}\mathbf {Ax}=\overline \lambda\ \overline {\mathbf x^\mathrm T}\mathbf x=\lambda\overline{\mathbf x^\mathrm T}\mathbf x\\ \overline \lambda=\lambda\]
-
-
实对称矩阵不同特征值对应的特征向量正交(证明)
-
已知$\mathbf {Ax}_i=\lambda_i\mathbf x_i,(\mathbf x_i\neq\mathbf 0,\ i=1,2),\ \lambda_1\neq\lambda_2,\ \mathbf A^\mathrm T=\mathbf A$
- \[\lambda_1\mathbf x_2^\mathrm T\mathbf x_1=\mathbf x_2^\mathrm T\mathbf {Ax}_1=\mathbf x_2^\mathrm T\mathbf A^\mathrm T\mathbf x_1=(\mathbf {Ax}_2)^\mathrm T\mathbf x_1=\lambda_2\mathbf x_2^\mathrm T\mathbf x_1\]
-
-
实对称矩阵可以选出一组标准正交的特征向量组
- 将特征向量按列排列成$\mathbf Q$,则有$\mathbf A=\mathbf {Q\Lambda Q}^\mathrm T$
- 性质
-
复向量、复矩阵(Lecture #26)
- $n$维复空间:$\mathbb C^n$
- 向量的模:$\vert \mathbf z\vert^2=\mathbf{\overline z}^\mathrm T\mathbf z=\mathbf z^\mathrm T\mathbf {\overline z}$
- 用(Hermitian vector)$\mathbf z^\mathrm H$来代表$\mathbf {\overline z}^\mathrm T$
- 同理向量内积:$\mathbf y^\mathrm H\mathbf x$
- 复空间的对称矩阵(称Hermitian matrix $\mathbf A^\mathrm H=\mathbf{\overline A}^\mathrm T$)
- $\mathbf A^\mathrm H=\mathbf A$
- 复空间的标准正交矩阵(称Unitary matrix)
- $\mathbf Q^\mathrm H\mathbf Q=\mathbf I$
-
傅里叶矩阵
-
\[\mathbf F_n=\begin{bmatrix}
1&1&1&...&1\\
1&w&w^2&...&w^{(n-1)}\\
\vdots&\vdots&\vdots&\ddots&\vdots\\
1&w^{(n-1)}&w^{2(n-1)}&...&w^{(n-1)^2}
\end{bmatrix}\\
(\mathbf F_n)_{i,j}=w^{ij}\ \ \ \ i,j=0,...,n-1\]
- 其中$w$是$1$的$n$次方根
- $w^n=1,w=e^{i\frac{2\pi}{n}}$
- 其中$w$是$1$的$n$次方根
-
傅里叶矩阵各列相互正交,$\frac{1}{\sqrt n}\mathbf F_n$标准正交(Unitary matrix)
-
快速傅里叶变化
-
通过性质$w_n=w^2{2n}$,可以构建$\mathbf F_n$与$\mathbf F{2n}$的关系,从而分解矩阵加速计算
- \[\mathbf F_{2n}= \begin{bmatrix}\mathbf I_n& \mathbf D_n\\\mathbf I_n&-\mathbf D_n\end{bmatrix} \begin{bmatrix}\mathbf F_n&\mathbf 0\\\mathbf 0&\mathbf F_n\end{bmatrix} \begin{bmatrix} 1&0&0&\cdots&0&0\\ 0&0&1&\cdots&0&0\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 0&0&0&\cdots&1&0\\ 0&1&0&\cdots&0&0\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 0&0&0&\cdots&0&1 \end{bmatrix}\\ \mathbf D_n=\begin{bmatrix}1&&&&\\&w&&&\\&&w^2&&\\&&&\ddots&\\&&&&w^{n-1}\end{bmatrix}\]
-
-
\[\mathbf F_n=\begin{bmatrix}
1&1&1&...&1\\
1&w&w^2&...&w^{(n-1)}\\
\vdots&\vdots&\vdots&\ddots&\vdots\\
1&w^{(n-1)}&w^{2(n-1)}&...&w^{(n-1)^2}
\end{bmatrix}\\
(\mathbf F_n)_{i,j}=w^{ij}\ \ \ \ i,j=0,...,n-1\]
- 正定矩阵(positive definite matrix)(Lecture # 27)
- 性质
- $\mathbf x^\mathrm T\mathbf {Ax}>0$
- 所有特征值大于$0$
- 所有主子行列式(取前$i*i$部分)大于$0$
- 所有主元大于$0$
- 半正定(positive semi-definite)
- $\mathbf x^\mathrm T\mathbf {Ax}\geq0$
-
主轴定理
-
将原坐标转化到特征向量坐标下,变为多维抛物面
-
$\mathbf A=\mathbf {Q\Lambda Q}^\mathrm T$
-
由于$\mathbf Q$是标准正交矩阵,对任意向量$\mathbf x$,存在唯一向量$\mathbf y$使得$\mathbf x=\mathbf {Qy}$
- \[\mathbf x^\mathrm T\mathbf {Ax}=\mathbf x^\mathrm T\mathbf {Q\Lambda Q}^\mathrm T\mathbf x=\mathbf y^\mathrm T\mathbf{\Lambda y}\]
-
-
$\mathbf A^\mathrm T\mathbf A$是半正定矩阵(在最小二乘、投影矩阵中出现)(Lecture #28)
- \[\mathbf x^\mathrm T\mathbf A^\mathrm T\mathbf {Ax}=(\mathbf{Ax})^\mathrm T(\mathbf{Ax})\geq 0\]
- 性质
-
相似矩阵(Lecture #28)
-
定义:
- 如果方阵$\mathbf A$与$\mathbf B$相似,则存在可逆矩阵$\mathbf M$,使得$\mathbf B=\mathbf M^{-1}\mathbf {AM}$
-
性质:
-
$\mathbf A$与$\mathbf B$有相同的特征值,以及同样数量的线性无关特征向量
- \[\mathbf {Ax}=\lambda\mathbf x\\ \mathbf {M}^{-1}\mathbf A(\mathbf {MM}^{-1})\mathbf x=\lambda\mathbf M^{-1}\mathbf x\\ (\mathbf {M}^{-1}\mathbf {AM})\mathbf M^{-1}\mathbf x=\lambda\mathbf M^{-1}\mathbf x\\ \mathbf {BM}^{-1}\mathbf x=\lambda\mathbf M^{-1}\mathbf x\]
-
特征值分解:(当有$n$个不同特征值)
- $\mathbf S^{-1}\mathbf {AS}=\mathbf \Lambda$
-
注意如果矩阵有相同特征值(多重根),则矩阵无法特征值分解对角化
-
-
任何一个方阵$\mathbf A$都相似于一个若尔当(Jordan)阵$\mathbf J$
-
当有$n$个不同特征值,则若尔当阵就是对角阵。否则就是一种最接近对角阵的相似矩阵形式
-
若尔当块$\mathbf J_i$
- \[\mathbf J_i=\begin{bmatrix} \lambda_i & 1 & 0 &\cdots & 0\\ 0& \lambda_i & 1 & \cdots & 0\\ 0& 0& \lambda_i & \cdots & 0\\ \vdots & \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & 0 & \cdots &\lambda_i \end{bmatrix}\]
-
若尔当阵$\mathbf J$
- \[\mathbf J=\begin{bmatrix} \mathbf J_1 & \mathbf 0 & \cdots & \mathbf 0\\ \mathbf 0 & \mathbf J_2 & \cdots & \mathbf 0\\ \vdots & \vdots & \ddots & \vdots\\ \mathbf 0 & \mathbf 0 & \cdots & \mathbf J_d \end{bmatrix}\]
-
-
-
奇异值分解(Singular Value Decomposition, SVD)(Lecture #30)
-
$\mathbf A=\mathbf {U\Sigma V}^\mathrm T$
- 任意矩阵$\mathbf A$都可写成上面奇异值分解形式
- $\mathbf {U,V}$为标准正交矩阵,$\mathbf \Sigma$为对角矩阵
- 如果$\mathbf A$是正定矩阵,则存在标准正交矩阵$\mathbf Q$有$\mathbf A=\mathbf {Q\Lambda Q}^\mathrm T$
-
理解:
-
目的是找到$\mathbf A$行空间的一组标准正交基$\mathbf V$使得$\mathbf {AV}$为列空间的一组正交基$\mathbf{U\Sigma}$($\mathbf U$为标准正交矩阵,$\mathbf \Sigma$为对角阵可看作缩放因子)
- 这样就会满足$\mathbf {AV}=\mathbf{U\Sigma}$,即$\mathbf A=\mathbf{U\Sigma V}^\mathrm T$
-
设$\mathbf A$维度为$m\times n$,则$\mathbf V$为$n\times r$,$\mathbf U$为$m\times r$,$\mathbf \Sigma$为$r\times r$($r$为$\mathbf A$的秩,也就是行/列空间维度)
-
则有(半)正定矩阵$\mathbf A^\mathrm T\mathbf A$为$n\times n$,特征值分解有$\mathbf A^\mathrm T\mathbf A=\mathbf Q\mathbf \Lambda\mathbf Q^\mathrm T$
-
由于$\mathbf A^\mathrm T\mathbf A$的秩也为$r$,因此非零特征值数量也为$r$,即可以取$\mathbf \Lambda$中的$r$个非零特征值以及$\mathbf Q$中对应的$r$个特征向量使得$\mathbf A^\mathrm T\mathbf A=\mathbf Q_r\mathbf \Lambda_r\mathbf Q_r^\mathrm T$
-
取$\mathbf V=\mathbf Q_r,\ \mathbf \Sigma^2=\mathbf\Lambda_r$
-
$\mathbf {AV}=\mathbf {U\Sigma},\mathbf A^\mathrm T\mathbf A=\mathbf {V\Sigma}^2\mathbf V^\mathrm T$
- \[\mathbf A^\mathrm T\mathbf {AV}=\mathbf A^\mathrm T\mathbf{U\Sigma}=\mathbf{V\Sigma}^2\mathbf V^\mathrm T\mathbf V\\ \mathbf A^\mathrm T\mathbf{U\Sigma}=\mathbf {V\Sigma}^2\\ \mathbf A^\mathrm T\mathbf{U}=\mathbf {V\Sigma}\\ \mathbf {AA}^\mathrm T=\mathbf {AV\Sigma U}^\mathrm T=\mathbf {U\Sigma}^2 \mathbf U^\mathrm T\]
- 即取$\mathbf V=\mathbf Q_r$则满足$\mathbf {AV}=\mathbf {U\Sigma}$的$\mathbf U$也是标准正交基
-
-
实际上也可以写成$\mathbf V$维度$n\times n$,$\mathbf \Sigma$维度$m\times n$,$\mathbf U$维度$m\times m$
- 即$\mathbf {V,U}$中有$r$个正交的特征向量对应$r$个非零特征值,而剩下的特征向量可以在对应矩阵零空间选一组标准正交基构成。$\mathbf \Sigma$主对角线只有$r$个非零值对应非零特征值
-
-
- 基变换(Lecture #31)
- 标准基:$\mathbf I$ 的各列向量
- 令$\mathbf W$列向量为基向量
- 若$\mathbf x=\mathbf {Wc}$,则$\mathbf c$为$\mathbf x$在基$\mathbf W$下的表示
- 对于傅里叶基、小波基(正交、有快速算法)经常用在压缩领域,即在得到的新向量$\mathbf c$中将某几个维度丢弃,从而实现压缩
- 矩阵的特征向量基是非常好的一组基,但是求解复杂度高
- (Lecture #32)
- 反对称矩阵:$\mathbf A^\mathrm T=-\mathbf A$
- 对于对称矩阵、反对称矩阵、正交方阵,都满足$\mathbf {AA}^\mathrm T=\mathbf A^\mathrm T\mathbf A$
- 反对称矩阵:$\mathbf A^\mathrm T=-\mathbf A$
-
左逆、右逆、伪逆(Lecture #33)
-
矩阵$\mathbf A$维度$m\times n$,秩为$r$
-
满秩:若$m=n=r$则$\mathbf {AA}^{-1}=\mathbf I=\mathbf A^{-1}\mathbf A$
- 左逆、右逆都为$\mathbf A^{-1}$
-
列满秩:$n=r$,则存在左逆
- $\mathbf A^\mathrm T\mathbf A$满秩,则$(\mathbf A^\mathrm T\mathbf A)^{-1}\mathbf A^\mathrm T\mathbf A=\mathbf I_{n\times n}$
- 左逆为$\mathbf A^{-1}_{left}=(\mathbf A^\mathrm T\mathbf A)^{-1}\mathbf A^\mathrm T$
-
行满秩:$m=r$,存在由逆
- $\mathbf {AA}^\mathrm T$满秩,则$\mathbf {AA}^\mathrm T(\mathbf {AA}^\mathrm T)^{-1}=\mathbf I_{m\times m}$
- 右逆为$\mathbf A^{-1}_{right}=\mathbf A^\mathrm T(\mathbf {AA}^\mathrm T)$
-
右乘左逆:$\mathbf A(\mathbf A^\mathrm T\mathbf A)^{-1}\mathbf A^\mathrm T$,左乘右逆:$\mathbf A^\mathrm T(\mathbf {AA}^\mathrm T)\mathbf A$
- 右乘左逆是投影到列空间的投影矩阵
- 左乘右逆是投影到行空间的投影矩阵
- 投影实际上在尽可能靠近单位矩阵($\mathbf {Pb}$在尽可能接近$\mathbf b$)
-
伪逆:任何矩阵都存在伪逆,记作$\mathbf A^+$,维度为$n\times m$
- \[\mathbf {AA}^+=\begin{bmatrix}\mathbf I_r&\mathbf 0\\ \mathbf 0&\mathbf 0\end{bmatrix}_{m\times m}\]
- \[\mathbf A^+\mathbf A=\begin{bmatrix}\mathbf I_r&\mathbf 0\\ \mathbf 0&\mathbf 0\end{bmatrix}_{n\times n}\]
-
伪逆的理解:
- 行空间和列空间维度都是$r$,那么两空间的向量可以两两对应实现互相转化
- 对于行空间中的两个不同的向量$\mathbf {x,y}\in\mathbb R^n$
- $\mathbf {Ax}=\mathbf x’$一定是列空间中的一个向量
- 伪逆就是找到$\mathbf A^+$使得$\mathbf A^+\mathbf {Ax}=\mathbf x$
- 而$\mathbf {Ax}$与$\mathbf {Ay}$也一定是列空间中不同的向量
- 假设$\mathbf {Ax}=\mathbf {Ay}$,则$\mathbf A(\mathbf x-\mathbf y)=0$,即$\mathbf x-\mathbf y$在零空间,由于$\mathbf {x,y}$在行空间,则$\mathbf x-\mathbf y$一定也在行空间,而零空间与行空间的交集只有零向量,因此$\mathbf x-\mathbf y=\mathbf 0$,矛盾
-
伪逆的求解:
-
奇异值分解$\mathbf A=\mathbf U_{m\times m}\mathbf \Sigma_{m\times n} \mathbf V^\mathrm T_{n\times n}$,(如下$\mathbf \Sigma^+$中对角线为零位置改为任意非零值不影响$\mathbf{\Sigma\Sigma}^+$结果,因此规定伪逆是一种最简形式)
- \[\mathbf \Sigma^+=\begin{bmatrix} \frac{1}{\sigma_1}&0&\cdots&0&0&\cdots&0\\ 0&\frac{1}{\sigma_2}&\cdots&0&0&\cdots&0\\ \vdots&\vdots&\ddots&\vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&\frac{1}{\sigma_r}&0&\cdots&0\\ 0&0&\cdots&0&0&\cdots&0\\ \vdots&\vdots&\ddots&\vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&0&0&\cdots&0 \end{bmatrix}_{n\times m}\\ \mathbf U^+=\mathbf U^{-1}=\mathbf U^\mathrm T\\ (\mathbf V^\mathrm T)^+=(\mathbf V^\mathrm T)^{-1}=\mathbf V\]
- 可以验证$\mathbf \Sigma^+\mathbf \Sigma$与$\mathbf {\Sigma\Sigma}^+$满足$\mathbf A^+\mathbf A$与$\mathbf {AA}^+$结果的形式
-
因此有$\mathbf A^+=\mathbf {V\Sigma}^+\mathbf U^\mathrm T$
-
-
- 断断续续看了一个月,大一上线性代数到现在已经过去差不多四年,重新回顾一遍收获还是挺多的,主要是一些原本很抽象的概念基于向量空间有了更加深刻具体的理解,感谢MIT线性代数课程及老师提供这么良心的网课吧,提供了之前学习完全没考虑到的一个理解方式。
- 完结撒花!