线性方程组与本征值问题(04):本征值问题的一般描述

\(\newcommand{\b}{\mathbf}\newcommand{\bi}{\boldsymbol}\newcommand{\R}{\mathbb{R}}\newcommand{\C}{\mathbb{C}}\newcommand{\R}{\mathbb{R}}\newcommand{\rank}[1]{\text{rank}\left(#1 \right)}\newcommand{\set}[1]{\left\{ #1 \right\}}\newcommand{\abs}[1]{\left| #1 \right|}\)本节开始研究所谓的本征值问题, 让我们首先回忆一下关于本征值问题的一些数学定义和一些重要的结果.

线代知识再回顾

本征值问题

\(\forall\mathbf{A}\in\mathbb{C}^{n×n}\), 存在非零矢量\(\pmb{x}\in\mathbb{C}^n\backslash \{\pmb{0}\}\)和常数\(\lambda\in\mathbb{C}\)

\(\text{s.t.}\) \[ \mathbf{A}\pmb{x}=\lambda\pmb{x} \] 则称\(\lambda\)\(\mathbf{A}\)的一个 本征值(eigenvalue), \(\pmb{x}\)为这个本征值对应的 (右)本征矢(eigenvector). \(\mathbf{A}\)的全体本征值构成的集合称为\(\mathbf{A}\)谱(spectrum), 记作\(\sigma(\mathbf{A})\). \((\lambda,\pmb{x})\)称作矩阵\(\mathbf{A}\)的一个 本征对(eigenpair).

另一个重要概念是矩阵\(\mathbf{A}\)谱半径(spectral radius): \[ \rho(\mathbf{A}):=\max|\sigma(\mathbf{A})| \] \(|\cdot|\)表示对集合内所有元素取模构成新集合, 显然\(\rho(\mathbf{A})=\rho(\mathbf{A}^\dagger)\).

我们还要引入矩阵的 模(norm).

\[ \begin{flalign} & \text{e.g.} & \\ & & \qquad|\!|\mathbf{A}|\!|:=\sup_{\pmb{x}\ne\pmb{0}}\frac{|\!|\mathbf{A}\pmb{x}|\!|}{|\!|\pmb{x}|\!|} & & \end{flalign} \]

称作 (矢量模诱导的)矩阵模(matrix norm). 通常这里的矢量模取为 Euclid 模, 那么相应的矩阵模称作 2-模(2-norm).

\[ \begin{flalign} & \text{e.g.} & \\ & & \qquad|\!|\mathbf{A}|\!|_F:=\sqrt{\sum_{j,k}|a_{jk}|^2} & & \end{flalign} \]

称作 Frobenius 模(Hilbert-Schmidt 模; F-norm).

可以证明

  1. \(|\!|\mathbf{A}|\!|_2\le|\!|\mathbf{A}|\!|_F\)

  2. \(|\!|\mathbf{A}|\!|_2=\sqrt{\rho(\mathbf{A}^\dagger\mathbf{A})}\)

    推论:

    1. 自伴矩阵满足\(|\!|\mathbf{A}|\!|_2=\rho(\mathbf{A})\)
    2. 酉矩阵满足\(|\!|\mathbf{A}|\!|_2=1\)
  3. 两种模都允许 \(\mathbf{A}\)乘上(无论左右)一个酉矩阵的因子而不改变矩阵模.

    推论:

    1. 相似变换不改变这两种矩阵模.

对于矩阵的数值计算, 条件数(condition number) 是非常重要的: \[ \kappa(\mathbf{A}):=|\!|\mathbf{A}|\!|\cdot|\!|\mathbf{A}^{-1}|\!| \] 这是非奇异矩阵的定义. 对于奇异矩阵, 约定为\(+\infty\).

矩阵的本征结构与对角化

相似变换

有必要声明: 我们在这一章接下来讨论的所谓"对角化", 都是建立在相似变换的基础上的. 因为目的是得到本征谱, 所以相似变换是对角化的不二选择:

相似变换(similar transformation) 是一个线性变换\(S_n:\mathbb{C}^{n\times n}\rightarrow \mathbb{C}^{n\times n}\), 形如 \[ S_n(\mathbf{A})=\mathbf{C}^{-1}\mathbf{A}\mathbf{C} \] 其中\(\mathbf{C}\in\mathbb{C}^{n\times n}\)并且满秩.

显然, 相似变换不改变矩阵的谱, 而(右)本征矢会左乘一个矩阵\(\mathbf{C}^{-1}\). 即本征对: \[ (\lambda,\pmb{x})\rightarrow(\lambda,\mathbf{C}^{-1}\pmb{x}) \] 更特别的, 如果\(\mathbf{C}\)​是一个酉矩阵(实正交矩阵), 则变换称作 酉变换(实数域称为 正交变换).

本征多项式, 本征子空间, 本征值的重数

从代数角度讲, 求解本征谱就是在解多项式方程\(\det(\b{A}-\lambda\b{I})=0\). 根据代数学基本定理, 它能够写成一系列一次多项式的积: \[ p_\b{A}(\lambda)=\prod_{j=1}^{\sum_{j}\mu_j=n}(\lambda-\lambda_j)^{\mu_j}=0 \] \(\lambda_j\)项对应的次数\(\mu_j\)非常重要, 对于\(\mu_j=1\), 本征值是 单重 的, 否则是 多重 的.

这个次数\(\mu_j\)是否有几何意义? 如果有的话, 很自然会想到\(\lambda_j\)的本征子空间, 即

所谓\(\lambda\)对应的 本征子空间, 就是\(\lambda\)对应的全部本征矢张成的子空间: \[ V_{\lambda}:=\set{\bi{v}\in V|\b{A}\bi{v}=\lambda\bi{v}} \]

它的维数实际上就是\((\b{A}-\lambda\b{I})\bi{x}=\b{0}\)的解空间维数, 即\(n-\rank{\b{A}-\lambda\b{I}}\).

称: \(\mu_j\)代数重数, \(\gamma_j:=n-\rank{\b{A}-\lambda_j\b{I}}\)几何重数.

这两种重数是否等价? 从\(V_{\lambda_j}\)中选取一组基\(\set{\bi{v}_1,\bi{v}_2,\cdots,\bi{v}_{\gamma_j}}\), 扩充为\(V\)中的基\(\set{\bi{v}_1,\cdots,\bi{v}_n}\). 则 \[ \begin{align} (\bi{v}_1,\cdots,\bi{v}_n)^\b{T}\b{A}(\bi{v}_1,\cdots,\bi{v}_n)&=(\bi{v}_1,\cdots,\bi{v}_n)^\b{T}(\lambda_j\bi{v}_1,\cdots,\lambda_j\bi{v}_{\gamma_j},\b{A}\bi{v}_{\gamma_j+1},\cdots,\b{A}\bi{v}_n) \\ &=\begin{pmatrix} \lambda_j\b{I}_{\gamma_j} & \b{O} \\ \b{O} & \b{B} \end{pmatrix} \end{align} \] 由于以基矢量为各列的矩阵是正交矩阵, 所以上式是一个相似变换, 可以用计算结果代替\(\b{A}\)研究本征多项式 \[ p_\b{A}(\lambda)=\abs{\begin{matrix}(\lambda_j-\lambda)\b{I}_{\gamma_j} & \b{O} \\ \b{O} & \b{B}-\lambda\b{I}_{n-\gamma_j} \end{matrix}} \] 这个多项式显然至少具有\(\gamma_j\)重的\(\lambda_j\), 甚至可能更高, 依赖于另一个对角块的计算. 即: \(\mu_j\ge\gamma_j\), 代数重数不小于几何重数.

为证明两者未必取等, 找一个特例即可: \[ \begin{align} &\text{考虑矩阵}\b{A}=\begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} \\ &代数重数:\text{ }p_\b{A}(\lambda)=(\lambda-1)^2, \mu_1=2 \\ &几何重数:\gamma_1=2-\rank{\b{A}-\b{I}}=2-1=1 \end{align} \] 可见, 两者不等价, 只有不等关系. 我们称一个本征值\(\lambda\)亏损的, 如果它的几何重数小于代数重数; 称\(\b{A}\)亏损的, 如果它存在亏损本征值.

亏损这个概念一经引入就有意义. 如果矩阵亏损, 那么它某个本征值的本征矢数量过少, 不足以在相似变换的矩阵中张成维数为\(\mu_j\)的子空间, 也就不可能出现\(\mu_j\)个对角元为\(\lambda_j\), 对角化一定不能实现. 同样地, 容易证明, 如果矩阵非亏损, 一定能对角化.

Schur 分解定理

实数域上的代数告诉我们, 不是任意实方阵都能对角化, 推广这一结论, 任意复方阵也未必能对角化. 但我们可以退而求其次:

Schur 分解定理

\(\forall\mathbf{A}\in\mathbb{C}^{n\times n}\ \), 存在\(\mathbf{U}\ \text{s.t.}\)\[ \mathbf{U}^{-1}\mathbf{A}\mathbf{U}\equiv\mathbf{U}^\dagger\mathbf{A}\mathbf{U}=\begin{pmatrix} \lambda_1 & \tilde{a}_{12} & \cdots & \tilde{a}_{1n} \\ & \lambda_2 & \cdots & \tilde{a}_{2n} \\ & & \ddots & \vdots \\ & & & \lambda_n \end{pmatrix} \]

同样采用归纳法证明, 对于一阶矩阵, 显然成立. 下面证明, 如果定理对于\(n-1\)阶矩阵成立, 那么对\(n\)阶矩阵成立.

为证明之, 考虑\(n\)阶矩阵\(\mathbf{A}\), 它可以进行分块 \[ \mathbf{A}=\begin{pmatrix} a_{11} & \pmb{v} \\ \pmb{u}^\dagger & A_{n-1} \end{pmatrix} \] 它具备一系列本征值, 挑选一个非零本征值[1]记作\(\lambda_1\), 对应地一个归一化的本征矢为\(\pmb{x}_1\): \[ \mathbf{A}\pmb{x}_n=\lambda_n\pmb{x}_n \]\(\mathbb{C}^n\)上不难挑选\(n-1\)个正交归一的本征矢\(\{\pmb{x}_2,\cdots,\pmb{x}_n\}\), 并且它们都与\(\pmb{x}_1\)​正交. 构建相应的酉矩阵 \[ \mathbf{X}=\begin{pmatrix} \pmb{x}_1 & \cdots & \pmb{x}_n \end{pmatrix} \] 以它为参量的相似变换结果为 \[ a^\mathbf{X}_{jk}=[\mathbf{X}^{-1}\mathbf{A}\mathbf{X}]_{jk}=\pmb{x}_j^\dagger\mathbf{A}\pmb{x}_k \]\(k=1\), 则\(a_{jk}^\mathbf{X}=\pmb{x}_j^\dagger\lambda_1\pmb{x}_1=\lambda_1\delta_{j1}\). 可见 \[ \mathbf{X}^{-1}\mathbf{A}\mathbf{X}=\begin{pmatrix} \lambda_1 & \pmb{v}^\mathbf{X} \\ \pmb{0} & A_{n-1}^{\mathbf{X}} \end{pmatrix} \] 其实接下来也可以继续递推, 设法将\(\mathbf{A}_{n-1}^\mathbf{X}\)逐层地上三角化[2], 但一系列递推变换的总效果就是\(n-1\)阶的 Schur 分解定理. 因此还是按照 Schur 分解定理在\(n-1\)阶上成立的前提进行证明.

\(\mathbf{A}_{n-1}^\mathbf{X}\)上三角化所需的酉矩阵是\(\mathbf{P}_{n-1}\), 考虑分块矩阵 \[ \mathbf{P}=\begin{pmatrix} 1 & \pmb{0}^\dagger \\ \pmb{0} & \mathbf{P}_{n-1} \end{pmatrix} \]\[ \mathbf{P}^{-1}\mathbf{X}^{-1}\mathbf{A}\mathbf{X}\mathbf{P}=\begin{pmatrix} \lambda_1 & \mathbf{P}^\dagger\pmb{v}^\mathbf{X} \\ \pmb{0} & \mathbf{P}^\dagger A_{n-1}^{\mathbf{X}}\mathbf{P} \end{pmatrix} \] 对角块都是上三角的, 对角线以下是零块, 因此整体是一个上三角矩阵, 且对角元都是本征值. \(\mathbf{X}\mathbf{P}\)​整体承担变换矩阵的作用, 并且酉矩阵之积仍是酉的. 得证.

Schur 分解定理推论

根据 Schur 分解定理, 立即得到:

  1. 自伴矩阵必定可以用酉矩阵对角化, 对角元都是本征值, 并且都是实数.

    这可以看作实对称矩阵对角化定理的推广.

  2. 实矩阵当然也能上三角化, 但对角元未必是实数. 有的问题要求把数域限制为\(\mathbb{R}\)​, 那么实际上无法分解为上三角矩阵.

    这就要引出后面的实 Schur 分解.

  1. 不必考虑本征值全为零的矩阵, 因为零矩阵情形是平庸的; 也不用考虑简并, 后面的证明不需要非简并假设. ↩︎
  2. 这种证明方法能更直观地体现出上三角化方案不唯一, 对于同一个原始矩阵, 至少可以调整结果中本征值的顺序. ↩︎

线性方程组与本征值问题(04):本征值问题的一般描述
https://notes.rainchan.me/posts/线性方程组与本征值问题(04):本征值问题的一般描述/
作者
Rain Chan
发布于
2024年5月8日
许可协议