若尔当标准型
简介
一个n × n的矩阵M{\displaystyle M}是可对角化的,当且仅当M{\displaystyle M}满足下列条件之一:
M{\displaystyle M}有n个线性无关的特征向量。或者说,M{\displaystyle M}有一个由特征向量组成的基。(称作极大无关条件)
M{\displaystyle M}的所有特征值的几何重数(即相应特征子空间的维数)等于相应的代数重数(即特征多项式中(x− − -->λ λ -->){\displaystyle (x-\lambda )}项的次数)。或者说,M{\displaystyle M}的所有几何重数之和等于n。(称作重数相等条件)
M{\displaystyle M}的极小多项式经标准分解后,每一项都是一次项,且重数都是1。(称作互异单根条件)
矩阵的对角化使得研究其性质变为研究相应的对角矩阵的性质,而后者显然简单得多。由于不是所有矩阵都满足上述三个条件之一,有的矩阵是不可对角化的,例如以下的:
计入重数的话,M{\displaystyle M}的特征值为1, 2, 4, 4。M− − -->4I{\displaystyle M-4I}的核的维数是1,因此M{\displaystyle M}不可对角化。但经过基底变换,M{\displaystyle M}相似于下面的矩阵:
矩阵J{\displaystyle J}近乎对角矩阵,除了第三列第四行系数是1。如果将后两行和后两列的部分作为一块的话,矩阵J{\displaystyle J}就是一个分块对角矩阵。若尔当标准型的目标就是将更多的矩阵化简到一类只比对角矩阵稍微复杂的矩阵:若尔当标准型。实际上这是一种简单的分块对角矩阵。
这里的“简单”是指每小块矩阵都具备一种很简单的形状:
其中主对角线上都是同一个系数,而对角线上方一排全是1。形同以上Ji{\displaystyle J_{i}}的矩阵称为若尔当矩阵。而矩阵J{\displaystyle J}中每一个这样的小块被称为若尔当块。
线性代数中有如下的结果:
对任意系数域为K{\displaystyle \mathbb {K} }的矩阵M{\displaystyle M},只要其特征值都在K{\displaystyle \mathbb {K} }中,就存在一个与之相似的若尔当标准型J{\displaystyle J}:M=PJP− − -->1{\displaystyle M=PJP^{-1}},其中P{\displaystyle P}是一个可逆矩阵。并且满足:
矩阵J{\displaystyle J}的特征值(计入重数)就是主对角线上的系数。
对于J{\displaystyle J}的一个特征值λ λ -->i{\displaystyle \lambda _{i}},它的几何重数就是属于特征值λ λ -->i{\displaystyle \lambda _{i}}的若尔当块的个数。
所有属于特征值λ λ -->i{\displaystyle \lambda _{i}}的若尔当块的维数之和是特征值λ λ -->i{\displaystyle \lambda _{i}}的代数重数。
证明
广义特征向量
考虑前面例子中的矩阵M。M的若尔当标准型可以写成PMP = J,即
其中变换矩阵P的四个列向量为:pi, i = 1, ..., 4,于是
也就是:
对于i = 1、2、3,pi{\displaystyle p_{i}}都是某个特征值所对应的特征向量:pi∈ ∈ -->Ker -->(M− − -->λ λ -->I){\displaystyle p_{i}\in \operatorname {Ker} (M-\lambda I)}。然而,当i=4时,p4{\displaystyle p_{4}}并不是特征值4所对应的特征向量。尽管如此:
于是p4∈ ∈ -->Ker -->(M− − -->λ λ -->I)2{\displaystyle p_{4}\in \operatorname {Ker} (M-\lambda I)^{2}}。像p4{\displaystyle p_{4}}这样的向量被称为M的广义特征向量。
给定一个特征值λ λ -->{\displaystyle \scriptstyle \lambda },它对应的若尔当块Jλ λ -->,m{\displaystyle \displaystyle J_{\lambda ,m}}:
对应着一个由广义特征向量所张成的子空间,因为对应的基底eλ λ -->,1,eλ λ -->,2,⋯ ⋯ -->,eλ λ -->,m{\displaystyle \displaystyle e_{\lambda ,1},e_{\lambda ,2},\cdots ,e_{\lambda ,m}}满足:
因此,“所有特征值在K{\displaystyle \mathbb {K} }中的矩阵都相似于某个若尔当标准型”这个命题等价于存在一个由这个矩阵的特征向量和广义特征向量构成的全空间的基底。
幂零矩阵的情况
当矩阵A为幂零矩阵(即存在m使得Am=0{\displaystyle A^{m}=0})时,可以证明整个空间总是可以分解为若干个A-循环子空间的直和。所谓的A-循环子空间就是由某个向量v以及基底:Bv={v,Av,A2v,⋯ ⋯ -->}{\displaystyle {\mathit {B}}_{v}=\left\{v,Av,A^{2}v,\cdots \right\}}线性张成的子空间。显然,这样的子空间是A-不变子空间。同时,注意到Bv{\displaystyle {\mathit {B}}_{v}}是由A的特征向量和广义特征向量构成的(∀ ∀ -->j≥ ≥ -->0,Ajv∈ ∈ -->Ker -->Am{\displaystyle \forall j\geq 0,A^{j}v\in \operatorname {Ker} A^{m}})。因此在这个循环子空间里,A在基底Bv{\displaystyle \displaystyle {\mathit {B}}_{v}}下表示为若尔当块:
因此A在所有这样的基底下可以表示为由若尔当块组成的分块对角矩阵,即若尔当标准型:
一般情况
下面用数学归纳法证明:所有特征值在K{\displaystyle \mathbb {K} }中的n × n的矩阵都相似于某个若尔当标准型。
n= 1的情况显然。对于n>1{\displaystyle n>1}考虑n × n矩阵A。对于A的一个特征值λ,设s为λ的几何重数。设线性变换(A− − -->λ λ -->I)s{\displaystyle (A-\lambda I)^{s}} 的像空间为Im(A− − -->λ λ -->I)s{\displaystyle \mathrm {Im} (A-\lambda I)^{s}},这是关于A的一个不变子空间。因为λ是特征值,Im(A− − -->λ λ -->I)s{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}的空间维数r严格小于n。记A′ ′ -->{\displaystyle \scriptstyle A^{\prime }}为A在子空间限制Im(A− − -->λ λ -->I)s{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}上的部分。根据归纳假设存在一个基底:{p1, ..., pr}使得A′ ′ -->{\displaystyle \scriptstyle A^{\prime }}在这个基底上为若尔当标准型。
接下来考虑子空间Ker -->(A− − -->λ λ -->I)s{\displaystyle \operatorname {Ker} (A-\lambda I)^{s}},只要能够证明整个空间可以分为:
由于Ker(A− − -->λ λ -->I)s{\displaystyle \mathrm {Ker} (A-\lambda I)^{s}}是一个A-不变子空间,在上面A− − -->λ λ -->I{\displaystyle A-\lambda I}是幂零矩阵,因此可以写成若尔当标准型:
而加上λ λ -->I{\displaystyle \displaystyle \lambda I}后还是若尔当标准型。因此,A在Ker(A− − -->λ λ -->I)s{\displaystyle \mathrm {Ker} (A-\lambda I)^{s}}和Im(A− − -->λ λ -->I)s{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}上都能写成若尔当标准型,从而A相似于某个若尔当标准型。
有归纳法可知所有的n × n的矩阵都相似于某个若尔当标准型。
下面证明:
设A的最小多项式为π π -->A{\displaystyle \pi _{A}},并将其写成π π -->A=(X− − -->λ λ -->I)s⋅ ⋅ -->Q{\displaystyle \pi _{A}=(X-\lambda I)^{s}\cdot Q}。于是Q{\displaystyle Q}和(X− − -->λ λ -->I)s{\displaystyle (X-\lambda I)^{s}}互素。于是根据裴蜀定理,存在多项式:a和b使得a(X− − -->λ λ -->I)s+bQ=1{\displaystyle a(X-\lambda I)^{s}+bQ=1}。每个向量u都可以写成:
并且Q(A)(a(A− − -->λ λ -->I)s(u))=(Q(A− − -->λ λ -->I)s)(a(u))=π π -->A(u)=0{\displaystyle \displaystyle Q(A)(a(A-\lambda I)^{s}(u))=(Q(A-\lambda I)^{s})(a(u))=\pi _{A}(u)=0},同样地(A− − -->λ λ -->I)s(bQ(A)(u))=((A− − -->λ λ -->I)sQ)(b(u))=π π -->A(u)=0{\displaystyle \displaystyle (A-\lambda I)^{s}(bQ(A)(u))=((A-\lambda I)^{s}Q)(b(u))=\pi _{A}(u)=0},因此a(A− − -->λ λ -->I)s(u)∈ ∈ -->Ker(Q(A)),bQ(A)(u)∈ ∈ -->Ker(A− − -->λ λ -->I)s{\displaystyle a(A-\lambda I)^{s}(u)\in \mathrm {Ker} (Q(A)),\;bQ(A)(u)\in \mathrm {Ker} (A-\lambda I)^{s}},也就是说:
另一方面,任意v∈ ∈ -->Ker(A− − -->λ λ -->I)s∩ ∩ -->Ker(Q(A)){\displaystyle v\in \mathrm {Ker} (A-\lambda I)^{s}\cap \mathrm {Ker} (Q(A))},v=a(A− − -->λ λ -->I)s(v)+bQ(A)(v)=0+0=0{\displaystyle \displaystyle v=a(A-\lambda I)^{s}(v)+bQ(A)(v)=0+0=0}。也就是说:Ker(A− − -->λ λ -->I)s∩ ∩ -->Ker(Q(A))=0{\displaystyle \mathrm {Ker} (A-\lambda I)^{s}\cap \mathrm {Ker} (Q(A))={0}}。综上所述,
然而∀ ∀ -->u∈ ∈ -->Im(A− − -->λ λ -->I)s{\displaystyle \forall u\in \mathrm {Im} (A-\lambda I)^{s}},Q(A)(u)=0{\displaystyle \displaystyle Q(A)(u)=0},从而Im(A− − -->λ λ -->I)s⊂ ⊂ -->Ker(Q(A)){\displaystyle \mathrm {Im} (A-\lambda I)^{s}\subset \mathrm {Ker} (Q(A))}。而根据秩-零化度定理,Ker(Q(A)){\displaystyle \mathrm {Ker} (Q(A))}和Im(A− − -->λ λ -->I)s{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}维数相等,所以两者完全相等。于是
从而命题得证。
推论
如果矩阵的系数域是一个代数闭域,那么由于其特征值是特征多项式的根,所以也在系数域中。于是只要系数域是一个代数闭域,所有的矩阵都相似于若尔当标准型。特别的,所有复系数矩阵都可以简化为若尔当标准型,因为复数域是代数封闭的。
所有的若尔当标准型都可以分解成一个对角矩阵D和一个只有对角线上一排为1的矩阵N的和。这两个矩阵是可交换的,因为其中一个是对角矩阵。不仅如此,矩阵N是一个幂零矩阵。因此,每个相似于若尔当标准型的矩阵都可以写成可交换的一个对角矩阵和一个幂零矩阵的和。因为与对角矩阵和幂零矩阵相似的矩阵仍然是对角矩阵和幂零矩阵。换句话说,只要一个矩阵的特征值都在它的系数域里(或者说它的最小多项式或特征多项式可以分解成一次项的乘积),就可以将这个矩阵分解成一个对角矩阵和一个幂零矩阵的和,而这两个矩阵可以交换。这个结果被称为丹佛分解(Dunford分解),在计算矩阵的指数时很有用。
谱映射定理
用若尔当标准型以及直接的计算可以得出:如果n × n矩阵A的特征值为:λ1, ..., λn,那么对于多项式:p,矩阵p(A)的特征值是:p(λ1), ..., p(λn)。
凯莱-哈密尔顿定理
凯莱-哈密尔顿定理断言任意矩阵A都是特征方程的根:如果p是A的特征多项式,那么p(A) = 0。这个定理一样可以用若尔当标准型直接计算得出。
最小多项式
方块矩阵A的最小多项式是使得m(A) = 0的非常数首一多项式中次数最小者。另一种定义是:所有使得m(A) = 0的多项式构成主理想环C[x]的一个理想I,而m则是这个理想的产生子。
对于有若尔当标准型的矩阵A,其最小多项式以其特征值为根,并且由若尔当标准型的形状可以看出,每个特征值的重数是若尔当标准型中属于这个特征值的最大的若尔当块的维数。
反之已知矩阵A的最小多项式并不能知道其若尔当标准型。要确定矩阵A的标准型需要用到所谓的初等因子。矩阵A的一个初等因子是它的某一个若尔当块的特征多项式(或最小多项式,对于若尔当块两者一样)。如果所有的初等因子都是一次多项式,那么A可对角化。
不变子空间分解
一个n × n的矩阵A的若尔当标准型是分块对角矩阵,因此给出了一个将n维欧几里得空间分解为矩阵A的不变子空间的具体方法。每个若尔当块Ji都对应着一个不变子空间:Xi。可以简记为:
其中的每个Xi都是由若尔当块Ji对应的广义特征向量张成的子空间。
注意到这里的k并不是不同的特征值的个数,因为属于同一个特征值的若尔当块可以不止一个。如果要将Cn{\displaystyle \mathbb {C} ^{n}}分解为l个不变子空间,其中l是不同特征值的个数的话,可以将属于同一个特征值,比如说λ λ -->i{\displaystyle \scriptstyle \lambda _{i}}的若尔当块合并:只需使用A的最小多项式π π -->A{\displaystyle \pi _{A}}中关于λ λ -->i{\displaystyle \scriptstyle \lambda _{i}}的重根数(几何重数)ν ν -->(λ λ -->i){\displaystyle \scriptstyle \nu (\lambda _{i})},考虑空间:
这就是所有的属于同一个特征值λ λ -->i{\displaystyle \scriptstyle \lambda _{i}}的若尔当块所对应的Xi,p所合并后的空间,因为它包含了所有使得经过ν ν -->(λ λ -->i){\displaystyle \scriptstyle \nu (\lambda _{i})}次λ λ -->i− − -->A{\displaystyle \scriptstyle \lambda _{i}-A}操作后会清零的向量集合。如果某个Xi中向量没有被清零,那么由于这个向量也不会被其他的特征值λ λ -->j− − -->A{\displaystyle \scriptstyle \lambda _{j}-A}清零,它将不会被π π -->A{\displaystyle \scriptstyle \pi _{A}}清零,这与π π -->A(A)=0{\displaystyle \pi _{A}(A)=0}矛盾。
于是n维欧几里得空间也可以被分解为
其中l是矩阵A的不同的特征值的个数。
值得注意的是,这里的指标ν(λ)是使得特征零空间Ker -->(λ λ -->− − -->A)m{\displaystyle \operatorname {Ker} (\lambda -A)^{m}}“稳定”下来的最小次数:
这也可以作为代数重数的另一个定义。
参见
矩阵分解
若尔当矩阵
参考来源
N.丹佛,J.T.施瓦茨,《线性算子》第一章:一般理论(Linear Operators, Part I: General Theory), Interscience, 1958.
Daniel.T. Finkbeiner II,《矩阵与线性变换导论》第三版(Introduction to Matrices and Linear Transformations, Third Edition), Freeman, 1978.
Gene H. Golub,Charles F. van Loan,《矩阵计算》第三版(Matrix Computations), Johns Hopkins University Press, Baltimore, 1996.
Gene H. Golub,J. H. Wilkinson,《病态特征系统以及若尔当标准型计算》(Ill-conditiones Eigensystems and the computation of the Jordan normal form), SIAM Review, vol. 18, nr. 4, pp. 578–619, 1976.
Horn, Roger A.; Johnson, Charles R., 矩阵分析(Matrix Analysis), Cambridge University Press, 1985, ISBN 978-0-521-38632-6 .
Glenn James,Robert C. James,《数学辞典》第四版(Mathematics Dictionary, Fourth Edition), Van Nostrand Reinhold, 1976.
Saunders MacLane,Garrett Birkhoff,《代数学》(Algebra), MacMillan, 1967.
Anthony N. Michel,Charles J. Herget,《应用代数和泛函分析》(Applied Algebra and Functional Analysis), Dover, 1993.
Georgi E. Shilov,《线性代数》(Linear Algebra), Dover, 1977.
若尔当正规型
外部链接
免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。
- 有价值
- 一般般
- 没价值