第二十一讲:特征值和特征向量
特征值、特征向量的由来
给定矩阵\(A\),矩阵\(A\)乘以向量\(x\),就像是使用矩阵\(A\)作用在向量\(x\)上,最后得到新的向量\(Ax\)。在这里,矩阵\(A\)就像是一个函数,接受一个向量\(x\)作为输入,给出向量\(Ax\)作为输出。
在这一过程中,我们对一些特殊的向量很感兴趣,他们在输入(\(x\))输出(\(Ax\))的过程中始终保持同一个方向,这是比较特殊的,因为在大多情况下,\(Ax\)与\(x\)指向不同的方向。在这种特殊的情况下,\(Ax\)平行于\(x\),我们把满足这个条件的\(x\)成为特征向量(Eigen vector)。这个平行条件用方程表示就是:
-
对这个式子,我们试着计算特征值为\(0\)的特征向量,此时有\(Ax=0\),也就是特征值为\(0\)的特征向量应该位于\(A\)的零空间中。
也就是说,如果矩阵是奇异的,那么它将有一个特征值为\(\lambda = 0\)。
-
我们再来看投影矩阵\(P=A(A^TA)^{-1}A^T\)的特征值和特征向量。用向量\(b\)乘以投影矩阵\(P\)得到投影向量\(Pb\),在这个过程中,只有当\(b\)已经处于投影平面(即\(A\)的列空间)中时,\(Pb\)与\(b\)才是同向的,此时\(b\)投影前后不变(\(Pb=1\cdot b\))。
即在投影平面中的所有向量都是投影矩阵的特征向量,而他们的特征值均为\(1\)。
再来观察投影平面的法向量,也就是投影一讲中的\(e\)向量。我们知道对于投影,因为\(e\bot C(A)\),所以\(Pe=0e\),即特征向量\(e\)的特征值为\(0\)。
于是,投影矩阵的特征值为\(\lambda=1, 0\)。
-
再多讲一个例子,二阶置换矩阵\(A=\begin{bmatrix}0&1\\1&0\end{bmatrix}\),经过这个矩阵处理的向量,其元素会互相交换。
那么特征值为\(1\)的特征向量(即经过矩阵交换元素前后仍然不变)应该型为\(\begin{bmatrix}1\\1\end{bmatrix}\)。
特征值为\(-1\)的特征向量(即经过矩阵交换元素前后方向相反)应该型为\(\begin{bmatrix}1\\-1\end{bmatrix}\)。
再提前透露一个特征值的性质:对于一个\(n\times n\)的矩阵,将会有\(n\)个特征值,而这些特征值的和与该矩阵对角线元素的和相同,因此我们把矩阵对角线元素称为矩阵的迹(trace)。\(\(\sum_{i=1}^n \lambda_i=\sum_{i=1}^n a_{ii}\)\)
在上面二阶转置矩阵的例子中,如果我们求得了一个特征值\(1\),那么利用迹的性质,我们就可以直接推出另一个特征值是\(-1\)。
求解\(Ax=\lambda x\)
对于方程\(Ax=\lambda x\),有两个未知数,我们需要利用一些技巧从这一个方程中一次解出两个未知数,先移项得\((A-\lambda I)x=0\)。
观察\((A-\lambda I)x=0\),右边的矩阵相当于将\(A\)矩阵平移了\(\lambda\)个单位,而如果方程有解,则这个平移后的矩阵\((A-\lambda I)\)一定是奇异矩阵。根据前面学到的行列式的性质,则有\(\(\det{(A-\lambda{I})}=0\tag{2}\)\)
这样一来,方程中就没有\(x\)了,这个方程也叫作特征方程(characteristic equation)。有了特征值,代回\((A-\lambda I)x=0\),继续求\((A-\lambda I)\)的零空间即可。
-
现在计算一个简单的例子,\(A=\begin{bmatrix}3&1\\1&3\end{bmatrix}\),再来说一点题外话,这是一个对称矩阵,我们将得到实特征值,前面还有置换矩阵、投影矩阵,矩阵越特殊,则我们得到的特征值与特征向量也越特殊。看置换矩阵中的特征值,两个实数\(1, -1\),而且它们的特征向量是正交的。
回到例题,计算\(\det{(A-\lambda{I})}=\begin{vmatrix}3-\lambda&1\\1&3-\lambda\end{vmatrix}\),也就是对角矩阵平移再取行列式。原式继续化简得\((3-\lambda)^2-1=\lambda^2-6\lambda+8=0, \lambda_1=4,\lambda_2=2\)。可以看到一次项系数\(-6\)与矩阵的迹有关,常数项与矩阵的行列式有关。
继续计算特征向量,\(A-4I=\begin{bmatrix}-1&1\\1&-1\end{bmatrix}\),显然矩阵是奇异的(如果是非奇异说明特征值计算有误),解出矩阵的零空间\(x_1=\begin{bmatrix}1\\1\end{bmatrix}\);同理计算另一个特征向量,\(A-2I=\begin{bmatrix}1&1\\1&1\end{bmatrix}\),解出矩阵的零空间\(x_2=\begin{bmatrix}1\\-1\end{bmatrix}\)。
回顾前面转置矩阵的例子,对矩阵\(A'=\begin{bmatrix}0&1\\1&0\end{bmatrix}\)有\(\lambda_1=1, x_1=\begin{bmatrix}1\\1\end{bmatrix}, \lambda_2=-1, x_2=\begin{bmatrix}-1\\1\end{bmatrix}\)。看转置矩阵\(A'\)与本例中的对称矩阵\(A\)有什么联系。
易得\(A=A'+3I\),两个矩阵特征值相同,而其特征值刚好相差\(3\)。也就是如果给一个矩阵加上\(3I\),则它的特征值会加\(3\),而特征向量不变。这也很容易证明,如果\(Ax=\lambda x\),则\((A+3I)x=\lambda x+3x=(\lambda+3)x\),所以\(x\)还是原来的\(x\),而\(\lambda\)变为\(\lambda+3\)。
接下来,看一个关于特征向量认识的误区:已知\(Ax=\lambda x, Bx=\alpha x\),则有\((A+B)x=(\lambda+\alpha)x\),当\(B=3I\)时,在上例中我们看到,确实成立,但是如果\(B\)为任意矩阵,则推论不成立,因为这两个式子中的特征向量\(x\)并不一定相同,所以两个式子的通常情况是\(Ax=\lambda x, By=\alpha y\),它们也就无从相加了。
-
再来看旋转矩阵的例子,旋转\(90^\circ\)的矩阵\(Q=\begin{bmatrix}\cos 90&-\sin 90\\\sin 90&\cos 90\end{bmatrix}=\begin{bmatrix}0&-1\\1&0\end{bmatrix}\)(将每个向量旋转\(90^\circ\),用\(Q\)表示因为旋转矩阵是正交矩阵中很重要的例子)。
上面提到特征值的一个性质:特征值之和等于矩阵的迹;现在有另一个性质:特征值之积等于矩阵的行列式。\(\(\prod_{i=1}^n\lambda_i=\det A\)\)
对于\(Q\)矩阵,有\(\begin{cases}\lambda_1+\lambda_2&=0\\\lambda_1\cdot\lambda_2&=1\end{cases}\),再来思考特征值与特征向量的由来,哪些向量旋转\(90^\circ\)后与自己平行,于是遇到了麻烦,并没有这种向量,也没有这样的特征值来满足前面的方程组。
我们来按部就班的计算,\(\det(Q-\lambda I)=\begin{vmatrix}\lambda&-1\\1&\lambda\end{vmatrix}=\lambda^2+1=0\),于是特征值为\(\lambda_1=i, \lambda_2=-i\),我们看到这两个值满足迹与行列式的方程组,即使矩阵全是实数,其特征值也可能不是实数。本例中即出现了一对共轭负数,我们可以说,如果矩阵越接近对称,那么特征值就是实数。如果矩阵越不对称,就像本例,\(Q^T=-Q\),这是一个反对称的矩阵,于是我得到了纯虚的特征值,这是极端情况,通常我们见到的矩阵是介于对称与反对称之间的。
于是我们看到,对于好的矩阵(置换矩阵)有实特征值及正交的特征向量,对于不好的矩阵(\(90^\circ\)旋转矩阵)有纯虚的特征值。
-
再来看一个更糟的情况,\(A=\begin{bmatrix}3&1\\0&3\end{bmatrix}\),这是一个三角矩阵,我们可以直接得出其特征值,即对角线元素。来看如何得到这一结论的:\(\det(A-\lambda I)=\begin{vmatrix}3-\lambda&1\\0&3-\lambda\end{vmatrix}=(3-\lambda)^2=0\),于是\(\lambda_1=3, \lambda_2=3\)。而我们说这是一个糟糕的状况,在于它的特征向量。
带入特征值计算特征向量,带入\(\lambda_1=3\)得\((A-\lambda I)x=\begin{bmatrix}0&1\\0&0\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix}\),算出一个特征值\(x_1=\begin{bmatrix}1\\0\end{bmatrix}\),当我们带入第二个特征值\(\lambda_1=3\)时,我们无法得到另一个与\(x_1\)线性无关的特征向量了。
而本例中的矩阵\(A\)是一个退化矩阵(degenerate matrix),重复的特征值在特殊情况下可能导致特征向量的短缺。
这一讲我们看到了足够多的“不好”的矩阵,下一讲会介绍一般情况下的特征值与特征向量。