第二十三讲:微分方程和\(e^{At}\)
微分方程\(\frac{\mathrm{d}u}{\mathrm{d}t}=Au\)
本讲主要讲解解一阶方程(first-order system)一阶倒数(first derivative)常系数(constant coefficient)线性方程,上一讲介绍了如何计算矩阵的幂,本讲将进一步涉及矩阵的指数形式。我们通过解一个例子来详细介绍计算方法。
有方程组\(\begin{cases}\frac{\mathrm{d}u_1}{\mathrm{d}t}&=-u_1+2u_2\\\frac{\mathrm{d}u_2}{\mathrm{d}t}&=u_1-2u_2\end{cases}\),则系数矩阵是\(A=\begin{bmatrix}-1&2\\1&-2\end{bmatrix}\),设初始条件为在\(0\)时刻\(u(0)=\begin{bmatrix}u_1\\u_2\end{bmatrix}=\begin{bmatrix}1\\0\end{bmatrix}\)。
-
这个初始条件的意义可以看做在开始时一切都在\(u_1\)中,但随着时间的推移,将有\(\frac{\mathrm{d}u_2}{\mathrm{d}t}>0\),因为\(u_1\)项初始为正,\(u_1\)中的事物会流向\(u_2\)。随着时间的发展我们可以追踪流动的变化。
-
根据上一讲所学的知识,我们知道第一步需要找到特征值与特征向量。\(A=\begin{bmatrix}-1&2\\1&-2\end{bmatrix}\),很明显这是一个奇异矩阵,所以第一个特征值是\(\lambda_1=0\),另一个特征向量可以从迹得到\(tr(A)=-3\)。当然我们也可以用一般方法计算\(\left|A-\lambda I\right|=\begin{vmatrix}-1-\lambda&2\\1&-2-\lambda\end{vmatrix}=\lambda^2+3\lambda=0\)。
(教授提前剧透,特征值\(\lambda_2=-3\)将会逐渐消失,因为答案中将会有一项为\(e^{-3t}\),该项会随着时间的推移趋近于\(0\)。答案的另一部分将有一项为\(e^{0t}\),该项是一个常数,其值为\(1\),并不随时间而改变。通常含有\(0\)特征值的矩阵会随着时间的推移达到稳态。)
-
求特征向量,\(\lambda_1=0\)时,即求\(A\)的零空间,很明显\(x_1=\begin{bmatrix}2\\1\end{bmatrix}\);\(\lambda_2=-3\)时,求\(A+3I\)的零空间,\(\begin{bmatrix}2&2\\1&1\end{bmatrix}\)的零空间为\(x_2=\begin{bmatrix}1\\-1\end{bmatrix}\)。
-
则方程组的通解为:\(u(t)=c_1e^{\lambda_1t}x_1+c_2e^{\lambda_2t}x_2\),通解的前后两部分都是该方程组的纯解,即方程组的通解就是两个与特征值、特征向量相关的纯解的线性组合。我们来验证一下,比如取\(u=e^{\lambda_1t}x_1\)带入\(\frac{\mathrm{d}u}{\mathrm{d}t}=Au\),对时间求导得到\(\lambda_1e^{\lambda_1t}x_1=Ae^{\lambda_1t}x_1\),化简得\(\lambda_1x_1=Ax_1\)。
对比上一讲,解\(u_{k+1}=Au_k\)时得到\(u_k=c_1\lambda^kx_1+c_2\lambda^kx_2\),而解\(\frac{\mathrm{d}u}{\mathrm{d}t}=Au\)我们得到\(u(t)=c_1e^{\lambda_1t}x_1+c_2e^{\lambda_2t}x_2\)。
-
继续求\(c_1,c_2\),\(u(t)=c_1\cdot 1\cdot\begin{bmatrix}2\\1\end{bmatrix}+c_2\cdot e^{-3t}\cdot\begin{bmatrix}1\\-1\end{bmatrix}\),已知\(t=0\)时,\(\begin{bmatrix}1\\0\end{bmatrix}=c_1\begin{bmatrix}2\\1\end{bmatrix}+c_2\begin{bmatrix}1\\-1\end{bmatrix}\)(\(Sc=u(0)\)),所以\(c_1=\frac{1}{3}, c_2=\frac{1}{3}\)。
-
于是我们写出最终结果,\(u(t)=\frac{1}{3}\begin{bmatrix}2\\1\end{bmatrix}+\frac{1}{3}e^{-3t}\begin{bmatrix}1\\-1\end{bmatrix}\)。
稳定性:这个流动过程从\(u(0)=\begin{bmatrix}1\\0\end{bmatrix}\)开始,初始值\(1\)的一部分流入初始值\(0\)中,经过无限的时间最终达到稳态\(u(\infty)=\begin{bmatrix}\frac{2}{3}\\\frac{1}{3}\end{bmatrix}\)。所以,要使得\(u(t)\to 0\),则需要负的特征值。但如果特征值为复数呢?如\(\lambda=-3+6i\),我们来计算\(\left|e^{(-3+6i)t}\right|\),其中的\(\left|e^{6it}\right|\)部分为\(\left|\cos 6t+i\sin 6t\right|=1\),因为这部分的模为\(\cos^2\alpha+\sin^2\alpha=1\),这个虚部就在单位圆上转悠。所以只有实数部分才是重要的。所以我们可以把前面的结论改为需要实部为负数的特征值。实部会决定最终结果趋近于\(0\)或\(\infty\),虚部不过是一些小杂音。
收敛态:需要其中一个特征值实部为\(0\),而其他特征值的实部皆小于\(0\)。
发散态:如果某个特征值实部大于\(0\)。上面的例子中,如果将\(A\)变为\(-A\),特征值也会变号,结果发散。
再进一步,我们想知道如何从直接判断任意二阶矩阵的特征值是否均小于零。对于二阶矩阵\(A=\begin{bmatrix}a&b\\c&d\end{bmatrix}\),矩阵的迹为\(a+d=\lambda_1+\lambda_2\),如果矩阵稳定,则迹应为负数。但是这个条件还不够,有反例迹小于\(0\)依然发散:\(\begin{bmatrix}-2&0\\0&1\end{bmatrix}\),迹为\(-1\)但是仍然发散。还需要加上一个条件,因为\(\det A=\lambda_1\cdot\lambda_2\),所以还需要行列式为正数。
总结:原方程组有两个相互耦合的未知函数,\(u_1, u_2\)相互耦合,而特征值和特征向量的作则就是解耦,也就是对角化(diagonalize)。回到原方程组\(\frac{\mathrm{d}u}{\mathrm{d}t}=Au\),将\(u\)表示为特征向量的线性组合\(u=Sv\),代入原方程有\(S\frac{\mathrm{d}v}{\mathrm{d}t}=ASv\),两边同乘以\(S^{-1}\)得\(\frac{\mathrm{d}v}{\mathrm{d}t}=S^{-1}ASv=\Lambda v\)。以特征向量为基,将\(u\)表示为\(Sv\),得到关于\(v\)的对角化方程组,新方程组不存在耦合,此时\(\begin{cases}\frac{\mathrm{d}v_1}{\mathrm{d}t}&=\lambda_1v_1\\\frac{\mathrm{d}v_2}{\mathrm{d}t}&=\lambda_2v_2\\\vdots&\vdots\\\frac{\mathrm{d}v_n}{\mathrm{d}t}&=\lambda_nv_n\end{cases}\),这是一个各未知函数间没有联系的方程组,它们的解的一般形式为\(v(t)=e^{\Lambda t}v(0)\),则原方程组的解的一般形式为\(u(t)=e^{At}u(0)=Se^{\Lambda t}S^{-1}u(0)\)。这里引入了指数部分为矩阵的形式。
指数矩阵\(e^{At}\)
在上面的结论中,我们见到了\(e^{At}\)。这种指数部分带有矩阵的情况称为指数矩阵(exponential matrix)。
理解指数矩阵的关键在于,将指数形式展开称为幂基数形式,就像\(e^x=1+\frac{x^2}{2}+\frac{x^3}{6}+\cdots\)一样,将\(e^{At}\)展开成幂级数的形式为:
再说些题外话,有两个极具美感的泰勒级数:\(e^x=\sum \frac{x^n}{n!}\)与\(\frac{1}{1-x}=\sum x^n\),如果把第二个泰勒级数写成指数矩阵形式,有\((I-At)^{-1}=I+At+(At)^2+(At)^3+\cdots\),这个式子在\(t\)非常小的时候,后面的高次项近似等于零,所以可以用来近似\(I-At\)的逆矩阵,通常近似为\(I+At\),当然也可以再加几项。第一个级数对我们而言比第二个级数好,因为第一个级数总会收敛于某个值,所以\(e^x\)总会有意义,而第二个级数需要\(A\)特征值的绝对值小于\(1\)(因为涉及矩阵的幂运算)。我们看到这些泰勒级数的公式对矩阵同样适用。
回到正题,我们需要证明\(Se^{\Lambda t}S^{-1}=e^{At}\),继续使用泰勒级数:
需要注意的是,\(e^{At}\)的泰勒级数展开是恒成立的,但我们推出的版本却需要矩阵可对角化这个前提条件。
最后,我们来看看什么是\(e^{\Lambda t}\),我们将\(e^{At}\)变为对角矩阵就是因为对角矩阵简单、没有耦合,\(e^{\Lambda t}=\begin{bmatrix}e^{\lambda_1t}&0&\cdots&0\\0&e^{\lambda_2t}&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&e^{\lambda_nt}\end{bmatrix}\)。
有了\(u(t)=Se^{\Lambda t}S^{-1}u(0)\),再来看矩阵的稳定性可知,所有特征值的实部均为负数时矩阵收敛,此时对角线上的指数收敛为\(0\)。如果我们画出复平面,则要使微分方程存在稳定解,则特征值存在于复平面的左侧(即实部为负);要使矩阵的幂收敛于\(0\),则特征值存在于单位圆内部(即模小于\(1\)),这是幂稳定区域。(上一讲的差分方程需要计算矩阵的幂。)
同差分方程一样,我们来看二阶情况如何计算,有\(y''+by'+k=0\)。我们也模仿差分方程的情形,构造方程组\(\begin{cases}y''&=-by'-ky\\y'&=y'\end{cases}\),写成矩阵形式有\(\begin{bmatrix}y''\\y'\end{bmatrix}=\begin{bmatrix}-b&-k\\1&0\end{bmatrix}\begin{bmatrix}y'\\y\end{bmatrix}\),令\(u'=\begin{bmatrix}y''\\y'\end{bmatrix}, \ u=\begin{bmatrix}y'\\y\end{bmatrix}\)。
继续推广,对于\(5\)阶微分方程\(y'''''+by''''+cy'''+dy''+ey'+f=0\),则可以写作\(\begin{bmatrix}y'''''\\y''''\\y'''\\y''\\y'\end{bmatrix}=\begin{bmatrix}-b&-c&-d&-e&-f\\1&0&0&0&0\\0&1&0&0&0\\0&0&1&0&0\\0&0&0&1&0\end{bmatrix}\begin{bmatrix}y''''\\y'''\\y''\\y'\\y\end{bmatrix}\),这样我们就把一个五阶微分方程化为\(5\times 5\)一阶方程组了,然后就是求特征值、特征向量了步骤了。