引入
在计算机中,实数表示存在舍入误差。
对于线性方程组 Ax=b,输入计算机后,
系数矩阵 A 和右端项 b 都会产生扰动 δA 和 δb,导致解产生扰动 δx。
实际处理的方程:
(A+δA)(x+δx)=b+δb
病态与良态的定义:
- 病态方程组:A 或 b 的微小扰动引起解 x 的巨大变化
- 良态方程组:扰动对解的影响与扰动同量级
- 病态矩阵/良态矩阵:对应系数矩阵的性质
例(病态现象):
[1111.0001][x1x2]=[22]
原解为 x=[2,0]T。当右端项微扰 δb=[0,0.0001]T 时,新解变为 [1,1]T,相对误差高达 50% 以上,而输入相对误差仅为 0.005%。
向量范数
为量化误差大小,需引入范数。
定义:向量范数
映射 ∥⋅∥:Rn→R 满足:
- 正定性:∥x∥≥0,且 ∥x∥=0⇔x=0
- 齐次性:∥αx∥=∣α∣∥x∥,∀α∈R
- 三角不等式:∥x+y∥≤∥x∥+∥y∥
注(三角不等式的重要性):
- 保证极限唯一性:
若 xn→a 且 xn→b,
则 ∥a−b∥≤∥xn−a∥+∥xn−b∥→0,故 a=b
- 保证连续性:线性运算在范数拓扑下连续
常用向量范数
p-范数族。
| 范数名称 | 记号 | 表达式 | 几何意义 |
|---|
| 1-范数 | ∥x∥1 | ∑i=1n∣xi∣ | 曼哈顿距离 |
| 2-范数 | ∥x∥2 | ∑i=1nxi2=xTx | 欧几里得距离 |
| ∞-范数 | ∥x∥∞ | max1≤i≤n∣xi∣ | 最大分量幅度 |
| p-范数 | ∥x∥p | (∑i=1n∣xi∣p)1/p | 统一框架 |
向量范数的等价性
Rn 上任意两个范数等价,即存在 a,b>0 使得:
a∥x∥p≤∥x∥q≤b∥x∥p
具体关系:
∥x∥2≤∥x∥1≤n∥x∥2
∥x∥∞≤∥x∥2≤n∥x∥∞
∥x∥∞≤∥x∥1≤n∥x∥∞
注(等价性的意义):
序列收敛性不依赖于具体范数选择。在数值分析中,可根据计算便利选择范数(如 ∞-范数易计算,2-范数有几何直观)。
向量范数的可逆变换
设 ∥⋅∥ 是 Rn 上的一个向量范数,M∈Rn×n 可逆,则如下定义的映射:
∥x∥M:=∥M−1x∥
也是 Rn 上的范数。
证明:
-
正定性:
∥x∥M≥0 显然。
若 ∥x∥M=0,则
∥M−1x∥=0⇒M−1x=0⇒x=0
-
齐次性:
∥αx∥M=∥M−1(αx)∥=∣α∣⋅∥M−1x∥=∣α∣⋅∥x∥M
-
三角不等式:
∥x+y∥M=∥M−1x+M−1y∥≤∥M−1x∥+∥M−1y∥=∥x∥M+∥y∥M
几何直观:
原范数 ∥⋅∥ 的单位球是 {x:∥x∥≤1},经 M−1 变换后得到:
{M−1x:∥x∥≤1}={y:∥My∥≤1}
这正是新范数 ∥⋅∥M 的单位球。可逆线性变换将凸对称体映为凸对称体,因此保持范数结构。
应用:常通过可逆变换将复杂范数转化为简单范数(如 ∥⋅∥∞)进行估计。例如范数逼近引理中的构造。
矩阵范数
定义:矩阵范数
映射 ∥⋅∥:Rn×n→R 满足:
- 正定性:∥A∥≥0,且 ∥A∥=0⇔A=0
- 齐次性:∥αA∥=∣α∣∥A∥
- 三角不等式:∥A+B∥≤∥A∥+∥B∥
- 相容性(次可乘性):∥AB∥≤∥A∥∥B∥
注(相容性的必要性):
- 矩阵乘法对应线性变换的复合,相容性保证复合变换的放大率不超过各变换放大率的乘积。
- 反例:
f(A)=maxi,j∣aij∣ 不满足相容性。如 A=B=[1111] 时,f(AB)=2>f(A)f(B)=1。
若对 ∀A∈Rn×n 与 ∀x∈Rn,都有:
∥Ax∥≤∥A∥∥x∥
则称式中的向量范数和矩阵范数相容。
注(矩阵与向量范数相容):
不是任意向量范数与任意矩阵范数都相容的。但是我们可以做到:
- 对任意向量范数,构造一个矩阵范数与之相容。这由下文的诱导范数是显然的。
- 对任意矩阵范数,构造一个向量范数与之相容。这是因为给定矩阵范数 ∥⋅∥,定义向量范数如下:
∥x∥:=∥xuT∥
其中 u 是任意一个固定的非零向量。
则利用矩阵运算的线性性和矩阵范数的正定性、齐次性、三角不等式可以轻松导出该准向量范数的正定性、齐次性、三角不等式。
常用矩阵范数
| 范数名称 | 记号 | 计算公式 | 计算方法 |
|---|
| 1-范数(列和范数) | ∥A∥1 | max1≤j≤n∑i=1n∣aij∣ | 每列绝对值之和的最大值 |
| 2-范数(谱范数) | ∥A∥2 | λmax(ATA)=ρ(ATA)=σmax | ATA 最大特征值平方根,也即 A 的最大奇异值 |
| ∞-范数(行和范数) | ∥A∥∞ | max1≤i≤n∑j=1n∣aij∣ | 每行绝对值之和的最大值 |
| F-范数(Frobenius) | ∥A∥F | ∑i,j=1naij2=tr(ATA) | 元素平方和开根号 |
诱导范数
由向量范数 ∥⋅∥ 诱导的:
∥A∥≡x=0max∥x∥∥Ax∥=∥x∥=1max∥Ax∥
是一个矩阵范数。
证明:
-
引理:
诱导范数和向量范数是相容的,也即
∥Ax∥≤∥A∥∥x∥
引理的证明:
若 x=0,两边均为 0,成立。
若 x=0,令 u=∥x∥x,则 ∥u∥=1。由诱导范数定义:
∥A∥=∥y∥=1max∥Ay∥≥∥Au∥=∥x∥∥Ax∥。
两边乘以 ∥x∥ 即可。
-
非负性:∥A∥≥0,且 ∥A∥=0⟺A=0。
显然,对任意 x,∥Ax∥≥0,所以 ∥A∥≥0。
若 ∥A∥=0,则对任意 x=0,∥Ax∥=0,也即 Ax=0,从而 A=0。
若 A=0,则对任意 x,Ax=0,从而 ∥A∥=0。
-
齐次性:∥αA∥=∣α∣∥A∥。
∥αA∥=∥x∥=1max∥(αA)x∥=∣α∣⋅∥x∥=1max∥Ax∥=∣α∣∥A∥
-
三角不等式:∥A+B∥≤∥A∥+∥B∥。
∥A+B∥=∥x∥=1max∥(A+B)x∥=∥x∥=1max∥Ax+Bx∥
≤∥x∥=1max(∥Ax∥+∥Bx∥)
≤∥x∥=1max∥Ax∥+∥x∥=1max∥Bx∥
=∥A∥+∥B∥
-
相容性:∥AB∥≤∥A∥∥B∥。
设 AB 有定义,对任意 ∥x∥=1,有:
∥ABx∥≤∥A∥⋅∥Bx∥≤∥A∥⋅∥B∥
从而
∥AB∥=∥x∥=1max∥ABx∥≤∥A∥∥B∥
注:
不是所有矩阵范数都是诱导范数。事实上,对于诱导范数 ∥⋅∥,有:
∥In∥=x=0max∥x∥∥Ix∥=1
这是一个必要条件。但是对于 Frobenius 范数而言,
∥In∥F=i=1∑nj=1∑n∣aij∣2=n
显然不是诱导范数。
常见向量范数的诱导范数
| 向量范数 | 诱导矩阵范数 | 计算公式 | 证明关键 |
|---|
| ∥⋅∥1 | ∥⋅∥1 | maxj∑i∣aij∣ | 取标准基向量 |
| ∥⋅∥∞ | ∥⋅∥∞ | maxi∑j∣aij∣ | 构造符号向量 |
| ∥⋅∥2 | ∥⋅∥2 | σmax(A) | 瑞利商 + 特征值 |
1-范数:最大列和
∥A∥1=x=0max∥x∥1∥Ax∥1=1≤j≤nmaxi=1∑m∣aij∣
证明:
上界:
对任意 x=0,
∥Ax∥1=i=1∑mj=1∑naijxj≤i=1∑mj=1∑n∣aij∣∣xj∣=j=1∑n∣xj∣i=1∑m∣aij∣
令 M=maxj∑i=1m∣aij∣,则 ∥Ax∥1≤M∥x∥1,故 ∥A∥1≤M。
可达:
设第 k 列达到 M,取 x=ek,则 ∥x∥1=1,
∥Ax∥1=i=1∑m∣aik∣=M
故 ∥A∥1=M。
无穷-范数:最大行和
∥A∥∞=x=0max∥x∥∞∥Ax∥∞=1≤i≤mmaxj=1∑n∣aij∣
证明:
上界:
对任意 x=0,设 ∥x∥∞=maxj∣xj∣,则
∣(Ax)i∣=j=1∑naijxj≤j=1∑n∣aij∣∣xj∣≤∥x∥∞j=1∑n∣aij∣
令 M=maxi∑j=1n∣aij∣,则 ∥Ax∥∞≤M∥x∥∞,
故 ∥A∥∞≤M。
可达:
设第 k 行达到 M。构造 x 使 xj=sign(akj),则 ∥x∥∞=1,且
(Ax)k=j=1∑nakj⋅sign(akj)=j=1∑n∣akj∣=M
故 ∥Ax∥∞≥∣(Ax)k∣=M,即 ∥A∥∞≥M。
2-范数:最大奇异值
∥A∥2=x=0max∥x∥2∥Ax∥2=σmax(A)=λmax(ATA)
证明:
∥A∥22=x=0max∥x∥22∥Ax∥22=x=0maxxTxxTATAx=λmax(ATA)
最后一个等号是瑞利商(Rayleigh quotient)的性质:对称矩阵 ATA 的瑞利商最大值为最大特征值。
设 ATA 的特征值为 λ1≥λ2≥⋯≥λn≥0,对应正交单位特征向量 v1,…,vn。
对任意 x=∑j=1ncjvj,
xTxxTATAx=∑j=1ncj2∑j=1ncj2λj≤λ1
当 x=v1 时取等。故 ∥A∥2=λ1=σmax(A)。
矩阵范数的等价性
Rm×n 上任意两个矩阵范数等价,即存在 a,b>0 使得:
a∥A∥p≤∥A∥q≤b∥A∥p
具体关系(常用诱导范数):
n1∥A∥∞≤∥A∥2≤m∥A∥∞
m1∥A∥1≤∥A∥2≤n∥A∥1
n1∥A∥1≤∥A∥∞≤m∥A∥1
Frobenius 范数与诱导范数:
∥A∥2≤∥A∥F≤min(m,n)∥A∥2
注(等价性的意义):
矩阵序列收敛性不依赖于具体范数选择。在数值分析中,可根据计算便利选择范数(如1-范数、∞-范数易计算,2-范数与谱分析直接关联)。
注(本质):
有限维线性空间上,任意两个范数等价。
矩阵范数的相似变换
设 ∥⋅∥v 是 Rn 上的向量范数,∥⋅∥m 是由其诱导的矩阵范数:
∥A∥m=∥x∥v=1max∥Ax∥v
对任意可逆矩阵 M∈Rn×n,定义新的向量范数:
∥x∥v′:=∥M−1x∥v
则 ∥⋅∥v′ 诱导范数为:
∥A∥m′=∥M−1AM∥m
证明:
由诱导范数定义和变量替换 y=M−1x:
∥A∥m′=∥x∥v′=1max∥Ax∥v′=∥M−1x∥v=1max∥M−1Ax∥v=∥y∥v=1max∥M−1AMy∥v=∥M−1AM∥m
注:该性质表明,通过改变坐标系的度量,原矩阵的新范数等价于相似变换后新矩阵的原范数。
应用:下一节课的范数逼近引理。
谱半径
矩阵 A 的谱半径定义为:
ρ(A)=1≤i≤nmax∣λi∣
定理:对任意矩阵范数,ρ(A)≤∥A∥
证明:
由前述关于向量范数与矩阵范数相容性的讨论,我们可以针对该矩阵范数构造一个与之相容的向量范数。从而对任意特征值 λ,有:
∥Ax∥=∥λx∥=∣λ∣∥x∥≤∥A∥⋅∥x∥
也即:
∣λ∣≤∥A∥
取最大特征值即得原式。
条件数
定义:条件数
在矩阵范数 ∥⋅∥ 下,非奇异方阵阵 A∈Rn×n 的条件数为:
Cond(A)≡∥A∥∥A−1∥
特别地,Cond(A)p=∥A∥p∥A−1∥p(p=1,2,∞)
注(行列式与条件数的关系):
行列式大小不能反映病态程度。如:
- B=10⋮0−11⋮0⋯⋯⋱⋯−1−1⋮1,det(B)=1,
但 Cond(B)∞=n2n−1(病态)
- C=diag{10−1,…,10−1},det(C)=10−n 很小,但 Cond(C)=1(良态)
条件数的性质
下界
Cond(A)≥1
证明:
因为 ∥I∥2≥∥I2∥,所以有 ∥I∥≥1,从而:
∥A∥∥A−1∥≥∥AA−1∥≥∥I∥≥1
注:只对诱导范数成立 Cond(I)=1,一般不一定。
正交矩阵
若 A 正交,则其谱范数下的条件数:
Cond(A)2=1
证明:显然。
齐次性
∀α=0 有:
Cond(αA)=Cond(A)
证明:显然。
谱条件数
Cond(A)2=λmin(ATA)λmax(ATA)=σminσmax
证明:
由 SVD 分解:
A=UΣVT
其中 Σ=diag(σ1,σ2,…,σn),
且 σ1≥σ2≥⋯≥σn>0。
则:
A−1=(UΣVT)−1=VΣ−1UT
故
∥A−1∥2=∥Σ−1∥2=σn1=σmin1
代入即证。
条件数等价性
Rn×n 上的条件数都是等价的,特别地,有:
n1Cond2(A)≤Cond1(A)≤nCond2(A)
n1Cond∞(A)≤Cond2(A)≤nCond∞(A)
n21Cond1(A)≤Cond∞(A)≤n2Cond1(A)
证明:
由矩阵范数的等价性即证。
条件数的估计
直接计算 ∥A−1∥ 成本为 O(n3),实际中通过求解线性方程组 Ay=d 估计:
∥A−1∥≥∥d∥∥y∥
选择适当的 d 使 ∥y∥ 尽可能大来逼近 ∥A−1∥。
注:没太理解为什么不能选择适当的 y 使 ∥d∥ 尽可能小
几何意义
假设 A∈Rn×n 可逆,
矩阵 δA∈Rn×n 使得 A+δA 奇异。那么:
∥A∥∥δA∥≥Cond(A)1
并且如果矩阵范数 ∥⋅∥ 由向量范数诱导定义,则存在矩阵 δA 使得上述不等式取等号:
A+δA∈Smin∥A∥∥δA∥=Cond(A)1
其中 S={M∣det(M)=0} 为奇异矩阵集合。
证明:
设 A+δA∈S,则存在 x=0 使得:
(A+δA)x=0
也即 x=−A−1δAx. 取范数:
∥x∥=∥A−1δAx∥≤∥A−1∥⋅∥δA∥⋅∥x∥
因 x=0,两边除以 ∥x∥ 可得:
∥δA∥≥∥A−1∥1=Cond(A)∥A∥
也即:
∥A∥∥δA∥≥Cond(A)1
设 ∥⋅∥ 是由向量范数 ∥⋅∥v 诱导的矩阵范数。由 ∥A−1∥ 的定义,存在 y=0 使得:
∥A−1y∥v=∥A−1∥⋅∥y∥v
令 x=A−1y,则 ∥x∥v=∥A−1∥⋅∥y∥v。
构造扰动(秩1矩阵):
δA=−wTxywT
其中 w 满足 ∥w∥v∗=1 且 wTx=∥x∥v(由对偶范数存在性保证,∥⋅∥v∗ 为对偶范数)。
因为:
(A+δA)x=Ax+δAx=y−wTxywTx=y−y=0
故 A+δA 奇异。
对诱导范数,有:
∥δA∥=z=0max∥z∥v∥δAz∥v=z=0max∥z∥v∥y∥v⋅∣wTz∣/∣wTx∣
由对偶范数性质 ∣wTz∣≤∥w∥v∗⋅∥z∥v=∥z∥v,
且当 z=x 时取等,得:
∥δA∥=∣wTx∣∥y∥v=∥x∥v∥y∥v=∥A−1∥⋅∥y∥v∥y∥v=∥A−1∥1
因此:
∥A∥∥δA∥=∥A−1∥⋅∥A∥1=Cond(A)1
注:
- 条件数的倒数 = 矩阵到最近奇异矩阵的相对距离
- 病态矩阵 ⇔ 距离奇异矩阵近
- 良态矩阵 ⇔ 与所有奇异矩阵保持距离
- 病态问题难以求解,因为数值计算中的舍入误差可能导致矩阵穿越奇异边界
误差分析
右端项扰动分析
扰动方程:A(x+δx)=b+δb
则有误差估计:
∥x∥∥δx∥≤∥A∥∥A−1∥∥b∥∥δb∥
也即解的相对误差不超过右端项相对误差的 ∥A∥∥A−1∥ 倍。
证明:
由扰动方程可得 ∥δx∥=∥A−1δb∥≤∥A−1∥∥δb∥
由原方程可得:∥b∥=∥Ax∥≤∥A∥∥x∥,故 1/∥x∥≤∥A∥/∥b∥
两式相乘即可。
系数矩阵扰动分析
扰动方程:(A+δA)(x+δx)=b
则有误差估计:
∥x∥∥δx∥≤1−∥A∥∥A−1∥∥A∥∥δA∥∥A∥∥A−1∥∥A∥∥δA∥
也即解的相对误差关于系数矩阵相对误差的函数,当扰动充分小时近似为 ∥A∥∥A−1∥ 倍。
证明:
由扰动方程展开:
(A+δA)(x+δx)=Ax+Aδx+δAx+δAδx=b
由原方程 Ax=b,消去得:
Aδx+δAx+δAδx=0
即:
δx=−A−1δAx−A−1δAδx
取范数并利用三角不等式:
∥δx∥≤∥A−1∥∥δA∥∥x∥+∥A−1∥∥δA∥∥δx∥
假设 ∥A−1∥∥δA∥<1(小扰动),整理得:
∥δx∥(1−∥A−1∥∥δA∥)≤∥A−1∥∥δA∥∥x∥
故:
∥x∥∥δx∥≤1−∥A−1∥∥δA∥∥A−1∥∥δA∥=1−∥A∥∥A−1∥∥A∥∥δA∥∥A∥∥A−1∥∥A∥∥δA∥
综合误差分析
对于非奇异矩阵 A∈Rn×n 及其扰动 δA∈Rn×n 满足
∥A−1∥∥δA∥<1
如果 x∈Rn 是 Ax=b 的解,其中 b∈Rn,b=0。
考虑扰动 δb∈Rn,δx 是
(A+δA)(x+δx)=b+δb(4.39)
的解。此时有如下正向先验误差估计:
∥x∥∥δx∥≤1−Cond(A)∥A∥∥δA∥Cond(A)(∥A∥∥δA∥+∥b∥∥δb∥)
证明:
由 (A+δA)(x+δx)=b+δb,展开得:
Ax+Aδx+δAx+δAδx=b+δb
利用 Ax=b 消去并整理得:
δx=−A−1δAx−A−1δAδx+A−1δb
由三角不等式:
∥δx∥≤∥A−1∥∥δA∥∥x∥+∥A−1∥∥δA∥∥δx∥+∥A−1∥∥δb∥
由 ∥A−1∥∥δA∥<1,整理:
∥δx∥(1−∥A−1∥∥δA∥)≤∥A−1∥∥δA∥∥x∥+∥A−1∥∥δb∥
∥δx∥≤1−∥A−1∥∥δA∥∥A−1∥∥δA∥∥x∥+∥A−1∥∥δb∥
两边除以 ∥x∥:
∥x∥∥δx∥≤1−∥A−1∥∥δA∥∥A−1∥∥δA∥+1−∥A−1∥∥δA∥∥A−1∥∥x∥∥δb∥
利用 ∥b∥=∥Ax∥≤∥A∥∥x∥:
∥x∥∥δb∥≤∥b∥∥A∥∥δb∥
代入并整理:
∥x∥∥δx∥≤1−Cond(A)∥A∥∥δA∥∥A−1∥∥A∥∥A∥∥δA∥+1−Cond(A)∥A∥∥δA∥∥A−1∥∥A∥∥b∥∥δb∥
=1−Cond(A)∥A∥∥δA∥Cond(A)(∥A∥∥δA∥+∥b∥∥δb∥)
超定方程组
问题描述
当方程数 m 大于未知数 n 时,线性方程组 Ax=b,A∈Rm×n 通常无解。
所以我们希望寻找 x 使余量(残差)r=b−Ax 在某种意义下最小。也即求解
x=xargminF(x)
最小二乘法
目标函数:
F(x)=rTr=∥b−Ax∥22=i=1∑m(bi−j=1∑naijxj)2
几何意义:
寻找 x 使得 Ax 是 b 在 A 的列空间 R(A) 上的正交投影。
注(2-范数的优势):
- 解析可解:可导出正规方程
- 统计解释:在高斯-马尔可夫假设下(误差独立同分布、零均值、等方差),最小二乘估计等价于最大似然估计
- 几何意义:对应欧几里得空间中的垂直距离最小化
正规方程
对 F(x)=(b−Ax)T(b−Ax) 求梯度并令为零得:
∂x∂F=2AT(Ax−b)=0
正规方程:
ATAx=ATb
若 rank(A)=n(列满秩),则 ATA 对称正定,此时存在唯一解:
x=(ATA)−1ATb
注:
直接求解正规方程会将条件数平方:Cond(ATA)2=[Cond(A)2]2,可能引入数值不稳定性。
实际计算中,QR 分解或 SVD 是更稳定的算法,但正规方程在理论分析中非常重要