MINIBLOG

Blog Note Tags Links About
Home Search
Mar 25, 2026
miniyuan

解线性方程组的直接法(误差分析、超定方程组)


引入

在计算机中,实数表示存在舍入误差。 对于线性方程组 Ax=b\mathbf{A}\mathbf{x}=\mathbf{b}Ax=b,输入计算机后, 系数矩阵 A\mathbf{A}A 和右端项 b\mathbf{b}b 都会产生扰动 δA\delta\mathbf{A}δA 和 δb\delta\mathbf{b}δb,导致解产生扰动 δx\delta\mathbf{x}δx。

实际处理的方程:

(A+δA)(x+δx)=b+δb(\mathbf{A}+\delta\mathbf{A})(\mathbf{x}+\delta\mathbf{x}) = \mathbf{b}+\delta\mathbf{b}(A+δA)(x+δx)=b+δb

病态与良态的定义:

  • 病态方程组:A\mathbf{A}A 或 b\mathbf{b}b 的微小扰动引起解 x\mathbf{x}x 的巨大变化
  • 良态方程组:扰动对解的影响与扰动同量级
  • 病态矩阵/良态矩阵:对应系数矩阵的性质

例(病态现象):

[1111.0001][x1x2]=[22]\begin{bmatrix} 1 & 1 \\ 1 & 1.0001 \end{bmatrix}\begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 2 \\ 2 \end{bmatrix}[11​11.0001​][x1​x2​​]=[22​]

原解为 x=[2,0]T\mathbf{x}=[2,0]^Tx=[2,0]T。当右端项微扰 δb=[0,0.0001]T\delta\mathbf{b}=[0,0.0001]^Tδb=[0,0.0001]T 时,新解变为 [1,1]T[1,1]^T[1,1]T,相对误差高达 50%50\%50% 以上,而输入相对误差仅为 0.005%0.005\%0.005%。


向量范数

为量化误差大小,需引入范数。

定义:向量范数

映射 ∥⋅∥:Rn→R\|\cdot\|:\mathbb{R}^n\to\mathbb{R}∥⋅∥:Rn→R 满足:

  1. 正定性:∥x∥≥0\|\mathbf{x}\|\geq 0∥x∥≥0,且 ∥x∥=0⇔x=0\|\mathbf{x}\|=0 \Leftrightarrow \mathbf{x}=\mathbf{0}∥x∥=0⇔x=0
  2. 齐次性:∥αx∥=∣α∣∥x∥\|\alpha\mathbf{x}\| = |\alpha|\|\mathbf{x}\|∥αx∥=∣α∣∥x∥,∀α∈R\forall \alpha\in\mathbb{R}∀α∈R
  3. 三角不等式:∥x+y∥≤∥x∥+∥y∥\|\mathbf{x}+\mathbf{y}\| \leq \|\mathbf{x}\|+\|\mathbf{y}\|∥x+y∥≤∥x∥+∥y∥

注(三角不等式的重要性):

  • 保证极限唯一性: 若 xn→a\mathbf{x}_n\to\mathbf{a}xn​→a 且 xn→b\mathbf{x}_n\to\mathbf{b}xn​→b, 则 ∥a−b∥≤∥xn−a∥+∥xn−b∥→0\|\mathbf{a}-\mathbf{b}\|\leq \|\mathbf{x}_n-\mathbf{a}\|+\|\mathbf{x}_n-\mathbf{b}\|\to 0∥a−b∥≤∥xn​−a∥+∥xn​−b∥→0,故 a=b\mathbf{a}=\mathbf{b}a=b
  • 保证连续性:线性运算在范数拓扑下连续

常用向量范数

ppp-范数族。

范数名称记号表达式几何意义
1-范数∥x∥1\|\mathbf{x}\|_1∥x∥1​∑i=1n∣xi∣\sum_{i=1}^n \vert x_i\vert∑i=1n​∣xi​∣曼哈顿距离
2-范数∥x∥2\|\mathbf{x}\|_2∥x∥2​∑i=1nxi2=xTx\sqrt{\sum_{i=1}^n x_i^2} = \sqrt{\mathbf{x}^T\mathbf{x}}∑i=1n​xi2​​=xTx​欧几里得距离
∞\infty∞-范数∥x∥∞\|\mathbf{x}\|_\infty∥x∥∞​max⁡1≤i≤n∣xi∣\max_{1\leq i\leq n} \vert x_i\vertmax1≤i≤n​∣xi​∣最大分量幅度
ppp-范数∥x∥p\|\mathbf{x}\|_p∥x∥p​(∑i=1n∣xi∣p)1/p\left(\sum_{i=1}^n \vert x_i\vert ^p\right)^{1/p}(∑i=1n​∣xi​∣p)1/p统一框架

向量范数的等价性

Rn\mathbb{R}^nRn 上任意两个范数等价,即存在 a,b>0a,b>0a,b>0 使得:

a∥x∥p≤∥x∥q≤b∥x∥pa\|\mathbf{x}\|_p \leq \|\mathbf{x}\|_q \leq b\|\mathbf{x}\|_pa∥x∥p​≤∥x∥q​≤b∥x∥p​

具体关系:

∥x∥2≤∥x∥1≤n∥x∥2\|\mathbf{x}\|_2 \leq \|\mathbf{x}\|_1 \leq \sqrt{n}\|\mathbf{x}\|_2∥x∥2​≤∥x∥1​≤n​∥x∥2​ ∥x∥∞≤∥x∥2≤n∥x∥∞\|\mathbf{x}\|_\infty \leq \|\mathbf{x}\|_2 \leq \sqrt{n}\|\mathbf{x}\|_\infty∥x∥∞​≤∥x∥2​≤n​∥x∥∞​ ∥x∥∞≤∥x∥1≤n∥x∥∞\|\mathbf{x}\|_\infty \leq \|\mathbf{x}\|_1 \leq n\|\mathbf{x}\|_\infty∥x∥∞​≤∥x∥1​≤n∥x∥∞​

注(等价性的意义):
序列收敛性不依赖于具体范数选择。在数值分析中,可根据计算便利选择范数(如 ∞\infty∞-范数易计算,2-范数有几何直观)。

向量范数的可逆变换

设 ∥⋅∥\|\cdot\|∥⋅∥ 是 Rn\mathbb{R}^nRn 上的一个向量范数,M∈Rn×n\mathbf{M} \in \mathbb{R}^{n \times n}M∈Rn×n 可逆,则如下定义的映射:

∥x∥M:=∥M−1x∥\|\mathbf{x}\|_{\mathbf{M}} := \|\mathbf{M}^{-1}\mathbf{x}\|∥x∥M​:=∥M−1x∥

也是 Rn\mathbb{R}^nRn 上的范数。

证明:

  1. 正定性: ∥x∥M≥0\|\mathbf{x}\|_{\mathbf{M}} \geq 0∥x∥M​≥0 显然。

    若 ∥x∥M=0\|\mathbf{x}\|_{\mathbf{M}} = 0∥x∥M​=0,则

    ∥M−1x∥=0⇒M−1x=0⇒x=0\|\mathbf{M}^{-1}\mathbf{x}\| = 0 \Rightarrow \mathbf{M}^{-1}\mathbf{x} = \mathbf{0} \Rightarrow \mathbf{x} = \mathbf{0}∥M−1x∥=0⇒M−1x=0⇒x=0
  2. 齐次性:

    ∥αx∥M=∥M−1(αx)∥=∣α∣⋅∥M−1x∥=∣α∣⋅∥x∥M\|\alpha\mathbf{x}\|_{\mathbf{M}} = \|\mathbf{M}^{-1}(\alpha\mathbf{x})\| = |\alpha| \cdot \|\mathbf{M}^{-1}\mathbf{x}\| = |\alpha| \cdot \|\mathbf{x}\|_{\mathbf{M}}∥αx∥M​=∥M−1(αx)∥=∣α∣⋅∥M−1x∥=∣α∣⋅∥x∥M​
  3. 三角不等式:

    ∥x+y∥M=∥M−1x+M−1y∥≤∥M−1x∥+∥M−1y∥=∥x∥M+∥y∥M\begin{aligned} \|\mathbf{x}+\mathbf{y}\|_{\mathbf{M}} &= \|\mathbf{M}^{-1}\mathbf{x} + \mathbf{M}^{-1}\mathbf{y}\| \\ &\leq \|\mathbf{M}^{-1}\mathbf{x}\| + \|\mathbf{M}^{-1}\mathbf{y}\| \\ &= \|\mathbf{x}\|_{\mathbf{M}} + \|\mathbf{y}\|_{\mathbf{M}} \end{aligned}∥x+y∥M​​=∥M−1x+M−1y∥≤∥M−1x∥+∥M−1y∥=∥x∥M​+∥y∥M​​

几何直观:

原范数 ∥⋅∥\|\cdot\|∥⋅∥ 的单位球是 {x:∥x∥≤1}\{\mathbf{x} : \|\mathbf{x}\| \leq 1\}{x:∥x∥≤1},经 M−1\mathbf{M}^{-1}M−1 变换后得到:

{M−1x:∥x∥≤1}={y:∥My∥≤1}\{\mathbf{M}^{-1}\mathbf{x} : \|\mathbf{x}\| \leq 1\} = \{\mathbf{y} : \|\mathbf{M}\mathbf{y}\| \leq 1\}{M−1x:∥x∥≤1}={y:∥My∥≤1}

这正是新范数 ∥⋅∥M\|\cdot\|_{\mathbf{M}}∥⋅∥M​ 的单位球。可逆线性变换将凸对称体映为凸对称体,因此保持范数结构。

应用:常通过可逆变换将复杂范数转化为简单范数(如 ∥⋅∥∞\|\cdot\|_\infty∥⋅∥∞​)进行估计。例如范数逼近引理中的构造。


矩阵范数

定义:矩阵范数

映射 ∥⋅∥:Rn×n→R\|\cdot\|:\mathbb{R}^{n\times n}\to\mathbb{R}∥⋅∥:Rn×n→R 满足:

  1. 正定性:∥A∥≥0\|\mathbf{A}\|\geq 0∥A∥≥0,且 ∥A∥=0⇔A=0\|\mathbf{A}\|=0 \Leftrightarrow \mathbf{A}=\mathbf{0}∥A∥=0⇔A=0
  2. 齐次性:∥αA∥=∣α∣∥A∥\|\alpha\mathbf{A}\| = |\alpha|\|\mathbf{A}\|∥αA∥=∣α∣∥A∥
  3. 三角不等式:∥A+B∥≤∥A∥+∥B∥\|\mathbf{A}+\mathbf{B}\| \leq \|\mathbf{A}\|+\|\mathbf{B}\|∥A+B∥≤∥A∥+∥B∥
  4. 相容性(次可乘性):∥AB∥≤∥A∥∥B∥\|\mathbf{AB}\| \leq \|\mathbf{A}\|\|\mathbf{B}\|∥AB∥≤∥A∥∥B∥

注(相容性的必要性):

  • 矩阵乘法对应线性变换的复合,相容性保证复合变换的放大率不超过各变换放大率的乘积。
  • 反例: f(A)=max⁡i,j∣aij∣f(\mathbf{A})=\max_{i,j}|a_{ij}|f(A)=maxi,j​∣aij​∣ 不满足相容性。如 A=B=[1111]\mathbf{A}=\mathbf{B}=\begin{bmatrix}1&1\\1&1\end{bmatrix}A=B=[11​11​] 时,f(AB)=2>f(A)f(B)=1f(\mathbf{AB})=2>f(\mathbf{A})f(\mathbf{B})=1f(AB)=2>f(A)f(B)=1。

若对 ∀A∈Rn×n\forall \mathbf{A} \in \mathbf{R}^{n \times n}∀A∈Rn×n 与 ∀x∈Rn\forall \mathbf{x} \in \mathbf{R}^n∀x∈Rn,都有:

∥Ax∥≤∥A∥∥x∥\| \mathbf{A} \mathbf{x} \| \le \| \mathbf{A} \| \| \mathbf{x} \|∥Ax∥≤∥A∥∥x∥

则称式中的向量范数和矩阵范数相容。

注(矩阵与向量范数相容):

不是任意向量范数与任意矩阵范数都相容的。但是我们可以做到:

  • 对任意向量范数,构造一个矩阵范数与之相容。这由下文的诱导范数是显然的。
  • 对任意矩阵范数,构造一个向量范数与之相容。这是因为给定矩阵范数 ∥⋅∥\|\cdot\|∥⋅∥,定义向量范数如下: ∥x∥:=∥xuT∥\|\mathbf{x}\| := \|\mathbf{x}\mathbf{u}^T\|∥x∥:=∥xuT∥ 其中 u\mathbf{u}u 是任意一个固定的非零向量。 则利用矩阵运算的线性性和矩阵范数的正定性、齐次性、三角不等式可以轻松导出该准向量范数的正定性、齐次性、三角不等式。

常用矩阵范数

范数名称记号计算公式计算方法
1-范数(列和范数)∥A∥1\|\mathbf{A}\|_1∥A∥1​max⁡1≤j≤n∑i=1n∣aij∣\max_{1\leq j\leq n} \sum_{i=1}^n \vert a_{ij}\vertmax1≤j≤n​∑i=1n​∣aij​∣每列绝对值之和的最大值
2-范数(谱范数)∥A∥2\|\mathbf{A}\|_2∥A∥2​λmax⁡(ATA)=ρ(ATA)=σmax⁡\sqrt{\lambda_{\max}(\mathbf{A}^T\mathbf{A})} = \sqrt{\rho(\mathbf{A}^T\mathbf{A})} = \sigma_{\max}λmax​(ATA)​=ρ(ATA)​=σmax​ATA\mathbf{A}^T\mathbf{A}ATA 最大特征值平方根,也即 A\mathbf{A}A 的最大奇异值
∞\infty∞-范数(行和范数)∥A∥∞\|\mathbf{A}\|_\infty∥A∥∞​max⁡1≤i≤n∑j=1n∣aij∣\max_{1\leq i\leq n} \sum_{j=1}^n \vert a_{ij}\vertmax1≤i≤n​∑j=1n​∣aij​∣每行绝对值之和的最大值
F-范数(Frobenius)∥A∥F\|\mathbf{A}\|_F∥A∥F​∑i,j=1naij2=tr(ATA)\sqrt{\sum_{i,j=1}^n a_{ij}^2} = \sqrt{\text{tr}(\mathbf{A}^T\mathbf{A})}∑i,j=1n​aij2​​=tr(ATA)​元素平方和开根号

诱导范数

由向量范数 ∥⋅∥\|\cdot\|∥⋅∥ 诱导的:

∥A∥≡max⁡x≠0∥Ax∥∥x∥=max⁡∥x∥=1∥Ax∥\|\mathbf{A}\| \equiv \max_{\mathbf{x}\neq\mathbf{0}} \frac{\|\mathbf{Ax}\|}{\|\mathbf{x}\|} = \max_{\|\mathbf{x}\|=1} \|\mathbf{Ax}\|∥A∥≡x=0max​∥x∥∥Ax∥​=∥x∥=1max​∥Ax∥

是一个矩阵范数。

证明:

  1. 引理: 诱导范数和向量范数是相容的,也即

    ∥Ax∥≤∥A∥∥x∥\|\mathbf{Ax}\| \leq \|\mathbf{A}\|\|\mathbf{x}\|∥Ax∥≤∥A∥∥x∥

    引理的证明:

    若 x=0\mathbf{x} = \mathbf{0}x=0,两边均为 0,成立。
    若 x≠0\mathbf{x} \neq \mathbf{0}x=0,令 u=x∥x∥\mathbf{u} = \frac{\mathbf{x}}{\|\mathbf{x}\|}u=∥x∥x​,则 ∥u∥=1\|\mathbf{u}\| = 1∥u∥=1。由诱导范数定义:

    ∥A∥=max⁡∥y∥=1∥Ay∥≥∥Au∥=∥Ax∥∥x∥。\|A\| = \max_{\|\mathbf{y}\|=1} \|A\mathbf{y}\| \ge \|A\mathbf{u}\| = \frac{\|A\mathbf{x}\|}{\|\mathbf{x}\|}。∥A∥=∥y∥=1max​∥Ay∥≥∥Au∥=∥x∥∥Ax∥​。

    两边乘以 ∥x∥\|\mathbf{x}\|∥x∥ 即可。

  2. 非负性:∥A∥≥0\|A\| \ge 0∥A∥≥0,且 ∥A∥=0  ⟺  A=0\|A\| = 0 \iff A = 0∥A∥=0⟺A=0。

    显然,对任意 x\mathbf{x}x,∥Ax∥≥0\|A\mathbf{x}\| \ge 0∥Ax∥≥0,所以 ∥A∥≥0\|A\| \ge 0∥A∥≥0。

    若 ∥A∥=0\|A\| = 0∥A∥=0,则对任意 x≠0\mathbf{x} \neq 0x=0,∥Ax∥=0\|A\mathbf{x}\| = 0∥Ax∥=0,也即 Ax=0A\mathbf{x} = 0Ax=0,从而 A=0A = 0A=0。

    若 A=0A = 0A=0,则对任意 x\mathbf{x}x,Ax=0A\mathbf{x} = 0Ax=0,从而 ∥A∥=0\|A\| = 0∥A∥=0。

  3. 齐次性:∥αA∥=∣α∣∥A∥\|\alpha A\| = |\alpha| \|A\|∥αA∥=∣α∣∥A∥。

    ∥αA∥=max⁡∥x∥=1∥(αA)x∥=∣α∣⋅max⁡∥x∥=1∥Ax∥=∣α∣∥A∥\|\alpha A\| = \max_{\|\mathbf{x}\|=1} \|(\alpha A)\mathbf{x}\| = |\alpha| \cdot \max_{\|\mathbf{x}\|=1} \|A\mathbf{x}\| = |\alpha| \|A\|∥αA∥=∥x∥=1max​∥(αA)x∥=∣α∣⋅∥x∥=1max​∥Ax∥=∣α∣∥A∥
  4. 三角不等式:∥A+B∥≤∥A∥+∥B∥\|A + B\| \le \|A\| + \|B\|∥A+B∥≤∥A∥+∥B∥。

    ∥A+B∥=max⁡∥x∥=1∥(A+B)x∥=max⁡∥x∥=1∥Ax+Bx∥\|A + B\| = \max_{\|\mathbf{x}\|=1} \|(A+B)\mathbf{x}\| = \max_{\|\mathbf{x}\|=1} \|A\mathbf{x} + B\mathbf{x}\|∥A+B∥=∥x∥=1max​∥(A+B)x∥=∥x∥=1max​∥Ax+Bx∥ ≤max⁡∥x∥=1(∥Ax∥+∥Bx∥)\le \max_{\|\mathbf{x}\|=1} \left( \|A\mathbf{x}\| + \|B\mathbf{x}\| \right)≤∥x∥=1max​(∥Ax∥+∥Bx∥) ≤max⁡∥x∥=1∥Ax∥+max⁡∥x∥=1∥Bx∥\le \max_{\|\mathbf{x}\|=1} \|A\mathbf{x}\| + \max_{\|\mathbf{x}\|=1} \|B\mathbf{x}\|≤∥x∥=1max​∥Ax∥+∥x∥=1max​∥Bx∥ =∥A∥+∥B∥= \|A\| + \|B\|=∥A∥+∥B∥
  5. 相容性:∥AB∥≤∥A∥∥B∥\|AB\| \le \|A\| \|B\|∥AB∥≤∥A∥∥B∥。

    设 ABABAB 有定义,对任意 ∥x∥=1\|\mathbf{x}\| = 1∥x∥=1,有:

    ∥ABx∥≤∥A∥⋅∥Bx∥≤∥A∥⋅∥B∥\|AB\mathbf{x}\| \le \|A\| \cdot \|B\mathbf{x}\| \le \|A\| \cdot \|B\|∥ABx∥≤∥A∥⋅∥Bx∥≤∥A∥⋅∥B∥

    从而

    ∥AB∥=max⁡∥x∥=1∥ABx∥≤∥A∥∥B∥\|AB\| = \max_{\|\mathbf{x}\|=1} \|AB\mathbf{x}\| \le \|A\| \|B\|∥AB∥=∥x∥=1max​∥ABx∥≤∥A∥∥B∥

注: 不是所有矩阵范数都是诱导范数。事实上,对于诱导范数 ∥⋅∥\|\cdot\|∥⋅∥,有:

∥In∥=max⁡x≠0∥Ix∥∥x∥=1\|\mathbf{I}_n\| = \max_{\mathbf{x}\neq\mathbf{0}}\frac{\|\mathbf{Ix}\|}{\|\mathbf{x}\|} = 1∥In​∥=x=0max​∥x∥∥Ix∥​=1

这是一个必要条件。但是对于 Frobenius 范数而言,

∥In∥F=∑i=1n∑j=1n∣aij∣2=n\|\mathbf{I}_n\|_F = \sqrt{\sum_{i=1}^n\sum_{j=1}^n |a_{ij}|^2} = \sqrt{n}∥In​∥F​=i=1∑n​j=1∑n​∣aij​∣2​=n​

显然不是诱导范数。

常见向量范数的诱导范数

向量范数诱导矩阵范数计算公式证明关键
∥⋅∥1\|\cdot\|_1∥⋅∥1​∥⋅∥1\|\cdot\|_1∥⋅∥1​max⁡j∑i∣aij∣\max_j \sum_i \vert a_{ij}\vertmaxj​∑i​∣aij​∣取标准基向量
∥⋅∥∞\|\cdot\|_\infty∥⋅∥∞​∥⋅∥∞\|\cdot\|_\infty∥⋅∥∞​max⁡i∑j∣aij∣\max_i \sum_j \vert a_{ij}\vertmaxi​∑j​∣aij​∣构造符号向量
∥⋅∥2\|\cdot\|_2∥⋅∥2​∥⋅∥2\|\cdot\|_2∥⋅∥2​σmax⁡(A)\sigma_{\max}(\mathbf{A})σmax​(A)瑞利商 + 特征值

1-范数:最大列和

∥A∥1=max⁡x≠0∥Ax∥1∥x∥1=max⁡1≤j≤n∑i=1m∣aij∣\|\mathbf{A}\|_1 = \max_{\mathbf{x}\neq\mathbf{0}} \frac{\|\mathbf{Ax}\|_1}{\|\mathbf{x}\|_1} = \max_{1\leq j\leq n}\sum_{i=1}^m |a_{ij}|∥A∥1​=x=0max​∥x∥1​∥Ax∥1​​=1≤j≤nmax​i=1∑m​∣aij​∣

证明:

上界: 对任意 x≠0\mathbf{x}\neq\mathbf{0}x=0,

∥Ax∥1=∑i=1m∣∑j=1naijxj∣≤∑i=1m∑j=1n∣aij∣∣xj∣=∑j=1n∣xj∣∑i=1m∣aij∣\|\mathbf{Ax}\|_1 = \sum_{i=1}^m\left|\sum_{j=1}^n a_{ij}x_j\right| \leq \sum_{i=1}^m\sum_{j=1}^n|a_{ij}||x_j| = \sum_{j=1}^n|x_j|\sum_{i=1}^m|a_{ij}|∥Ax∥1​=i=1∑m​​j=1∑n​aij​xj​​≤i=1∑m​j=1∑n​∣aij​∣∣xj​∣=j=1∑n​∣xj​∣i=1∑m​∣aij​∣

令 M=max⁡j∑i=1m∣aij∣M = \max_j \sum_{i=1}^m|a_{ij}|M=maxj​∑i=1m​∣aij​∣,则 ∥Ax∥1≤M∥x∥1\|\mathbf{Ax}\|_1 \leq M\|\mathbf{x}\|_1∥Ax∥1​≤M∥x∥1​,故 ∥A∥1≤M\|\mathbf{A}\|_1 \leq M∥A∥1​≤M。

可达: 设第 kkk 列达到 MMM,取 x=ek\mathbf{x}=\mathbf{e}_kx=ek​,则 ∥x∥1=1\|\mathbf{x}\|_1=1∥x∥1​=1,

∥Ax∥1=∑i=1m∣aik∣=M\|\mathbf{Ax}\|_1 = \sum_{i=1}^m|a_{ik}| = M∥Ax∥1​=i=1∑m​∣aik​∣=M

故 ∥A∥1=M\|\mathbf{A}\|_1 = M∥A∥1​=M。

无穷-范数:最大行和

∥A∥∞=max⁡x≠0∥Ax∥∞∥x∥∞=max⁡1≤i≤m∑j=1n∣aij∣\|\mathbf{A}\|_\infty = \max_{\mathbf{x}\neq\mathbf{0}} \frac{\|\mathbf{Ax}\|_\infty}{\|\mathbf{x}\|_\infty} = \max_{1\leq i\leq m}\sum_{j=1}^n |a_{ij}|∥A∥∞​=x=0max​∥x∥∞​∥Ax∥∞​​=1≤i≤mmax​j=1∑n​∣aij​∣

证明:

上界: 对任意 x≠0\mathbf{x}\neq\mathbf{0}x=0,设 ∥x∥∞=max⁡j∣xj∣\|\mathbf{x}\|_\infty = \max_j|x_j|∥x∥∞​=maxj​∣xj​∣,则

∣(Ax)i∣=∣∑j=1naijxj∣≤∑j=1n∣aij∣∣xj∣≤∥x∥∞∑j=1n∣aij∣|(\mathbf{Ax})_i| = \left|\sum_{j=1}^n a_{ij}x_j\right| \leq \sum_{j=1}^n|a_{ij}||x_j| \leq \|\mathbf{x}\|_\infty\sum_{j=1}^n|a_{ij}|∣(Ax)i​∣=​j=1∑n​aij​xj​​≤j=1∑n​∣aij​∣∣xj​∣≤∥x∥∞​j=1∑n​∣aij​∣

令 M=max⁡i∑j=1n∣aij∣M = \max_i \sum_{j=1}^n|a_{ij}|M=maxi​∑j=1n​∣aij​∣,则 ∥Ax∥∞≤M∥x∥∞\|\mathbf{Ax}\|_\infty \leq M\|\mathbf{x}\|_\infty∥Ax∥∞​≤M∥x∥∞​, 故 ∥A∥∞≤M\|\mathbf{A}\|_\infty \leq M∥A∥∞​≤M。

可达: 设第 kkk 行达到 MMM。构造 x\mathbf{x}x 使 xj=sign(akj)x_j = \mathrm{sign}(a_{kj})xj​=sign(akj​),则 ∥x∥∞=1\|\mathbf{x}\|_\infty=1∥x∥∞​=1,且

(Ax)k=∑j=1nakj⋅sign(akj)=∑j=1n∣akj∣=M(\mathbf{Ax})_k = \sum_{j=1}^n a_{kj}\cdot\mathrm{sign}(a_{kj}) = \sum_{j=1}^n|a_{kj}| = M(Ax)k​=j=1∑n​akj​⋅sign(akj​)=j=1∑n​∣akj​∣=M

故 ∥Ax∥∞≥∣(Ax)k∣=M\|\mathbf{Ax}\|_\infty \geq |(\mathbf{Ax})_k| = M∥Ax∥∞​≥∣(Ax)k​∣=M,即 ∥A∥∞≥M\|\mathbf{A}\|_\infty \geq M∥A∥∞​≥M。

2-范数:最大奇异值

∥A∥2=max⁡x≠0∥Ax∥2∥x∥2=σmax⁡(A)=λmax⁡(ATA)\|\mathbf{A}\|_2 = \max_{\mathbf{x}\neq\mathbf{0}} \frac{\|\mathbf{Ax}\|_2}{\|\mathbf{x}\|_2} = \sigma_{\max}(\mathbf{A}) = \sqrt{\lambda_{\max}(\mathbf{A}^T\mathbf{A})}∥A∥2​=x=0max​∥x∥2​∥Ax∥2​​=σmax​(A)=λmax​(ATA)​

证明:

∥A∥22=max⁡x≠0∥Ax∥22∥x∥22=max⁡x≠0xTATAxxTx=λmax⁡(ATA)\|\mathbf{A}\|_2^2 = \max_{\mathbf{x}\neq\mathbf{0}}\frac{\|\mathbf{Ax}\|_2^2}{\|\mathbf{x}\|_2^2} = \max_{\mathbf{x}\neq\mathbf{0}}\frac{\mathbf{x}^T\mathbf{A}^T\mathbf{Ax}}{\mathbf{x}^T\mathbf{x}} = \lambda_{\max}(\mathbf{A}^T\mathbf{A})∥A∥22​=x=0max​∥x∥22​∥Ax∥22​​=x=0max​xTxxTATAx​=λmax​(ATA)

最后一个等号是瑞利商(Rayleigh quotient)的性质:对称矩阵 ATA\mathbf{A}^T\mathbf{A}ATA 的瑞利商最大值为最大特征值。

设 ATA\mathbf{A}^T\mathbf{A}ATA 的特征值为 λ1≥λ2≥⋯≥λn≥0\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \geq 0λ1​≥λ2​≥⋯≥λn​≥0,对应正交单位特征向量 v1,…,vn\mathbf{v}_1,\ldots,\mathbf{v}_nv1​,…,vn​。

对任意 x=∑j=1ncjvj\mathbf{x} = \sum_{j=1}^n c_j\mathbf{v}_jx=∑j=1n​cj​vj​,

xTATAxxTx=∑j=1ncj2λj∑j=1ncj2≤λ1\frac{\mathbf{x}^T\mathbf{A}^T\mathbf{Ax}}{\mathbf{x}^T\mathbf{x}} = \frac{\sum_{j=1}^n c_j^2\lambda_j}{\sum_{j=1}^n c_j^2} \leq \lambda_1xTxxTATAx​=∑j=1n​cj2​∑j=1n​cj2​λj​​≤λ1​

当 x=v1\mathbf{x}=\mathbf{v}_1x=v1​ 时取等。故 ∥A∥2=λ1=σmax⁡(A)\|\mathbf{A}\|_2 = \sqrt{\lambda_1} = \sigma_{\max}(\mathbf{A})∥A∥2​=λ1​​=σmax​(A)。

矩阵范数的等价性

Rm×n\mathbb{R}^{m \times n}Rm×n 上任意两个矩阵范数等价,即存在 a,b>0a,b>0a,b>0 使得:

a∥A∥p≤∥A∥q≤b∥A∥pa\|\mathbf{A}\|_p \leq \|\mathbf{A}\|_q \leq b\|\mathbf{A}\|_pa∥A∥p​≤∥A∥q​≤b∥A∥p​

具体关系(常用诱导范数):

1n∥A∥∞≤∥A∥2≤m∥A∥∞\frac{1}{\sqrt{n}}\|\mathbf{A}\|_\infty \leq \|\mathbf{A}\|_2 \leq \sqrt{m}\|\mathbf{A}\|_\inftyn​1​∥A∥∞​≤∥A∥2​≤m​∥A∥∞​ 1m∥A∥1≤∥A∥2≤n∥A∥1\frac{1}{\sqrt{m}}\|\mathbf{A}\|_1 \leq \|\mathbf{A}\|_2 \leq \sqrt{n}\|\mathbf{A}\|_1m​1​∥A∥1​≤∥A∥2​≤n​∥A∥1​ 1n∥A∥1≤∥A∥∞≤m∥A∥1\frac{1}{n}\|\mathbf{A}\|_1 \leq \|\mathbf{A}\|_\infty \leq m\|\mathbf{A}\|_1n1​∥A∥1​≤∥A∥∞​≤m∥A∥1​

Frobenius 范数与诱导范数:

∥A∥2≤∥A∥F≤min⁡(m,n)∥A∥2\|\mathbf{A}\|_2 \leq \|\mathbf{A}\|_F \leq \sqrt{\min(m,n)}\|\mathbf{A}\|_2∥A∥2​≤∥A∥F​≤min(m,n)​∥A∥2​

注(等价性的意义):
矩阵序列收敛性不依赖于具体范数选择。在数值分析中,可根据计算便利选择范数(如1-范数、∞\infty∞-范数易计算,2-范数与谱分析直接关联)。

注(本质): 有限维线性空间上,任意两个范数等价。

矩阵范数的相似变换

设 ∥⋅∥v\|\cdot\|_v∥⋅∥v​ 是 Rn\mathbb{R}^nRn 上的向量范数,∥⋅∥m\|\cdot\|_m∥⋅∥m​ 是由其诱导的矩阵范数:

∥A∥m=max⁡∥x∥v=1∥Ax∥v\|\mathbf{A}\|_m = \max_{\|\mathbf{x}\|_v = 1} \|\mathbf{A}\mathbf{x}\|_v∥A∥m​=∥x∥v​=1max​∥Ax∥v​

对任意可逆矩阵 M∈Rn×n\mathbf{M} \in \mathbb{R}^{n \times n}M∈Rn×n,定义新的向量范数:

∥x∥v′:=∥M−1x∥v\|\mathbf{x}\|_v' := \|\mathbf{M}^{-1}\mathbf{x}\|_v∥x∥v′​:=∥M−1x∥v​

则 ∥⋅∥v′\|\cdot\|_v'∥⋅∥v′​ 诱导范数为:

∥A∥m′=∥M−1AM∥m\|\mathbf{A}\|_m' = \|\mathbf{M}^{-1}\mathbf{A}\mathbf{M}\|_m∥A∥m′​=∥M−1AM∥m​

证明:

由诱导范数定义和变量替换 y=M−1x\mathbf{y} = \mathbf{M}^{-1}\mathbf{x}y=M−1x:

∥A∥m′=max⁡∥x∥v′=1∥Ax∥v′=max⁡∥M−1x∥v=1∥M−1Ax∥v=max⁡∥y∥v=1∥M−1AMy∥v=∥M−1AM∥m\begin{aligned} \|\mathbf{A}\|_m' &= \max_{\|\mathbf{x}\|_v' = 1} \|\mathbf{A}\mathbf{x}\|_v' \\ &= \max_{\|\mathbf{M}^{-1}\mathbf{x}\|_v = 1} \|\mathbf{M}^{-1}\mathbf{A}\mathbf{x}\|_v \\ &= \max_{\|\mathbf{y}\|_v = 1} \|\mathbf{M}^{-1}\mathbf{A}\mathbf{M}\mathbf{y}\|_v \\ &= \|\mathbf{M}^{-1}\mathbf{A}\mathbf{M}\|_m \end{aligned}∥A∥m′​​=∥x∥v′​=1max​∥Ax∥v′​=∥M−1x∥v​=1max​∥M−1Ax∥v​=∥y∥v​=1max​∥M−1AMy∥v​=∥M−1AM∥m​​

注:该性质表明,通过改变坐标系的度量,原矩阵的新范数等价于相似变换后新矩阵的原范数。

应用:下一节课的范数逼近引理。

谱半径

矩阵 A\mathbf{A}A 的谱半径定义为:

ρ(A)=max⁡1≤i≤n∣λi∣\rho(\mathbf{A}) = \max_{1\leq i\leq n} |\lambda_i|ρ(A)=1≤i≤nmax​∣λi​∣

定理:对任意矩阵范数,ρ(A)≤∥A∥\rho(\mathbf{A}) \leq \|\mathbf{A}\|ρ(A)≤∥A∥

证明:

由前述关于向量范数与矩阵范数相容性的讨论,我们可以针对该矩阵范数构造一个与之相容的向量范数。从而对任意特征值 λ\lambdaλ,有:

∥Ax∥=∥λx∥=∣λ∣∥x∥≤∥A∥⋅∥x∥\|A x\| = \|\lambda x\| = |\lambda| \|x\| \le \|A\| \cdot \|x\|∥Ax∥=∥λx∥=∣λ∣∥x∥≤∥A∥⋅∥x∥

也即:

∣λ∣≤∥A∥|\lambda| \le \|A\|∣λ∣≤∥A∥

取最大特征值即得原式。


条件数

定义:条件数

在矩阵范数 ∥⋅∥\|\cdot\|∥⋅∥ 下,非奇异方阵阵 A∈Rn×n\mathbf{A} \in \mathbf{R}^{n \times n}A∈Rn×n 的条件数为:

Cond(A)≡∥A∥∥A−1∥\text{Cond}(\mathbf{A}) \equiv \|\mathbf{A}\|\|\mathbf{A}^{-1}\|Cond(A)≡∥A∥∥A−1∥

特别地,Cond(A)p=∥A∥p∥A−1∥p\text{Cond}(\mathbf{A})_p = \|\mathbf{A}\|_p\|\mathbf{A}^{-1}\|_pCond(A)p​=∥A∥p​∥A−1∥p​(p=1,2,∞p=1,2,\inftyp=1,2,∞)

注(行列式与条件数的关系):
行列式大小不能反映病态程度。如:

  • B=[1−1⋯−101⋯−1⋮⋮⋱⋮00⋯1]\mathbf{B}=\begin{bmatrix}1&-1&\cdots&-1\\0&1&\cdots&-1\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&1\end{bmatrix}B=​10⋮0​−11⋮0​⋯⋯⋱⋯​−1−1⋮1​​,det⁡(B)=1\det(\mathbf{B})=1det(B)=1, 但 Cond(B)∞=n2n−1\text{Cond}(\mathbf{B})_\infty = n2^{n-1}Cond(B)∞​=n2n−1(病态)
  • C=diag{10−1,…,10−1}\mathbf{C}=\text{diag}\{10^{-1},\dots,10^{-1}\}C=diag{10−1,…,10−1},det⁡(C)=10−n\det(\mathbf{C})=10^{-n}det(C)=10−n 很小,但 Cond(C)=1\text{Cond}(\mathbf{C})=1Cond(C)=1(良态)

条件数的性质

下界

Cond(A)≥1\text{Cond}(\mathbf{A}) \geq 1Cond(A)≥1

证明:

因为 ∥I∥2≥∥I2∥\|\mathbf{I}\|^2 \ge \|\mathbf{I}^2\|∥I∥2≥∥I2∥,所以有 ∥I∥≥1\|\mathbf{I}\| \ge 1∥I∥≥1,从而:

∥A∥∥A−1∥≥∥AA−1∥≥∥I∥≥1\|\mathbf{A}\|\|\mathbf{A}^{-1}\| \ge \|\mathbf{AA}^{-1}\| \ge \|\mathbf{I}\| \ge 1∥A∥∥A−1∥≥∥AA−1∥≥∥I∥≥1

注:只对诱导范数成立 Cond(I)=1\text{Cond}(\mathbf{I}) = 1Cond(I)=1,一般不一定。

正交矩阵

若 A\mathbf{A}A 正交,则其谱范数下的条件数:

Cond(A)2=1\text{Cond}(\mathbf{A})_2 = 1Cond(A)2​=1

证明:显然。

齐次性

∀α≠0\forall \alpha\neq 0∀α=0 有:

Cond(αA)=Cond(A)\text{Cond}(\alpha\mathbf{A}) = \text{Cond}(\mathbf{A})Cond(αA)=Cond(A)

证明:显然。

谱条件数

Cond(A)2=λmax⁡(ATA)λmin⁡(ATA)=σmax⁡σmin⁡\text{Cond}(\mathbf{A})_2 = \sqrt{\frac{\lambda_{\max}(\mathbf{A}^T\mathbf{A})}{\lambda_{\min}(\mathbf{A}^T\mathbf{A})}} = \frac{\sigma_{\max}}{\sigma_{\min}}Cond(A)2​=λmin​(ATA)λmax​(ATA)​​=σmin​σmax​​

证明:

由 SVD 分解:

A=UΣVT\mathbf{A} = \mathbf{U}\mathbf{\Sigma}\mathbf{V}^TA=UΣVT

其中 Σ=diag(σ1,σ2,…,σn)\mathbf{\Sigma} = \mathrm{diag}(\sigma_1, \sigma_2, \ldots, \sigma_n)Σ=diag(σ1​,σ2​,…,σn​), 且 σ1≥σ2≥⋯≥σn>0\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_n > 0σ1​≥σ2​≥⋯≥σn​>0。

则:

A−1=(UΣVT)−1=VΣ−1UT\mathbf{A}^{-1} = (\mathbf{U}\mathbf{\Sigma}\mathbf{V}^T)^{-1} = \mathbf{V}\mathbf{\Sigma}^{-1}\mathbf{U}^TA−1=(UΣVT)−1=VΣ−1UT

故

∥A−1∥2=∥Σ−1∥2=1σn=1σmin⁡\|\mathbf{A}^{-1}\|_2 = \|\mathbf{\Sigma}^{-1}\|_2 = \frac{1}{\sigma_n} = \frac{1}{\sigma_{\min}}∥A−1∥2​=∥Σ−1∥2​=σn​1​=σmin​1​

代入即证。

条件数等价性

Rn×n\mathbb{R}^{n \times n}Rn×n 上的条件数都是等价的,特别地,有:

1nCond2(A)≤Cond1(A)≤n Cond2(A)\frac{1}{n}\text{Cond}_2(\mathbf{A}) \leq \text{Cond}_1(\mathbf{A}) \leq n\,\text{Cond}_2(\mathbf{A})n1​Cond2​(A)≤Cond1​(A)≤nCond2​(A) 1nCond∞(A)≤Cond2(A)≤n Cond∞(A)\frac{1}{n}\text{Cond}_\infty(\mathbf{A}) \leq \text{Cond}_2(\mathbf{A}) \leq n\,\text{Cond}_\infty(\mathbf{A})n1​Cond∞​(A)≤Cond2​(A)≤nCond∞​(A) 1n2Cond1(A)≤Cond∞(A)≤n2 Cond1(A)\frac{1}{n^2}\text{Cond}_1(\mathbf{A}) \leq \text{Cond}_\infty(\mathbf{A}) \leq n^2\,\text{Cond}_1(\mathbf{A})n21​Cond1​(A)≤Cond∞​(A)≤n2Cond1​(A)

证明:

由矩阵范数的等价性即证。

条件数的估计

直接计算 ∥A−1∥\|\mathbf{A}^{-1}\|∥A−1∥ 成本为 O(n3)\mathcal{O}(n^3)O(n3),实际中通过求解线性方程组 Ay=d\mathbf{Ay}=\mathbf{d}Ay=d 估计:

∥A−1∥≥∥y∥∥d∥\|\mathbf{A}^{-1}\| \geq \frac{\|\mathbf{y}\|}{\|\mathbf{d}\|}∥A−1∥≥∥d∥∥y∥​

选择适当的 d\mathbf{d}d 使 ∥y∥\|\mathbf{y}\|∥y∥ 尽可能大来逼近 ∥A−1∥\|\mathbf{A}^{-1}\|∥A−1∥。

注:没太理解为什么不能选择适当的 y\mathbf{y}y 使 ∥d∥\|\mathbf{d}\|∥d∥ 尽可能小

几何意义

假设 A∈Rn×n\mathbf{A} \in \mathbb{R}^{n \times n}A∈Rn×n 可逆, 矩阵 δA∈Rn×n\delta\mathbf{A} \in \mathbb{R}^{n \times n}δA∈Rn×n 使得 A+δA\mathbf{A} + \delta\mathbf{A}A+δA 奇异。那么:

∥δA∥∥A∥≥1Cond(A)\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|} \geq \frac{1}{\text{Cond}(\mathbf{A})}∥A∥∥δA∥​≥Cond(A)1​

并且如果矩阵范数 ∥⋅∥\|\cdot\|∥⋅∥ 由向量范数诱导定义,则存在矩阵 δA\delta\mathbf{A}δA 使得上述不等式取等号:

min⁡A+δA∈S∥δA∥∥A∥=1Cond(A)\min_{\mathbf{A}+\delta\mathbf{A}\in\mathcal{S}} \frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|} = \frac{1}{\text{Cond}(\mathbf{A})}A+δA∈Smin​∥A∥∥δA∥​=Cond(A)1​

其中 S={M∣det⁡(M)=0}\mathcal{S} = \{\mathbf{M} \mid \det(\mathbf{M}) = 0\}S={M∣det(M)=0} 为奇异矩阵集合。

证明:

  • 下界:

设 A+δA∈S\mathbf{A} + \delta\mathbf{A} \in \mathcal{S}A+δA∈S,则存在 x≠0\mathbf{x} \neq \mathbf{0}x=0 使得:

(A+δA)x=0(\mathbf{A} + \delta\mathbf{A})\mathbf{x} = \mathbf{0}(A+δA)x=0

也即 x=−A−1δAx\mathbf{x} = -\mathbf{A}^{-1}\delta\mathbf{A}\mathbf{x}x=−A−1δAx. 取范数:

∥x∥=∥A−1δAx∥≤∥A−1∥⋅∥δA∥⋅∥x∥\|\mathbf{x}\| = \|\mathbf{A}^{-1}\delta\mathbf{A}\mathbf{x}\| \leq \|\mathbf{A}^{-1}\| \cdot \|\delta\mathbf{A}\| \cdot \|\mathbf{x}\|∥x∥=∥A−1δAx∥≤∥A−1∥⋅∥δA∥⋅∥x∥

因 x≠0\mathbf{x} \neq \mathbf{0}x=0,两边除以 ∥x∥\|\mathbf{x}\|∥x∥ 可得:

∥δA∥≥1∥A−1∥=∥A∥Cond(A)\|\delta\mathbf{A}\| \geq \frac{1}{\|\mathbf{A}^{-1}\|} = \frac{\|\mathbf{A}\|}{\text{Cond}(\mathbf{A})}∥δA∥≥∥A−1∥1​=Cond(A)∥A∥​

也即:

∥δA∥∥A∥≥1Cond(A)\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|} \geq \frac{1}{\text{Cond}(\mathbf{A})}∥A∥∥δA∥​≥Cond(A)1​
  • 构造:

设 ∥⋅∥\|\cdot\|∥⋅∥ 是由向量范数 ∥⋅∥v\|\cdot\|_v∥⋅∥v​ 诱导的矩阵范数。由 ∥A−1∥\|\mathbf{A}^{-1}\|∥A−1∥ 的定义,存在 y≠0\mathbf{y} \neq \mathbf{0}y=0 使得:

∥A−1y∥v=∥A−1∥⋅∥y∥v\|\mathbf{A}^{-1}\mathbf{y}\|_v = \|\mathbf{A}^{-1}\| \cdot \|\mathbf{y}\|_v∥A−1y∥v​=∥A−1∥⋅∥y∥v​

令 x=A−1y\mathbf{x} = \mathbf{A}^{-1}\mathbf{y}x=A−1y,则 ∥x∥v=∥A−1∥⋅∥y∥v\|\mathbf{x}\|_v = \|\mathbf{A}^{-1}\| \cdot \|\mathbf{y}\|_v∥x∥v​=∥A−1∥⋅∥y∥v​。

构造扰动(秩1矩阵):

δA=−ywTwTx\delta\mathbf{A} = -\frac{\mathbf{y}\mathbf{w}^T}{\mathbf{w}^T\mathbf{x}}δA=−wTxywT​

其中 w\mathbf{w}w 满足 ∥w∥v∗=1\|\mathbf{w}\|_{v*} = 1∥w∥v∗​=1 且 wTx=∥x∥v\mathbf{w}^T\mathbf{x} = \|\mathbf{x}\|_vwTx=∥x∥v​(由对偶范数存在性保证,∥⋅∥v∗\|\cdot\|_{v*}∥⋅∥v∗​ 为对偶范数)。

因为:

(A+δA)x=Ax+δAx=y−ywTxwTx=y−y=0(\mathbf{A} + \delta\mathbf{A})\mathbf{x} = \mathbf{Ax} + \delta\mathbf{A}\mathbf{x} = \mathbf{y} - \frac{\mathbf{y}\mathbf{w}^T\mathbf{x}}{\mathbf{w}^T\mathbf{x}} = \mathbf{y} - \mathbf{y} = \mathbf{0}(A+δA)x=Ax+δAx=y−wTxywTx​=y−y=0

故 A+δA\mathbf{A} + \delta\mathbf{A}A+δA 奇异。

对诱导范数,有:

∥δA∥=max⁡z≠0∥δAz∥v∥z∥v=max⁡z≠0∥y∥v⋅∣wTz∣/∣wTx∣∥z∥v\|\delta\mathbf{A}\| = \max_{\mathbf{z} \neq \mathbf{0}} \frac{\|\delta\mathbf{A}\mathbf{z}\|_v}{\|\mathbf{z}\|_v} = \max_{\mathbf{z} \neq \mathbf{0}} \frac{\|\mathbf{y}\|_v \cdot |\mathbf{w}^T\mathbf{z}| / |\mathbf{w}^T\mathbf{x}|}{\|\mathbf{z}\|_v}∥δA∥=z=0max​∥z∥v​∥δAz∥v​​=z=0max​∥z∥v​∥y∥v​⋅∣wTz∣/∣wTx∣​

由对偶范数性质 ∣wTz∣≤∥w∥v∗⋅∥z∥v=∥z∥v|\mathbf{w}^T\mathbf{z}| \leq \|\mathbf{w}\|_{v*} \cdot \|\mathbf{z}\|_v = \|\mathbf{z}\|_v∣wTz∣≤∥w∥v∗​⋅∥z∥v​=∥z∥v​, 且当 z=x\mathbf{z} = \mathbf{x}z=x 时取等,得:

∥δA∥=∥y∥v∣wTx∣=∥y∥v∥x∥v=∥y∥v∥A−1∥⋅∥y∥v=1∥A−1∥\|\delta\mathbf{A}\| = \frac{\|\mathbf{y}\|_v}{|\mathbf{w}^T\mathbf{x}|} = \frac{\|\mathbf{y}\|_v}{\|\mathbf{x}\|_v} = \frac{\|\mathbf{y}\|_v}{\|\mathbf{A}^{-1}\| \cdot \|\mathbf{y}\|_v} = \frac{1}{\|\mathbf{A}^{-1}\|}∥δA∥=∣wTx∣∥y∥v​​=∥x∥v​∥y∥v​​=∥A−1∥⋅∥y∥v​∥y∥v​​=∥A−1∥1​

因此:

∥δA∥∥A∥=1∥A−1∥⋅∥A∥=1Cond(A)\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|} = \frac{1}{\|\mathbf{A}^{-1}\| \cdot \|\mathbf{A}\|} = \frac{1}{\text{Cond}(\mathbf{A})}∥A∥∥δA∥​=∥A−1∥⋅∥A∥1​=Cond(A)1​

注:

  • 条件数的倒数 = 矩阵到最近奇异矩阵的相对距离
  • 病态矩阵 ⇔\Leftrightarrow⇔ 距离奇异矩阵近
  • 良态矩阵 ⇔\Leftrightarrow⇔ 与所有奇异矩阵保持距离
  • 病态问题难以求解,因为数值计算中的舍入误差可能导致矩阵穿越奇异边界

误差分析

右端项扰动分析

扰动方程:A(x+δx)=b+δb\mathbf{A}(\mathbf{x}+\delta\mathbf{x}) = \mathbf{b}+\delta\mathbf{b}A(x+δx)=b+δb

则有误差估计:

∥δx∥∥x∥≤∥A∥∥A−1∥∥δb∥∥b∥\frac{\|\delta\mathbf{x}\|}{\|\mathbf{x}\|} \leq \|\mathbf{A}\|\|\mathbf{A}^{-1}\| \frac{\|\delta\mathbf{b}\|}{\|\mathbf{b}\|}∥x∥∥δx∥​≤∥A∥∥A−1∥∥b∥∥δb∥​

也即解的相对误差不超过右端项相对误差的 ∥A∥∥A−1∥\|\mathbf{A}\|\|\mathbf{A}^{-1}\|∥A∥∥A−1∥ 倍。

证明:

由扰动方程可得 ∥δx∥=∥A−1δb∥≤∥A−1∥∥δb∥\|\delta\mathbf{x}\| = \|\mathbf{A}^{-1}\delta\mathbf{b}\| \leq \|\mathbf{A}^{-1}\|\|\delta\mathbf{b}\|∥δx∥=∥A−1δb∥≤∥A−1∥∥δb∥

由原方程可得:∥b∥=∥Ax∥≤∥A∥∥x∥\|\mathbf{b}\| = \|\mathbf{Ax}\| \leq \|\mathbf{A}\|\|\mathbf{x}\|∥b∥=∥Ax∥≤∥A∥∥x∥,故 1/∥x∥≤∥A∥/∥b∥1/\|\mathbf{x}\| \leq \|\mathbf{A}\|/\|\mathbf{b}\|1/∥x∥≤∥A∥/∥b∥

两式相乘即可。

系数矩阵扰动分析

扰动方程:(A+δA)(x+δx)=b(\mathbf{A}+\delta\mathbf{A})(\mathbf{x}+\delta\mathbf{x}) = \mathbf{b}(A+δA)(x+δx)=b

则有误差估计:

∥δx∥∥x∥≤∥A∥∥A−1∥∥δA∥∥A∥1−∥A∥∥A−1∥∥δA∥∥A∥\frac{\|\delta\mathbf{x}\|}{\|\mathbf{x}\|} \leq \frac{\|\mathbf{A}\|\|\mathbf{A}^{-1}\|\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|}}{1-\|\mathbf{A}\|\|\mathbf{A}^{-1}\|\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|}}∥x∥∥δx∥​≤1−∥A∥∥A−1∥∥A∥∥δA∥​∥A∥∥A−1∥∥A∥∥δA∥​​

也即解的相对误差关于系数矩阵相对误差的函数,当扰动充分小时近似为 ∥A∥∥A−1∥\|\mathbf{A}\|\|\mathbf{A}^{-1}\|∥A∥∥A−1∥ 倍。

证明:

由扰动方程展开:

(A+δA)(x+δx)=Ax+Aδx+δAx+δAδx=b(\mathbf{A}+\delta\mathbf{A})(\mathbf{x}+\delta\mathbf{x}) = \mathbf{A}\mathbf{x} + \mathbf{A}\delta\mathbf{x} + \delta\mathbf{A}\mathbf{x} + \delta\mathbf{A}\delta\mathbf{x} = \mathbf{b}(A+δA)(x+δx)=Ax+Aδx+δAx+δAδx=b

由原方程 Ax=b\mathbf{A}\mathbf{x} = \mathbf{b}Ax=b,消去得:

Aδx+δAx+δAδx=0\mathbf{A}\delta\mathbf{x} + \delta\mathbf{A}\mathbf{x} + \delta\mathbf{A}\delta\mathbf{x} = \mathbf{0}Aδx+δAx+δAδx=0

即:

δx=−A−1δAx−A−1δAδx\delta\mathbf{x} = -\mathbf{A}^{-1}\delta\mathbf{A}\mathbf{x} - \mathbf{A}^{-1}\delta\mathbf{A}\delta\mathbf{x}δx=−A−1δAx−A−1δAδx

取范数并利用三角不等式:

∥δx∥≤∥A−1∥∥δA∥∥x∥+∥A−1∥∥δA∥∥δx∥\|\delta\mathbf{x}\| \leq \|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|\|\mathbf{x}\| + \|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|\|\delta\mathbf{x}\|∥δx∥≤∥A−1∥∥δA∥∥x∥+∥A−1∥∥δA∥∥δx∥

假设 ∥A−1∥∥δA∥<1\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\| < 1∥A−1∥∥δA∥<1(小扰动),整理得:

∥δx∥(1−∥A−1∥∥δA∥)≤∥A−1∥∥δA∥∥x∥\|\delta\mathbf{x}\|\left(1 - \|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|\right) \leq \|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|\|\mathbf{x}\|∥δx∥(1−∥A−1∥∥δA∥)≤∥A−1∥∥δA∥∥x∥

故:

∥δx∥∥x∥≤∥A−1∥∥δA∥1−∥A−1∥∥δA∥=∥A∥∥A−1∥∥δA∥∥A∥1−∥A∥∥A−1∥∥δA∥∥A∥\frac{\|\delta\mathbf{x}\|}{\|\mathbf{x}\|} \leq \frac{\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|}{1-\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|} = \frac{\|\mathbf{A}\|\|\mathbf{A}^{-1}\|\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|}}{1-\|\mathbf{A}\|\|\mathbf{A}^{-1}\|\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|}}∥x∥∥δx∥​≤1−∥A−1∥∥δA∥∥A−1∥∥δA∥​=1−∥A∥∥A−1∥∥A∥∥δA∥​∥A∥∥A−1∥∥A∥∥δA∥​​

综合误差分析

对于非奇异矩阵 A∈Rn×n\mathbf{A} \in \mathbb{R}^{n \times n}A∈Rn×n 及其扰动 δA∈Rn×n\delta\mathbf{A} \in \mathbb{R}^{n \times n}δA∈Rn×n 满足

∥A−1∥∥δA∥<1\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\| < 1∥A−1∥∥δA∥<1

如果 x∈Rn\mathbf{x} \in \mathbb{R}^nx∈Rn 是 Ax=b\mathbf{Ax} = \mathbf{b}Ax=b 的解,其中 b∈Rn,b≠0\mathbf{b} \in \mathbb{R}^n, \mathbf{b} \neq \mathbf{0}b∈Rn,b=0。 考虑扰动 δb∈Rn\delta\mathbf{b} \in \mathbb{R}^nδb∈Rn,δx\delta\mathbf{x}δx 是

(A+δA)(x+δx)=b+δb(4.39)(\mathbf{A}+\delta\mathbf{A})(\mathbf{x}+\delta\mathbf{x}) = \mathbf{b}+\delta\mathbf{b} \tag{4.39}(A+δA)(x+δx)=b+δb(4.39)

的解。此时有如下正向先验误差估计:

∥δx∥∥x∥≤Cond(A)1−Cond(A)∥δA∥∥A∥(∥δA∥∥A∥+∥δb∥∥b∥)\frac{\|\delta\mathbf{x}\|}{\|\mathbf{x}\|} \leq \frac{\text{Cond}(\mathbf{A})}{1-\text{Cond}(\mathbf{A})\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|}} \left(\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|} + \frac{\|\delta\mathbf{b}\|}{\|\mathbf{b}\|}\right)∥x∥∥δx∥​≤1−Cond(A)∥A∥∥δA∥​Cond(A)​(∥A∥∥δA∥​+∥b∥∥δb∥​)

证明:

由 (A+δA)(x+δx)=b+δb(\mathbf{A}+\delta\mathbf{A})(\mathbf{x}+\delta\mathbf{x}) = \mathbf{b}+\delta\mathbf{b}(A+δA)(x+δx)=b+δb,展开得:

Ax+Aδx+δAx+δAδx=b+δb\mathbf{Ax} + \mathbf{A}\delta\mathbf{x} + \delta\mathbf{A}\mathbf{x} + \delta\mathbf{A}\delta\mathbf{x} = \mathbf{b} + \delta\mathbf{b}Ax+Aδx+δAx+δAδx=b+δb

利用 Ax=b\mathbf{Ax} = \mathbf{b}Ax=b 消去并整理得:

δx=−A−1δAx−A−1δAδx+A−1δb\delta\mathbf{x} = -\mathbf{A}^{-1}\delta\mathbf{A}\mathbf{x} - \mathbf{A}^{-1}\delta\mathbf{A}\delta\mathbf{x} + \mathbf{A}^{-1}\delta\mathbf{b}δx=−A−1δAx−A−1δAδx+A−1δb

由三角不等式:

∥δx∥≤∥A−1∥∥δA∥∥x∥+∥A−1∥∥δA∥∥δx∥+∥A−1∥∥δb∥\|\delta\mathbf{x}\| \leq \|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|\|\mathbf{x}\| + \|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|\|\delta\mathbf{x}\| + \|\mathbf{A}^{-1}\|\|\delta\mathbf{b}\|∥δx∥≤∥A−1∥∥δA∥∥x∥+∥A−1∥∥δA∥∥δx∥+∥A−1∥∥δb∥

由 ∥A−1∥∥δA∥<1\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\| < 1∥A−1∥∥δA∥<1,整理:

∥δx∥(1−∥A−1∥∥δA∥)≤∥A−1∥∥δA∥∥x∥+∥A−1∥∥δb∥\|\delta\mathbf{x}\|(1-\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|) \leq \|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|\|\mathbf{x}\| + \|\mathbf{A}^{-1}\|\|\delta\mathbf{b}\|∥δx∥(1−∥A−1∥∥δA∥)≤∥A−1∥∥δA∥∥x∥+∥A−1∥∥δb∥ ∥δx∥≤∥A−1∥∥δA∥∥x∥+∥A−1∥∥δb∥1−∥A−1∥∥δA∥\|\delta\mathbf{x}\| \leq \frac{\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|\|\mathbf{x}\| + \|\mathbf{A}^{-1}\|\|\delta\mathbf{b}\|}{1-\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|}∥δx∥≤1−∥A−1∥∥δA∥∥A−1∥∥δA∥∥x∥+∥A−1∥∥δb∥​

两边除以 ∥x∥\|\mathbf{x}\|∥x∥:

∥δx∥∥x∥≤∥A−1∥∥δA∥1−∥A−1∥∥δA∥+∥A−1∥1−∥A−1∥∥δA∥∥δb∥∥x∥\frac{\|\delta\mathbf{x}\|}{\|\mathbf{x}\|} \leq \frac{\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|}{1-\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|} + \frac{\|\mathbf{A}^{-1}\|}{1-\|\mathbf{A}^{-1}\|\|\delta\mathbf{A}\|}\frac{\|\delta\mathbf{b}\|}{\|\mathbf{x}\|}∥x∥∥δx∥​≤1−∥A−1∥∥δA∥∥A−1∥∥δA∥​+1−∥A−1∥∥δA∥∥A−1∥​∥x∥∥δb∥​

利用 ∥b∥=∥Ax∥≤∥A∥∥x∥\|\mathbf{b}\| = \|\mathbf{Ax}\| \leq \|\mathbf{A}\|\|\mathbf{x}\|∥b∥=∥Ax∥≤∥A∥∥x∥:

∥δb∥∥x∥≤∥A∥∥δb∥∥b∥\frac{\|\delta\mathbf{b}\|}{\|\mathbf{x}\|} \leq \frac{\|\mathbf{A}\|\|\delta\mathbf{b}\|}{\|\mathbf{b}\|}∥x∥∥δb∥​≤∥b∥∥A∥∥δb∥​

代入并整理:

∥δx∥∥x∥≤∥A−1∥∥A∥∥δA∥∥A∥1−Cond(A)∥δA∥∥A∥+∥A−1∥∥A∥∥δb∥∥b∥1−Cond(A)∥δA∥∥A∥\frac{\|\delta\mathbf{x}\|}{\|\mathbf{x}\|} \leq \frac{\|\mathbf{A}^{-1}\|\|\mathbf{A}\|\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|}}{1-\text{Cond}(\mathbf{A})\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|}} + \frac{\|\mathbf{A}^{-1}\|\|\mathbf{A}\|\frac{\|\delta\mathbf{b}\|}{\|\mathbf{b}\|}}{1-\text{Cond}(\mathbf{A})\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|}}∥x∥∥δx∥​≤1−Cond(A)∥A∥∥δA∥​∥A−1∥∥A∥∥A∥∥δA∥​​+1−Cond(A)∥A∥∥δA∥​∥A−1∥∥A∥∥b∥∥δb∥​​ =Cond(A)1−Cond(A)∥δA∥∥A∥(∥δA∥∥A∥+∥δb∥∥b∥)= \frac{\text{Cond}(\mathbf{A})}{1-\text{Cond}(\mathbf{A})\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|}} \left(\frac{\|\delta\mathbf{A}\|}{\|\mathbf{A}\|} + \frac{\|\delta\mathbf{b}\|}{\|\mathbf{b}\|}\right)=1−Cond(A)∥A∥∥δA∥​Cond(A)​(∥A∥∥δA∥​+∥b∥∥δb∥​)

超定方程组

问题描述

当方程数 mmm 大于未知数 nnn 时,线性方程组 Ax=b\mathbf{A}\mathbf{x}=\mathbf{b}Ax=b,A∈Rm×n\mathbf{A}\in\mathbb{R}^{m\times n}A∈Rm×n 通常无解。

所以我们希望寻找 x\mathbf{x}x 使余量(残差)r=b−Ax\mathbf{r}=\mathbf{b}-\mathbf{A}\mathbf{x}r=b−Ax 在某种意义下最小。也即求解

x=arg min⁡xF(x)\mathbf{x} = \argmin_{\mathbf{x}} F(\mathbf{x})x=xargmin​F(x)

最小二乘法

目标函数:

F(x)=rTr=∥b−Ax∥22=∑i=1m(bi−∑j=1naijxj)2F(\mathbf{x}) = \mathbf{r}^T\mathbf{r} = \|\mathbf{b}-\mathbf{A}\mathbf{x}\|_2^2 = \sum_{i=1}^m \left(b_i - \sum_{j=1}^n a_{ij}x_j\right)^2F(x)=rTr=∥b−Ax∥22​=i=1∑m​(bi​−j=1∑n​aij​xj​)2

几何意义:
寻找 x\mathbf{x}x 使得 Ax\mathbf{A}\mathbf{x}Ax 是 b\mathbf{b}b 在 A\mathbf{A}A 的列空间 R(A)\mathcal{R}(\mathbf{A})R(A) 上的正交投影。

注(2-范数的优势):

  1. 解析可解:可导出正规方程
  2. 统计解释:在高斯-马尔可夫假设下(误差独立同分布、零均值、等方差),最小二乘估计等价于最大似然估计
  3. 几何意义:对应欧几里得空间中的垂直距离最小化

正规方程

对 F(x)=(b−Ax)T(b−Ax)F(\mathbf{x}) = (\mathbf{b}-\mathbf{A}\mathbf{x})^T(\mathbf{b}-\mathbf{A}\mathbf{x})F(x)=(b−Ax)T(b−Ax) 求梯度并令为零得:

∂F∂x=2AT(Ax−b)=0\frac{\partial F}{\partial \mathbf{x}} = 2\mathbf{A}^T(\mathbf{A}\mathbf{x}-\mathbf{b}) = \mathbf{0}∂x∂F​=2AT(Ax−b)=0

正规方程:

ATAx=ATb\mathbf{A}^T\mathbf{A}\mathbf{x} = \mathbf{A}^T\mathbf{b}ATAx=ATb

若 rank(A)=n\text{rank}(\mathbf{A})=nrank(A)=n(列满秩),则 ATA\mathbf{A}^T\mathbf{A}ATA 对称正定,此时存在唯一解:

x=(ATA)−1ATb\mathbf{x} = (\mathbf{A}^T\mathbf{A})^{-1}\mathbf{A}^T\mathbf{b}x=(ATA)−1ATb

注:

直接求解正规方程会将条件数平方:Cond(ATA)2=[Cond(A)2]2\text{Cond}(\mathbf{A}^T\mathbf{A})_2 = [\text{Cond}(\mathbf{A})_2]^2Cond(ATA)2​=[Cond(A)2​]2,可能引入数值不稳定性。 实际计算中,QR 分解或 SVD 是更稳定的算法,但正规方程在理论分析中非常重要

目录
  • 引入
  • 向量范数
    • 定义:向量范数
    • 常用向量范数
    • 向量范数的等价性
    • 向量范数的可逆变换
  • 矩阵范数
    • 定义:矩阵范数
    • 常用矩阵范数
    • 诱导范数
    • 常见向量范数的诱导范数
      • 1-范数:最大列和
      • 无穷-范数:最大行和
      • 2-范数:最大奇异值
    • 矩阵范数的等价性
    • 矩阵范数的相似变换
    • 谱半径
  • 条件数
    • 定义:条件数
    • 条件数的性质
      • 下界
      • 正交矩阵
      • 齐次性
      • 谱条件数
      • 条件数等价性
    • 条件数的估计
    • 几何意义
  • 误差分析
    • 右端项扰动分析
    • 系数矩阵扰动分析
    • 综合误差分析
  • 超定方程组
    • 问题描述
    • 最小二乘法
    • 正规方程
© 2026 miniyuan. All rights reserved.
Go to miniyuan's GitHub repo