双线性型与二次型的坐标变换关系
好的,我们开始学习“双线性型与二次型的坐标变换关系”。这是一个连接线性代数、几何和二次曲面理论的重要概念。我会循序渐进地为您讲解。
第一步:回顾核心对象——双线性型与二次型
首先,我们需要清晰地定义两个基础对象。
- 双线性型:设 \(V\) 是一个定义在实数域 \(\mathbb{R}\)(或复数域 \(\mathbb{C}\))上的向量空间。一个双线性型 \(B\) 是一个映射 \(B: V \times V \to \mathbb{R}\),它满足对任意向量 \(\mathbf{u}, \mathbf{v}, \mathbf{w} \in V\) 和任意标量 \(a, b\):
- 线性性(对第一个变量):\(B(a\mathbf{u} + b\mathbf{v}, \mathbf{w}) = aB(\mathbf{u}, \mathbf{w}) + bB(\mathbf{v}, \mathbf{w})\)
- 线性性(对第二个变量):\(B(\mathbf{w}, a\mathbf{u} + b\mathbf{v}) = aB(\mathbf{w}, \mathbf{u}) + bB(\mathbf{w}, \mathbf{v})\)
- 简单说,它像两个向量的“乘法”,对每个变量单独都是线性的。例如,标准欧几里得内积 \(B(\mathbf{u}, \mathbf{v}) = \mathbf{u} \cdot \mathbf{v}\) 就是一种对称的双线性型。
- 二次型:设 \(Q\) 是一个映射 \(Q: V \to \mathbb{R}\)。如果存在一个双线性型 \(B\),使得对于所有 \(\mathbf{v} \in V\),都有 \(Q(\mathbf{v}) = B(\mathbf{v}, \mathbf{v})\),那么我们称 \(Q\) 是一个二次型。
- 例如,\(Q(x, y) = ax^2 + bxy + cy^2\) 是一个二元二次型。它可以由双线性型 \(B((x_1, y_1), (x_2, y_2)) = ax_1x_2 + \frac{b}{2}(x_1y_2 + x_2y_1) + cy_1y_2\) 诱导得到。
关键联系:每个对称的双线性型都唯一确定一个二次型(\(Q(\mathbf{v}) = B(\mathbf{v}, \mathbf{v})\))。反之,每个二次型也唯一确定一个对称的双线性型(通过极化恒等式:\(B(\mathbf{u}, \mathbf{v}) = \frac{1}{2}[Q(\mathbf{u}+\mathbf{v}) - Q(\mathbf{u}) - Q(\mathbf{v})]\))。因此,在实(复)数域上,研究对称双线性型与研究二次型本质上是等价的。
第二步:引入矩阵表示
为了进行具体计算,我们需要为向量空间 \(V\) 选定一个基底(坐标系)。假设 \(\dim(V) = n\),选定一组基 \(\{\mathbf{e}_1, \mathbf{e}_2, \dots, \mathbf{e}_n\}\)。任意向量 \(\mathbf{x}, \mathbf{y} \in V\) 都可以表示为这组基的线性组合:
\[ \mathbf{x} = \sum_{i=1}^n x_i \mathbf{e}_i, \quad \mathbf{y} = \sum_{j=1}^n y_j \mathbf{e}_j \]
其中 \(x_i, y_j\) 是坐标。
那么,双线性型 \(B(\mathbf{x}, \mathbf{y})\) 可以计算为:
\[B(\mathbf{x}, \mathbf{y}) = B(\sum_i x_i \mathbf{e}_i, \sum_j y_j \mathbf{e}_j) = \sum_{i=1}^n \sum_{j=1}^n x_i y_j B(\mathbf{e}_i, \mathbf{e}_j) \]
定义矩阵 \(A\) 的第 \(i\) 行第 \(j\) 列元素为 \(a_{ij} = B(\mathbf{e}_i, \mathbf{e}_j)\)。这个 \(n \times n\) 矩阵 \(A\) 被称为双线性型 \(B\) 在给定基底下的度量矩阵(或表示矩阵)。
用坐标列向量 \(X = (x_1, \dots, x_n)^T\) 和 \(Y = (y_1, \dots, y_n)^T\) 表示,我们有:
\[B(\mathbf{x}, \mathbf{y}) = X^T A Y \]
这是一个非常简洁的矩阵表达式。
对于二次型 \(Q(\mathbf{x}) = B(\mathbf{x}, \mathbf{x})\),其矩阵表示为:
\[Q(\mathbf{x}) = X^T A X \]
注意:如果 \(B\) 是对称的(\(B(\mathbf{u}, \mathbf{v}) = B(\mathbf{v}, \mathbf{u})\)),那么矩阵 \(A\) 是对称矩阵(\(A^T = A\))。我们通常讨论的是对称的情形。
第三步:坐标变换的核心问题
现在进入主题:当我们改变基底(即坐标系)时,双线性型和二次型的矩阵表示会如何变化?
假设我们从旧基底 \(\{\mathbf{e}_1, \dots, \mathbf{e}_n\}\) 变换到一组新基底 \(\{\mathbf{e}‘_1, \dots, \mathbf{e}’_n\}\)。这两组基通过一个过渡矩阵 \(P\) 联系起来:新基向量可以用旧基向量的线性组合表示,具体地,矩阵 \(P = (p_{ij})\) 满足:
\[\mathbf{e}’_j = \sum_{i=1}^n p_{ij} \mathbf{e}_i, \quad \text{对于所有 } j = 1, \dots, n \]
注意这里的下标:\(p_{ij}\) 是新基的第 \(j\) 个向量在旧基的第 \(i\) 个向量上的坐标。
关键点在于:同一个向量 \(\mathbf{x}\) 在这两组基下的坐标是不同的。设其在旧基下的坐标列向量为 \(X\),在新基下的坐标列向量为 \(X'\)。那么它们之间的关系是:
\[X = P X' \]
(这个公式可以这样理解:\(\mathbf{x} = \sum_i x_i \mathbf{e}_i = \sum_j x’_j \mathbf{e}‘_j = \sum_j x’_j (\sum_i p_{ij} \mathbf{e}_i) = \sum_i (\sum_j p_{ij} x’_j) \mathbf{e}_i\),所以 \(x_i = \sum_j p_{ij} x‘_j\),即 \(X = P X’\))
第四步:推导矩阵的变换公式
设双线性型 \(B\) 在旧基底下的矩阵为 \(A\)(即 \(B(\mathbf{x}, \mathbf{y}) = X^T A Y\)),在新基底下的矩阵为 \(A'\)(即 \(B(\mathbf{x}, \mathbf{y}) = (X‘)^T A’ Y'\))。
由于双线性型的值 \(B(\mathbf{x}, \mathbf{y})\) 是一个几何量,它不依赖于坐标系的选择,所以:
\[X^T A Y = (X‘)^T A’ Y' \]
将坐标变换关系 \(X = P X‘\) 和 \(Y = P Y’\) 代入上式左边:
\[(P X‘)^T A (P Y’) = (X‘)^T (P^T A P) Y’ \]
由于这对任意坐标 \(X‘, Y’\) 都成立,比较两边,我们得到矩阵 \(A‘\) 必须满足:
\[A‘ = P^T A P \]
这就是双线性型(或二次型)的矩阵在坐标变换下的变换法则。
第五步:几何与代数意义
这个变换公式 \(A‘ = P^T A P\) 具有深刻的几何与代数意义:
-
合同变换:我们称矩阵 \(A\) 和 \(A‘\) 是合同的。合同关系是一种等价关系。它告诉我们,同一个双线性型(或二次型)在不同坐标系下的矩阵表示虽然不同,但它们通过一个可逆矩阵 \(P\) 以 \(P^T A P\) 的形式相联系。
-
不变量:在合同变换 \(A \to P^T A P\) 下,矩阵的某些性质保持不变,这些称为合同不变量。最重要的两个是:
- 矩阵的秩:\(\text{rank}(A’) = \text{rank}(A)\)。它反映了双线性型(二次型)的“退化”程度。
- 对称性:如果 \(A\) 对称,那么 \(A’\) 也对称。
- (对于实对称矩阵)惯性指数:根据西尔维斯特惯性定理,实对称矩阵 \(A\) 通过合同变换化成的标准形中,正特征值的个数、负特征值的个数和零特征值的个数是唯一确定的。正个数称为正惯性指数,负个数称为负惯性指数,它们的差称为符号差。这些都是合同不变量。
- 几何应用——化简与分类:
- 主轴定理(谱定理):对于一个实对称双线性型(或二次型),我们总可以找到一个正交变换(即 \(P\) 是正交矩阵,满足 \(P^T = P^{-1}\)),使得新的矩阵 \(A‘ = P^T A P\) 是一个对角矩阵。这个对角矩阵的对角线元素就是矩阵 \(A\) 的特征值。这个过程在几何上意味着我们旋转了坐标系,使其与二次型的主轴对齐。
- 例如,对于二次曲线 \(ax^2 + bxy + cy^2 = 1\),通过正交变换消去交叉项 \(bxy\),得到标准形式 \(\lambda_1 x‘^2 + \lambda_2 y’^2 = 1\),从而可以立即判断它是椭圆、双曲线还是退化的。
- 更一般地,通过合同变换(不一定正交),我们可以将任何实二次型化为规范形,例如只包含平方项 \(d_1x_1‘^2 + d_2x_2’^2 + \dots + d_rx_r‘^2\),或者更进一步化为标准形 \(x_1’^2 + \dots + x_p‘^2 - x_{p+1}’^2 - \dots - x_r‘^2\),其中 \(p\) 就是正惯性指数。
总结:
双线性型与二次型的坐标变换关系 \(A‘ = P^T A P\) 是沟通其抽象定义与具体矩阵计算的桥梁。它揭示了在不同视角(坐标系)下,描述同一个几何对象(如二次曲面)的代数形式之间的内在联系。通过研究合同变换下的不变量(如秩、惯性指数),我们能够对二次型进行本质的分类,并找到最简洁的表达式,这是解析几何和微分几何中研究曲面局部形状(通过第二基本形式等)的基础工具。