特征多项式的迹与行列式

字数 3677 2025-12-06 09:37:50

特征多项式的迹与行列式

我们先从线性代数中最基础的概念——线性变换及其矩阵表示开始，逐步构建出特征多项式，并最终阐明其常数项和次高次项系数所蕴含的几何意义：行列式和迹。

第一步：从线性变换到特征值

设 \(V\) 是域 \(F\) 上的一个 \(n\) 维向量空间。一个线性变换 \(T: V \rightarrow V\) 是满足 \(T(u+v)=T(u)+T(v)\) 和 \(T(\lambda v)=\lambda T(v)\) 的映射。
当我们为 \(V\) 选定一组基 \(\mathcal{B} = \{v_1, v_2, \dots, v_n\}\) 后，线性变换 \(T\) 就可以用一个 \(n \times n\) 矩阵 \(A = [T]_{\mathcal{B}}\) 来表示，其中第 \(j\) 列是 \(T(v_j)\) 在这组基下的坐标。
一个标量 \(\lambda \in F\) 称为 \(T\) (或矩阵 \(A\)) 的一个特征值，如果存在一个非零向量 \(v \in V\) 使得 \(T(v) = \lambda v\) (等价地，\(A v = \lambda v\))。这样的非零向量 \(v\) 称为属于特征值 \(\lambda\) 的特征向量。

第二步：特征多项式是如何产生的

方程 \(T(v) = \lambda v\) 可以改写为 \((T - \lambda I)v = 0\)，其中 \(I\) 是恒等变换。这表示 \(v\) 位于线性变换 \((T - \lambda I)\) 的核（或零空间）中。
为了使这个齐次线性方程组有非零解 \(v\)，变换 \((T - \lambda I)\) 必须不是可逆的。在矩阵语言下，对应的矩阵方程 \((A - \lambda I)v = 0\) 有非零解当且仅当系数矩阵 \((A - \lambda I)\) 的行列式为零。
这就引出了核心方程：\(\det(A - \lambda I) = 0\)。
表达式 \(p_A(\lambda) = \det(A - \lambda I)\) 是一个关于未定元 \(\lambda\) 的 \(n\) 次多项式，称为矩阵 \(A\) 的特征多项式。它是从矩阵 \(A\) 计算出来的一个标量多项式。

第三步：特征多项式的结构

具体写出：\(A - \lambda I = \begin{pmatrix} a_{11}-\lambda & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22}-\lambda & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn}-\lambda \end{pmatrix}\)。
计算这个矩阵的行列式。根据行列式的定义，它是 \(n!\) 个项的代数和，每个项是取自不同行不同列的 \(n\) 个元素的乘积。
关键观察：

包含 \(\lambda^n\) 的项只可能来自对角线元素乘积 \((a_{11}-\lambda)(a_{22}-\lambda)\cdots(a_{nn}-\lambda)\)。展开这个乘积，得到 \((-1)^n \lambda^n + \cdots\)。
包含 \(\lambda^{n-1}\) 的项也主要来自上述对角线乘积的展开，当我们从 \(n\) 个因子中选取 \((n-1)\) 个 \(-\lambda\) 和一个 \(a_{ii}\) 时，就得到了形如 \((-1)^{n-1}(a_{11}+a_{22}+\cdots+a_{nn})\lambda^{n-1}\) 的项。其他非对角元乘积不可能提供这么高次数的 \(\lambda\)。
常数项（即 \(\lambda^0\) 的项）出现在行列式展开中所有 \(\lambda\) 都取常数部分时，即 \(\det(A)\)。

因此，特征多项式可以系统地写为：

\[p_A(\lambda) = \det(A - \lambda I) = (-\lambda)^n + \operatorname{tr}(A)(-\lambda)^{n-1} + \cdots + \det(A) \]

更常见的展开形式是：

\[p_A(\lambda) = (-1)^n \lambda^n + (-1)^{n-1} \operatorname{tr}(A) \lambda^{n-1} + \cdots + \det(A) \]

其中：

\(\operatorname{tr}(A) = a_{11} + a_{22} + \cdots + a_{nn}\) 称为矩阵 \(A\) 的迹。
\(\det(A)\) 是矩阵 \(A\) 的行列式。

第四步：迹与行列式的几何与代数解释

行列式：

作为特征多项式的常数项，有 \(p_A(0) = \det(A)\)。
从特征值角度看，如果特征多项式在代数闭域上可完全分解为 \(p_A(\lambda) = (-1)^n (\lambda - \lambda_1)(\lambda - \lambda_2)\cdots(\lambda - \lambda_n)\)，那么比较常数项可得：\(\det(A) = \lambda_1 \lambda_2 \cdots \lambda_n\)。
几何意义：行列式表示线性变换 \(T\) 对体积的缩放比例。所有特征值的乘积正好等于这个整体缩放因子。

迹：

作为特征多项式中 \(\lambda^{n-1}\) 项的系数（除一个符号因子外）。
从特征值分解看，比较 \(\lambda^{n-1}\) 项的系数可得：\(\operatorname{tr}(A) = \lambda_1 + \lambda_2 + \cdots + \lambda_n\)。
代数意义：迹是矩阵对角线上元素的和，它是一个非常基础的矩阵不变量。尽管它比行列式包含的信息少，但具有优良的性质，例如 \(\operatorname{tr}(AB) = \operatorname{tr}(BA)\)，这使得它在相似变换下保持不变：\(\operatorname{tr}(P^{-1}AP) = \operatorname{tr}(A)\)。因此，迹是线性变换 \(T\) 自身的一个属性，与基的选取无关，其值等于所有特征值（计重数）之和。

第五步：一个简单的数值例子
考虑矩阵 \(A = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix}\)。

特征多项式：\(p_A(\lambda) = \det \begin{pmatrix} 2-\lambda & 1 \\ 1 & 2-\lambda \end{pmatrix} = (2-\lambda)^2 - 1 = \lambda^2 - 4\lambda + 3\)。
这里，\(n=2\)。根据公式：\(p_A(\lambda) = \lambda^2 - \operatorname{tr}(A)\lambda + \det(A)\)。
- 迹 \(\operatorname{tr}(A) = 2+2=4\)。
- 行列式 \(\det(A) = 2\times2 - 1\times1=3\)。
  确实，多项式为 \(\lambda^2 - 4\lambda + 3\)。
分解多项式：\((\lambda - 1)(\lambda - 3) = 0\)，特征值为 \(\lambda_1=1, \lambda_2=3\)。
- 验证迹：\(\lambda_1 + \lambda_2 = 1+3=4 = \operatorname{tr}(A)\)。
- 验证行列式：\(\lambda_1 \lambda_2 = 1\times3=3 = \det(A)\)。

总结来说，特征多项式像一座桥梁，其系数封装了线性变换的核心数值不变量。其中，迹（所有特征值之和）和行列式（所有特征值之积）是最基本、最重要的两个，它们分别由特征多项式的次高次项系数和常数项直接给出，深刻地反映了变换的“和”与“积”的总体效应。

特征多项式的迹与行列式我们先从线性代数中最基础的概念——线性变换及其矩阵表示开始，逐步构建出特征多项式，并最终阐明其常数项和次高次项系数所蕴含的几何意义：行列式和迹。第一步：从线性变换到特征值设 \( V \) 是域 \( F \) 上的一个 \( n \) 维向量空间。一个线性变换 \( T: V \rightarrow V \) 是满足 \( T(u+v)=T(u)+T(v) \) 和 \( T(\lambda v)=\lambda T(v) \) 的映射。当我们为 \( V \) 选定一组基 \( \mathcal{B} = \{v_ 1, v_ 2, \dots, v_ n\} \) 后，线性变换 \( T \) 就可以用一个 \( n \times n \) 矩阵 \( A = [ T]_ {\mathcal{B}} \) 来表示，其中第 \( j \) 列是 \( T(v_ j) \) 在这组基下的坐标。一个标量 \( \lambda \in F \) 称为 \( T \) (或矩阵 \( A \)) 的一个特征值，如果存在一个非零向量 \( v \in V \) 使得 \( T(v) = \lambda v \) (等价地，\( A v = \lambda v \))。这样的非零向量 \( v \) 称为属于特征值 \( \lambda \) 的特征向量。第二步：特征多项式是如何产生的方程 \( T(v) = \lambda v \) 可以改写为 \( (T - \lambda I)v = 0 \)，其中 \( I \) 是恒等变换。这表示 \( v \) 位于线性变换 \( (T - \lambda I) \) 的核（或零空间）中。为了使这个齐次线性方程组有非零解 \( v \)，变换 \( (T - \lambda I) \) 必须不是可逆的。在矩阵语言下，对应的矩阵方程 \( (A - \lambda I)v = 0 \) 有非零解当且仅当系数矩阵 \( (A - \lambda I) \) 的行列式为零。这就引出了核心方程：\( \det(A - \lambda I) = 0 \)。表达式 \( p_ A(\lambda) = \det(A - \lambda I) \) 是一个关于未定元 \( \lambda \) 的 \( n \) 次多项式，称为矩阵 \( A \) 的特征多项式。它是从矩阵 \( A \) 计算出来的一个标量多项式。第三步：特征多项式的结构具体写出：\( A - \lambda I = \begin{pmatrix} a_ {11}-\lambda & a_ {12} & \cdots & a_ {1n} \\ a_ {21} & a_ {22}-\lambda & \cdots & a_ {2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_ {n1} & a_ {n2} & \cdots & a_ {nn}-\lambda \end{pmatrix} \)。计算这个矩阵的行列式。根据行列式的定义，它是 \( n ! \) 个项的代数和，每个项是取自不同行不同列的 \( n \) 个元素的乘积。关键观察：包含 \( \lambda^n \) 的项只可能来自对角线元素乘积 \( (a_ {11}-\lambda)(a_ {22}-\lambda)\cdots(a_ {nn}-\lambda) \)。展开这个乘积，得到 \( (-1)^n \lambda^n + \cdots \)。包含 \( \lambda^{n-1} \) 的项也主要来自上述对角线乘积的展开，当我们从 \( n \) 个因子中选取 \( (n-1) \) 个 \( -\lambda \) 和一个 \( a_ {ii} \) 时，就得到了形如 \( (-1)^{n-1}(a_ {11}+a_ {22}+\cdots+a_ {nn})\lambda^{n-1} \) 的项。其他非对角元乘积不可能提供这么高次数的 \( \lambda \)。常数项（即 \( \lambda^0 \) 的项）出现在行列式展开中所有 \( \lambda \) 都取常数部分时，即 \( \det(A) \)。因此，特征多项式可以系统地写为： \[ p_ A(\lambda) = \det(A - \lambda I) = (-\lambda)^n + \operatorname{tr}(A)(-\lambda)^{n-1} + \cdots + \det(A) \] 更常见的展开形式是： \[ p_ A(\lambda) = (-1)^n \lambda^n + (-1)^{n-1} \operatorname{tr}(A) \lambda^{n-1} + \cdots + \det(A) \] 其中： \( \operatorname{tr}(A) = a_ {11} + a_ {22} + \cdots + a_ {nn} \) 称为矩阵 \( A \) 的迹。 \( \det(A) \) 是矩阵 \( A \) 的行列式。第四步：迹与行列式的几何与代数解释行列式：作为特征多项式的常数项，有 \( p_ A(0) = \det(A) \)。从特征值角度看，如果特征多项式在代数闭域上可完全分解为 \( p_ A(\lambda) = (-1)^n (\lambda - \lambda_ 1)(\lambda - \lambda_ 2)\cdots(\lambda - \lambda_ n) \)，那么比较常数项可得：\( \det(A) = \lambda_ 1 \lambda_ 2 \cdots \lambda_ n \)。几何意义：行列式表示线性变换 \( T \) 对体积的缩放比例。所有特征值的乘积正好等于这个整体缩放因子。迹：作为特征多项式中 \( \lambda^{n-1} \) 项的系数（除一个符号因子外）。从特征值分解看，比较 \( \lambda^{n-1} \) 项的系数可得：\( \operatorname{tr}(A) = \lambda_ 1 + \lambda_ 2 + \cdots + \lambda_ n \)。代数意义：迹是矩阵对角线上元素的和，它是一个非常基础的矩阵不变量。尽管它比行列式包含的信息少，但具有优良的性质，例如 \( \operatorname{tr}(AB) = \operatorname{tr}(BA) \)，这使得它在相似变换下保持不变：\( \operatorname{tr}(P^{-1}AP) = \operatorname{tr}(A) \)。因此，迹是线性变换 \( T \) 自身的一个属性，与基的选取无关，其值等于所有特征值（计重数）之和。第五步：一个简单的数值例子考虑矩阵 \( A = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} \)。特征多项式：\( p_ A(\lambda) = \det \begin{pmatrix} 2-\lambda & 1 \\ 1 & 2-\lambda \end{pmatrix} = (2-\lambda)^2 - 1 = \lambda^2 - 4\lambda + 3 \)。这里，\( n=2 \)。根据公式：\( p_ A(\lambda) = \lambda^2 - \operatorname{tr}(A)\lambda + \det(A) \)。迹 \( \operatorname{tr}(A) = 2+2=4 \)。行列式 \( \det(A) = 2\times2 - 1\times1=3 \)。确实，多项式为 \( \lambda^2 - 4\lambda + 3 \)。分解多项式：\( (\lambda - 1)(\lambda - 3) = 0 \)，特征值为 \( \lambda_ 1=1, \lambda_ 2=3 \)。验证迹：\( \lambda_ 1 + \lambda_ 2 = 1+3=4 = \operatorname{tr}(A) \)。验证行列式：\( \lambda_ 1 \lambda_ 2 = 1\times3=3 = \det(A) \)。总结来说，特征多项式像一座桥梁，其系数封装了线性变换的核心数值不变量。其中，迹（所有特征值之和）和行列式（所有特征值之积）是最基本、最重要的两个，它们分别由特征多项式的次高次项系数和常数项直接给出，深刻地反映了变换的“和”与“积”的总体效应。