2026/4/1 14:33:27
网站建设
项目流程
北京平面设计网站,wordpress 第一张图片不显示,北京企业网站建设公司,公司品牌网站建设正交矩阵#xff1a;像“刚体旋转”一样的矩阵
想象一下#xff0c;你手里有一个刚性的物体#xff0c;比如一个硬纸板做的三角板。你可以旋转它、翻转它#xff0c;但不能拉伸或压扁它——形状和大小始终不变。在线性代数里#xff0c;正交矩阵#xff08;Orthogonal M…正交矩阵像“刚体旋转”一样的矩阵想象一下你手里有一个刚性的物体比如一个硬纸板做的三角板。你可以旋转它、翻转它但不能拉伸或压扁它——形状和大小始终不变。在线性代数里正交矩阵Orthogonal Matrix就是扮演这个“刚性变换”角色的矩阵。它只负责旋转或反射向量不会改变向量的长度或它们之间的角度。先从基础说起什么是“正交”“正交”就是“垂直”的意思。如果两个向量互相垂直点积为0它们就是正交的。如果它们的长度还都是1就叫单位正交orthonormal。正交矩阵的核心特点是它的列向量或行向量互相正交而且每个都是单位长度。这就像一个坐标系的新基底每个轴都垂直且长度一致。这张图给了 4 个例子 (a)(b)(c)(d)它们都是**正交矩阵orthogonal matrix**的典型长相有的像“交换坐标轴/翻转方向”有的像“旋转”有的列里是各种分数但本质都在做同一件事——保持长度和角度不变的线性变换。1) 什么是正交矩阵对一个实矩阵 Q如果满足就称 Q 是正交矩阵。这句话有两个最重要的“直观版本”版本 A列向量或行向量是“正交单位基”把 Q 的三列写成 q1,q2,q3二维就两列单位长度两两垂直也就是“每一列都是单位向量列与列互相垂直”。行向量同理。版本 B它保持“内积”对任意向量 x,y于是立刻得到长度不变角度不变夹角保持因为夹角由内积决定2) 图里的四个矩阵分别在“说”什么(d) 最经典二维旋转矩阵第一列 (cosx,sinx) 是单位向量第二列 (−sinx,cosx) 也是单位向量两列点积cosx(−sinx)sinx(cosx)0所以。它表示绕原点旋转 x 角度纯旋转det1。(a) “换轴 翻转”的整系数版本看列向量更直观第1列 (1,0,0)第2列 (0,0,−1)第3列 (0,1,0)它们都是标准基向量 e1,e2,e3 的“重排/加负号”天然就互相垂直且长度为 1。这种矩阵叫符号置换矩阵signed permutation matrix表示“把坐标轴交换一下再可能翻转某些轴”。(b) 分数看着复杂但仍是“正交单位列”你可以快速检查列向量第2列是 (0,0,−1)单位长度没问题第1列长度第3列长度第1列和第3列点积再加上它们与第2列点积也为 0因为第2列只有第三个分量所以它是正交矩阵。直观上像是“在 xy 平面里做某个旋转/反射同时把 z 轴翻转”。(c) 更“学术范儿”正交归一化后的列这里每一列都被精心“归一化”分母就是为了让长度变成 1并且列与列互相点积为 0。这种矩阵经常来自把一组向量做 Gram–Schmidt 正交化得到一组正交单位基拼成矩阵 Q。3) 正交矩阵的三个“秒记性质”逆等于转置保持长度与角度不拉伸不剪切行列式只能是 ±1det(Q)1纯旋转方向保持det(Q)−1包含镜像/翻转方向反转我们就把图里的(c)这个矩阵当成 Q用“列向量法”把它一步步验明正身它为什么是正交矩阵。(c)1) 正交矩阵的判定最直观的等价说法是Q 的每一列都是单位向量并且列与列两两垂直。把三列分别记为 c1,c2,c3。2) 先验“单位长度”c1 的长度c2 的长度c3 的长度所以三列都是单位向量。3) 再验“两两垂直”ci⋅cj0c1⋅c2c1⋅c3c2⋅c3所以三列两两正交。4) 结论它就是正交矩阵“单位 互相垂直”意味着因此(c) 是正交矩阵并且立刻得到一个超实用性质5) 它在几何上做了什么正交矩阵表示一种“不变形”的线性变换不改变长度不改变角度夹角保持只可能是旋转或旋转镜像反射对这个 (c)因为它的列向量构成右手系等价于 det(Q)1它属于“纯旋转”proper orthogonal。我们把 (c) 再“讲活一点”它到底在几何上干了什么、为什么一定保持长度/角度、以及怎么用它做坐标变换。1) 把 (c) 看成“新坐标轴”对正交矩阵 Q第 1、2、3 列分别就是变换后新的三根坐标轴单位向量新的 x′ 轴方向c1新的 y′ 轴方向c2新的 z′ 轴方向c3而且它们两两垂直、长度为 1所以这是一个“正交坐标系”。在 (c) 里直观解读c1 指向“(1,1,2)”那个斜上方方向z 分量最大像把 x 轴抬起来了。c2 没有 x 分量第一项是 0完全在yz 平面里偏向 “y 负、z 正”。c3 x 分量很大5所以它更“靠近 x 轴”但又带一点 y、z 的负方向。2) Qx 为什么是“旋转/刚体运动”取任意向量 x。变换后变成 Qx。关键在这句我们用你刚才验证过的所以长度不变不拉伸也就不可能发生“剪切变形”只剩下“转一转 / 翻一翻”同理两向量夹角也保持因为内积保持我们把这串式子拆成“每一步在做什么”你就会发现它其实只是在把“长度的平方 自己点自己”这句话用矩阵语言写出来而已。(2.1) 先统一一个最关键的定义长度平方 点积对任意向量而点积在矩阵写法里就是为什么因为是 1×n1v 是 n×1乘起来得到一个 1×1 的数展开就是这正是长度平方。(2.2) 第一步这一步只是把上面的“长度平方公式”套到向量 Qx 上x 是原向量Qx 是变换后的向量所以它的长度平方就是到这里没用任何“正交”只用“长度平方转置乘自己”。(2.3) 第二步这是一个矩阵转置的基本规则顺序会反过来像“反着读”。把 AQBx注意 x 也可以看成矩阵 n×1(2.4) 第三步把第2步代回去接下来用矩阵乘法的结合律只要尺寸匹配就可以重新加括号这一点你可以理解为中间的和 Q 先“凑一块”乘起来形成一个新矩阵。(2.5) 第四步如果 Q 是正交矩阵则这是“正交矩阵”的定义之一代入上式(2.6) 第五步因为单位矩阵不改变向量所以一句话总结这串式子它表达的是正交矩阵 Q 不改变向量长度因此也不改变角度。(2.7) 给你一个“带数字”的最小例子2D旋转取这是旋转 90° 的正交矩阵。先算取向量。变换后它的长度而完全一样。(2.8) 这串式子里“最容易卡住”的点为什么长度平方等于因为展开就是。为什么因为。为什么能把括号换成因为矩阵乘法满足结合律。3) 用 (c) 做一次“看得见”的坐标变换例子例子 A把标准基向量送过去最直观Qe1 就等于第 1 列c1Qe2 就等于第 2 列c2Qe3 就等于第 3 列c3这说明原来的三根坐标轴被转到了这三根新轴上。例子 B把一个一般向量拆成“列的线性组合”对任意这句话非常“几何”你给我一组系数 (x1,x2,x3)我就按这三个新轴方向 c1,c2,c3 去合成一个向量。所以 Q 就像“把原来的坐标系换成了一个旋转后的正交坐标系”。4)的意义反过来投影回去坐标读取因为所以Q把“在旧坐标系里的坐标”变成“在新方向组合出来的向量”把一个向量投影到这三根新轴上得到它在新轴下的坐标更具体设空间里一个向量是 v。它在新坐标系 (c1,c2,c3) 下的坐标就是因为的第 1 行就是乘出来就是点积。一句话就是“用新轴去量一量点积”量出在新轴方向上的分量。5) (c) 为什么看起来“分母很怪”因为它其实来自“把整数向量正交归一化”(1,1,2) 的长度是所以除以 才变单位向量 → 于是出现。(0,−2,1) 长度是 → 出现。(5,−1,−2) 长度是 → 出现。这些根号不是玄学是“为了让长度1”硬算出来的。6) 小结你看到 (c) 时一眼该想到什么看到这种“每列都像整数向量”的矩阵基本就该联想到它很可能是正交矩阵它在几何上是“换了一组垂直、单位的新坐标轴”它只做旋转/反射不会拉伸求逆根本不用解方程直接转置。在真实世界的数据矩阵中不可能都满足正交那正交矩阵在什么情况下能用呢确实真实数据矩阵 A图像、表格、特征矩阵、模型权重……一般既不方阵、也不可能刚好满足。但正交矩阵之所以常用关键不在于“数据本身是正交的”而在于我们经常把复杂矩阵分解成“正交部分 其他部分”用正交部分来做不失真的旋转/换基把问题变简单、数值更稳定。下面按最常见的场景说。1) 作为“旋转/换坐标系”的工具换基在数据分析里很多操作等价于把数据从原坐标系换到一个更合适的坐标系。PCA找一组新的正交轴主成分方向把数据投影过去这里 V 的列就是主成分方向V 是正交矩阵或正交列矩阵。好处新坐标轴互相不干扰不相关、解释方差清晰。白化/去相关先用正交变换把相关性“旋开”再做尺度归一。直觉正交矩阵像“转动坐标轴”不会改变点与点的距离结构所以你可以放心地转。2) SVD/特征分解里正交矩阵天然出现任何矩阵 A哪怕是长方形都有 SVDU、V 是正交矩阵或列正交Σ 才负责“拉伸”所以你可以把任意线性变换理解成先旋转→ 再按主方向拉伸Σ→ 再旋转U应用非常多降维/压缩保留前 k 个奇异值去噪丢掉小奇异值最小二乘数值更稳3) 最小二乘里用 QR 分解解方程更稳做线性回归。通常用QR 分解AQRQ 的列正交正交矩阵/半正交矩阵R 上三角因为 Q 不会放大误差保持长度所以比直接解正规方程更稳定。4) 机器学习里用正交性来“保持尺度、稳定训练”很多训练不稳定本质是“信号被放大/缩小/扭曲”。正交矩阵能尽量避免这个问题。典型用法正交初始化RNN/Transformer/深层网络常见让梯度不那么容易爆炸/消失至少在一开始更稳。正交约束/正则化希望某层权重近似正交让特征更“互不重复”、训练更平滑。特征正交化让不同特征方向尽量独立减少共线性。5) 信号处理/通信能量守恒的变换很多变换矩阵是正交/酉复数情形DFT/FFT严格来说是“酉矩阵”DCTJPEG 压缩核心Walsh-Hadamard 变换它们的共同点变换前后能量ℓ2\ell_2ℓ2 范数守恒便于压缩、滤波、去噪。6) 计算几何/机器人/3D姿态与旋转就是正交矩阵3D 旋转矩阵 R 满足所以在SLAM、机器人姿态估计相机外参/坐标系变换3D 引擎、刚体运动正交矩阵是“物理上正确”的旋转表示不会把物体拉长。7) 总结一句话正交矩阵什么时候用当你需要下面任意一件事时就会用到正交矩阵或“近似正交”换坐标系但不想改变距离/角度旋转、投影把矩阵分解成稳定的几何部分SVD / QR / EVD想要数值稳定不放大误差、保持尺度想让特征方向“互不干扰”PCA、正交约束