phymath999: 只取最大那些特征值所对应的特征脸, 数学可以证明特征值求解要比方程本身求解还难

Friday, February 6, 2015

只取最大那些特征值所对应的特征脸, 数学可以证明特征值求解要比方程本身求解还难

只取最大那些特征值所对应的特征脸

[转载]矩阵的特征值的含义

已有 1051 次阅读 2013-7-23 16:22 |个人分类:科研资料|系统分类:科研笔记|关键词:矩阵特征值

转载自：http://blog.163.com/prevBlogPerma.do?host=blank-dic&srl=3101862220098684345286&mode=prev

特征值就是那个矩阵所对应的一元多次方程组的根
特征值表示一个矩阵的向量被拉伸或压缩的程度,例如特征值为1111111111,则表示经过变换以后,向量没有被拉伸,在物理上表示做刚体运动,相当与整体框架做了变动,但内部结构没有变化.
量子力学中,矩阵代表力学量,矩阵的特征向量代表定态波函数,矩阵的特征植代表力学量的某个可能的观测值。
一个向量（或函数）被矩阵相乘，表示对这个向量做了一个线性变换。如果变换后还是这个向量本身乘以一个常数，这个常数就叫特征值。这是特征值的数学涵义；
至于特征值的物理涵义，根据具体情况有不同的解释。比如动力学中的频率，稳定分析中的极限荷载，甚至应力分析中的主应力
矩阵的特征值要想说清楚还要从线性变换入手，把一个矩阵当作一个线性变换在某一组基下的矩阵，最简单的线性变换就是数乘变换，求特征值的目的就是看看一个线性变换对一些非零向量的作用是否能够相当于一个数乘变换，特征值就是这个数乘变换的变换比，这样的一些非零向量就是特征向量，其实我们更关心的是特征向量，希望能把原先的线性空间分解成一些和特征向量相关的子空间的直和，这样我们的研究就可以分别限定在这些子空间上来进行，这和物理中在研究运动的时候将运动分解成水平方向和垂直方向的做法是一个道理！
用matlab求矩阵最大特征值的特征向量
用函数[V,D]=eig(A)
矩阵D的对角元存储的是A的所有特征值，
而且是从小到大排列的
矩阵V的每一列存储的是相应的特征向量
所以应该是V的最后一个列
就是最大特征值的特征向量
特征向量-定义

数学上，线性变换的特征向量（本征向量）是一个非退化的向量，其方向在该变换下不变。该向量在此变换下缩放的比例称为其特征值（本征值）。图1给出了一幅图像的例子。一个变换通常可以由其特征值和特征向量完全描述。特征空间是相同特征值的特征向量的集合。

这些概念在纯数学和应用数学的很多领域发挥着巨大的作用—在线性代数，泛函分析，甚至在一些非线性的情况中也有着显著的重要性。

“特征”一词来自德语的eigen。1904年希尔伯特首先在这个意义下使用了这个词，更早亥尔姆霍尔兹也在相关意义下使用过该词。eigen一词可翻译为“自身的”，“特定于...的”，“有特征的”或者“个体的”—这强调了特征值对于定义特定的变换有多重要。

空间上的变换—如平移(移动原点)，旋转，反射，拉伸，压缩，或者这些变换的组合；以及其它变换—可以通过它们在向量上的作用来显示。向量可以用从一点指向另一点的箭头来表示。

矩阵

特征向量-性质（1）

变换的特征向量是指在变换下不变或者简单地乘以一个缩放因子的非零向量。

特征向量的特征值是它所乘的那个缩放因子。

特征空间就是由所有有着相同特征值的特征向量组成的空间，还包括零向量，但要注意零向量本身不是特征向量。

变换的主特征向量是对应特征值最大的特征向量。

特征值的几何重次是相应特征空间的维数。

有限维向量空间上一个变换的谱是其所有特征值的集合。

例如，三维空间旋转的特征向量是沿着旋转轴的一个向量，相应的特征值是1，相应的特征空间包含所有和该轴平行的向量。该特征空间是一个一维空间，因而特征值1的几何重次是1。特征值1是旋转的谱当中唯一的实特征值。

特征向量-参看：特征平面

例子

随着地球的自转，每个从地心往外指的箭头都在旋转，除了在转轴上的那些箭头。考虑地球在一小时自转后的变换：地心指向地理南极的箭头是这个变换的一个特征向量，但是从地心指向赤道任何一处的箭头不会是一个特征向量。因为指向极点的箭头没有被地球的自转拉伸，它的特征值是1。

另一个例子是，薄金属板关于一个固定点均匀伸展，使得板上每一个点到该固定点的距离翻倍。这个伸展是一个有特征值2的变换。从该固定点到板上任何一点的向量是一个特征向量，而相应的特征空间是所有这些向量的集合。

但是，三维几何空间不是唯一的向量空间。例如，考虑两端固定的拉紧的绳子，就像弦乐器的振动弦那样（图2.）。振动弦的原子到它们在弦静止时的位置之间的带符号那些距离视为一个空间中的一个向量的分量，那个空间的维数就是弦上原子的个数。

如果考虑绳子随着时间流逝发生的变换，它的特征向量，或者说特征函数（如果将绳子假设为一个连续媒介），就是它的驻波—也就是那些通过空气的传播让人们听到弓弦和吉他的拨动声的振动。驻波对应于弦的特定振动，它们使得弦的形状随着时间变化而伸缩一个因子（特征值）。和弦相关的该向量的每个分量乘上了一个依赖于时间的因子。驻波的振幅（特征值）在考虑到阻尼的情况下逐渐减弱。因此可以将每个特征向量对应于一个寿命，并将特征向量的概念和共振的概念联系起来。

特征向量-特征值方程

从数学上看，如果向量v与变换满足

则称向量v是变换的一个特征向量，λ是相应的特征值。其中是将变换作用于v得到的向量。这一等式被称作“特征值方程”。

假设是一个线性变换，那么v可以由其所在向量空间的一组基表示为：

其中vi是向量在基向量上的投影（即坐标），这里假设向量空间为n 维。由此，可以直接以坐标向量表示。利用基向量，线性变换也可以用一个简单的矩阵乘法表示。上述的特征值方程可以表示为：

但是，有时候用矩阵形式写下特征值方程是不自然甚或不可能的。例如在向量空间是无穷维的时候，上述的弦的情况就是一例。取决于变换和它所作用的空间的性质，有时将特征值方程表示为一组微分方程更好。若是一个微分算子，其特征向量通常称为该微分算子的特征函数。例如，微分本身是一个线性变换因为（若M和N是可微函数，而a和b是常数）

考虑对于时间t的微分。其特征函数满足如下特征值方程：

其中λ是该函数所对应的特征值。这样一个时间的函数，如果λ = 0，它就不变，如果λ为正，它就按比例增长，如果λ是负的，它就按比例衰减。例如，理想化的兔子的总数在兔子更多的地方繁殖更快，从而满足一个正λ的特征值方程。

该特征值方程的一个解是N = exp(λt)，也即指数函数；这样，该函数是微分算子d/dt的特征值为λ的特征函数。若λ是负数，我们称N的演变为指数衰减；若它是正数，则称指数增长。λ的值可以是一个任意复数。因此d/dt的谱是整个复平面。在这个例子中，算子d/dt作用的空间是单变量可微函数的空间。该空间有无穷维（因为不是每一个可微函数都可以用有限的基函数的线性组合来表达的）。但是，每个特征值λ所对应的特征空间是一维的。它就是所有形为N = N0exp(λt)的函数的集合。N0是任意常数，也就在t=0的初始数量。

特征向量-谱定理

关于此话题更进一步的细节，见谱定理。

谱定理在有限维的情况，将所有可对角化的矩阵作了分类：它显示一个矩阵是可对角化的，当且仅当它是一个正规矩阵。注意这包括自共轭（厄尔米特）的情况。这很有用，因为对角化矩阵T的函数f(T)（譬如波莱尔函数f）的概念是清楚的。在采用更一般的矩阵的函数的时候谱定理的作用就更明显了。例如，若f是解析的，则它的形式幂级数，若用T取代x，可以看作在矩阵的巴拿赫空间中绝对收敛。谱定理也允许方便地定义正算子的唯一的平方根。

谱定理可以推广到希尔伯特空间上的有界正规算子，或者无界自共轭算子的情况。

特征向量-矩阵的特征值和特征向量

如上所述，谱定理表明正方形矩阵可以对角化当且仅当它是正规的。对于更一般的未必正规的矩阵，我们有类似的结果。当然在一般的情况，有些要求必须放松，例如酉等价性或者最终的矩阵的对角性。所有这些结果在一定程度上利用了特征值和特征向量。下面列出了一些这样的结果：

舒尔三角形式表明任何酉矩阵等价于一个上三角矩阵；

奇异值分解定理， A = UΣV * 其中Σ为对角阵，而U,V为酉矩阵。A = UΣV * 的对角线上的元素非负，而正的项称为A的奇异值。这对非正方形矩阵也成立；

若当标准型，其中A = UΛU ? 1 其中Λ不是对角阵，但是分块对角阵，而U是酉矩阵。若当块的大小和个数由特征值的几何和代数重次决定。若当分解是一个基本的结果。从它可以立即得到一个正方形矩阵可以完全用它的特征值包括重次来表述，最多只会相差一个酉等价。这表示数学上特征值在矩阵的研究中有着极端重要的作用。

作为若当分解的直接结果，一个矩阵A可以“唯一”地写作A = S + N其中S可以对角化，N是幂零的（也即，对于某个q，Nq=0），而S和N可交换(SN=NS)。

任何可逆矩阵A可以唯一地写作A = SJ，其中S可对角化而J是么幂矩阵 (也即，使得特征多项式是(λ-1)的幂，而S和J可交换)。

特征向量-特征值的一些另外的属性

谱在相似变换下不变: 矩阵A和P-1AP有相同的特征值，这对任何矩阵A和任何可逆矩阵 P都成立。谱在转置之下也不变：矩阵A和AT有相同的特征值。

因为有限维空间上的线性变换是双射当且仅当它是单射，一个矩阵可逆当且仅当所有特征值都不是0。

若当分解的一些更多的结果如下：

一个矩阵是对角阵当且仅当代数和几何重次对于所有特征值都相等。特别的有，一个n×n矩阵如果有n不同特征值，则总是可以对角化的。

矩阵作用的向量空间可以视为其广义特征向量所撑成的不变子空间的直和。对角线上的每个块对应于该直和的一个子空间。若一个块是对角化的，其不变子空间是一个特征空间。否则它是一个广义特征空间，如上面所定义；

因为迹，也就是矩阵主对角线元素之和，在酉等价下不变，若当标准型说明它等于所有特征值之和；

类似的有，因为三角矩阵的特征值就是主对角线上的项，其行列式等于等于特征值的乘积（按代数重次计算出现次数）。

正规矩阵的一些子类的谱的位置是：

一个厄尔米特矩阵(A = A*)的所有特征值是实数。进一步的有，所有正定矩阵(v*Av > 0 for all vectors v)的所有特征值是正数；

所有斜厄尔米特矩阵(A = ?A*)的特征值是纯虚数；

所有酉矩阵(A-1 = A*)的特征值绝对值为1;

假设A是一个m×n矩阵，其中m ≤ n，而B是一个n×m矩阵。则BA有和AB相同的特征值加上n ? m个等于0的特征值。

每个矩阵可以被赋予一个算子范数。算子范数是其特征值的模的上确界，因而也是它的谱半径。该范数直接和计算最大模的特征值的幂法直接相关。当一个矩阵是正规的，其算子范数是其特征值的最大模，并且独立于其定义域的范数。

特征向量-共轭特征向量

一个共轭特征向量或者说共特征向量是一个在变换下成为其共轭乘以一个标量的向量，其中那个标量称为该线性变换的共轭特征值或者说共特征值。共轭特征变量和共轭特征值代表了和常规特征向量和特征值相同的信息和含义，但是在交替坐标系统被使用的时候出现。对应的方程是：

例如，在相干电磁散射理论中，线性变换A代表散射物体施行的作用，而特征向量表示电磁波的极化状态。在光学中，坐标系统按照波的观点定义，称为前向散射对齐 (FSA)，从而导致了常规的特征值方程，而在雷达中，坐标系统按照雷达的观点定义，称为后向散射对齐 (BSA)，从而给出了共轭特征值方程。

特征向量-广义特征值问题

一个广义特征值问题(第二种意义)有如下形式

其中A和B为矩阵。其广义特征值(第二种意义)λ 可以通过求解如下方程得到

形如A ? λB的矩阵的集合，其中λ是一个复数，称为一个“铅笔”。若B可逆，则最初的问题可以写作如下形式

也即标准的特征值问题。但是，在很多情况下施行逆操作是不可取的，而广义特征值问题应该如同其原始表述来求解。

如果A和B是实系数的对称矩阵，则特征值为实数。这在上面的第二种等价表述中并不明显，因为矩阵B ? 1A未必是对称的。

这里的一个例子是分子轨道应用如下。

特征向量-系数为环中元素

在方矩阵A，其系数属于一个环的情况，λ称为一个右特征值如果存在一个列向量x使得Ax=λx，或者称为一个左特征值如果存在非零行向量y使得yA=yλ。

若环是可交换的，左特征值和右特征值相等，并简称为特征值。否则，例如当环是四元数集合的时候，它们可能是不同的。

若向量空间是无穷维的，特征值的概念可以推广到谱的概念。谱是标量λ的集合，对于这些标量，没有定义，也就是说它们使得没有有界逆。

很明显，如果λ是T的特征值，λ位于T的谱内。一般来讲，反过来并不成立。在希尔伯特空间或者巴拿赫空间上有一些算子完全没有特征向量。这可以从下面的例子中看到。在希尔伯特空间(所有标量级数的空间，每个级数使得收敛)上的双向平移没有特征向量却有谱值。

在无穷维空间，有界算子的谱系总是非空的，这对无界自共轭算子也成立。通过检验谱测度，任何有界或无界的自共轭算子的谱可以分解为绝对连续，离散，和孤立部分。指数增长或者衰减是连续谱的例子，而振动弦驻波是离散谱例子。氢原子是两种谱都有出现的例子。氢原子的束缚态对应于谱的离散部分，而离子化状态用连续谱表示。图3用氯原子的例子作了解释。

特征向量-应用

薛定谔方程

一个变换用微分算子代表的特征值方程的例子是量子力学中的时不变薛定谔方程

HΨE = EΨE

其中H是哈密尔顿算子，一个二阶微分算子而ΨE是波函数，对应于特征值E的特征函数，该值可以解释为它的能量。

图4. 一个氢原子中的一个电子的束缚态所对应的波函数可以视为氢原子哈密尔顿算子的一个特征向量，也是角动量算子的一个特征向量。它们对应于可以解释为它们的能量(递增：n=1,2,3,...)和角动量(递增：s, p, d,...)的特征值。这里画出了波函数绝对值的平方。更亮区域对应于位置测度的更高概率密度。每幅图的中心都是原子核，一个质子但是，在这个情况我们只寻找薛定鄂方程的束缚态解，就像在量子化学中常做的那样，我们在平方可积的函数中寻找ΨE。因为这个空间是一个希尔伯特空间，有一个定义良好的标量积，我们可以引入一个基集合，在其中ΨE和H可以表示为一个一维数组和一个矩阵。这使得我们能够用矩阵形式表达薛定鄂方程。(图4代表氢原子哈密尔顿算子的最低能级特征函数。）

狄拉克记法经常在这个上下文中使用，以强调状态的向量和它的表示，函数ΨE之间的区别。在这个情况下，薛定鄂方程写作

并称是H的一个本征态(H有时候在入门级课本中写作)，H被看作是一个变换（参看观测值）而不是一个它用微分算子术语进行的特定表示。在上述方程中，理解为通过应用H到得到的一个向量。

特征向量-分子轨道

在量子力学中，特别是在原子物理和分子物理中，在Hartree-Fock理论下，原子轨道和分子轨道可以定义为Fock算子的特征向量。相应的特征值通过Koopmans定理可以解释为电离势能。在这个情况下，特征向量一词可以用于更广泛的意义，因为Fock算子显式地依赖于轨道和它们地特征值。如果需要强调这个特点，可以称它为隐特征值方程。这样地方程通常采用迭代程序求解，在这个情况下称为自洽场方法。在量子化学中，经常会把Hartree-Fock方程通过非正交基集合来表达。这个特定地表达是一个广义特征值问题称为Roothaan方程。

特征向量-因子分析

在因素分析中，一个协变矩阵的特征向量对应于因素，而特征值是因素负载。因素分析是一种统计学技术，用于社会科学和市场分析、产品管理、运筹规划和其他处理大量数据的应用科学。其目标是用称为因素的少量的不可观测随机变量来解释在一些可观测随机变量中的变化。可观测随机变量用因素的线性组合来建模，再加上“残差项。

特征向量-特征脸是特征变量的例子特征脸

在图像处理中，脸部图像的处理可以看作分量为每个像素的辉度的向量。该向量空间的维数是像素的个数。一个标准化面部图形的一个大型数据集合的协变矩阵的特征向量称为特征脸。它们对于将任何面部图像表达为它们的线性组合非常有用。特征脸提供了一种用于识别目的的数据压缩的方式。在这个应用中，一般只取最大那些特征值所对应的特征脸。

特征向量-惯量张量

在力学中，惯量的特征向量定义了刚体的主轴。惯量是决定刚体围绕质心转动的关键数据。

特征向量-应力张量

在固体力学中，应力张量是对称的，因而可以分解为对角张量，其特征值位于对角线上，而特征向量可以作为基。因为它是对角阵，在这个定向中，应力张量没有剪切分量；它只有主分量。

特征向量-图的特征值

在谱系图论中，一个图的特征值定义为图的邻接矩阵A的特征值，或者（更多的是）图的拉普拉斯算子矩阵I ? T ? 1 / 2AT ? 1 / 2，其中T是对角阵表示每个顶点的度数，在T ? 1 / 2中，0用于取代0 ? 1 / 2。图的主特征向量用于测量其顶点的中心度。Google的PageRank算法就是一个例子。www图的修正邻接矩阵的主特征向量的分量给出了页面评分。

特征向量-备注

^ T. W Gorczyca, Auger Decay of the Photoexcited Inner Shell Rydberg Series in Neon, Chlorine, and Argon, 第18次X射线和内壳层进程国际会议的摘要，芝加哥，1999年8月23-27日。

^ 在这个上下文，只考虑从一个向量空间到自身的线性变换。

^ 因为所有线性变换保持零向量不变，它不作为一个特征向量。

I seek not to know the answers, but to understand the questions.

海森堡不確定性原理的矩陣證明

Posted on 04/25/2013 by ccjou

本文的閱讀等級：高級
在量子力學裏，不確定性原理^[1](uncertainty principle) 表明：粒子的位置與動量不可同時被確定，位置的不確定性 $\Delta Q$ 與動量的不確定性 $\Delta P$ 遵守不等式

$\displaystyle \Delta Q\cdot\Delta P\ge\frac{\hbar}{2}$ ，

其中 $\hbar=h/(2\pi)$ ， $h$ 是普朗克常數^[2](Planck constant)。海森堡^[3] (Werner Heisenberg) 在1927年發表的一篇論文裏，寫下

$\Delta Q\cdot\Delta P\approx h$ 。

雖然他提到這公式可以從對易關係 (稍後將說明) 推導出來，但他並沒有寫出相關的數學論證，也沒有給予 $\Delta Q$ 和 $\Delta P$ 確切的定義。同年，肯納德 (Earl Hesse Kennard) 首先證明不確定關係不等式，1929年羅伯森 (Howard Percy Robertson) 又從對易關係推導出相同的結論^[4]。本文使用現代讀者熟悉的矩陣分析方法證明不確定性原理。由於我對量子力學幾乎一無所知，在提到相關知識的時候均盡量列舉引用出處以方便讀者參照查詢。文中若有錯誤，敬請不吝指正。

Werner Heisenberg (1901-1976) From http://www.robertphoenix.com/content/wp-content/uploads/2012/11/Werner_Heisenberg_14.jpeg

物理學家費曼 (Richard P. Feynman) 說^[5]：

量子力學所描述的，概括一切物質行為的細節，尤其對那些發生在原子尺度的部分特別管用。非常微小東西的行為，跟我們的直接經驗完全不同，它們的行為既非波動性質，亦非粒子性質。也不完全像雲、撞球檯上的球、或彈簧上的砝碼。總而言之，完全不像我們日常看見過的任何東西。

隨後又補充解釋：

因為所有人生經歷、思維直覺，無不是從大尺度事物來的。我們的經驗會隨時提醒我們，大尺度事物會如何因應，但是微小尺度的事物所採取的因應方式迥然不同。所以我們學習它的時候，必須強迫自己用抽象或想像的方式，而絕不能到我們直接經驗中去尋找聯想。

既然我們無法從直接經驗去尋找聯想量子世界的運行方式，物理學家選擇何種假設或模型，在很大的程度上取決於個人的想像力與信念。1925年海森堡思考著量子力學的建立基礎，他憶起愛因斯坦曾說^[6]：「你的理論決定了你所觀察到的。」這句話啟發他換一個角度看待問題，之後他建議^[4]：只有在實驗裏能夠測量到的物理量，稱為可觀察量 (observable)，才可以用理論描述其物理行為。當然，並不是所有的物理學家都抱持相同的看法。量子力學的另一位創建者薛丁格 (Erwin Schrödinger) 起初也不認同海森堡的想法 (但很快地，薛丁格於1926年證明波力學與矩陣力學是量子力學的兩種等價描述^[6])。儘管未獲得眾多同行的支持，海森堡、玻恩 (Max Born) 與約當 (Pascual Jordan) 仍於1925年共同創立矩陣力學^[7](matrix mechanics)，大膽假設關於運動的古典概念不適用於量子層級。在原子裏的電子並不是運動於明確的軌道，而是模糊不清，無法觀察到的軌域。海森堡棄絕任何涉及粒子運動軌道的詳細計算，因為運動軌道是無法直接觀察到的。他選擇另一條道路：專注於研究電子躍遷時，所發射的光的離散頻率和強度。他計算出代表位置和動量的無限矩陣，這些矩陣能夠正確地預測電子躍遷所發射出光波的強度^[4]。

海森堡從電子轉移的現象歸納出矩陣力學的前提^[7]：所有的可觀察物理量都可以用矩陣表示。矩陣的特徵值集合是該物理量可能出現的觀察值。對一般人來說，這絕對是一個聞所未聞的神秘主義。在經驗世界裏，我們頂多用一個隨機變數來表示可觀察量，譬如，投擲骰子可能出現的點數，可是觀察量本身怎麼會跟矩陣扯上關係？況且在工程科學中，矩陣不都是拿來表示線性系統嗎？但量子力學不同於過去的典範，物理學家總是各憑本事編造出許多奇怪的想法企圖描繪原子層次的行為。不論信與不信，我們暫且接受這個瘋狂的假設。因為實驗測量的結果是實數，Hermitian 矩陣的特徵值又都是實數 ( $A$ 是 Hermitian 若 $A^\ast=A$ ，見“特殊矩陣 (9)：Hermitian 矩陣”)，所以我們可以用 Hermitian 矩陣來代表可觀察量。例如，Hermitian 矩陣

$A=\left[\!\!\begin{array}{rcc} 3&0&i\\ 0&1&0\\ -i&0&3 \end{array}\!\!\right]$

有特徵值 $1, 2, 4$ ，說明 $A$ 所代表的物理量僅能觀察到這三個值。如果實驗結果是某一特徵值，那麼對應的特徵向量表示在實驗測量之後的一瞬間物理系統所處的特徵狀態。(所謂特徵狀態代表甚麼意思呢？稍後說明。) Hermitian 矩陣的特徵向量是複向量，上例為 $(0,1,0)^T, (1,0,i)^T, (1,0,-i)^T$ 。這些特徵向量位於向量空間 $\mathbb{C}^3$ ，但並不是永遠如此，只是剛巧物理量以 $3\times 3$ 階矩陣表示而已。舉例來說，設想一個粒子在直線上自由運動，我們用矩陣 $X$ 來代表它的位置。由於粒子可能在直線上的任何點，觀察值可以是 $X$ 的無窮多個特徵值所成的集合其中任一元素 $x$ 。這麼說來， $X$ 必定是一個無限矩陣 (即無限大階數的矩陣)，此矩陣的行空間 (特徵向量存在的空間) 也是一個無限維的向量空間，它的正式名稱叫做 Hilbert 空間 (見 “從幾何向量空間到函數空間”)。在 Hilbert 空間中，向量具有無限維數，無限矩陣改稱為算子 (operator)；我們仍然可以計算內積，因此向量長度與正交投影都有良好的定義。不過為方便解釋，以下我們只考慮有限維的幾何座標空間 $\mathbb{C}^n$ ，讀者不妨想像 $n$ 是一個極大的數或令 $n\to\infty$ 。

為了弄清楚海森堡的想法，我們必須知道 Hermitian 矩陣的一些基本性質。在一量子系統中，令 $n\times n$ 階 Hermitian 矩陣 $A$ 代表一個可觀察量，其特徵值為 $\lambda_i$ ，對應特徵向量 $\mathbf{x}_i$ ， $i=1,\ldots,n$ 。這些特徵向量構成一組完整的標準正交基底 (orthonormal basis) $\{\mathbf{x}_1,\ldots,\mathbf{x}_n\}$ ，也就是說， $\mathbf{x}_i^\ast\mathbf{x}_j=\delta_{ij}$ ， $i,j=1,\ldots,n$ ，其中 $\delta_{ij}$ 是 Kronecker 記號， $\delta_{ij}=1$ 若 $i=j$ ， $\delta_{ij}=0$ 若 $i\neq j$ (見“實對稱矩陣可正交對角化的證明”)。令 $n$ 維複向量 $\mathbf{x}$ 代表量子系統處在的狀態，稱為量子態^[8](quantum state)。若量子系統處在某個特徵狀態， $\mathbf{x}=\mathbf{x}_i$ ，物理量 $A$ 的觀察值即是特徵值 $\lambda_i$ 。但當量子系統不在特徵狀態時， $\mathbf{x}\neq\mathbf{x}_i$ ， $i=1,\ldots,n$ ，量子態 $\mathbf{x}$ 又具有甚麼意義呢？將量子態 $\mathbf{x}$ 表示成

$\mathbf{x}=c_1\mathbf{x}_1+\cdots+c_n\mathbf{x}_n$ 。

上式左乘 $\mathbf{x}_i^\ast$ 可得 $c_i=\mathbf{x}_i^\ast\mathbf{x}$ ，此即 $\mathbf{x}$ 在 $\mathbf{x}_i$ 的正交投影值，或者說， $c_i$ 是 $\mathbf{x}$ 在 $\mathbf{x}_i$ 的成分或權重。量子態 $\mathbf{x}$ 的物理意義可以從組合權重 $\{c_i\}$ 來解釋。量子力學稱複數 $c_i$ 為機率幅^[9](probability amplitude)，原因是 $\vert c_i\vert^2=\overline{c_i}c_i$ 即為觀察值 $\lambda_i$ 出現的機率。據此，量子態 $\mathbf{x}$ 的組合係數絕對值平方 $\vert c_1\vert^2,\ldots,\vert c_n\vert^2$ 表示在該狀態下，量子系統所有可能出現的觀察值 $\lambda_1,\ldots,\lambda_n$ 的機率分配，故有歸一性 $\sum_{i=1}^n\vert c_i\vert^2=1$ 。因為 $\{\mathbf{x}_1,\ldots,\mathbf{x}_n\}$ 是一標準正交集，

$\displaystyle\begin{aligned} \Vert\mathbf{x}\Vert^2&=\mathbf{x}^\ast\mathbf{x}=\left(\sum_{i=1}^nc_i\mathbf{x}_i\right)^\ast\left(\sum_{j=1}^nc_j\mathbf{x}_j\right)\\ &=\sum_{i=1}^n\sum_{j=1}^n\overline{c_i}c_j\mathbf{x}_i^\ast\mathbf{x}_j=\sum_{i=1}^n\sum_{j=1}^n\overline{c_i}c_j\delta_{ij}=\sum_{i=1}^n\vert c_i\vert^2,\end{aligned}$

可知量子態 $\mathbf{x}$ 也滿足歸一性 $\Vert\mathbf{x}\Vert^2=1$ 。當系統處在量子態 $\mathbf{x}$ ，如何計算可觀察量 $A$ 的期望值呢？出乎意料外，答案是二次型 $\mathbf{x}^\ast A\mathbf{x}$ 。使用特徵方程 $A\mathbf{x}_j=\lambda_j\mathbf{x}_j$ ，可得

$\displaystyle\begin{aligned} \mathbf{x}^\ast A\mathbf{x}&=\left(\sum_{i=1}^nc_i\mathbf{x}_i\right)^\ast A\left(\sum_{j=1}^nc_j\mathbf{x}_j\right)=\left(\sum_{i=1}^nc_i\mathbf{x}_i\right)^\ast\left(\sum_{j=1}^nc_jA\mathbf{x}_j\right)\\ &=\left(\sum_{i=1}^nc_i\mathbf{x}_i\right)^\ast\left(\sum_{j=1}^nc_j\lambda_j\mathbf{x}_j\right)=\sum_{i=1}^n\sum_{j=1}^n\overline{c_i}c_j\lambda_j\mathbf{x}_i^\ast\mathbf{x}_j\\ &=\sum_{i=1}^n\sum_{j=1}^n\overline{c_i}c_j\lambda_j\delta_{ij}=\sum_{i=1}^n\lambda_i\vert c_i\vert^2.\end{aligned}$

為簡化符號，可觀察量 $A$ 在量子態 $\mathbf{x}$ 的期望值表示為

$\left\langle A\right\rangle=\mathbf{x}^\ast A\mathbf{x}$ 。

類似機率學的標準差 $\sigma=\sqrt{E[(x-\mu)^2]}=\sqrt{E[x^2-\mu^2]}$ ，其中 $\mu=E[x]$ 是隨機變數 $x$ 的期望值，我們定義可觀察量 $A$ 在量子態 $\mathbf{x}$ 的不確定性 (uncertainty) 如下：

$\Delta A=\sqrt{\mathbf{x}^\ast(A^2-\left\langle A\right\rangle^2I)\mathbf{x}}$ 。

關於矩陣力學基礎知識的討論至此告一段落，不確定性原理的證明即將展開。

1925年，玻恩閱讀了海森堡的論文後，發現位置與動量無限矩陣有一個很顯著的關係──它們不可交換 (或說不互相對易)^[4,7]。不確定性原理是下列不互相對易關係的直接結果：

$[Q,P]=i\hbar I$ ，

其中 $Q$ 是位置矩陣， $P$ 是動量矩陣， $I$ 是單位矩陣， $i=\sqrt{-1}$ 。上式中， $[Q,P]$ 稱為交換子 (commutator，或稱對易算符)，定義為

$[Q,P]=QP-PQ$ 。

注意，上述不互相對易關係僅適用於無限矩陣 (即量子力學的算符)。若 $P$ 和 $Q$ 是 $n\times n$ 階有限矩陣，使用跡數循環不變性 (見“跡數的性質與應用”)，

$\hbox{tr}(QP-PQ)=\hbox{tr}(QP)-\hbox{tr}(PQ)=\hbox{tr}(QP)-\hbox{tr}(QP)=0$ ，

但 $\hbox{tr}(i\hbar I)=ni\hbar$ 。在無限維空間，跡數未必定義完善，因為它不一定收斂。下面介紹的證法大致依循諾伊曼 (John von Neumann) 的推演方式^[10]。第一個步驟設法創造一個引入交換子 $[Q,P]$ 的數學式。諾伊曼選擇了 $(Q\mathbf{x})^\ast(P\mathbf{x})$ 。因為 $Q$ 和 $P$ 是 Hermitian 矩陣， $Q^\ast=Q$ ， $P^\ast=P$ ，可得

$\begin{aligned} (Q\mathbf{x})^{\ast}(P\mathbf{x})-(P\mathbf{x})^{\ast}(Q\mathbf{x})&=\mathbf{x}^{\ast}Q^{\ast}P\mathbf{x}-\mathbf{x}^{\ast}P^{\ast}Q\mathbf{x}\\ &=\mathbf{x}^\ast QP\mathbf{x}-\mathbf{x}^\ast PQ\mathbf{x}\\ &=\mathbf{x}^\ast(QP-PQ)\mathbf{x}\\ &=\mathbf{x}^\ast [Q,P]\mathbf{x}=\mathbf{x}^\ast i\hbar I\mathbf{x}\\ &=i\hbar\Vert\mathbf{x}\Vert^2=i\hbar, \end{aligned}$

其中最後一個等式係因量子態滿足歸一性 $\Vert\mathbf{x}\Vert^2=1$ 。根據內積性質 $(P\mathbf{x})^\ast(Q\mathbf{x})=\overline{(Q\mathbf{x})^\ast(P\mathbf{x})}$ (見“內積的定義”)，我們可以得到另一個表達式：

$(Q\mathbf{x})^\ast(P\mathbf{x})-(P\mathbf{x})^\ast (Q\mathbf{x})=2i\mathrm{Im}\{(Q\mathbf{x})^\ast (P\mathbf{x})\}$ ，

其中 $\mathrm{Im}\{z\}$ 代表複數 $z$ 的虛部。比較上面兩式，即有

$\displaystyle \mathrm{Im}\{(Q\mathbf{x})^{\ast}(P\mathbf{x})\}=\frac{\hbar}{2}$ 。

為了產生不確定性關係，下一個步驟必須引進不等式。複數的絕對值大於或等於它的虛部，即 $\vert z\vert\ge \mathrm{Im}\{z\}$ ，所以

$\displaystyle \left|(Q\mathbf{x})^{\ast}(P\mathbf{x})\right|\ge\frac{\hbar}{2}$ 。

接著分離不等式裡面的 $Q$ 和 $P$ 。使用 Schwarz 不等式 (見“Schwarz 不等式”)

$\Vert Q\mathbf{x}\Vert\cdot\Vert P\mathbf{x}\Vert\ge\left|(Q\mathbf{x})^{\ast}(P\mathbf{x})\right|$

可得

$\displaystyle \Vert Q\mathbf{x}\Vert\cdot\Vert P\mathbf{x}\Vert\ge\frac{\hbar}{2}$ 。

現在我們已經抵達整個推導過程的中途休息站，眼前的不等式是對易關係 $[Q,I]=i\hbar I$ 的必然結果。海森堡不確定關係不等式與這個不等式有完全相同的形式，暗示我們剩下的工作不過就是將不確定性套入其中。

定義一組新的位置矩陣和動量矩陣：

$Q'=Q-\left\langle Q\right\rangle I,~~~P'=P-\left\langle P\right\rangle I$ ，

其中 $\left\langle Q\right\rangle$ 和 $\left\langle P\right\rangle$ 分別代表在量子態 $\mathbf{x}$ ，位置 $Q$ 和動量 $P$ 的期望值。明顯地， $Q'$ 和 $P'$ 也是 Hermitian 矩陣。利用交換子運算法則 (見“交換子與可交換矩陣”)：
(1) $[A,I]=[I,A]=0$
(2) $\left[A+B,C+D\right]=[A,C]+[B,C]+[A,D]+[B,D]$
(3) $[kA,B]=[A,kB]=k[A,B]$ ， $k$ 是一純量，
可導出

$\begin{aligned} \left[Q',P'\right]&=[Q-\left\langle Q\right\rangle I,P-\left\langle P\right\rangle I]\\ &=[Q,P]-\left\langle Q\right\rangle[I,P]-\left\langle P\right\rangle[Q,I]+\left\langle Q\right\rangle\left\langle P\right\rangle[I,I]\\ &=[Q,P]=i\hbar.\end{aligned}$

我們發現 $Q'$ 和 $P'$ 也遵守對易關係，以 $Q'$ 取代 $Q$ ， $P'$ 取代 $P$ ，即得

$\displaystyle \Vert Q'\mathbf{x}\Vert\cdot\Vert P'\mathbf{x}\Vert\ge\frac{\hbar}{2}$ 。

這個不等式其實就是不確定性原理。何以如此？利用 $Q'$ ， $\left\langle Q\right\rangle$ 和 $(\Delta Q)^2$ 的定義，

$\begin{aligned} \Vert Q'\mathbf{x}\Vert^2&=(Q'\mathbf{x})^\ast(Q'\mathbf{x})=\mathbf{x}^\ast (Q')^\ast Q'\mathbf{x}=\mathbf{x}^\ast (Q')^2\mathbf{x}\\ &=\mathbf{x}^\ast(Q-\left\langle Q\right\rangle I)^2\mathbf{x}=\mathbf{x}^\ast(Q^2-2\left\langle Q\right\rangle Q+\left\langle Q\right\rangle^2 I)\mathbf{x}\\ &=\mathbf{x}^\ast(Q^2-\left\langle Q\right\rangle^2 I)\mathbf{x}=(\Delta Q)^2.\end{aligned}$

同樣地， $\Vert P'\mathbf{x}\Vert^2=(\Delta P)^2$ 。所以，

$\displaystyle \Delta Q\cdot\Delta P\ge\frac{\hbar}{2}$ 。

從以上推導我們知道不確定性原理並非源自實驗儀器的測量誤差，而是粒子內稟的量子性質，即位置與動量不互相對易關係。最後我引用維基百科關於不確定性原理「名稱」的一段論述當作本文的結語^[1]：

有很久一段時間，不確定性原理被稱為「測不準原理」，但事實上，不確定性原理是類波系統內秉的性質，與測量準確不準確並沒有關係 (請查閱本條目稍後觀察者效應一節)，因此，該譯名並未正確表達出這原理的內涵。另外，英語稱此原理為「Uncertainty Principle」，直譯為「不確定性原理」，並沒有「測不準原理」這種說法，其他語言與英語的情況類似，除中文外，並無「測不準原理」一詞。現今，在中國大陸的教科書中，該原理的正式譯名也已改為「不确定性原理」。

註解：
[1] 維基百科：不確定性原理，見「名稱」一節。
[2] 普朗克常數 $h$ 是量子力學的註冊商標，出現在普朗克關係式 $E=h\nu$ ，其中 $E$ 是粒子的能量， $\nu$ 是電磁波的頻率。普朗克常數與光速 $c$ 和萬有引力常數 $G$ 並稱為大自然的三個基本常數。詳見維基百科：普朗克常數。
[3] 關於海森堡 (Werner Heisenberg) 的生平介紹請見維基百科：維爾納‧海森堡。
[4] 維基百科：不確定性原理，見「歷史」一節。
[5] 費曼 (Richard P. Feynman) 著 Essentials of Physics Explained by Its Most Brilliant Teacher，中譯本《費曼的六堂Easy物理課》，師明睿譯，天下文化出版，2001年，頁153-155。
[6] 愛因斯坦對海森堡說的英譯文是：“It is the theory which decides what can be observed.” 見談測不準原理的起始，原標題是 Remarks on the Origin of the Relations of Uncertainty。
[7] 矩陣力學 (matrix mechanics) 是量子力學的一種表述形式，由海森堡、玻恩 (Max Born) 和約當 (Pascual Jordan) 於1925年提出。矩陣力學假設 (1) 所有的可觀察物理量都可以用 Hermitian 矩陣表示，(2) 一個物理量的觀察值是該矩陣的特徵值，(3) 一個物理系統的位置矩陣 $Q$ 與動量矩陣 $P$ 滿足對易關係： $QP-PQ=i\hbar I$ 。對易關係無法從古典物理推導出來，它是一個全新的假定，只有實驗才能確認它的真實性。見維基百科：矩陣力學。
[8] 量子態 (quantum state) 描述量子系統的狀態。在量子系統裏，量子態由所有可觀察量的機率分布所定義。見維基百科：量子態。
[9] 機率幅 (probability amplitude) 是一個描述粒子的量子行為的複函數。當描述粒子的位置時，機率幅是一個波函數，表達為位置的函數。在量子力學中，機率幅常用 $\Psi$ 表示， $\vert \Psi\vert^2=\Psi^\ast\Psi$ 則代表機率幅的機率密度函數。見維基百科：機率幅。
[10] 諾伊曼 (John von Neumann) 所著 Mathematical Foundations of Quantum Mechanics，1949年出版，頁233-235

phymath999

Friday, February 6, 2015

只取最大那些特征值所对应的特征脸, 数学可以证明特征值求解要比方程本身求解还难

海森堡不確定性原理的矩陣證明

求矩阵E的特征值和特征向量？_百度知道

特征向量- 王朝網路- wangchao.net.cn

特征值和特征向量物理意义_百度文库

：D - 維基知識

音乐快递：兔子在兔子更多的地方繁殖更快：该特征值方程的解 ...

音乐快递：特征向量就是相应的基理想化的兔子的总数在兔子 ...

矩阵的形象化解析(经典)_百度文库

No comments:

Post a Comment