本征态: 对于某一类作用,微观状态被作用后本身不变 - 新浪博客
blog.sina.com.cn/s/blog_a582cd40010164gr.html - 轉為繁體網頁
2012年6月24日 - 实验表明,对于别的一些状态(非本征态),宏观世界和它的作用将使它变为很多本征态中的一个,但究竟具体是哪一个,这将是不能预先确定的,但变 ...phymath999: 宏观世界和它的作用将使它变为很多本征态中的 ...
phymath999.blogspot.com/2014/05/blog-post_2258.html轉為繁體網頁
2014年5月3日 - 的作用, 用力学量E , x , P …等表示我们获得的宏观输出。 ... 实验表明,对于别的一些状态(非本征态) ,宏观世界和它的作用将使它变为很多本征 ...[PDF]从三十年代冯'诺伊曼等人的工作开始, 量子力学逐渐被 ... - 物理
www.wuli.ac.cn/fileup/PDF/19760509.pdf轉為繁體網頁
1976年5月9日 - 但对于别的一些状态(非本征态), 宏观世界和它. 的作用将使它变为很多本征态中的一个, 但究竟具体. 是哪一个,这将是不能预先确定的,但变成某 ..."lorenz對稱"
对称性的意思是当事物处在一个态时观测其处于另一个态的概率不依赖于观察者的时空位置与运动状态(也即坐标架与惯性系的选择)。由此 Wigner 推出对于不同观察者的态之间通过一个幺正或反幺正算符转换。特别地,不同时刻的观察者观察到的态也由一个幺正算符转换。
狭义相对论基本公理——所有保持平直的时空坐标变换需满足任意两个事件的时空间隔不变性。
Measuring Information: Shannon versus Popper
哈耶克说的,“总是使一个国家变成人间地狱的东西,恰恰是人们试图将其变成天堂。”
概率论公理化的三种学派的讨论
概率论公理化的三种学派的讨论
|||
概率论公理化的三种学派的讨论
网上看到相关的信息如下:
目前概率论公理化有三种学派。
1921年以凯恩斯(J.M.Keynes)为代表的“主观概率学派”。凯恩斯主张把任何命题都看作事件,例如“明天将下雨”,“土星上有生命”等等都是事件,人们对这些事件的可信程度就是概率,而与随机试验无关,通常称为主观概率
1928年以冯.米泽斯(von Mises)为代表的“客观概率学派”,
米泽斯定义事件的概率为该事件出现的频率的极限,而作为公理就必须把这一极限的存在作为第一条公理,通常称为客观概率.
1933年以柯尔莫哥洛夫为代表的“以测度论为基础的概率公理化体系。
目前,绝大多数教科书都是采用柯尔莫哥洛夫的概率公理化体系.
我的看法是,凯恩斯的看法有点绝对,这些事件的概率虽然是不为随机实验决定的,但是,这些事件的概率本身在一定的程度上影响(但是不决定)随机实验的结果。所以,应该说随机实验反映了这些事件内在的概率,假如其概率是确定的话。
而客观概率学派则是走向另外一个极端,过度看重随机实验的结果,随机试验的结果本身并不完全由事件的概率决定,它也有脱轨的时候。而且我们不能指望做无限次实验,有时候想在完全相同的条件下重复试验都困难,更不用说许多次。
柯尔莫哥洛夫给出的概率公理化体系,我只是参考网上的归结出来的那些,但是觉得那几条完全无法得出事件的概率值来。当然或许是我孤陋寡闻。恳请批评指正。
对于随机试验,我的看法是,它既受到事件概率的影响,也受到随机性本身的偶然性影响,所以,我们很难将它们分离出来,特别是到底受到了后者多大的影响,我们是不知道的,因为它本身是未知的。还有,两者对于实验结果的影响大小还与实验的次数等因素有关系。
Measuring Information: Shannon versus Popper
Abstract
Philosophers have a notion of the epistemic "strength" or "boldness" of a proposition, or rather its information content, and perhaps have an idea from Popper or Wittgenstein that it can be measured using probability. This short note explains the advantage of the Shannon information measure used in information science, in terms of logical consistency and with a minimum of formalism.
The issue of how to quantify information has come up frequently in the literature on inductive logic (e.g. Hempel & Oppenheim (1948), Carnap and Bar-Hillel (1952)). What is agreed is that information content is a quantity attaching to propositions. When you receive the message "Supper's ready", we say that strictly the information content attaches not to that utterance but to the proposition that you have received that utterance. As such, information content can be represented as a mathematical function over sentences of a logical language, much like probability or utility functions. The common theme between different proposed measures is the principle, found in Popper and in Wittgenstein, that a proposition is informative according to how many possible situations it excludes. Popper and others have insisted that the information content of H is measured by 1-P(H) where P(H) is the logical probability of H . This means that the information content is just the ratio of possibilities excluded by H to all logical possibilities. This measure meets a basic requirement of a measure of information: namely that if B is a proposition which has a non-negligible probability given A, then A&B is more informative than A, because it is true in fewer situations. AvB, on the other hand, has less content.
However, the question of how to measure information has been decisively solved by Shannon (Shannon and Weaver (1949)) in a paper that is crucial to what is now called information technology. To show what is at stake, I will explain how Shannon derived his measure and then show why Popper's measure is unacceptable.
Shannon based his measure of information on requirements of logical consistency. Indeed his work is very similar to the Cox proof of Bayesian probability. Like Cox, Shannon set out consistency requirements on a type of formal system as mathematical constraints on a function, then showed that the functions satisfying these constraints differ only trivially from each other, and hence that there is really only one consistent measure.
To illustrate what is meant by a consistency constraint in this context, imagine that you receive two successive messages through the same channel each consisting of one letter of the alphabet. Imagine separately that you receive a single message consisting of two letters of the alphabet. It should be clear that these are different descriptions of the same situation, hence any truly propositional measure should give them the same value. Put another way, measures of information content should give the same value to "You receive 'A' followed by 'B'" as to "You receive 'AB'."
At the moment, we are concerned with measuring the information content of the message 'AB', not in the sense of how much is tells us about a particular issue, but in the sense of how much information would be required to unambiguously transmit the message down a hypothetical communication channel. This intrinsic complexity or information content is referred to in the theory as its self-information, whereas the extent to which a message is informative about whether or not H is called its cross-information on H.
With Popper, let us take 1-P(H) to measure information content, where each letter is taken as equally probable. In the first situation, the information content of the first message, whichever letter it turns out to be, is 25/26. Since there are two individual messages, the total information received is 50/26. In the second situation, the total number of possible messages (two-letter sequences) is 676. Whatever message you receive will logically exclude 675 of these messages, so the total information received is 675/676. Thus we have reached two entirely different values depending on how a particular message was described, and this serves to illustrate the problem with using a non-Shannonian measure.
Shannon's measure itself uses logarithms. The information content of a particular message A, called its surprisal, is -logP(A). It does not matter which base we use for the logarithm so long as we are consistent: this is the sense in which there are different mathematically allowable measures, but they differ so trivially that we can consider them to be one measure. When base two is used, the resulting unit of information is called a 'bit' (short for "binary digit"), a bit being the maximum amount of information that can be conveyed by the answer to a yes/no question.
In the above example, each one-letter message has a surprisal of -log21/26 = 4.7 bits, and a two-letter message has a surprisal of -log21/676 = 9.4 bits. Hence we see that the additivity requirement (that the content of two one-letter messages is that same as that of the one two-letter message) is satisfied.
Like probability and utility, information content is a propositional measure which obeys the expectation principle. If we do not know what a particular message is, but that it is the answer to a question whose possible answers are A1, A2, A3,..., An then the information content is the expectation of the information content over all possible messages, in other words the sum of -P(Ai)logP(Ai).
An information source or communications channel can be thought of as a question with one of a (possibly very large) set of possible answers.
This defines a crucial term in information theory: entropy. Calculating the expected information content for the set of possible answers to an inquiry gives us the entropy for that inquiry, which can informally be regarded as a measure of uncertainty attached to it. If a subject is irrevocably certain about an issue, in that one answer is given probability one while all others have probability zero, then the entropy is zero. When we have a finite set of mutually exclusive hypotheses with no information to discriminate between them, then entropy is at its maximum when all are given the same probability./p>
Information versus Probability
Since information content measures are simply descriptions of probability functions, it may seem that we do not gain anything by talking of information content that can not be expressed in terms of probability. However, information theory gives us a perspective on inferential tasks that we can miss if we talk entirely in terms of probability. To illustrate this I will consider a standard example. In a particular city, it rains three days out of four. The local weatherman makes a forecast for rain half the time, no rain the rest of the time. His predictions are such that he correctly predicts rain half the time, correctly predicts no rain a quarter of the time and incorrectly predicts no rain the remaining quarter of the time. This can be expressed in the following table of probabilities.
Rain | No Rain | |
---|---|---|
Rain forecast | 50% | 0% |
No Rain forecast | 25% | 25% |
We can evaluate how informative the forecaster is about the weather by measuring the reduction in entropy: a perfectly reliable forecaster would reduce the entropy to zero. The entropy resulting from consulting the weather forecaster is zero if the forecast is for rain and one bit if the forecast is no rain. Since these are equally likely, the overall entropy is half a bit. If we do not consult the weatherman, then given just the 75% chance of rain on any one day, the entropy is .811 . So the benefit of this forecaster is a .311 bit reduction in entropy.
By measuring the information content of the predictions in this way, we have a basis for comparison of weather forecasters (or other predictors) which is more meaningful than merely taking the probability of them being correct.
References
Carnap, R. and Y. Bar-Hillel., 1953. "An outline of a theory of semantic information." British Journal for the Philosophy of Science, 4, 147-157.
Hempel, C. G. and P, Oppenheim., 1948. "Studies in the logic of explanation." Philosophy of Science, 15: 135-175.
Shannon, C. E. and W. Weaver, 1949. The mathematical theory of communication. Urbana, Illinois: University of Illinois Press.
我自己阅读的一点理解
2014-10-18 23:06:18 来自: 七星之城
The Quantum Theory of Fields Volume I:Foundations的评论 5
提示: 有关键情节透露
The Quantum Theory of Fields Volume I:Foundations的评论 5
提示: 有关键情节透露
Weinberg量子场论阅读笔记 ——写在四读Weinberg I之后
------------------
一
前些天备考规范场论,顺带着把Weinberg复习了一遍,发现不仅以前熟悉的公式遗忘速度惊人,连前几次读时令我拍案叫绝欲罢不能的思想都已然在脑中模糊不清,于是痛定思痛打算写个笔记。下面的每节是我对Weinberg各章主要内容的理解。
二
对称性的意思是当事物处在一个态时观测其处于另一个态的概率不依赖于观察者的时空位置与运动状态(也即坐标架与惯性系的选择)。由此 Wigner 推出对于不同观察者的态之间通过一个幺正或反幺正算符转换。特别地,不同时刻的观察者观察到的态也由一个幺正算符转换。
狭义相对论基本公理——所有保持平直的时空坐标变换需满足任意两个事件的时空间隔不变性。
我们将洛伦兹对称性导致的幺正算符做小量展开时的一阶项系数标记为H、P、J、K,群所需满足的结合律使得这四个系数算符需要满足一定的关系——实际上是他们之间的对易关系。我们根据这些对易关系而赋予四个算符的物理含义,例如依据 [H,P]=[H,K]=0 我们将 H 命名为能量,依据 [Ji,Jj]=i Jk 而将 J 命名为角动量。
什么是粒子?我们将单粒子态定义为动量算符 P 的本征态。
由于四动量平方(P^2)在适当正时洛伦兹变换下不变,因而具有不同的四动量的粒子态可分为六类。
上述的分类并不完全,因为同种四动量分类下的粒子依然可以有不同的态。继续分类的方法是,对有正静能的粒子,在其保持动量不变的群(即 little group)下变换时,我们将洛伦兹变换后仍是同一组态的线性组合时的这个集合归类为拥有某个自旋的粒子。因为矩阵是群表示的理想工具,因而我们数学上可以将粒子态表示为分量形式,相应的洛伦兹变换算符即具有矩阵的形式。
零质量粒子可能拥有连续本征值的属性,但因目前尚未发现具有此属性的粒子,因此所有已知的零质量粒子只能用运动方向上的角动量(即螺旋度)来分类。如果正负同螺旋度的粒子可以相互转换(例如具有空间反演对称性的电磁相互作用中的光子),从而被归类为一种粒子。由三维旋转群的双连通性质,可以得出自旋必须是整数或半整数。
除开弱相互作用,强相互作用和电磁相互作用都具备空间反演对称性,因而有相应守恒量,此守恒量称为宇称。
三
自由多粒子态由单粒子态直积得到。
粒子实验中的入态和出态由包含相互作用的完整哈密顿量定义。
将哈密顿量拆成自由场和相互作用场后可以写出从自由场出入态(即动量本征态)导出相互作用场出入态的严格的Lippmann-Schwinger方程。
入态和出态的内积称为 S 矩阵,可由此定义 S 算符。代入Lippmann-Schwinger方程可以得到 S 矩阵的波恩近似。
哈密顿量密度对类空间隔对易的条件以及相互作用势的平滑性条件保证了散射过程的 S 矩阵的洛伦兹对称性。
同位旋对称性、全局对称性、空间反演对称性都会反映在 S 矩阵的对称性上,并导致相应守恒量。
从 S 矩阵可以导出实验上观测的出射粒子动量角分布,即微分散射截面。
S 矩阵满足一个微分方程,可以通过微扰展开得到解,所以 S 矩阵可以写成哈密顿量的时序积分形式。
由 S 矩阵的幺正性可以得到光学定理、玻尔兹曼H定理、细致平衡条件。
四
出于数学上构造哈密顿量的目的,我们抽象地定义升降算符(谐振子可以为此抽象框架提供一个具体的实现模型,但并不必要,实际上整套量子场论的叙述可以完全脱离谐振子的语境)。升降算符的对易关系由定义和交换对称性(或反对称性)即可得到。
因果性原理要求类空间隔的事件不相互影响,此即S矩阵需满足的集团分解原理(Cluster decomposition principle)。
由于任何哈密顿量均可由升降算符构成的基组合得到,而且当系数满足恰有一个三维动量守恒 δ 函数时哈密顿量必然满足集团分解原理,因此我们喜爱用升降算符来构造哈密顿量。
因为我们可以直接用粒子数算符乘上单粒子态能量做积分写出自由场(即无相互作用)中的哈密顿量,这就对自由场哈密顿量的形式给出了限制。
我们需要拉格朗日框架的理由是:在拉格朗日框架中能够有效地分析对称性。
作用量泛函的全局对称性导致守恒流算符,其相应荷的全空间积分守恒,此即诺特定理。
五
由于升降算符在洛伦兹变换下有复杂的变换公式,因此一个用升降算符构造标量哈密顿量密度的便捷方法是先将升降算符分别组合成洛伦兹变换公式较为简单的升降场算符(指产生场算符ψ-和湮灭场算符ψ+)。
升降场算符在洛伦兹变换下的性质限制了升降场算符的变换矩阵必须是洛伦兹群的表示,于是我们依照洛伦兹群表示给不同的升降场算符分类。
一组不同的场算符在洛伦兹变换后结果可能是原有算符的线性组合,我们将这样一组场算符归类为同一个场的不同分量。
升降场算符尚且不能直接满足类空间隔对易条件(或反对易条件),一个可行的办法是将升降场算符(ψ-和ψ+)线性组合得到场算符(ψ),场算符则可以满足类空间隔对易条件(或反对易条件)。因此我们通过场算符来方便地构造的哈密顿量密度可以满足类空间隔对易条件。
场算符作用在真空态上得到的态的物理意义是一个在此时空点的粒子,但注意其波函数是延展的,仅仅在非相对论近似下此波函数才是δ函数。
场算符表示的粒子的自旋只能与场算符需要满足的类空间隔对易条件或反对易条件中的一个数学上相容,此即导致了自旋-统计定理。
这样构建的场算符自动满足Klein-Gordon方程。
螺旋度是零质量粒子在运动方向上的角动量,严格的螺旋度概念只对零质量粒子适用。手性是按照场算符属于洛伦兹群的左手表示还是右手表示来定义。对于零质量粒子,左手(右手)螺旋度的粒子对应左手(右手)手性的场算符。
全局对称性导致的荷守恒要求哈密顿量密度与荷算符(Q)对易,这可以通过要求荷算符与场算符对易而达到,这一要求导致对此载荷粒子存在相应的反粒子。
用场算符构造的具有洛伦兹标量哈密顿量密度的理论自动满足 CPT 定理。
对自旋大于等于1/2的零质量粒子,其场算符数学上不能满足前述的简单的洛伦兹变换公式,而有一个多出项。一个方案是由此场算符(Aμ)构造消去了多出项的反对称张量场算符(Fμν)作为出发点,但这样的理论无法具有长程相互作用。另一个方案是通过设定拉格朗日量密度满足相应的规范对称性来保证 S 矩阵的洛伦兹不变性,详见第八部分。
类似地,引力子需要满足对应的广义协变对称性以包含长程作用力。由于现实中未发现更高阶的守恒张量,因而高自旋粒子不能具有长程相互作用。
六
S 矩阵微扰计算的积分无穷级数公式可以可视化为费曼图。
传播子是公式展开中对应于连接两个顶点的项,计算出来后包含一个非协变的奇异项(起源于时序算符的奇异性),此奇异项会被相互作用哈密顿量中对应的奇异项消除。
S 矩阵傅里叶变换后得到的动量空间S矩阵在数学上更便捷。
七
因为标量场算符和其时间导数满足的等时对易关系令人联想起分析力学中相应的对易关系,因此我们类似地定义正则坐标和正则动量算符,证明其满足哈密顿方程,从而建立起场论的哈密顿框架。
根据已知的自由场哈密顿量用升降算符表示的形式,我们可以写出一个用正则变量表示的哈密顿量密度(会有一个真空能的差别)。
通过勒让德变换,我们可以从哈密顿框架转换到拉格朗日框架。
升降算符对易关系、正则坐标算符对易关系、哈密顿方程、拉格朗日方程,四者相互等价,传统讲法则是以拉格朗日方程作为建立量子场论的出发点。
当我们要从自由场转换到相互作用场时,只需在哈密顿框架或拉格朗日框架中自由场的对应量上加上相互作用标量算符项即可。
我们无法直接解出有相互作用的场方程,因此我们转换到相互作用表象中,在此表象中场算符满足自由场中的场方程,从而可以解出。
一个满足平滑条件和洛伦兹不变性的拉格朗日量密度具有的散射过程的 S 矩阵满足洛伦兹不变性,而构造具有洛伦兹不变性的拉格朗日量密度数学上比较简单,这是我们偏爱朗格朗日框架的原因之一。
拉格朗日量自身的奇异性或者采取特定规范的处理会导致场方程出现奇异性。奇异性可能导致方程不完备或者传统的对易关系与场方程矛盾。相应的解决办法是选定规范条件,采用狄拉克对易子替代原有对易关系。
八
第五章中已提到,对自旋大于等于1/2的零质量粒子,其场算符在洛伦兹变换下有一个多出项,这一项会破坏哈密顿量密度的标量性质,破坏 S 矩阵的洛伦兹不变性。因为此多出项是一个算符的散度,因此一种可行的解决办法是让此多出项恰好是一个守恒流算符的散度,从而自然等于零,这就导致需要引入一个拥有局域对称性的场,称为规范场。载荷粒子场的局域对称变换和零质量粒子的洛伦兹变换多出项合称为规范变换。运用引入规范场的方法我们最终重新获得了拉格朗日量密度在洛伦兹变换以及规范变换下的不变性。
这样的构建方式以自旋大于等于1/2的零质量粒子对应场算符无法直接构建标量哈密顿量密度为出发点,而传统讲法则是以规范变换作为出发点。
规范不变性导致场方程不完备,解决方法是固定规范。固定规范后传统的对易关系不能被满足,我们使用狄拉克括号的方法修改对易关系。随后即可通过勒让德变换得出哈密顿量,再转入相互作用表象后即可算出传播子,写出费曼规则,量子电动力学模型即建成。
九
由正则变量对易关系可以导出路劲积分公式。如果哈密顿量是正则动量的二次函数,则可积出动量部分得到关于作用量泛函的路劲积分。
通过一系列形式运算可以得出费曼规则和传播子。
对于费米子场,相应正则变量满足反对易关系,因此路劲积分需要的正则变量的本征值也应当满足反对易关系。复数不能满足此关系,因此引入Grassmann代数和其上的微积分。
十
对称性让我们能够得出一些非微扰结论。
考虑圈图对出腿、入腿函数(u*和u)的影响会导致它们与我们最初费曼规则的定义有所不同,对称性分析指出考虑所有非微扰效应后的出腿、入腿函数与最初费曼规则的出腿、入腿函数只相差一个因子(此因子实际上发散),因此我们修改场算符的定义——此即场算符的重整化——来使出腿、入腿函数回归到最初费曼规则的定义(因此算散射过程时外腿上的圈不用计算)。此场算符的重整化体现在自由场算符在升降算符上展开时比原先多了重整化系数,也就是说这个原先可以自由选择的系数现在要被确定。
粒子质量可以自然地采用单粒子态四动量的平方来定义,这个质量与自由场拉格朗日量密度中出现的质量是同一个。当有相互作用时,这套质量的定义方案不易实现,因此我们用考虑所有非微扰效应后的传播子的极点位置来定义。
重整化导致我们重新将用裸场算符写成的拉格朗日量密度作为基本公理,其中的质量、耦合常数也应当是裸质量、裸耦合常数。
理论上我们可以直接使用裸拉格朗日量密度(L)计算散射过程,因为实际上如此计算的总散射过程并没有发散。每一项表观的“发散困难”仅仅是由公式中有无穷大系数的裸场算符、裸质量、裸耦合、以及需要考虑的外腿上的圈、需要考虑的无穷多个图造成的,这个表观的“发散”本质上是源于我们不能直接处理这里的数学困难。
为避开前述的数学困难,我们人为地将裸拉格朗日量密度拆开成两部分(L=L0+L1),第一部分(自由场项)通过将无穷大扔给抵消项的方式而使其导出的传播子不发散,第二部分(包括抵消项和相互作用项)全部被视作相互作用,使用微扰方法计算(因此实际上这个微扰项远比第一部分大;尽管如此,数学却是很奇妙的)。运用这样的数学技巧我们就通过分离不同的无穷大再相互抵消而避开了我们前述的数学上直接处理多个无穷大的困难。
耦合常数随能标的跑动源于耦合常数定义的不同。裸耦合常数具有确定值,而重整化的耦合常数中的重整化系数依赖于其定义所在能标,因此不同能标定义的重整化耦合常数可以联系起来,进而求出相应的β函数。
Ward 恒等式是另一个重要的非微扰结论,其来源不过是将n点格林函数与(n-1)点格林函数联系起来。此恒等式的历史价值在于绕开二圈图计算中的重叠发散(overlapping divergence)问题。
电子的“自旋磁矩”这个词有一定误导作用,电子的磁矩确实与自旋有关,因为不同自旋的粒子有其特定的电磁作用顶点。但一般而言,粒子的磁矩和自旋之间没有简单的关系。例如中微子自旋同为二分之一,但磁矩为零。
十一
Pauli-Villars正规化和维数正规化的计算方法都是面向一个目的——定量地处理无穷大计算并让他们相互抵消,因此表征这个无穷大的量具体是什么——截止能量还是维度——并不重要。用能量截止处理无穷大会遇到规范对称性被破坏的麻烦,因此维度正规化更为推荐。
当费曼图中有电子外腿时,即会出现红外发散,这源于外腿电子发射低能光子。
十二
有效场论的概念源于1935年将光子间一圈相互作用近似成电磁场拉格朗日量的高阶项,其数学上等效于在路径积分中将低能下不会产生的重粒子(在光子相互作用中是正负电子)的场算符预先做积分,最后留下不含重粒子的有效拉格朗日量。
即使是对传统上的不可重整化理论,我们也可以通过在拉格朗日量中添加完整所有满足对称性的项、然后同时调整所有的自由参数来可消去发散。在这个意义下,量子引力理论可能也能够写成量子场论的形式,并且在低能近似下成为有效场论。
有效场论为现实中场论的拉格朗日量密度中只出现可重整项的现象提供了一个可能的(仅仅是可能)解释方法:不可重整项中包含的负能量量纲耦合常数中的能量量纲来自于更高能标的未知粒子,在低能下被压低而致其效应可忽略。
更重要的是,在这样的理解下,写出一个理论的拉格朗日量密度不再是依靠纯粹的猜测或类比经典模型,而是一开始就在拉格朗日量密度中写出所有保证哈密顿量具有有限下界、满足洛伦兹对称性和规范对称性(我们确实不知道为何有特定的规范对称性)的所有可能的项,然后在有效场论的意义下丢掉被压低的所有不可重整项。正是这样的构建方式,解释了为何拉格朗日量、或哈密顿量、或场方程采取了我们如今已经默认了的形式。正是这样的一整套思路,超越了以类比的方式写出场方程作为出发点的大多数量子场论书。
十三
在有内线软光子的圈图中,我们也会遇到红外发散,为解决此问题我们引入界定虚软光子(即内线软光子)三维动量大小的上、下限参数。其中上限参数与圈图计算中的光子动量下限衔接,下限参数用于表征无穷大。
对于实软光子引起的红外发散,我们引入探测器阈值、遗漏能量两个参数。探测器阈值是光子探测器能保证记录事例时的光子能量阈值,遗漏能量是所有未被探测到的光子的能量总和。
上述四个参数中,探测器阈值与遗漏能量参数会真正保留在散射截面的最后结果中,其中令探测器阈值参数趋于零将引起散射截面实质的发散,这是可以直观理解的。而上限参数与圈图计算设定的光子能量下限相抵消,下限参数与实软光子积分中取的下限相抵消。
在量子电动力学中,假设电子静质量为零,则出射态同时有动量平行的电子和软光子会导致红外发散。类似地,量子色动力学中动量平行的强子与软胶子也导致红外发散。这种情况甚至要求散射过程的入态也要受到无红外发散条件的限制。这可以通过我们实验上区分动量平行的零质量粒子时遇到的困难、以及制备动量平行的零质量粒子入态总是呈喷流形态来解释。
仅使用对称性即可证明光散射公式的低能极限只与粒子的质量和电荷有关。
本章最后一节演示了使用量子场论的工具可神奇地推导出经典场论的库伦势。
十四(第一章 历史)
根据狄拉克的回忆,薛定谔在他得到薛定谔方程之前,也在Klein和Gordon之前率先发现了Klein-Gordon方程,但因为Klein-Gordon方程给出了错误的氢原子精细结构而放弃了它,直到几个月后他意识到其非相对论近似得出的薛定谔方程还有一定价值。
狄拉克1928年对描述电子的狄拉克方程的发现及其随后取得的巨大成功有很大巧合的成分:狄拉克寻找一个新方程的动机是解决Klein-Gordon方程的负概率困难,但如今我们清楚负概率问题源于错误地为解赋予概率意义,Klein-Gordon方程本身对于描述零自旋粒子也很有意义。狄拉克通过负质量解预言反粒子存在的方式不仅会引起与负能海相关的一系列问题,而且实质上也仅仅是一个富有启发性的比喻,他不能解释载荷玻色子也有相应反粒子的事实。狄拉克方程预言了正确的电子磁矩的零阶项,但在方程中添加一个Pauli term完全可以将电子磁矩调到任意大小,实际上最终是可重整性限制了量子场论中Pauli term的存在。
结语
一不小心就写了几千字,细想来,读此书或许也排得上整个大学中最重要的几件事了。
我是一个寻求感性理解的人。学习场论的前几年,我都为场论中的词汇感到困惑:什么是升降算符(我以前一直以为升、降算符是一个实际的操作)?谐振子的激发态为什么就是粒子?传播子是什么含义?为什么要把好好的场变成算符?为什么你们的拉格朗日量都长得这么奇怪?二分之一自旋是什么(小学看霍金时就百思不得其解)?维数正规化为什么不是扯蛋?
对这些概念的理解和思考严重地阻碍了我的学习,尤其是当思考的终结点时常停在不可言说的量子态的概念和测量的坍缩问题上时。
如今,有幸能有Weinberg的指点,在几年的沉淀后,我现在也终于能感到量子场论实实在在地站立在一个公理般的基础上,我相信它是这个世界的描述,相信它的构建逻辑,正如本书前言所说:相信它是所有融合了量子力学和狭义相对论的理论在低能近似下必将拥有的形式。
回想2011年秋在天文班自习室初读本书的时候,那时只能看得懂第一章。如今结合了这些全新的理解,更是感慨万千。
第一次做这些计算的前辈,不会如今天的我们这样理解得如此深刻,他们一些人的推理错误百出,甚至觉得这些计算不过是个玩笑。这个场面是如此的似曾相识。即使在贝克莱大主教的批判声中无言以对,整个19世纪的数学家依然建立起了宏伟的分析大厦。即使马赫原理的主旨已不能与后来的广义相对论相吻合,也不可否认爱因斯坦早年从中所汲取的营养。
多年的乱象中总会涌现曲折的前进,逻辑的困难阻挡不住精巧的尝试。人类思维正因这从现象的凌乱中发现模式的能力而愈见其无可比拟。
------------------
一
前些天备考规范场论,顺带着把Weinberg复习了一遍,发现不仅以前熟悉的公式遗忘速度惊人,连前几次读时令我拍案叫绝欲罢不能的思想都已然在脑中模糊不清,于是痛定思痛打算写个笔记。下面的每节是我对Weinberg各章主要内容的理解。
二
对称性的意思是当事物处在一个态时观测其处于另一个态的概率不依赖于观察者的时空位置与运动状态(也即坐标架与惯性系的选择)。由此 Wigner 推出对于不同观察者的态之间通过一个幺正或反幺正算符转换。特别地,不同时刻的观察者观察到的态也由一个幺正算符转换。
狭义相对论基本公理——所有保持平直的时空坐标变换需满足任意两个事件的时空间隔不变性。
我们将洛伦兹对称性导致的幺正算符做小量展开时的一阶项系数标记为H、P、J、K,群所需满足的结合律使得这四个系数算符需要满足一定的关系——实际上是他们之间的对易关系。我们根据这些对易关系而赋予四个算符的物理含义,例如依据 [H,P]=[H,K]=0 我们将 H 命名为能量,依据 [Ji,Jj]=i Jk 而将 J 命名为角动量。
什么是粒子?我们将单粒子态定义为动量算符 P 的本征态。
由于四动量平方(P^2)在适当正时洛伦兹变换下不变,因而具有不同的四动量的粒子态可分为六类。
上述的分类并不完全,因为同种四动量分类下的粒子依然可以有不同的态。继续分类的方法是,对有正静能的粒子,在其保持动量不变的群(即 little group)下变换时,我们将洛伦兹变换后仍是同一组态的线性组合时的这个集合归类为拥有某个自旋的粒子。因为矩阵是群表示的理想工具,因而我们数学上可以将粒子态表示为分量形式,相应的洛伦兹变换算符即具有矩阵的形式。
零质量粒子可能拥有连续本征值的属性,但因目前尚未发现具有此属性的粒子,因此所有已知的零质量粒子只能用运动方向上的角动量(即螺旋度)来分类。如果正负同螺旋度的粒子可以相互转换(例如具有空间反演对称性的电磁相互作用中的光子),从而被归类为一种粒子。由三维旋转群的双连通性质,可以得出自旋必须是整数或半整数。
除开弱相互作用,强相互作用和电磁相互作用都具备空间反演对称性,因而有相应守恒量,此守恒量称为宇称。
三
自由多粒子态由单粒子态直积得到。
粒子实验中的入态和出态由包含相互作用的完整哈密顿量定义。
将哈密顿量拆成自由场和相互作用场后可以写出从自由场出入态(即动量本征态)导出相互作用场出入态的严格的Lippmann-Schwinger方程。
入态和出态的内积称为 S 矩阵,可由此定义 S 算符。代入Lippmann-Schwinger方程可以得到 S 矩阵的波恩近似。
哈密顿量密度对类空间隔对易的条件以及相互作用势的平滑性条件保证了散射过程的 S 矩阵的洛伦兹对称性。
同位旋对称性、全局对称性、空间反演对称性都会反映在 S 矩阵的对称性上,并导致相应守恒量。
从 S 矩阵可以导出实验上观测的出射粒子动量角分布,即微分散射截面。
S 矩阵满足一个微分方程,可以通过微扰展开得到解,所以 S 矩阵可以写成哈密顿量的时序积分形式。
由 S 矩阵的幺正性可以得到光学定理、玻尔兹曼H定理、细致平衡条件。
四
出于数学上构造哈密顿量的目的,我们抽象地定义升降算符(谐振子可以为此抽象框架提供一个具体的实现模型,但并不必要,实际上整套量子场论的叙述可以完全脱离谐振子的语境)。升降算符的对易关系由定义和交换对称性(或反对称性)即可得到。
因果性原理要求类空间隔的事件不相互影响,此即S矩阵需满足的集团分解原理(Cluster decomposition principle)。
由于任何哈密顿量均可由升降算符构成的基组合得到,而且当系数满足恰有一个三维动量守恒 δ 函数时哈密顿量必然满足集团分解原理,因此我们喜爱用升降算符来构造哈密顿量。
因为我们可以直接用粒子数算符乘上单粒子态能量做积分写出自由场(即无相互作用)中的哈密顿量,这就对自由场哈密顿量的形式给出了限制。
我们需要拉格朗日框架的理由是:在拉格朗日框架中能够有效地分析对称性。
作用量泛函的全局对称性导致守恒流算符,其相应荷的全空间积分守恒,此即诺特定理。
五
由于升降算符在洛伦兹变换下有复杂的变换公式,因此一个用升降算符构造标量哈密顿量密度的便捷方法是先将升降算符分别组合成洛伦兹变换公式较为简单的升降场算符(指产生场算符ψ-和湮灭场算符ψ+)。
升降场算符在洛伦兹变换下的性质限制了升降场算符的变换矩阵必须是洛伦兹群的表示,于是我们依照洛伦兹群表示给不同的升降场算符分类。
一组不同的场算符在洛伦兹变换后结果可能是原有算符的线性组合,我们将这样一组场算符归类为同一个场的不同分量。
升降场算符尚且不能直接满足类空间隔对易条件(或反对易条件),一个可行的办法是将升降场算符(ψ-和ψ+)线性组合得到场算符(ψ),场算符则可以满足类空间隔对易条件(或反对易条件)。因此我们通过场算符来方便地构造的哈密顿量密度可以满足类空间隔对易条件。
场算符作用在真空态上得到的态的物理意义是一个在此时空点的粒子,但注意其波函数是延展的,仅仅在非相对论近似下此波函数才是δ函数。
场算符表示的粒子的自旋只能与场算符需要满足的类空间隔对易条件或反对易条件中的一个数学上相容,此即导致了自旋-统计定理。
这样构建的场算符自动满足Klein-Gordon方程。
螺旋度是零质量粒子在运动方向上的角动量,严格的螺旋度概念只对零质量粒子适用。手性是按照场算符属于洛伦兹群的左手表示还是右手表示来定义。对于零质量粒子,左手(右手)螺旋度的粒子对应左手(右手)手性的场算符。
全局对称性导致的荷守恒要求哈密顿量密度与荷算符(Q)对易,这可以通过要求荷算符与场算符对易而达到,这一要求导致对此载荷粒子存在相应的反粒子。
用场算符构造的具有洛伦兹标量哈密顿量密度的理论自动满足 CPT 定理。
对自旋大于等于1/2的零质量粒子,其场算符数学上不能满足前述的简单的洛伦兹变换公式,而有一个多出项。一个方案是由此场算符(Aμ)构造消去了多出项的反对称张量场算符(Fμν)作为出发点,但这样的理论无法具有长程相互作用。另一个方案是通过设定拉格朗日量密度满足相应的规范对称性来保证 S 矩阵的洛伦兹不变性,详见第八部分。
类似地,引力子需要满足对应的广义协变对称性以包含长程作用力。由于现实中未发现更高阶的守恒张量,因而高自旋粒子不能具有长程相互作用。
六
S 矩阵微扰计算的积分无穷级数公式可以可视化为费曼图。
传播子是公式展开中对应于连接两个顶点的项,计算出来后包含一个非协变的奇异项(起源于时序算符的奇异性),此奇异项会被相互作用哈密顿量中对应的奇异项消除。
S 矩阵傅里叶变换后得到的动量空间S矩阵在数学上更便捷。
七
因为标量场算符和其时间导数满足的等时对易关系令人联想起分析力学中相应的对易关系,因此我们类似地定义正则坐标和正则动量算符,证明其满足哈密顿方程,从而建立起场论的哈密顿框架。
根据已知的自由场哈密顿量用升降算符表示的形式,我们可以写出一个用正则变量表示的哈密顿量密度(会有一个真空能的差别)。
通过勒让德变换,我们可以从哈密顿框架转换到拉格朗日框架。
升降算符对易关系、正则坐标算符对易关系、哈密顿方程、拉格朗日方程,四者相互等价,传统讲法则是以拉格朗日方程作为建立量子场论的出发点。
当我们要从自由场转换到相互作用场时,只需在哈密顿框架或拉格朗日框架中自由场的对应量上加上相互作用标量算符项即可。
我们无法直接解出有相互作用的场方程,因此我们转换到相互作用表象中,在此表象中场算符满足自由场中的场方程,从而可以解出。
一个满足平滑条件和洛伦兹不变性的拉格朗日量密度具有的散射过程的 S 矩阵满足洛伦兹不变性,而构造具有洛伦兹不变性的拉格朗日量密度数学上比较简单,这是我们偏爱朗格朗日框架的原因之一。
拉格朗日量自身的奇异性或者采取特定规范的处理会导致场方程出现奇异性。奇异性可能导致方程不完备或者传统的对易关系与场方程矛盾。相应的解决办法是选定规范条件,采用狄拉克对易子替代原有对易关系。
八
第五章中已提到,对自旋大于等于1/2的零质量粒子,其场算符在洛伦兹变换下有一个多出项,这一项会破坏哈密顿量密度的标量性质,破坏 S 矩阵的洛伦兹不变性。因为此多出项是一个算符的散度,因此一种可行的解决办法是让此多出项恰好是一个守恒流算符的散度,从而自然等于零,这就导致需要引入一个拥有局域对称性的场,称为规范场。载荷粒子场的局域对称变换和零质量粒子的洛伦兹变换多出项合称为规范变换。运用引入规范场的方法我们最终重新获得了拉格朗日量密度在洛伦兹变换以及规范变换下的不变性。
这样的构建方式以自旋大于等于1/2的零质量粒子对应场算符无法直接构建标量哈密顿量密度为出发点,而传统讲法则是以规范变换作为出发点。
规范不变性导致场方程不完备,解决方法是固定规范。固定规范后传统的对易关系不能被满足,我们使用狄拉克括号的方法修改对易关系。随后即可通过勒让德变换得出哈密顿量,再转入相互作用表象后即可算出传播子,写出费曼规则,量子电动力学模型即建成。
九
由正则变量对易关系可以导出路劲积分公式。如果哈密顿量是正则动量的二次函数,则可积出动量部分得到关于作用量泛函的路劲积分。
通过一系列形式运算可以得出费曼规则和传播子。
对于费米子场,相应正则变量满足反对易关系,因此路劲积分需要的正则变量的本征值也应当满足反对易关系。复数不能满足此关系,因此引入Grassmann代数和其上的微积分。
十
对称性让我们能够得出一些非微扰结论。
考虑圈图对出腿、入腿函数(u*和u)的影响会导致它们与我们最初费曼规则的定义有所不同,对称性分析指出考虑所有非微扰效应后的出腿、入腿函数与最初费曼规则的出腿、入腿函数只相差一个因子(此因子实际上发散),因此我们修改场算符的定义——此即场算符的重整化——来使出腿、入腿函数回归到最初费曼规则的定义(因此算散射过程时外腿上的圈不用计算)。此场算符的重整化体现在自由场算符在升降算符上展开时比原先多了重整化系数,也就是说这个原先可以自由选择的系数现在要被确定。
粒子质量可以自然地采用单粒子态四动量的平方来定义,这个质量与自由场拉格朗日量密度中出现的质量是同一个。当有相互作用时,这套质量的定义方案不易实现,因此我们用考虑所有非微扰效应后的传播子的极点位置来定义。
重整化导致我们重新将用裸场算符写成的拉格朗日量密度作为基本公理,其中的质量、耦合常数也应当是裸质量、裸耦合常数。
理论上我们可以直接使用裸拉格朗日量密度(L)计算散射过程,因为实际上如此计算的总散射过程并没有发散。每一项表观的“发散困难”仅仅是由公式中有无穷大系数的裸场算符、裸质量、裸耦合、以及需要考虑的外腿上的圈、需要考虑的无穷多个图造成的,这个表观的“发散”本质上是源于我们不能直接处理这里的数学困难。
为避开前述的数学困难,我们人为地将裸拉格朗日量密度拆开成两部分(L=L0+L1),第一部分(自由场项)通过将无穷大扔给抵消项的方式而使其导出的传播子不发散,第二部分(包括抵消项和相互作用项)全部被视作相互作用,使用微扰方法计算(因此实际上这个微扰项远比第一部分大;尽管如此,数学却是很奇妙的)。运用这样的数学技巧我们就通过分离不同的无穷大再相互抵消而避开了我们前述的数学上直接处理多个无穷大的困难。
耦合常数随能标的跑动源于耦合常数定义的不同。裸耦合常数具有确定值,而重整化的耦合常数中的重整化系数依赖于其定义所在能标,因此不同能标定义的重整化耦合常数可以联系起来,进而求出相应的β函数。
Ward 恒等式是另一个重要的非微扰结论,其来源不过是将n点格林函数与(n-1)点格林函数联系起来。此恒等式的历史价值在于绕开二圈图计算中的重叠发散(overlapping divergence)问题。
电子的“自旋磁矩”这个词有一定误导作用,电子的磁矩确实与自旋有关,因为不同自旋的粒子有其特定的电磁作用顶点。但一般而言,粒子的磁矩和自旋之间没有简单的关系。例如中微子自旋同为二分之一,但磁矩为零。
十一
Pauli-Villars正规化和维数正规化的计算方法都是面向一个目的——定量地处理无穷大计算并让他们相互抵消,因此表征这个无穷大的量具体是什么——截止能量还是维度——并不重要。用能量截止处理无穷大会遇到规范对称性被破坏的麻烦,因此维度正规化更为推荐。
当费曼图中有电子外腿时,即会出现红外发散,这源于外腿电子发射低能光子。
十二
有效场论的概念源于1935年将光子间一圈相互作用近似成电磁场拉格朗日量的高阶项,其数学上等效于在路径积分中将低能下不会产生的重粒子(在光子相互作用中是正负电子)的场算符预先做积分,最后留下不含重粒子的有效拉格朗日量。
即使是对传统上的不可重整化理论,我们也可以通过在拉格朗日量中添加完整所有满足对称性的项、然后同时调整所有的自由参数来可消去发散。在这个意义下,量子引力理论可能也能够写成量子场论的形式,并且在低能近似下成为有效场论。
有效场论为现实中场论的拉格朗日量密度中只出现可重整项的现象提供了一个可能的(仅仅是可能)解释方法:不可重整项中包含的负能量量纲耦合常数中的能量量纲来自于更高能标的未知粒子,在低能下被压低而致其效应可忽略。
更重要的是,在这样的理解下,写出一个理论的拉格朗日量密度不再是依靠纯粹的猜测或类比经典模型,而是一开始就在拉格朗日量密度中写出所有保证哈密顿量具有有限下界、满足洛伦兹对称性和规范对称性(我们确实不知道为何有特定的规范对称性)的所有可能的项,然后在有效场论的意义下丢掉被压低的所有不可重整项。正是这样的构建方式,解释了为何拉格朗日量、或哈密顿量、或场方程采取了我们如今已经默认了的形式。正是这样的一整套思路,超越了以类比的方式写出场方程作为出发点的大多数量子场论书。
十三
在有内线软光子的圈图中,我们也会遇到红外发散,为解决此问题我们引入界定虚软光子(即内线软光子)三维动量大小的上、下限参数。其中上限参数与圈图计算中的光子动量下限衔接,下限参数用于表征无穷大。
对于实软光子引起的红外发散,我们引入探测器阈值、遗漏能量两个参数。探测器阈值是光子探测器能保证记录事例时的光子能量阈值,遗漏能量是所有未被探测到的光子的能量总和。
上述四个参数中,探测器阈值与遗漏能量参数会真正保留在散射截面的最后结果中,其中令探测器阈值参数趋于零将引起散射截面实质的发散,这是可以直观理解的。而上限参数与圈图计算设定的光子能量下限相抵消,下限参数与实软光子积分中取的下限相抵消。
在量子电动力学中,假设电子静质量为零,则出射态同时有动量平行的电子和软光子会导致红外发散。类似地,量子色动力学中动量平行的强子与软胶子也导致红外发散。这种情况甚至要求散射过程的入态也要受到无红外发散条件的限制。这可以通过我们实验上区分动量平行的零质量粒子时遇到的困难、以及制备动量平行的零质量粒子入态总是呈喷流形态来解释。
仅使用对称性即可证明光散射公式的低能极限只与粒子的质量和电荷有关。
本章最后一节演示了使用量子场论的工具可神奇地推导出经典场论的库伦势。
十四(第一章 历史)
根据狄拉克的回忆,薛定谔在他得到薛定谔方程之前,也在Klein和Gordon之前率先发现了Klein-Gordon方程,但因为Klein-Gordon方程给出了错误的氢原子精细结构而放弃了它,直到几个月后他意识到其非相对论近似得出的薛定谔方程还有一定价值。
狄拉克1928年对描述电子的狄拉克方程的发现及其随后取得的巨大成功有很大巧合的成分:狄拉克寻找一个新方程的动机是解决Klein-Gordon方程的负概率困难,但如今我们清楚负概率问题源于错误地为解赋予概率意义,Klein-Gordon方程本身对于描述零自旋粒子也很有意义。狄拉克通过负质量解预言反粒子存在的方式不仅会引起与负能海相关的一系列问题,而且实质上也仅仅是一个富有启发性的比喻,他不能解释载荷玻色子也有相应反粒子的事实。狄拉克方程预言了正确的电子磁矩的零阶项,但在方程中添加一个Pauli term完全可以将电子磁矩调到任意大小,实际上最终是可重整性限制了量子场论中Pauli term的存在。
结语
一不小心就写了几千字,细想来,读此书或许也排得上整个大学中最重要的几件事了。
我是一个寻求感性理解的人。学习场论的前几年,我都为场论中的词汇感到困惑:什么是升降算符(我以前一直以为升、降算符是一个实际的操作)?谐振子的激发态为什么就是粒子?传播子是什么含义?为什么要把好好的场变成算符?为什么你们的拉格朗日量都长得这么奇怪?二分之一自旋是什么(小学看霍金时就百思不得其解)?维数正规化为什么不是扯蛋?
对这些概念的理解和思考严重地阻碍了我的学习,尤其是当思考的终结点时常停在不可言说的量子态的概念和测量的坍缩问题上时。
如今,有幸能有Weinberg的指点,在几年的沉淀后,我现在也终于能感到量子场论实实在在地站立在一个公理般的基础上,我相信它是这个世界的描述,相信它的构建逻辑,正如本书前言所说:相信它是所有融合了量子力学和狭义相对论的理论在低能近似下必将拥有的形式。
回想2011年秋在天文班自习室初读本书的时候,那时只能看得懂第一章。如今结合了这些全新的理解,更是感慨万千。
第一次做这些计算的前辈,不会如今天的我们这样理解得如此深刻,他们一些人的推理错误百出,甚至觉得这些计算不过是个玩笑。这个场面是如此的似曾相识。即使在贝克莱大主教的批判声中无言以对,整个19世纪的数学家依然建立起了宏伟的分析大厦。即使马赫原理的主旨已不能与后来的广义相对论相吻合,也不可否认爱因斯坦早年从中所汲取的营养。
多年的乱象中总会涌现曲折的前进,逻辑的困难阻挡不住精巧的尝试。人类思维正因这从现象的凌乱中发现模式的能力而愈见其无可比拟。
No comments:
Post a Comment