。因此當我們面對真實熱力學系統時,如何處理複雜多體相互作用力成為統計力學中一必要課題。換句話說只有當我們理解如何有效處理複雜多體相互作用力,我們才可能發展合適的近似法來計算分配函數。例如因為短距離排斥力和長距離吸引力的相互競爭造成流體不同於固體的物理性質,讓我們知道要計算含有這些相互作用力的分配函數可以利用如平均場近似法來進行。
才可能發展合適的近似法來計算分配函數。例如因為短距離排斥力和長距離吸引力的相互競爭造成流體不同於固體的物理性質,讓我們知道要計算含有這些相互作用力的分配函數可以利用如平均場近似法來進行。
簡單說,長久以來統計力學的研究有大部分的努力便是在尋找合適的近似方法。因此人們針對其想要研究的課題發展出各類型近似法。如凡德瓦(van der Waals) 引入平均埸概念用以取代氣體中複雜的多體相互作用力,因此而得到著名的凡德瓦方程,真實氣體方程式[8]。然而雖然凡德瓦方程成功顯示三態變化的相圖和預測流體臨界點,可是卻無法成功預測且描述液體或者固體物理性質如微觀結構等。問題在於除了平均場法的粗糙外,還根源於凡德瓦人為引入假設氣體分子為堅硬球體來描述相變所需的額外條件-短距離排斥力。結果基於這額外條件太過粗糙並無法精細的重現真實短距離排斥力,使得這近似無法成功使用於需詳細短距離排斥力資訊的液體和固體的研究。在此之後,由於了解到短距離排斥力這項資訊對於研究液體或固體的重要性,人們發展出許多以此資訊為基礎的近似法如易行模型 (Ising model) 或液體理論Ornstein-Zernike 方程[2,9,10]。這些的努力基本上都是為了有效處理分配函數中短距離相互作用。在檢視這些近似法後,我們質疑是否存在一個系統性且不需額外人為假設的方法。
淺談最大熵原理和統計物理學
文/曾致遠
摘 要
在本文中我們將分別從物理和資訊論角度簡單討論熵的意義並介紹由 E.T.Jaynes 所奠立基礎的最大熵原理的原始理解。透過研究理想氣體,我們將闡述如何運用最大熵原理研究真實問題。同時藉由簡短分析統計物理學研究方法的問題,本文會給出最大熵原理更深層涵義及其應用。我們將稱之為最大熵原理第二延伸。最後透過真實氣體的研究, 我們將描繪出如何運用第二延伸來幫助我們思考及研究熱力學系統。
一、前言
長時間以來人們對於熵有物理上的理解也有資訊論 (Information theory) 上的理解。物理上的熵可以說明熱力學系統的演化方向、熱平衡的達成與否亦或是代表系統的混亂程度等[1-3]。在資訊論裡,資訊熵則代表量測資訊系統的可信度或者是忽略度[3,4]。然而不管物理或是資訊論上對熵的理解,實際上仍侷限於將熵視為一個量測的工具。正如我們可藉由系統能量的量測來了解系統狀態穩定與否。然而由於E.T.Jaynes的貢獻,熵可視為一種研究問題的推理工具,這一層意義才為人所知[5,6]。時至今日,我們雖然仍無法全盤了解熵的真正意含,但是我們也漸漸掌握熵在物理學尤其是統計物理中所能扮演的角色。通過本文淺顯的介紹,我們將從過去Jaynes對於熵的認識到今日我們的新發現,掀開熵的神秘面紗。
二、最大熵原理
l、什麼是最大熵原理
相信物理系學生和物理研究人員都很熟悉Clausius的經驗準則-熱力學第二定律[1,2]。該定律說明當一個熱力學系統達到最後熱平衡狀態時,該系統的熵會達到最大值。進一步的研究指出當系統的熵最大時, 其自由能將會成為最小。在此一特性的影響下人們慣性的傾向於將熵視為類似能量的巨觀物理量。此一物理量成為描述系統亂度的依據。此後由於 Gibbs 引入 ensemble 觀念,開啟微觀角度的研究方法因而奠立近代統計力學理解熵的理論基礎。在統計力學的觀念中,觀察者所量測到該系統熱力學性質之巨觀物理量諸如系統內能
或壓力,基本上只能以平圴值來表現。原因在於觀察者無法明確掌握系統微觀狀態。此種不確定性可以藉由機率分佈如canonical ensemble來量化表示。古典系統熵便可由此機率分佈來定義出不連續表示,
iiibPPkSΣ−=log , (1)
式中 代表波茲曼常數而為觀察者量測到系統處在狀態時的機率分佈。或者是連續表示, bkiPi
()(NNNbqPqPdqkS∫−=log )
)
)
, (2)
式中 代表空間和動量參數且表示觀察者量測到系統微觀狀態在範圍之機率份佈。對於量子統計系統, von Neumann 發現也同樣存在著類似形式來描述系統亂度。他給出熵密度矩陣 (density matrix) 型式, , (prqN,=Ndq)()NqPNdq(Nqρ
()(∫−NNNbqqdqkSρρlog, (3)
。不過這些熵的微觀知識,只讓我們了解到熵和用以描述熱力學系統物理量平均值的機率份佈之間存在一個關聯性。除此之外,我們並未獲得更多觀念上的突破。熵仍只是一個量測工具。
在 1940年代 Shannon 等人所發展的communication theory[4] 也就是後來漸趨成熟且多元化的Information theory 中,也同樣存在一相似特性的量。 Shannon 也稱之為熵,該量被視為量測雜訊如何影響系統中有用資訊的程度,我們定義為忽略度(degree of ignorance) 或者描述了選取系統資訊的傾向程度,稱之為傾向度(degree Of likelihood) 。通過 Cox 和 Skilling 完全不同的論證[5,7],資訊熵的機率分佈型式類似於熱力學熵。所不同者在於熱力學熵含有波玆曼常數。這樣的相似性直到 Jaynes 在1957 年的研究才證明這個相似其實是相等[5]。資訊熵和熱力學熵實際上具有相同的含意。Jaynes更進一步指出且證明最大熵原理 (maximum entropy principle) 並不只是單純的熱力學第二定律。他的研究指出,最大熵原理不具任何物理意義僅是一個推論的工具。藉由此原理,觀察者所擁有的相關系統資訊可以公正客觀的被編入特定機率分佈中來描述觀察者量測到系統微觀狀態的機會。下一小節中我們將以理想氣體為例具體說明在 Jaynes 的理解下,如何運用此一原理重現統計力學的結果並且通過這樣的方式我們將更能了解熵及最大熵原理在物理上的含義和功用。
2、實例一:理想氣體
假設一含有 N 個氣體分子的理想氣體已達熱平衡狀態,觀察者可量測到該氣體之總內能平均值為()∫=HqPdqENN (4)
其中Σ==NiimpH122 代表系統的漢米頓量(Hamiltonian),對於理想氣體而言僅有動能而無分
子間相互作用能而代表我們量測到系統微觀能量狀態等於時的 N 個分子機率分佈。關係式 (4),我們稱之為能量約束方程。它描述了我們對於理想氣體有關能量部分資訊的了解。無庸至疑的,我們也知道機率分佈需要滿足下列約束方程,(NqPH()1=Nqα()
)
)
()NqP)()(−HqqPNNNqP)
∫NPdq (5)
所有系統可能狀態的機率分佈總合要等於1。現在的問題是我們如何找到合適的可以同時滿足此二約束方程。因為唯有知道確實的機率分佈,我們才有辦法繼續研究此一系統的其它物理牲質。根據 Jaynes 的研究,最大熵原理告訴我們,當此系統達到熱力學平衡時,最有可能的機率分佈將會使熵達到最大值。具體來說,最大熵原理說明在約束方程 (4) 和 (5) 的條件考慮下最大化熵。此最大化過程可由變分原理來達成。首先我們分別針對式 (4) 和 (5) 引入兩拉格朗日因子(Lagrangian multipliers) 和 ,我們得到以下變分方程, (NqPβ(NqP
()[]01=−−−∫∫EPdqdqSNβαδ (6)
將式 (2) 代入上式後對 變分,我們可以得到(N)
)
()NqP
()HNeqPβα−−−=1 (7)
接著利用上兩約束方程,我們可分別決定拉格朗日因子和 。最後我們可得到最合適描述此理想氣體的機率分佈, αβ(NqP
()HNeZqPβ−=1 (8)
Z 為 N 個理想氣體分子分配函數 (partition function) 其值為, NHNVedqZΛ==∫−3β (9)
其中 2122ΛTmkBπ 為大家所熟知的熱力學波長。通過分配函數,系統的 Helmholtz 自由能可由下推導得出3loglogΛ−−VTNkZTkFbb (10)
此理想氣體的各種物理性質如壓力變化、相圖都可以由此依序獲得。這也就是統計力學中的canonical ensemble 方法。若我們獲取更多關於此一理想氣體的資訊,如觀察者所量測之總粒子數平均值可由粒子數密度來關聯時()(∫=rnqPdqNNN ) (11)
其中代表 N 顆氣體分子密度分佈。我們則可得到 grand canonical ensemble ()rn
()()()∫=−−rnrdHNNeZqPˆ31μβ (12)
分配函數NNVeZΛ=3βμ 而化學能可由約束方程 (11) 決定之。μ
通過此一例子,我們可了解不管是從物理理論如氣體運動方程的推論而得到的 canonical ensemble 或者 grand canonical ensemble 實際上與我們在考慮與系統相關約束方程下最大化熵的結果一致。這樣的結果揭示一個解決物理問題不一樣的思維。也就是當我們將所知的物理知識當作是一種資訊來處理,則 ”如何解決物理問題“這個課題可以重新解讀為如何有效誠實處理這些資訊。在這樣的解讀下最大熵原理已提供了最公正的解答。換言之,若我們擁有一系統充份相關的物理知識,如實驗結果,我們便可給出與之相關的約束方程。之後經由最大熵原理,我們便可公正客觀的決定關於這些物理知識最佳的機率分佈。經由 Jaynes 的證明,最大熵原理所扮演的角色不再僅是量測忽略度而已,它更是系統化將我們所知資訊編碼的推理工具。而且其應用不侷限於 canonical ensemble 或者是grand canonical ensemble而是取決於我們能獲得何種資訊。正因如此過去人們處理如統計物理學的既定觀念和方式將變為有所依循而且可避免許多針對特別問題由研究者所給定的人為假設。如此一來一個具有最小偏差的研究理論可於焉誕生。
三、統計物理學的問題
根據上述分析,使用最大熵原理作為統計力學的研究方法基本上可以區分成兩部分討論。第一部份為物理部份,唯有具備正確且相關於待研究系統的物理資訊,恰當約束方程才能給定。第二部分為處理物理資訊部份, 亦即利用最大熵原理將相關資訊做最佳編碼以得機率分佈。上一節中,理想氣體的研究便是最佳典範。當理想氣體的物理特性由約束方程 (4) 和 (5) 來描述後,canonical ensemble 的決定則單純的由最大熵原理來進行。其過程完全與物理無關。很明顯的因為最大熵原理恆真,canonical ensemble 是否恰當描述理想氣體則完全取決於約束方程的適當與否。而正如前所述由於約束方程的決定需要相關的物理知識協助來決定。如何抉擇有助系統研究的物理資訊是統計力學所需面對的第一個問題。不幸的是目前為止,並不存在一個系統化的方法來解答這個問題。大多數時候,人們還是只能依賴著嘗試錯誤法或是從經驗、實驗結果來判斷。這樣的課題關連到所謂“觀念形成”的探討,有待進一步研究來回答。因此本文將不會針對此問題來進行深入討論。
我們所關心的是除此之外,統計力學進一步所需面對的問題。當機率分佈如 canonical ensemble 由最大熵原理給定後,我們如何去解讀這些機率分佈以計算關於系統物理性質的期望值。換句話說,我們如何計算分配函數。對於理想氣體,由於氣體間不存在任何相互作用力,方程式 (9) 中分配函數的計算是易如反掌。但事實上由於複雜的相互作用力,真實系統的機率分佈是難以計算。對於這樣的
機率分佈我們稱之為不可計算機率分佈。因此當我們面對真實熱力學系統時,如何處理複雜多體相互作用力成為統計力學中一必要課題。換句話說只有當我們理解如何有效處理複雜多體相互作用力,我們才可能發展合適的近似法來計算分配函數。例如因為短距離排斥力和長距離吸引力的相互競爭造成流體不同於固體的物理性質,讓我們知道要計算含有這些相互作用力的分配函數可以利用如平均場近似法來進行。
簡單說,長久以來統計力學的研究有大部分的努力便是在尋找合適的近似方法。因此人們針對其想要研究的課題發展出各類型近似法。如凡德瓦(van der Waals) 引入平均埸概念用以取代氣體中複雜的多體相互作用力,因此而得到著名的凡德瓦方程,真實氣體方程式[8]。然而雖然凡德瓦方程成功顯示三態變化的相圖和預測流體臨界點,可是卻無法成功預測且描述液體或者固體物理性質如微觀結構等。問題在於除了平均場法的粗糙外,還根源於凡德瓦人為引入假設氣體分子為堅硬球體來描述相變所需的額外條件-短距離排斥力。結果基於這額外條件太過粗糙並無法精細的重現真實短距離排斥力,使得這近似無法成功使用於需詳細短距離排斥力資訊的液體和固體的研究。在此之後,由於了解到短距離排斥力這項資訊對於研究液體或固體的重要性,人們發展出許多以此資訊為基礎的近似法如易行模型 (Ising model) 或液體理論Ornstein-Zernike 方程[2,9,10]。這些的努力基本上都是為了有效處理分配函數中短距離相互作用。在檢視這些近似法後,我們質疑是否存在一個系統性且不需額外人為假設的方法。該方法只需要輸入系統初始資訊比如關於排斥力和吸引力資訊便可以產生恰當的近似法。從資訊論的角度審視,理論上的確存在這樣一個方法[11]。下一節中將針對我們的發現做一討論。
四、最大熵原理之第二延伸
1、基本概念
從資訊論的角度來看,利用近似法來計算真實系統分配函數這個方向,等同於利用一可計算且近似描述真實系統的機率分佈族群取代真實不可計算的機率分佈。更明確的說法是,我們希望找到一個其含有的資訊最接近真實系統而利用此族群可以最佳回答我們有興趣的問題。(NqP0 )
)
)
)
(NqP(NqP0
要具體化的從這個方向進行可以分做兩步驟來達成。第一步驟為尋找可資利用的族群,這個步驟類似於前一節中我們所面臨到的統計力學第一個問題。目前仍停留在利用錯誤嘗試法或是經驗法則來尋找而並無一系統化的方法。第二步驟則是在我們尋找到數個可計算的近似機率分佈族群而這些族群我們稱之為試驗族群(trial families) 都可部份正確描述我們所關心的系統後,我們該選擇那一個族群能最接近真實族群。我們如以這樣的方式重新詮釋,我們發現最大熵原理提供了最客觀最小偏差的解答。基本概念如下假設族群代表真實系統但我們無法計算, (NqP
()()()()NrnrrdqHNNdqZedqqPN∫=+−ˆ3;λαβα (13)
其不可計算的分配函數為
()()()()Ω−−≡∫=∫βλαβαedqeqZNrnrrdqHNNˆ3; (14)
最大熵原理告訴我們最好的試驗族群可用以取代真實族群,將會最大化系統的熵, ()NqP0(NqP )
[]()()( ) ∫−NNNNbqPqPqPdqkPPS000log(15)
假設關於試驗族群的漢米頓量為, 代表不同試驗族群的參數,該參數可用以取代複雜的相互作用力使得分配函數的計算成為可行如平均場。根據最大熵原理,描述該族群的機率分佈為()α;0NqHα
()()()()NrnrrdqHNNdqZedqqPN0ˆ030;∫=+−λαβα (16)
試驗族群的分配函數為
()()()()030ˆ0;Ω−−≡∫=∫βλαβαedqeqZNrnrrdqHNN (17)
式中 為拉格朗日因子用以限制在空間中任何一位置關於期望密度的約束方程為方程式(11)。將 (13) 和 (16) 代入 (15),利用變分原理,我們可得到最大熵, ()rλ [][]0000HHPPS−−Ω−Ω=β (18)
(式中0下代表期望值以試驗族群為基底來計算)。因為[]00≤PPS,最大化熵等同於在含蓋試驗族群中所有可調整參數,,下最小化,α00HH−0U+Ω=Ω,也就是UUΩ=Ω=ααmin (19)
如此我們便可找到最佳參數α 使得 可以取代。下一節我們便以真實氣體為例子做一簡單說明如何利用此原理產生可信度最高的近似法來研究真實氣體並指出其成功與失敗之處。()NqP0(NqP )
2、實例二:真實氣體
正如我們所知,我們無法理論解真實氣體的原因就在於氣體間相互作用力過於複雜使得真實氣體分配函數的計算難以進行。通過我們對真實氣體的理解,我們知道長距離吸引力是真實氣體之所以為氣體的主因。同時我們的物理知識告訴我們,恰當的平圴場為最簡單且能正確重現長距離吸引力的近似表示。基於這些資訊,當我們以平均場為參數,最大熵原理 (18) 告訴我們最佳的平均場為()rv0α ()()()'''30rnrrurdrv∫− (20)
式中代表真實分子間相互作用位能而('rru−)
()rn 代表在空間中位置最佳的氣體密度分佈。藉由計算最佳rUΩ 的 Legendre transformation,我們可找到最佳氣體密度分佈關係式, ()()()()()[]'''log33rnrrurdrrvrn∫−−−Λλβ (21)
利用 Percus-Yevick 近似[9],我們可將密度分佈形式轉換成放射分佈函數(radial distribution function ,該函數被視為一洽當形式來研究流體熱力學問題)。最後可經由 self-consistency 法數值解式 (21)。我們的數值計算結果和實驗數據的比較顯示式 (21) 正如我們預測可正確描述稀薄氣體結構。由於本文重點僅在於介紹最大熵原理在統計物理學所扮演的角色及意義,在此將不再詳細敘述所有的研究分析、結果。有興趣者請參考[11]。
這樣的使用最大熵原理尋找最好的可計算族群來正確取代真正的族群,從我們的研究顯示這樣的推理過程將會是最誠實的方法。因為整個過程只有初始資訊的建立紮根於物理知識。只要我們輸入正確的資訊,最大熵原理將給我們最正確關於該資訊的表述。在我們的研究中,我們輸入平均場來取代氣體間相互作用力結果卻顯示此最佳試驗族群只能用以描述稀薄氣體行為。因為最大熵原理恆真,我們的方法導致此不完全正確結果僅可以理解為由於初始資訊的不完整--平均場只適合描述長距離吸引力並無法恰當的代表短距離排斥力,因此我們的方法,最大熵原理將無法給出含有此排斥力資訊的最佳族群。換句話說,若我們嘗試研究短距離排斥力扮演重要角色的稠密氣體或是液體,除了平均場這一參數外我們將需要另一關於短距離排斥力參數。
五、結論
本文簡略的陳述出人們對熵的觀念從單純的系統亂度乃至於推論工具的演變和成型。通過理想氣體的簡單計算,我們知道了如何運用最大熵原理來解決統計物理問題。然而當我們面對真實系統時,我們發現最大熵原理的第一應用僅是將我們所無法處理的物理資訊如分子間相互作用力公正客觀的編碼成另一不可計算的機率分佈型式。解決之道再於我們如何找到最佳近似表示,最大熵原理第二延伸的發現則提供別於傳統方法,較為客觀有系統的方法產生最佳近似法。正如文中所提只要我們輸入正確相關的初始資訊,最大熵原理將公正客觀的給出最佳近似。但是這方法存在著和統計力學第一問題相同的困難,我們如何抉擇那一個資訊有用、相關且可計算。在真實氣體的例子當中, 我們可看到利用經驗法選取平均場理論作為初始資訊,雖然成功描述稀薄氣體行為,但我們卻喪失描述液體的能力。若我們有興趣研究液體物理性質,新的含有短距離排斥力初始資訊則需要加入考量。雖然關於最大熵原理第二延伸在統計物理上的適用性仍然在檢驗及建立當中[12],但我們仍然可以相信,熵不但可以是熱力學系統的亂度可以是資訊系統的可信度也同樣的可以是我們在研究問題
時一個公正客觀的推理方法。至於這樣的推論結果是否正確則取決於初始相關資訊是否關聯至我們有興趣的課題而與此方法完全無關。在不久的未來,相信我們可以更加確信這一思考方式在幫助我們做物理研究時的可行性及客觀性。屆時我們也將更了解什麼是熵。
致謝
作者要特別感謝紐約州立大學 Albany分校物理系教授 Ariel Caticha,藉由通過與他的討論和在他的指導下而導致本文中許多觀念的突破和建立。同時對於林怡倩小姐的多方幫忙一併致上感謝之意。
參考資料:
[1] L.D.Landau and E.M.Lishitz, Statistical Physics,by Addison-Wesley publishing company(1969).
[2] Herbert B.Callen, Thermodynamics and an introduction to Thermostatistics, by John Wiely and Sons(1985).
[3] Harry S. Robertson, Statistical Thermophysics,by P T R Prentice Hall(1993).
[4] C.E. Shannon and W. Weaver, The Mathematical Theory of Communication, by Univ. of Illinois Press, Urbana (1949).
[5] E.T.Jaynes, Phys. Rev. 106, 620 (1957).
[6] E.T.Jaynes, Phys. Rev. 108, 171 (1957).
[7] John Skilling, Maximum Entropy and Bayesian Methods in Science and Engineering vol.1, by Kiuwer Academic Publishers (1988).
[8] J.D.van der Waals, On the continuity of the Gaseous and Liquid State, ed. by J.S.Rowlinson (1988).
[9] Jean Pierre Hansen and Ian R. Mcdonald, Theory of Simple Liquids, by Academic Press (1986).
[10] V.I.Kalikmanov, Statistical Physics of Fluids, by Springer (2001).
[11] Chih-Yuan Tseng and Ariel Caticha, in Bayesian Inference and Maximum entropy methods in Science and Engineering, Ed. by Chris Williams, AIP Conf. Proc. 659,73 (2002).
[12] 目前我們正在進行的深入研究再探索最大熵原理第二延伸的完整架構及適用性。主要可包含兩部分,第一、在利用熱力學微擾理論[9,10]將短距離排斥力適當的引入情況下,如何使用最大熵原理第二延伸產生近似法及其適用性。第二、當第一部分的研究正確的考慮長短距離相互作用力的所造成的流體行為,是否我們的理論可正確無誤的顯示並解釋流體相變現象或臨界現象。
作者簡介
曾致遠(Richard Chih-Yuan Tseng) 現為紐約州立大學Albany分校物理系博士候選人, 研究領域主要為古典資訊論,量子資訊論及理論統計熱物理學,其中目前特別著重於從流體結構,相變,臨界現象及非平衡熱力學等物理現象理論研究古典資訊論在統計物理學中之意義及應用。
Email: ct7663@Albany.edu
No comments:
Post a Comment