Monday, January 20, 2014

entropy01 Kolmogorov 熵在拓樸空間裡做相似性的定義, 來描述連續映射的不確定性。在這過程中最大的困擾是: 一般拓樸空間中,並沒有一個相似於測度空間裡的「測度」的度量。

 Kolmogorov 熵在拓樸空間裡做相似性的定義, 來描述連續映射的不確定性。在這過程中最大的困擾是: 一般拓樸空間中,並沒有一個相似於測度空間裡的「測度」的度量。

http://blog.csdn.net/chendejiao/article/details/9614303

骰子是個材料均勻各面光滑的正六邊體


連續映射 too much, 測度 entropy, bio system looks for breakout

什么是熵-----第三部分


分类: 学习笔记 51人阅读 评论(0) 收藏 举报
3. 拓樸熵 (Topological Entropy)
連續性是自然界的基本屬性之一。數學上連續的概念是由拓樸來刻劃的。 拓樸空間 X 中由所有開集生成的 Borel 代數相當於測度空間裡的 $\sigma-$代數。 拓樸空間上的連續映射相當於測度空間裡的可測變換。 由此,我們可以將上節中所談的 Kolmogorov 熵在拓樸空間裡做相似性的定義, 來描述連續映射的不確定性。在這過程中最大的困擾是: 一般拓樸空間中,並沒有一個相似於測度空間裡的「測度」的度量。
假設 X 為一個緊緻 (compact) Hausdorff 空間, $f:X \rightarrow X$ 為一連續映射。由一般拓樸學知,存在有限開覆蓋 (finite open covering)。 設$\overline{A}=(A_1,\cdots,A_m)$,為 X 的一個有限開覆蓋,$\overline{A}$ 中能覆蓋 X 的子集族稱為 $\overline{A}$中的子覆蓋 (subcover)。 我們稱$\overline{A}$中的子覆蓋為「極小」(minimal),如果在 $\overline{A}$中沒有一個比它元素少的子覆蓋。 通常用 $N(\overline{A})$來代表$\overline{A}$中極小子覆蓋裡元素的個數。 若把極小子覆蓋裡的每一個開集當做一個「基本事件」,大家的概率都是$\frac{1}{N(\overline{A})}$,我們則得到一個樣本空間。它的 Shannon 熵可以很輕易的算出,是$\log{N(\overline{A})}$。我們稱這個數目為開覆蓋 $\overline{A}$ 的熵,同時用符號 H(A) 來表示。
當 $\overline{A}$ 為 X 上的開覆蓋時, $f^{-1}(\overline{A})=\{ f^{-1}(A) : A \in \overline{A} \}$ 也是一個開覆蓋。 若$\{ A_1, \cdots, A_{N(\overline{A})} \}$ 是 $f^{-1}(\overline{A})$ 的一個子覆蓋,但不一定是極小。所以,

\begin{displaymath}N(f^{-1}(\overline{A})) \leq N(\overline{A}) \eqno{(3-1)}\end{displaymath}


若 $\overline{A},\overline{B}$ 為 X 上的二個開覆蓋, 則 $\overline{A}\vee\overline{B}$ 代表 $\{A \cap B \vert A \in \overline{A} ,B \in \overline{B}\}$ 這個開覆蓋。若 $\{A_1,\cdots, A_n \}$ 是一個 $\overline{A}$ 的子覆蓋 $\{ B_1,\cdots,B_M\}$ 是 $\overline{B}$ 的一個子覆蓋, 則 $\{A_i \cap B_j: i=1,\cdots,N, j =1 ,2,\cdots,M \}$ 是 $\overline{A}\vee\overline{B}$ 的一個子覆蓋。 因此, $N(\overline{A} \vee \overline{B}) \leq N(\overline{A})N(\overline{B})$ 以及

\begin{displaymath}H(\overline{A} \vee \overline{B}) \leq H(\overline{A})+H(\overline{B})\eqno{(3-2)}\end{displaymath}


我們還是用 $\bigvee_{i=0}^{n-1}f^{-i}(\overline{A})$ 來代表 $\overline{A} \vee f^{-1}(\overline{A}) \vee \cdots \vee f^{-n+1}(\overline{A})$, 同時用$N(\overline{A},f,n)$ 來表示覆蓋 $\bigvee_{i=0}^{n-1}f^{-i}(\overline{A})$ 中的極小子覆蓋元素的個數。相似於定義 2-2',我們定義:
定義3-1:
連續映射 f 關於有限覆蓋 $\overline{A}$ 的拓樸熵 (topolgical entropy) 定義為:

\begin{eqnarray*}&& h_{\mbox{top}}(f,\overline{A}) \\&\equiv& \lim_{n \righta......lim_{n \rightarrow \infty} \frac{1}{n}\log{N}(\overline{A},f,n)\end{eqnarray*}



定義3-2:
緊緻 Hausdorff 拓樸空間 X 上的連續映射 f 的拓樸熵為

\begin{displaymath}h_{\mbox{top}}(f) =\sup \{h_{\mbox{top}}(f,\overline{A}):\o......0.1pt{\fontfamily{cwM2}\fontseries{m}\selectfont \char 81}} \}\end{displaymath}


要使上述關於拓樸熵的定義合理,我們必須證明定義3-1中的極限的存在。 為此我們求助於下列仍然是初等微積分的結果。

引理3-3:
設實數序列 $\{ a_n\}_{n \geq 1}$ 滿足條件 $a_{n+p} \leq a_n +a_p$, $\forall n,p$, 則 $\lim_{n \rightarrow \infty} \frac{a_n}{n}$存在且等於 $\inf_{n} \frac{a_n}{n}$

證明:
固定p > 0,每個n>0可寫成n=kp+i,其中$0 \leq i < q$,則

\begin{displaymath}\frac{a_n}{n}=\frac{a_{i+kp}}{i+kp} \leq \frac{a_i}{kp} + \f...... \frac{a_i}{kp} + \frac{ka_p}{kp}=\frac{a_i}{kp}+\frac{a_p}{p}\end{displaymath}


當 $n\rightarrow \infty $時 $k \rightarrow \infty$,故有

\begin{displaymath}\lim_{n \rightarrow \infty} \mbox{sup} \frac{a_n}{n} \leq\frac{a_p}{p}\end{displaymath}


因此, $\lim_{n \rightarrow \infty} \mbox{sup} \frac{a_n}{n}$ $< \mbox{inf}_p \frac{a_p}{p}$ 另一方面,從不等式

\begin{displaymath}\mbox{inf}_p \frac{a_p}{p} \leq \lim_{n \rightarrow \infty}\mbox{inf}_p \frac{a_n}{n}\end{displaymath}


可知,極限 $\lim_{n \rightarrow \infty} \frac{a_n}{n}$存在且等於 $\mbox{inf}_n \frac{a_n}{n}$ 可知,極限 $\lim_{n \rightarrow \infty} \frac{a_n}{n}$存在且等於 $\mbox{inf}_n \frac{a_n}{n}$

定理3-4:
設 X 為緊緻 Hausdorff 空間, $f:X \rightarrow X$ 連續。任給 X 的有限開覆蓋 $\overline{A}$,極限

\begin{displaymath}\lim_{n\rightarrow \infty} \frac{1}{n} \log{N(\overline{A},f......us0.1pt{\fontfamily{cwM0}\fontseries{m}\selectfont \char 202}}\end{displaymath}



證明:
由定義知, $\log{N(\overline{A},f,n)}=H(\bigvee_{i=0}^{n-1} f^{-i}(\overline{A}))$, 我們令其為 an。由(3-1),(3-2)可知

\begin{eqnarray*}a_{n+p} &=& H(\bigvee_{i=0}^{n+p-1} f^{-i}(\overline{A}))\\&......(f^{-n}(\bigvee_{i=0}^{p-1} f^{-i}(\overline{A}))\\&=& a_n+a_p\end{eqnarray*}


定理由結論恰由引理3-3推導。
拓樸嫡是由 R. Adler, A. Konhein 及 M. McAndrew 在1965年引進的, 它是為了研究關於拓樸共軛不變量應運而生的。 拓樸共軛的定義可如下給出。

定義3-5:
設 $T:X \rightarrow X$ 和 $S:Y \rightarrow Y$ 分別為緊緻拓樸空間 X 和 Y 上的連續映射。 若存在同胚 (homeomorphism) $ \phi:X \rightarrow Y$ 使得 $\phi \circ T = S \circ \phi$, 則稱拓樸共軛 (topologically conjugate) 於 S。 這時,$\phi$ 就稱為一個共軛。
我們可以證明,拓樸熵是拓樸共軛性的一個不變量。也就是說,兩個拓樸共軛的連續映射有相同的拓樸熵,反之亦然。事實上兩個拓樸共軛的連續映射在本質上給出相同的遍歷性質,因此,拓樸熵數學地刻劃了不同共軛類的拓樸動力系統 (Topological dynamical system) 的性質。
我們已知拓樸空間 X 加上其全體開集張成的 Borel $\sigma-$代數 β 構成一個可測空間。$(X,\beta)$,而 β 上給定的任何一個概率測度 μ 就構成一個概率測度空間 $(X,\beta,\mu)$。 X 上的任一連續映射 f 同時也為 $(X,\beta,\mu)$ 上的可測變換,因而就有一個 Kolmogorov 熵隨之確定。 另一方面,Borel 代數 β 上存在著眾多不同的概率測度,這樣就有了對應於不同概率測度的 Kolmogorov 熵組成的數集。 然而,作為連續映射 f 的拓樸熵之定義與測度無關,它是唯一確定的。我們自然發出疑問:這兩種熵有何內在聯繫? 既然拓樸嫡概念是由 Kolmogorov 熵概念衍生而來,我們有信心認為它們的確存在著情同手足的關係。 這方面的結果多采多姿。比如說,

定理3-8:
設 f 為緊緻拓樸空間 X 上的連續映射,則

\begin{displaymath}h_{\mbox{top}}(f)=\mbox{sup}\{h_{\mu}(f):\mbox{{\fontfamil......0.1pt{\fontfamily{cwM6}\fontseries{m}\selectfont \char 118}}\}\end{displaymath}


本節拓樸熵中,空間為緊緻的假設並非必要。 70年代初 Dinaburg 和 Bowen 分別給出了拓樸熵的等價定義。 這些定義的優越性在於它們引導了一系列關於拓樸熵和測度熵(Kolmogorov 熵) 之間聯繫結果的證明。Bowen 的定義是對更廣泛的距離空間上一致連續映射族而言的。 且導致了 n-環面上自同構拓樸熵公式的幾何證明。 可惜,這位在遍歷理論研究中做出突出成就的數學家剛過而立之年就與世長辭了。

更多0

分类: 学习笔记 67人阅读 评论(0) 收藏 举报
2. Kolmogorov 熵
我們再來做旋轉光滑硬幣的遊戲。為了方便起見, 我們稱硬幣的正面為 l,反面為 0。讓我們考察連續旋轉 n 次, 其每次正反面出現的各種可能性。旋轉一次,有兩個可能性, 或正面朝上,或反面朝上,即 1,0;旋轉兩次有 4=22 種可能性, 即 11,10,01,00;一般來說,旋轉 n 次則有 2n 種可能性。 把連續旋轉 n次的任一可能結果看成一個「基本事件」, 我們則得到一個具有 2n 個基本事件的樣本空間, 其每一基本事件有同樣的概率 2-n。 上節中所談 Shannon 熵給出了這個樣本空閒的不確定度──$n\log{2}$。 現在我們要進一步問的是:如果我們已知旋轉硬幣第一次,第二次,… 第 n-1 次的結果,那麼第 n 次會是正面或會是反面的不確定度該是多少?
我們希望能用數學上的語言來描述這個問題。 首先讓我們來考慮定義在 [0,1] 上的函數 $f(x)=2x(\mbox{mod} 1)$,也就是 

\begin{displaymath}f(x)=\left\{\begin{array}{ll}2x & 0 \leq x < \frac{1}{2} \\2x-1 & \frac{1}{2} \leq x \leq 1\end{array}\right.\end{displaymath}


(見圖2-1),取 Lebesgue 測度 m 做為 [0,1] 上的測度, 令$\overline{A}=\{ [0,\frac{1}{2}],[\frac{1}{2},0] \}$ 為 [0,1] 上的一個劃分 (partition), 則$f^{-1}(\overline{A})=\{ f^{-1}([0,\frac{1}{2}]),f^{-1}([\frac{1}{2},1])\}$ $=\{ [0,\frac{1}{4}] \cup [\frac{1}{2},\frac{3}{4}],$ $[\frac{1}{4},\frac{1}{2}] \cup [\frac{3}{4},1]\}$ 也是 [0,1] 上的一個劃分。 任給兩個劃分 $\overline{A}$  $\overline{B}$,令 $\overline{A}\vee\overline{B}$ 為由下式定義的劃分 

\begin{displaymath}\overline{A} \vee \overline{B} =\{ A\cap B : A \in \overline{A} , B \in \overline{B}\}\end{displaymath}


由此,我們則有 $f^{-1}(\overline{A})\vee\overline{A}=\{[0,\frac{1}{4}],[\frac{1}{4},\frac{1}{2},[\frac{1}{2},\frac{3}{4}],[\frac{3}{4},1]\}$ 如此這般下去,我們會有 

\begin{displaymath}\bigvee_{i=0}^{n-1} f^{-1}(\overline{A})=\{ [\frac{i-1}{2^n},\frac{i}{2^n}] : i=1,\cdots,2^n\}\end{displaymath}


的劃分,這個劃分裡的每個區間 $[\frac{i-1}{2^n},\frac{i}{2^n}]$ 都有 2-n 的 Lebesgue 概率測度。 事實上,它和旋轉硬幣 n 次那個樣本空間裡的 2n 個基本事件是一一對應的。 n=3 其中的一個簡單情況來看。把 $[\frac{3}{8},\frac{4}{8}]$ 這個區間左端的 $\frac{3}{8}$ 寫成 

\begin{displaymath}\frac{3}{8}=\frac{0}{2}+\frac{1}{2^2}+\frac{1}{2^3}\end{displaymath}


然後將 $[\frac{3}{8},\frac{4}{8}]$ 這個區間和 011(第一次反面,第二次正面,第三次反面)對應。一般來說,我們可以把 $[\frac{i-1}{2^n},\frac{i}{2^n}]$ 這個區間左端的 $\frac{i-1}{2^n}$ 寫成 

\begin{displaymath}\frac{i-1}{2^n}=\frac{a_1}{2}+\frac{a_2}{2^2}+\cdots+\frac{a_n}{2^n}\end{displaymath}


其中 ak=0 或 1, k=1,…,n。這個區間對應的是旋轉硬幣 n 次, 出現$a_1 a_2\cdots a_n$ 的基本事件。 總的來說,旋轉硬幣 n 次,2n 個基本事件, 大家的機率都是 2-n 的樣本空間,拿 $f(x)=2x \pmod{1}$ 和劃分 $\overline{A}=\{ [0,\frac{1}{2}],[\frac{1}{2},1]\}$ 來描述, 則是:拿劃分 $\bigvee_{i=0}^{n-1} f^{-1}(\overline{A})$ 裡的 2n 個元素 $[\frac{i-1}{2^n},\frac{i}{2^n}]$ 做基本事件, 大家的 Lebesgue 概率測度都是 2-n 的樣本空間。 「已知旋轉硬幣第一次,第二次,…,第 n-1 次的結果, 那麼第 n 次會是正面或反面的不確定度是多少?」 的這一問題,拿 $f(x)=2x \pmod{1}$ 和劃分$\overline{A}=\{ [0,\frac{1}{2}],[\frac{1}{2},1]\}$ 來描述, 事實上是在問:已知 x,…,fn-1(x) 在劃分 $\overline{A}$ 裡的位置,那麼 fn(x) 會在 $[0,\frac{1}{2}]$ 裡 或在 $[\frac{1}{2},1]$ 裡的不確定度是多少呢?
讓我們來看 n=4 這個特殊情形。比如說我們已知前三次的結果, 它們是 101(第一次正面,第二次反面,第三次正面),這在 $\bigvee_{i=0}^{2} f^{-i}(\overline{A})$ 中所對應的區間是$[\frac{5}{2^3},\frac{6}{2^3}]$,因為 

\begin{displaymath}\frac{5}{2^3}=\frac{1}{2}+\frac{0}{2^2}+\frac{1}{2^3}\end{displaymath}


仔細的看,這個間區事實上是, $[\frac{1}{2},1]$  $f^{-1}([0,\frac{1}{2}])=$ $[0,\frac{1}{4}]\cup [\frac{1}{2},\frac{3}{4}]$ 以及$f^{-2}([\frac{1}{2},1])=[\frac{1}{8},\frac{1}{4}]$ $\cup [\frac{3}{8},\frac{1}{2}] \cup [\frac{5}{8},\frac{3}{4}]$ $\cup [\frac{7}{8},1]$ 的交集,也就是說 

\begin{displaymath}[\frac{5}{2^3},\frac{6}{2^3}]=[\frac{1}{2},1]\cap f^{-1}([0,\frac{1}{2}])\cap f^{-2S}([\frac{1}{2},1])\end{displaymath}


元素x在這交集所代表的意義是: $x \in [\frac{1}{2},1],f(x)\in [0,\frac{1}{2}]$  $f^2(x)\in [\frac{1}{2},1]$。 一般說來,已知前三次旋轉硬幣的結果相當於已知 x,f(x),f2(x) 在劃分$\overline{A}=\{ [0,\frac{1}{2}],[\frac{1}{2},1]\}$ 中的位置。 問第四次是正面還是反面的不確定度,相當於問f3(x) 究竟是在 $[0,\frac{1}{2}]$ 中還是在 $[\frac{1}{2},1]$ 中的不確定度。 已知 $x,f(x),\cdots,f^{n-1}(x)$ 在那裡,問 fn(x) 在那裡的不確定度, 當 n 趨近於無窮大時的變化就是我們在這一節要談的 Kolmogorov 熵。
我們將把我們的著眼點放在一般的概率測度空間 (Probability measure space) 和定義在它上面的可測變換 (measurable function)。 設 $(X,\Sigma,\mu)$ 為一概率測度空間。即 X 為一集合, Σ 為 X 上的一些子集合所構成的一個 $\sigma-$代數, μ 為 Σ 上的概率測度,也就是說 $\mu(X)=1$。 假設 $f:X \longrightarrow X$ 為一個可測變換。 這是指,Σ 中每個元素的逆像 f-1(A) 仍在 σ 中。 我們任取 X 的一個有限劃分 (finite partition) $\overline{A}=\{ A_1,\cdots$ ,Am}  $\overline{A}$ 中每個集合 Ai 屬於 Σ, 它們之間互不相交(交集的測度為 0)且聯集恰為 X。 這樣 $\overline{A}$ 可看成具有「基本事件」 A1,A2,…,Am 且有概率分布 $\mu(A_1)$,…,$\mu(A_m)$ 的一個有限樣本空間。這個樣本空間經常被稱為「試驗結果」。上節中談到,這個「試驗結果」的 Shannon 熵應為: 

\begin{displaymath}H(\overline{A})=-\sum_{i=1}^{n} \mu(A_i) \log \mu (A_i)\end{displaymath}


對給定的 f,集族 $f^{-1}(\overline{A})$ $=\{(f^{-1}(A_1),\cdots,f^{-1}(A_m) \})$ 也可給出 X 的一個劃分。首先我們要提出這樣的問題: 在試驗結果 $\overline{A}=\{ A_1,\cdots,A_m \}$ 為已知的前提下,試驗結果 $f^{-1}(\overline{A})=\{f^{-1}(A_1),$$\cdots,$ f-1(An)} 的不確定度為多少?也就是說,我們欲知:已知 x  Ai 中, 問 f(x) 在何處的不確定度為多少? 我們可以從條件概率的角度來探討之。為簡單起見, 設 n=3,即 $\overline{A}=\{ A_1,A_2,A_3 \}$。 假如,已知 x  A1 中我們來看 f(x)  A1,A2  A3 的概率為如何。 對$i=1,2,3,f(x) \in A_i$,當且僅當 $x \in f^{-1}(A_i)$, 故 x  A1 中且 f(x)  Ai 中之集合為 $A_1 \cap f^{-1}(A_i)$, 因而其條件概率為 $\mu(A_1 \cap f^{-1}(A_i) )$ $ / \mu(A_1)$。 由 Shannon 熵的定義知,在 $x \in A_1$ 的條件下, f(x) 會在 A1,或 A2,或 A3 的不確度應為 

\begin{displaymath}H_1= - \sum_{i=1}^{3} \frac{\mu(A_1 \cap f^{-1}(A_i))}{\mu(A_1)}\times \log{(\frac{A_1 \cap f^{-1}(A_i)}{\mu(A_1)})}\end{displaymath}


類似地,在 $x \in A_2$,或 $x \in A_3$ 的條件下,試驗 結果$f^{-1}(\overline{A})=\{ f^{-1}(A_1),f^{-1}(A_2),f^{-1}(A_3)\}$ 的不確定度應分別為 

\begin{displaymath}H_2= -\sum_{i=1}^{3}\frac{(A_2 \cap f^{-1}(A_i))}{\mu (A_2)}\times \log{\frac{\mu(A_2 \cap f^{-1}(A_i))}{\mu (A_2)}}\end{displaymath}


 

\begin{displaymath}H_3=-\sum_{i=1}^{3}\frac{\mu(A_3\cap f^{-1}(A_i))}{\mu(A_3)}\times \log{\frac{\mu(A_3 \cap f^{-1}(A_i))}{\mu (A_3)}}\end{displaymath}


由推導 Shannon 熵定義的條件(ii)易知, 在試驗結果 $\overline{A}=\{ A_1,A_2,A_3 \}$ 為已知的條件下, 試驗結果 $f^{-1}(\overline{A})=\{ f^{-1}(A_1),f^{-1}(A_2),f^{-1}(A_3)\}$的不確定度 $H(f^{-1}(\overline{A})\vert\overline{A})$ H1,H2,H3的加權和,即 

\begin{eqnarray*}&& H(f^{-1}(\overline{A})\vert\overline{A}) \\&=& \sum_{i=1}......}(A_j))\times \log{\frac{\mu(A_i \cap f^{-1}(A_j))}{\mu (A_i)}}\end{eqnarray*}


如法炮製,對一般的有限劃分 $\overline{A}=\{ A_1,\cdots,A_m \}$ 我們可得到所謂的「劃分$f^{-1}(\overline{A})$ 關於劃分 $\overline{A}$ 的條件 shannon 熵」, 

\begin{eqnarray*}&& H(f^{-1}(\overline{A}\vert\overline{A})) \\&=& -\sum_{j=1......(A_j))\times \log{\frac{\mu(A_i \cap f^{-1}(A_j))}{\mu (A_i)}}\end{eqnarray*}


下面,我們來給出上述 $H(f^{-1}(\overline{A})\vert\overline{A})$ 的另一等價型式以便後面推廣。

命題2-1:


\begin{displaymath}H(f^{-1}(\overline{A})\vert\overline{A})=H(\overline{A}\vee f^{-1}(\overline{A}))-H(\overline{A})\end{displaymath}


證明:


\begin{eqnarray*}&& H(f^{-1}(\overline{A})\vert\overline{A}) \\&=& -\sum_{i=1......mu(A_i)} \\&=& H(\overline{A} \vee f^{-1}(\overline{A}))-H(A)\end{eqnarray*}

命題2-1在直觀上看也很顯然:試驗結果 $\overline{A} \vee f^{-1}(\overline{A})$ 的不確定度 $H(\overline{A}\vee f^{-1}(\overline{A}))$應為試驗結果$\overline{A}$ 的不確定度 $H(\overline{A})$在試驗結果$\overline{A}$為已知條件下, 試驗結果 $f^{-1}(\overline{A})$的不確定度 $H(f^{-1}(\overline{A})\vert\overline{A})$ 之和。
上述已知試驗結果$\overline{A}$,問試驗結果f-1(A)的不確定度, 相當於已知x$\overline{A}$中的位置, 我們問f(x)$\overline{A}$中的位置的不確定度。 已知 $x,f(x),\cdots,f^{n-1}(x)$在分劃$\overline{A}$中的位置, 問 fn(x)  $\overline{A}$中的位置的不確定度, 則相當於已知試驗結果 $\bigvee_{i=0}^{n-1}f^{-i}(\overline{A})$$=\overline{A}\vee f^{-1}(\overline{A})\vee \cdots f^{-(n- 1)}(\overline{A})$ ,問試驗結果 $f^{-n}(\overline{A})$ 的不確定度。 Kolomogorov 熵基本上是在刻劃這個不確定度在當 n 趨近於無窮大時的漸近性質。
任給自然數n $\bigvee_{i=0}^{n-1}f^{-i}(\overline{A})$  $f^{-n}(\overline{A})$ 都是 X 的有限劃分。 在已知試驗結果, $\bigvee_{i=0}^{n-1}f^{-i}(\overline{A})$ 的條件下, 試驗結果 $f^{-n}(\overline{A})$ 的不確定度, 實際上是劃分$f^{-n}(\overline{A})$ 的條件 Shannon 熵,它是 

\begin{eqnarray*}&& H(f^{-n}(\overline{A})\vert \bigvee_{i=0}^{n-1} f^{-i}(\ove......f^{-i}(\overline{A}))-H(\bigvee_{i=0}^{n-1}f^{-i}(\overline{A}))\end{eqnarray*}


定義2-2:
 $\overline{A}=\{ A_1,\cdots,A_m \}$ X的有限劃分,則可測變換 $f:X \rightarrow X$關於$\overline{A}$ 的熵定義為 

\begin{displaymath}h_{\mu}(f,\overline{A})=\lim_{n \rightarrow \infty} \mbox{s......(\overline{A}) \vert \bigvee_{i=0}^{n-1} f^{-i}(\overline{A}))\end{displaymath}


定義2-3:
設 (X,Σ,μ) 為一概率空間, $f:X \rightarrow X$ 為一可測變換, 則 f 的 Kolomogorov 熵定義為 

\begin{displaymath}h_{\mu}(f)=\sup\{h_\mu(f,\overline{A}):\overline{A}\mbox{{\.......1pt{\fontfamily{cwM0}\fontseries{m}\selectfont \char 125}} \}\end{displaymath}


對一般的可測變換 $f:X \rightarrow X$, 上述定義2-2中的上極限符號不能改為極限符號。 但對遍歷理論中所研究的一類重要可測變換-保測變換 (measure preserving transformation)我們可以證明極限 $\lim_{n \rightarrow \infty}H(f^{-n}(\overline{A})\vert\bigvee_{i=1}^{n-1} f^{-i}(\overline{A})$ 確實存在並有一另一種等價定義。該定義顯然不及前者直觀易懂, 但它卻給出了計算上的許多方便。所謂保測變換是指 $f:X \rightarrow X$, 任給 $A \in \Sigma$, $f^{-i}(A) \in \Sigma $ 且有 

\begin{displaymath}\mu(f^{-1}(A))=\mu(A)\end{displaymath}


定義2-2:
 $\overline{A}=\{ A_1,\cdots,A_m \}$  X 的有限劃分, 則保測變換 $f:X \rightarrow X$關於$\overline{A}$的熵定義為 

\begin{displaymath}h_{\mu}(f,\overline{A})=\lim_{n \rightarrow \infty }\frac{1}{n} H(\bigvee_{i=0}^{n-1}f^{-i}(\overline{A}))\end{displaymath}


在證明此定義合理,且與定義2-2等價之前,我們首先注意到如下的事實: 若f為保測變換,則 $H(f^{-1}(\overline{A}))=H(A)$ 這由條件 $\mu(f^{-1}(A))=\mu(A)$易見。 若$\overline{C}$$\overline{D}$X的兩個有限劃分, 我們記 $\overline{C} \leq \overline{D}$,若 $\overline{C}$的每一元素是$\overline{D}$中某些元素之聯(Union) (即$\overline{D}$$\overline{C}$的一個細分(refinement)) 我們需要下列引理,其證明稍後給出。

引理2-4:
 $\overline{C} \leq \overline{D}$, 則 $H(\overline{A}\vert\overline{C}) \geq H(\overline{A}\vert\overline{D})$
現在可以敘述並證明我們的等價定理了。

定理2-5:
 $f:X \rightarrow X$ 為保測變換,則對 X 的任一劃分 $\overline{A}$ 

\begin{displaymath}\lim_{n \rightarrow \infty}H(f^{-n}(\overline{A})\vert \big......\infty } \frac{1}{n}H(\bigvee_{i=0}^{n-1}f^{-i}(\overline{A}))\end{displaymath}



證明:
n=1,則 

\begin{eqnarray*}&&H(f^{-1}(\overline{A})\vert\overline{A}) \\&=&H(f^{-1}(\ov......(\overline{A})) \\&=&H(\overline{A}\vert f^{-1}(\overline{A}))\end{eqnarray*}


 n=2 時, 

\begin{eqnarray*}&&H(f^{-2}(\overline{A})\vert\overline{A}\vee f^{-1}(\overline......verline{A} \vert f^{-2}(\overline{A}) \vee f^{-1}(\overline{A}))\end{eqnarray*}


用歸納法易證,一般地有 

\begin{displaymath}H(f^{-n}(A)\vert \bigvee_{i=0}^{n-1} f^{-i}(\overline{A}))=H(\overline{A}\vert \bigvee_{i=0}^{n} f^{-i} (\overline{A}))\end{displaymath}


由上述引理2-4,故極限存在。從而,定義2-2中的極限實際上存在。 另一方面,對 i=1,2,…,n-1,由 

\begin{displaymath}H(f^{-1}(\overline{A})\vert \bigvee_{i=0}^{i-1} f^{-j}(\over......-j}(\overline{A}))-H(\bigvee_{j=0}^{i-1}f^{-j}(\overline{A}))\end{displaymath}


各式相加,我們有 

\begin{eqnarray*}&&H(\bigvee_{i=0}^{n-1} f^{-1}(\overline{A})) \\&=& H(\overl......}^{n}H(\overline{A}\vert\bigvee_{j=0}^{i-1}f^{-j}(\overline{A}))\end{eqnarray*}


故有 

\begin{displaymath}\frac{1}{n}H\bigvee_{i=0}^{n-1} f^{-i}(\overline{A}))= \frac......n-1}H(\overline{A}\vert\bigvee_{i=0}^{i} f^{-j}(\overline{A}))\end{displaymath}


借用初等微積分的已知結果: $\lim_{n \rightarrow \infty} a_n = L \Rightarrow\lim_{n \rightarrow \infty} \frac{1}{n} \sum_{i=0}^{n-1} a_i =L$,我們得到 

\begin{eqnarray*}&& \lim_{n \rightarrow \infty} \frac{1}{n}H(\bigvee_{i=0}^{n-1......^{-n}(\overline{A})\vert\bigvee_{i=0}^{n-1}f^{-i}(\overline{A}))\end{eqnarray*}


現在我們來證明引理2-4。 $\overline{A}=\{A_i \}$, $\overline{C}=\{C_j\}$, $\overline{D}=\{D_k\}$, 我們要證 

\begin{eqnarray*}&& -\sum_{j}\sum_{i} \mu (C_j)\frac{\mu(A_i \cap C_j)}{\mu(C_j......k)}{\mu(D_k)}\times \log{\frac{\mu(A_i \cap D_k)}{\mu(D_k)}}\\\end{eqnarray*}


只須證明對每一 i  j 

\begin{eqnarray*}&&\mu(C_j)\frac{\mu(A_i \cap C_j)}{C_j}\log{\frac{\mu(A_i \ca......_i \cap D_k)}{\mu(D_k)}\log{\frac{\mu(A_i \cap D_k)}{\mu(D_k)}}\end{eqnarray*}


 $\phi(x)=x\log{x}$, $\phi(0)=0$ 則上式為 

\begin{eqnarray*}\phi(\frac{\mu(A_i\cap C_j)}{\mu(C_j)})\leq \sum_{k} \frac{\mu(C_j \cap D_k)}{\mu(C_j)}\phi(\frac{\mu(A_i \cap D_k)}{\mu(D_k)})\end{eqnarray*}


由於 $\phi$ 是凸函數(這由 $\phi ''(x)=\frac{1}{x}>0$ 可知) 和假設 $\overline{C} \leq \overline{D}$,易知 

\begin{eqnarray*}&&\sum_{k}\frac{\mu(C_j\cap D_k)}{\mu(C_j)} \phi(\frac{\mu(A_i......_k)}{\mu(D_k)}) \\&=& \phi(\frac{\mu(A_i \cap C_j)}{\mu(C_j)})\end{eqnarray*}


即我們證明了 $H(\overline{A}\vert\overline{C}) \geq H(\overline{A}\vert\overline{D})$ 歷史上,引進 Kolmogorov 熵概念的主要動力是關於概率空間保測變換之間共軛關係的不變量的研究。 設 $(X_{1},\Sigma_{1},\mu_{1})$  $(X_2,\Sigma_2,\mu_2)$ 為兩個概率空間,$T_1: X_1 \rightarrow X_1$ $T_2: X_2 \rightarrow X_2$ 為保測變換。 我們說 T1  T2 共軛 (conjugate) 是指存在一個保測同構 $\phi :$ $(X_2,\Sigma_2,\mu_2)$ $\rightarrow$ $(X_1,\Sigma_1,\mu_1)$ 使得$\phi \circ T_2^{-1}= T_1^{-1}\circ \phi$。 我們稱一個數量為共軛保測變換的「不變量 (invariance)」 是指二個保測變換若是共軛,這個數量一定一樣。 這個數量若不一樣,這兩個保測變換一定不共軛。 共軛的保測變換具有同樣的遍歷性質。 我們若能找到關於共軛保測變換的不變量,我們就可從本質上刻劃不同共軛類保測變換的特徵:Kolmogorov 熵就是這樣的一個重要的不變量。
早在1943年,人們就知道 Bernoulli 的 ( $\frac{1}{2},\frac{1}{2}$) -雙邊移位算子 (two side shift) 和 ( $\frac{1}{3},\frac{1}{3},\frac{1}{3}$)- 雙邊移位算子都具有可數個 Lebesgue 譜點,因而是譜同構的,但不知道它們是否共軛。 直到1958年才由 Kolmogorov 證明了它們分別具有 $\log 2$ $\log 3$ 的 Kolmogorov 熵,故非共軛。從而消除了遍歷理論這個重大懸念,並開創了一個嶄新的研究領域。 我們這裡介紹的 Kolmogorov 熵的概念是由 Kolmogorov 的學生 Sinai 在1959年改進的,和 Kolmogorov 1958年給出的原始定義稍有不同。

No comments:

Post a Comment