phymath999: "對數函數熵" 冗餘度愈大，語言的識別力愈大，抗錯能力也愈強；現代標準漢語中，冗餘度約在 55% ~ 80% 之間（視表達的場合而定）。概括說來，漢語的冗餘度較英語低，代表漢語表達的「廢話」較英語低，漢語較英語來得「精練」。這很合直覺，因為屈折語的格位多、亂度低（熵值低），所以冗餘度也就較中文這種孤立語高

Wednesday, August 14, 2013

"對數函數熵" 冗餘度愈大，語言的識別力愈大，抗錯能力也愈強；現代標準漢語中，冗餘度約在 55% ~ 80% 之間（視表達的場合而定）。概括說來，漢語的冗餘度較英語低，代表漢語表達的「廢話」較英語低，漢語較英語來得「精練」。這很合直覺，因為屈折語的格位多、亂度低（熵值低），所以冗餘度也就較中文這種孤立語高

【讀書小筆記】語言的「熵」和「冗餘性」

(2012-07-26 23:26:55)

转载▼

标签：

熵

冗餘度

杂谈

分类：語言文字

TG 總算稍微見識到了杭士基（或譯喬姆斯基，Avram Noam Chomsky）在作的東西了。語言，原來也是有「熵（entropy）」的存在，借用物理熱力學的「亂度」來定義的東西。

大概的意思是說，一個自然語言（或一般文章），當說話者將前一個詞講出之後，聽者是否能夠根據這個字詞，預測出接下來的一個詞（或字母）；即語言的「隨機性」的大小估算值。舉例來說，
I am a boy, and you are a girl.

這當中的 am、are、a，在英語裡是沒有太大的「不確定性」。

從此得出來的一種估量機率值，就是「熵（entropy）」，H。

想當然爾，這麼小的數值，一定會用「對數函數」來表示。

和「熵」有關的，則是再推衍下一步，是個比較具有實際運用概念的「冗餘度（redundancy，或譯羨餘度）」，是把「1」減去「熵的極限比值」，R。

冗餘度愈大，語言的識別力愈大，抗錯能力也愈強；像上面例子中，假如 am、are、and、冠詞 a，沒講清楚，也絕對不影響語意上的表達。但是，冗餘度大，也代表該語言比較「累贅」，精練度不足。

由上表可以看出，若撰寫科技期刊，「廢話」一定較多，因為有「內容精準」的先天要求。這裡沒有列出，但我猜「日語」的冗餘度，在相較之下應該也會非常高吧……

照馮志偉先生在《語言與數學》一書中的說法，現代標準漢語中，冗餘度約在 55% ~ 80% 之間（視表達的場合而定）。概括說來，漢語的冗餘度較英語低，代表漢語表達的「廢話」較英語低，漢語較英語來得「精練」。這很合直覺，因為屈折語的格位多、亂度低（熵值低），所以冗餘度也就較中文這種孤立語高了。

真的要比較語言之間的性質，還真的必須多多朝向「統計數據」的方向努力，多多研讀專業期刊。
這是個「科學化」的年代了，就像傳統心理學已逐漸有成了「腦神經科學」的小媳婦的趨勢，連文科語言研究呢，都不該再成天光嘴砲偷懶了。以後，要是聽到見到名嘴名筆天花亂綴，只會說出「英語是超合乎邏輯的語言喲～～」這種思春言論，那就該自己捏XX了結了……

phymath999

Wednesday, August 14, 2013

【讀書小筆記】語言的「熵」和「冗餘性」

熵

冗餘度

杂谈

No comments:

Post a Comment