为什么没人觉得问题在26个字母本身? [ 我爱美人姚晓曼 ] 于:2014-12-27 20:46:19 复:3847181
什么熵,就是扯淡。我觉得字母文有两个优点。
1、较少的符号,容易建立映射。便于建立代数概念。有人能想象用汉字弄出一套自然而然的代数系统?
比如最简单的一阶谓词演算。希尔伯特的公理化理想是不是空穴来风?
2、那一套数学符号。比较容易和字母文传承。
莱布尼兹和牛顿各创立一套微分符号系统,莱布尼茨的,现在大家都用它,牛顿的,很多人问津么?
为什么发生工业革命的英国,在牛顿之后再无同等牛B的数学家、物理学家出现?不是说英文文字熵低么?
不同于古中国零散片段化的数理模式,由于有一套可继承的逻辑推理系统,有人说即使没有牛顿,最终还是会有马顿、羊顿完成萌芽于欧几里德的微积分。
01编码没有记录语音,所以不是自然语言 [ PBS ] 于:2015-02-17 19:37:36 复:4095023 1、较少的符号,容易建立映射。便于建立代数概念。有人能想象用汉字弄出一套自然而然的代数系统?
比如最简单的一阶谓词演算。希尔伯特的公理化理想是不是空穴来风?
2、那一套数学符号。比较容易和字母文传承。
莱布尼兹和牛顿各创立一套微分符号系统,莱布尼茨的,现在大家都用它,牛顿的,很多人问津么?
为什么发生工业革命的英国,在牛顿之后再无同等牛B的数学家、物理学家出现?不是说英文文字熵低么?
不同于古中国零散片段化的数理模式,由于有一套可继承的逻辑推理系统,有人说即使没有牛顿,最终还是会有马顿、羊顿完成萌芽于欧几里德的微积分。
谈不上是最先进“语言”,因为没有语音载体的成分在里面。
人类的口腔充其量只能发出600种音节,哪怕用声调/重音/轻音来调制,也不过1000余种。
那么扣除1比特的基本通讯编码需要后,能够用最少的编码符号就能把600多种语音记录下来,那么那种语言可以称得上最佳语言了。
拼音文字用26-33个符号和象形文字用6000个符号各自能把600种语音记录下来,显而易见拼音文字要简便得得多。
可以形象化说(当然不严谨),如果拼音字母文字是26位进位制,而汉语汉字就是6000位进位制了。
我经过计算,发现一旦使用汉语拼音,汉语拼音文字的文字熵的值会降下来,变成4.30比特,证明汉语汉字也是一种记录语音的工具,只要符号系统选择正确,可以变成一种低熵语言。只是使用的符号不同而已。目前汉语用3套方法记录文字:简体字,繁体字和汉语拼音。从简单性上分析,汉语拼音最简单,一年级小孩子化2个月就能掌握了--可以读出6000个注音汉字没有问题。
唯一的问题是我们的祖先用6000个符号对付600个种音节,那么至少每个音节有10个汉字符号来对应,造成同音字太多(最多的同音字yi达到近200个),在汉语拼音中,如何消除同音字带来的困惑,必须予以解决(一般通过双字多字词组)。
同音字不仅仅是汉语的问题,也是使用过汉语的文字的通病,日语/韩语/越语这些语种都有同音字问题。
上面只是用编码的效率角度判断一个语言的通讯能力。以后专门开贴谈这个效率问题
人类的口腔充其量只能发出600种音节,哪怕用声调/重音/轻音来调制,也不过1000余种。
那么扣除1比特的基本通讯编码需要后,能够用最少的编码符号就能把600多种语音记录下来,那么那种语言可以称得上最佳语言了。
拼音文字用26-33个符号和象形文字用6000个符号各自能把600种语音记录下来,显而易见拼音文字要简便得得多。
可以形象化说(当然不严谨),如果拼音字母文字是26位进位制,而汉语汉字就是6000位进位制了。
我经过计算,发现一旦使用汉语拼音,汉语拼音文字的文字熵的值会降下来,变成4.30比特,证明汉语汉字也是一种记录语音的工具,只要符号系统选择正确,可以变成一种低熵语言。只是使用的符号不同而已。目前汉语用3套方法记录文字:简体字,繁体字和汉语拼音。从简单性上分析,汉语拼音最简单,一年级小孩子化2个月就能掌握了--可以读出6000个注音汉字没有问题。
唯一的问题是我们的祖先用6000个符号对付600个种音节,那么至少每个音节有10个汉字符号来对应,造成同音字太多(最多的同音字yi达到近200个),在汉语拼音中,如何消除同音字带来的困惑,必须予以解决(一般通过双字多字词组)。
同音字不仅仅是汉语的问题,也是使用过汉语的文字的通病,日语/韩语/越语这些语种都有同音字问题。
上面只是用编码的效率角度判断一个语言的通讯能力。以后专门开贴谈这个效率问题
上面这3个词,是不是同一个东西?为什么我们可以理解上面这3个词,靠什么?
就是语音。
语言文字最重要的本质就是记录重现语音,就是能够以书面和口读重演语音。任何一个文盲,只要经过拼音训练,就可以读出“围棋棋谱"这个概念。任何一个精英,如果没有看到过”巡航导弹“的照片和实物,哪怕他识字,也不知道这个xunhangdaodan是个什么玩意。
越南1945年革命胜利后,胡志明发起扫盲运动,运用法国人发明的越南拼音文字,越南北方在短短2个月里就消除了文盲。
- [15]huangnigang1
- 但是一旦使用汉语拼音,中文书籍就可以进行索引查询了。所以可以知道汉字本身缺乏了一些东西,而这些东西的缺乏造成看上去汉字简练。
那么看看汉语拼音的文本长度吧:
English,Yingyu,英语。
可以看到英语的汉语拼音的符号就变长了。同样的汉语信息,采用不同编码方式可以得到不同文本长度。
Glucose,葡萄糖,putaotang。现在可以看到拼音汉语的符号数目超过了英语。
preemty, 先发制人。xianfazhiren,拼音汉语的符号数目也超过了英语。
你可以从上面例子看到,语音的记录是包含在字母中的。汉字符号少,但是没有记录语音成分,靠死记硬背把语音同文字相关,所以考虑语言使用所需能量上看,识别汉字需要花更多的精力。
在实际使用中,汉字简练并没有带来精确,所以国际条约文本汉语语意不精确,往往不能作为正式法律文本。比如中国参加WTO条约的文本就没有以汉语形式写下来,因为其中大量的条款,汉语汉字居然无法找到确切的表达。 - 博主回复(2014-9-1 16:44):这是巨大的工程,我估计难以实施。
- [14]huangnigang1
- 学习语言,对基本符号只能采取死记硬背的方法。
英语26个字母不仅仅要死记硬背26个字母,还要记住abcd的排列顺序。美英1岁孩童为了记住26个字母和顺序,还要唱儿歌。
但是一旦记住了,就可以无限扩张使用了。
汉字符号做不到这一点。如果没有朱镕基总理,你我可能一辈子也不知道汉字里还有“镕”这个符号。
中国出版的大部分书籍没有索引,看书无法查关键词,就是汉字无法做到英语那样的约定成俗的abcd符号排列。
- [13]huangnigang1
- 博主回复(2014-9-1 11:06):我注意到,一本英汉对照的书,中文的页数显著低于英文版。从文字熵来讲,这怎么理解?
==============================================
从信息论讲,一种语言使用的符号越多,其文本就越短。
比如English,要用7个字母。英语,只有2个汉字。
对同样的语言信息进行文字编码,用字母要7个符号,编码长,用汉字只要两个符号,编码短。为什么?因为字母只有26个,而汉字有成千上万个。如果你用01码的话,编码更长。
4个核苷酸的排列就可以决定20个氨基酸的排列,最后可以决定形形色色的生命形态。
你懂这个编码道理了吗?我这里不能用公式给你写,你去看任何一本信息论书籍,都会讨论这个问题。
一个符号的文字熵越高,意味着这个符号的确信度低,即出现的几率低,需要更多的信息来确定。
文字熵的高低表现了这个文字的符号使用效率。
英语的文字熵是4比特,也就是说英语平均只要使用2^4=16个字母就行了,而英语字母共26个,那么英语的符号效率是16/26=62%;汉字文字熵是9.65比特,平均使用2^9.65=803个汉字就行了,而常用汉字是6000余个,汉字的符号使用效率是803/6000=13%。
中国孩子们用6年时间死记硬背3000个汉字,把最好的年华用来死记硬背那些使用效率很低的汉字单字符号,怎么还会留下时间空间进行脑力创造性训练呢?
更可怕的是,中国孩子把学习汉字所采用的死记硬背方法用于其它学习上,被害惨了。
- [12]陈奂生
- 方言差异越大,才越发感受到秦始皇“书同文”举措意义的重大、伟大!
- 博主回复(2014-9-1 11:33):是的
- [11]huangnigang1
- 博主回复(2014-9-1 10:45):是否得到了学术界认可?
===============
当然了,任何一本信息论教材都会谈到语言熵。 - 博主回复(2014-9-1 11:06):我注意到,一本英汉对照的书,中文的页数显著低于英文版。从文字熵来讲,这怎么理解?
- [10]huangnigang1
- 博主回复(2014-9-1 10:32):那是非常遥远的事
=========================
工业革命以来,多少落后文明被淘汰了?
“纯种”的华夏文明其实也被淘汰了。今天的中国文化在注入来自日本的文字等外来文明后,已经不是原本的华夏文明了,是个杂种了,而中国文明还在剧烈变动之中。
在今后10年内,一旦中国经济发展出现重大问题,中国文明将进一步欧美化。 - 博主回复(2014-9-1 11:08):这是可能的
- [9]huangnigang1
- 博主回复(2014-9-1 10:16):文字熵怎么算出来的?
=============================
参看《首次测定汉字熵值》
http://www.hezi.net/He/Friends/FengZiWei/Article/Chinese_Entropy.htm - 博主回复(2014-9-1 10:45):是否得到了学术界认可?
- [8]huangnigang1
- 博主说:“一切落后的、愚昧的文明都将随风而去。”
这句话没有问题,但是无法量化。
量化的说法就是“高文字熵的文明都是相对落后的文明,愚昧的文明”,代入博主的上述定义,就可以表达为:“一切高文字熵的文明都将随风而去”。 - 博主回复(2014-9-1 10:32):那是非常遥远的事
- [7]huangnigang1
- 博主回复(2014-9-1 09:36):汉字的文字熵比英语高,这事肯定吗?
==============================
绝对肯定。
英语文字熵4.0比特,汉语文字熵9.65比特,俄语文字熵4.46比特。
汉语拼音文字的文字熵是4.26比特,但是汉语拼音文字无法区分声调和同音字,所以实用意义仅在于键盘输入和字典查询,索引编排等。
越南文字改革将汉字改成拼音文字后,5声声调也有相应的符号,所以越南文拼音化就很成功,美中不足的是越南文拼音字母数目过多,其拼音文字熵就此偏高,达到5.23比特。但也比汉语好。北越的70后已经获得了沃尔夫数学奖,中国人还是鸭蛋。
日文的文字熵是5.5比特,也偏高,但比汉语的文字熵低。
全世界各种语言中只有中文的文字熵最高,这就解释了有5000年历史的中国人无法建立科学的原因。直至今天,中国人还是遍地是中医粉,韩寒粉。 - 博主回复(2014-9-1 10:16):文字熵怎么算出来的?
- [6]huangnigang1
- 5楼的推而广之是有道理的。
中文就是走不出国门,英语就可以走遍天下。
从语言的文字熵分析,文字熵数值越小的语言越有生命力,俄语汉语的使用者都想成为世界潮流的领导者推动者,最后都身败名裂,原因是汉语俄语的文字熵值就是比英语法语德语的文字熵值高。
方言连文字符号都没有或不完善,根本不会有生命力。
语言是人类交流思想的一种工具,方言造成人类交流的隔阂,怎么会有生命力呢? - 博主回复(2014-9-1 09:36):汉字的文字熵比英语高,这事肯定吗?
- [5]牛登科
- 中文,主要是中国这块土地上的人使用的方言。
当然,日文,韩文,也分别是东亚一块土地上使用的方言。 - 博主回复(2014-8-31 22:54):我讲的方言,指的是国内的汉语系列的方言。国际上的事情暂不考虑。
- [4]张能立
- 影响中国科学家勇攀“科学珠峰”的因素到底有哪些?http://blog.sciencenet.cn/blog-39840-823860.html 。欢迎大家批评指正。
- [3]张彦虎
- 方言不会被淘汰。
- 博主回复(2014-8-31 21:49):世界上多少方言已经或正在消亡
- 博主回复(2014-8-31 21:45):那是你的一厢情愿
- [2]tudao
- 大趋势,没有办法阻止,唉!
- 博主回复(2014-8-31 20:32):社会要发展,不必阻止。
- [1]ch555
- 越落后的地区,越偏远的地区,方言越古怪,越不能交流。
结论太笼统了,反例很多。 - 博主回复(2014-8-31 20:14):能不能举个反例?
- 博主回复(2014-8-31 19:55):这是大致的说法,肯定不严格。
1/1 | 总计:30 | 首页 | 上一页 | 下一页 | 末页 | 跳转
|
一本英汉对照的书,中文的页数显著低于英文版。从文字熵来讲,这怎么理解?
==============================================
从信息论讲,一种语言使用的符号越多,其文本就越短。
比如English,要用7个字母。英语,只有2个汉字。
对同样的语言信息进行文字编码,用字母要7个符号,编码长,用汉字只要两个符号,编码短。为什么?因为字母只有26个,而汉字有成千上万个。如果你用01码的话,编码更长。
4个核苷酸的排列就可以决定20个氨基酸的排列,最后可以决定形形色色的生命形态。
你懂这个编码道理了吗?我这里不能用公式给你写,你去看任何一本信息论书籍,都会讨论这个问题。
一个符号的文字熵越高,意味着这个符号的确信度低,即出现的几率低,需要更多的信息来确定。
文字熵的高低表现了这个文字的符号使用效率。
英语的文字熵是4比特,也就是说英语平均只要使用2^4=16个字母就行了,而英语字母共26个,那么英语的符号效率是16/26=62%;汉字文字熵是9.65比特,平均使用2^9.65=803个汉字就行了,而常用汉字是6000余个,汉字的符号使用效率是803/6000=13%。
中国孩子们用6年时间死记硬背3000个汉字,把最好的年华用来死记硬背那些使用效率很低的汉字单字符号,怎么还会留下时间空间进行脑力创造性训练呢?
更可怕的是,中国孩子把学习汉字所采用的死记硬背方法用于其它学习上,被害惨了
首次测定汉字熵值
一位信息时代新语言学者的人生历程 的贡献。 汉字的“熵”(entropy)是汉字所含信息量大小的数学度量。近几十年来,国外学者已陆续测出一些拼音文字字母中的熵,而汉字数量太大,各个汉字的出现概率各不相同,因此,要计算包含在一个汉字中的熵是比较困难的。
早在60年代,冯志伟就读过Shannon的《Mathematical Theory of Communication》,知道了熵的基本知识。
70年代冯志伟被分配到云南昆明教中学,担任物理教员,云南冶金第三矿的工人用手工统计《毛泽东选集》1-4卷中汉字的出现频度,试图找出学习毛泽东著作应该首先掌握的常用汉字。他们的行动启发了冯志伟,使他萌动了手工统计汉字频度并进一步计算汉字熵的想法。在科学历史上, Markov在1913年曾经手工统计过普希金长诗《欧根·奥涅金》中俄语元音和辅音字母的频度,Shannon在1948年曾经手工统计过英语字母的频度,冯志伟也想模仿这两位学术大师的办法用手工来统计汉字的频度。于是,在70年代那个文革的动乱时期,冯志伟开始测试汉字的熵(即汉字中所包含的信息量)。为了计算汉字的熵,首先需要统计汉字在文本中的出现频度,由于70年代还没有机器可读的汉语语料库,哪怕小规模的汉语语料库也没有,冯志伟只得根据书面文本进行手工查频,用了将近10年的时间,对数百万字的现代汉语文本(占70%)和古代汉语文本(占30%)进行手工查频,从小到大地逐步扩大统计的规模,建立了6个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于在70年代末期首次计算出了在不考虑上下文影响的前提下汉字的熵是9.65比特,由于这个熵值是根据手工查频的结果计算出来的,冯志伟对于这个结果的准确程度没有十足的把握,所以,他认为这只是他对于汉字熵的极不成熟的猜测。1978年冯志伟考上了中国科技大学研究生院机器翻译专业,接着又被选送到法国格勒诺布尔大学应用数学研究所留学,研制多语言机器翻译系统,1981年从法国回国之后,他又投入了英汉、德汉、法汉等机器翻译系统的研制工作,始终没有时间来继续研究汉字熵。1983年,冯志伟在研究机器翻译的同时,开始考虑汉字熵的计算是否有极限的问题,提出了“汉字容量极限定律”,他使用数学方法,证明了当统计样本中汉字的容量不大时,包含在一个汉字中的熵随着汉字容量的增加而增加,当统计样本中的汉字容量达到12366字时,包含在一个汉字中的熵就不再增加了,这意味着,在测定汉字的熵的时候,统计样本中汉字的容量是有极限的。这个极限值就是12366字,超出这个极限值,测出的汉字的熵再也不会增加了,在这12366个汉字中,有4000多个是常用字,4000多个是次常用字,4000多个是罕用字。他认为,这12366个汉字可以代表古代和现代文献中汉字的基本面貌。由此得出结论:从汉语书面语总体来考虑,在全部汉语书面语中(包括现代汉语和古代汉语),包含在一个汉字中的熵是9.65比特。当然,这只是冯志伟的一个不成熟猜测。1984年,冯志伟在《文字改革》发表了一篇短文,通俗地介绍了他的研究结果。80年代末期,北京航空学院计算机系刘源教授根据计算机汉字频度的统计结果,计算出在现代和古代汉语文献中汉字的熵为9.71比特。刘源用计算机统计得出的结果与冯志伟用手工查频得出的结果差别不是很大。而且,刘源的想法与冯志伟很接近,因为刘源也统计了古代汉语文本。
1995年,冯志伟又进一步测定了在充分考虑汉字上下文的影响时包含在一个汉字中的熵,这个熵叫做“极限熵”。他测得,汉字的极限熵平均为4.0462比特。他的方法是通过英汉文本字符容量的对比来间接地推算极限熵,避免了复杂的测试和计算。当然,这也只是冯志伟使用间接方法对于汉字极限熵的一个不成熟的推测。他在研究中还发现,汉语翻译为英语时与英语翻译为汉语时,英汉文本字符容量之比是不一样的,汉译英时,英汉文本的字符容量之比为3.8,英译汉时,英汉文本的字符容量之比为2.7。熵的测定是数理语言学的一项基础研究,尽管冯志伟的认为他的研究只是他对于汉字熵的一种猜测,但是,由于汉字字符量多,测定汉字的熵和极限熵在他当时的条件下都是非常困难的工作,他的研究仍然得到了国内外学者的好评。美国宾夕法尼亚大学梅维恒( V. H. Mair )教授曾著文《评冯志伟教授的两本书》(《现代汉字和计算机》、《中文信息处理与汉语研究》),文中曾写到:“众所周知,词的概念对于有效地进行自然语言处理是十分重要的。可惜的是,汉字连书对于明确地划清词的界限是极为不利的,因而汉字给信息处理专家和计算机技术人员造成了巨大的障碍。在阅读这两本书的时候,我认识了现代标准汉语(MSM)中的一个新词--‘熵’。这个新词是用来翻译英文‘entropy’或‘information content’的(后者也可以译为‘信息量’)。冯志伟计算出:一个汉字的熵为9.65比特,而与其他语言相比,法语一个字母的熵为3.98比特,意大利语一个字母的熵为4.00比特,西班牙语一个字母的熵为4.01比特,英语一个字母的熵为4.03比特,德语一个字母的熵为4.12比特,俄语一个字母的熵为4.35比特,汉字的熵大得惊人。有些赞扬汉字的人宣称,汉字的熵这样大,似乎对于信息处理大有好处。然而,冯志伟却提出了与此完全不同而又令人信服的观点。”梅维恒教授又在文章中高兴地评论说:“如果一个人能够用科技术语和数学方程式来论述他的对于现代标准汉语的观点,那么,这样的论述当然应该是非常雄辩而有说服力的。不过,我却乐于通过直觉和观察的方法来研究,根据我的经验,我曾经断言,汉字的平均笔画数应该是十二划,二十年来对于汉字的这种低效率的性质和特性的直观感觉和细心观察,我的研究现在由冯志伟在他的书中已经证实,简化汉字标准集的平均笔画数与我在过去宣布的结论几乎完全相同,而如果考虑到被简化的繁体字,这个平均笔画数只是比十二划稍微高一些。这样的不谋而合真使我高兴万分。”冯志伟对于梅维衡教授的书评表示感谢,但是,他并没有赞同梅维衡教授在这个书评中提出的关于“减少汉字数量”的建议。冯志伟认为,汉字熵大的问题,不能以减少汉字数量为代价来解决。
如今我们的研究条件比过去好得多了,我们有了机器可读的汉语语料库,完全用不着进行手工查频,频度的统计可以在计算机上进行,只要非常简单的程序就可以轻而易举地从语料库中统计出汉字的频度并进一步计算出汉字的熵。但是,冯志伟当年在艰苦条件手工查频测定汉字熵的精神还是难能可贵的。
Shannon“信道编码定理”指出,在一种非扩展的无记忆信源中,码字的平均长度不能小于信源的熵。由于汉字的熵为9.65比特,大于8比特,因此,汉字不能使用单字节(8比特)编码,而要使用双字节(16比特)编码,在信息处理上,汉字处于不利地位。这是冯志伟根据Shannon的定理的出的科学结论。这个结论提醒我们:由于汉字在信息处理上处于不利地位,因此,我们必须加倍努力,以清醒的和科学的态度对待汉字,把中文信息处理搞好,使汉字适应信息时代的要求。
冯志伟关于汉字熵的测定工作,曾经受到一些人的强烈攻击,他们强词夺理地说冯志伟“污蔑汉字”。冯志伟的回答是:他对于汉字熵的研究完全是根据信息论的奠基人Shannon的“信道编码定理”进行的,他始终佩服Shannon,相信Shannon,因此,他不能否定Shannon。也许随着现代科学的进步,Shannon的信道编码定理已经被某些本领特别大的学者推翻了。如果是这样,冯志伟可以收回根据Shannon的定理推出的结论。但是,如果 Shannon的定理没有被推翻,冯志伟觉得他的看法没有什么的错误,理由是:Shannon比冯志伟高明,冯志伟没有能力推翻Shannon的定理。直到现在,冯志伟还没有见到Shannon的定理被人推翻的任何报道,因此,他坚信他的结论没有错误。他认为,坚持真理应当是一个科学工作者应该具备的最起码的道德。另外,今后随着科学技术的进步,也许可以通过现代技术的其他办法来克服汉字熵大在信息处理上的不利因素,从而绕过Shannon的信道编码定理而另辟新径,他对于现代技术的发展寄以巨大的希望。
冯志伟由于汉字熵的研究经常遭到一些人的攻击和纠缠。冯志伟多次表示,他要大声地向攻击他的人说,“冯志伟绝不否定汉字!”。请攻击和纠缠他的人不要再无的放失了,这是枉费心机!
冯志伟不主张语言文字有优劣之分,他认为,任何语言文字,只要能够为使用者方便地用来进行交际,就是好的语言文字,没有优劣的差别。冯志伟懂得英语、法语、德语、俄语、日语等多种外国语,他能使用这些语言对话和写作,从来也没有发现它们之间谁优谁劣。因此,冯志伟既反对“汉字优越论”,也反对“汉字落后论”。他认为,虽然文字没有优劣之分,但是,不同文字体系的效率是有差别的,汉字有优点,也有缺点,汉字熵大影响了汉字在信息处理中的效率,这是我们应当清醒地认识的问题,认识到这个问题,就有可能解决它,从而设法提高汉字在信息处理中的效率。我们不能因为汉字的优点而主张“汉字优越论”,也不能因为它的缺点而主张“汉字落后论”。汉字和圣书字、钉头字、玛雅文字一样,都是世界上最古老的文字,现在,其他的文字已经不再使用,而汉字一直在使用,这就足以证明汉字是有生命力的,尽管汉字的熵大,在信息处理上处于不利地位,但是,随着科学技术的发展,我们有信心克服汉字熵大这个不利因素,使汉字在信息时代葆其美妙之青春。
上面这3个词,是不是同一个东西?为什么我们可以理解上面这3个词,靠什么?
就是语音。
语言文字最重要的本质就是记录重现语音,就是能够以书面和口读重演语音。任何一个文盲,只要经过拼音训练,就可以读出“围棋棋谱"这个概念。任何一个精英,如果没有看到过”巡航导弹“的照片和实物,哪怕他识字,也不知道这个xunhangdaodan是个什么玩意。
越南1945年革命胜利后,胡志明发起扫盲运动,运用法国人发明的越南拼音文字,越南北方在短短2个月里就消除了文盲。
- [15]huangnigang1
- 但是一旦使用汉语拼音,中文书籍就可以进行索引查询了。所以可以知道汉字本身缺乏了一些东西,而这些东西的缺乏造成看上去汉字简练。
那么看看汉语拼音的文本长度吧:
English,Yingyu,英语。
可以看到英语的汉语拼音的符号就变长了。同样的汉语信息,采用不同编码方式可以得到不同文本长度。
Glucose,葡萄糖,putaotang。现在可以看到拼音汉语的符号数目超过了英语。
preemty, 先发制人。xianfazhiren,拼音汉语的符号数目也超过了英语。
你可以从上面例子看到,语音的记录是包含在字母中的。汉字符号少,但是没有记录语音成分,靠死记硬背把语音同文字相关,所以考虑语言使用所需能量上看,识别汉字需要花更多的精力。
在实际使用中,汉字简练并没有带来精确,所以国际条约文本汉语语意不精确,往往不能作为正式法律文本。比如中国参加WTO条约的文本就没有以汉语形式写下来,因为其中大量的条款,汉语汉字居然无法找到确切的表达。 - 博主回复(2014-9-1 16:44):这是巨大的工程,我估计难以实施。
- [14]huangnigang1
- 学习语言,对基本符号只能采取死记硬背的方法。
英语26个字母不仅仅要死记硬背26个字母,还要记住abcd的排列顺序。美英1岁孩童为了记住26个字母和顺序,还要唱儿歌。
但是一旦记住了,就可以无限扩张使用了。
汉字符号做不到这一点。如果没有朱镕基总理,你我可能一辈子也不知道汉字里还有“镕”这个符号。
中国出版的大部分书籍没有索引,看书无法查关键词,就是汉字无法做到英语那样的约定成俗的abcd符号排列。
- [13]huangnigang1
- 博主回复(2014-9-1 11:06):我注意到,一本英汉对照的书,中文的页数显著低于英文版。从文字熵来讲,这怎么理解?
==============================================
从信息论讲,一种语言使用的符号越多,其文本就越短。
比如English,要用7个字母。英语,只有2个汉字。
对同样的语言信息进行文字编码,用字母要7个符号,编码长,用汉字只要两个符号,编码短。为什么?因为字母只有26个,而汉字有成千上万个。如果你用01码的话,编码更长。
4个核苷酸的排列就可以决定20个氨基酸的排列,最后可以决定形形色色的生命形态。
你懂这个编码道理了吗?我这里不能用公式给你写,你去看任何一本信息论书籍,都会讨论这个问题。
一个符号的文字熵越高,意味着这个符号的确信度低,即出现的几率低,需要更多的信息来确定。
文字熵的高低表现了这个文字的符号使用效率。
英语的文字熵是4比特,也就是说英语平均只要使用2^4=16个字母就行了,而英语字母共26个,那么英语的符号效率是16/26=62%;汉字文字熵是9.65比特,平均使用2^9.65=803个汉字就行了,而常用汉字是6000余个,汉字的符号使用效率是803/6000=13%。
中国孩子们用6年时间死记硬背3000个汉字,把最好的年华用来死记硬背那些使用效率很低的汉字单字符号,怎么还会留下时间空间进行脑力创造性训练呢?
更可怕的是,中国孩子把学习汉字所采用的死记硬背方法用于其它学习上,被害惨了。
- [12]陈奂生
- 方言差异越大,才越发感受到秦始皇“书同文”举措意义的重大、伟大!
- 博主回复(2014-9-1 11:33):是的
- [11]huangnigang1
- 博主回复(2014-9-1 10:45):是否得到了学术界认可?
===============
当然了,任何一本信息论教材都会谈到语言熵。 - 博主回复(2014-9-1 11:06):我注意到,一本英汉对照的书,中文的页数显著低于英文版。从文字熵来讲,这怎么理解?
- [10]huangnigang1
- 博主回复(2014-9-1 10:32):那是非常遥远的事
=========================
工业革命以来,多少落后文明被淘汰了?
“纯种”的华夏文明其实也被淘汰了。今天的中国文化在注入来自日本的文字等外来文明后,已经不是原本的华夏文明了,是个杂种了,而中国文明还在剧烈变动之中。
在今后10年内,一旦中国经济发展出现重大问题,中国文明将进一步欧美化。 - 博主回复(2014-9-1 11:08):这是可能的
- [9]huangnigang1
- 博主回复(2014-9-1 10:16):文字熵怎么算出来的?
=============================
参看《首次测定汉字熵值》
http://www.hezi.net/He/Friends/FengZiWei/Article/Chinese_Entropy.htm - 博主回复(2014-9-1 10:45):是否得到了学术界认可?
- [8]huangnigang1
- 博主说:“一切落后的、愚昧的文明都将随风而去。”
这句话没有问题,但是无法量化。
量化的说法就是“高文字熵的文明都是相对落后的文明,愚昧的文明”,代入博主的上述定义,就可以表达为:“一切高文字熵的文明都将随风而去”。 - 博主回复(2014-9-1 10:32):那是非常遥远的事
- [7]huangnigang1
- 博主回复(2014-9-1 09:36):汉字的文字熵比英语高,这事肯定吗?
==============================
绝对肯定。
英语文字熵4.0比特,汉语文字熵9.65比特,俄语文字熵4.46比特。
汉语拼音文字的文字熵是4.26比特,但是汉语拼音文字无法区分声调和同音字,所以实用意义仅在于键盘输入和字典查询,索引编排等。
越南文字改革将汉字改成拼音文字后,5声声调也有相应的符号,所以越南文拼音化就很成功,美中不足的是越南文拼音字母数目过多,其拼音文字熵就此偏高,达到5.23比特。但也比汉语好。北越的70后已经获得了沃尔夫数学奖,中国人还是鸭蛋。
日文的文字熵是5.5比特,也偏高,但比汉语的文字熵低。
全世界各种语言中只有中文的文字熵最高,这就解释了有5000年历史的中国人无法建立科学的原因。直至今天,中国人还是遍地是中医粉,韩寒粉。 - 博主回复(2014-9-1 10:16):文字熵怎么算出来的?
- [6]huangnigang1
- 5楼的推而广之是有道理的。
中文就是走不出国门,英语就可以走遍天下。
从语言的文字熵分析,文字熵数值越小的语言越有生命力,俄语汉语的使用者都想成为世界潮流的领导者推动者,最后都身败名裂,原因是汉语俄语的文字熵值就是比英语法语德语的文字熵值高。
方言连文字符号都没有或不完善,根本不会有生命力。
语言是人类交流思想的一种工具,方言造成人类交流的隔阂,怎么会有生命力呢? - 博主回复(2014-9-1 09:36):汉字的文字熵比英语高,这事肯定吗?
- [5]牛登科
- 中文,主要是中国这块土地上的人使用的方言。
当然,日文,韩文,也分别是东亚一块土地上使用的方言。 - 博主回复(2014-8-31 22:54):我讲的方言,指的是国内的汉语系列的方言。国际上的事情暂不考虑。
- [4]张能立
- 影响中国科学家勇攀“科学珠峰”的因素到底有哪些?http://blog.sciencenet.cn/blog-39840-823860.html 。欢迎大家批评指正。
- [3]张彦虎
- 方言不会被淘汰。
- 博主回复(2014-8-31 21:49):世界上多少方言已经或正在消亡
- 博主回复(2014-8-31 21:45):那是你的一厢情愿
- [2]tudao
- 大趋势,没有办法阻止,唉!
- 博主回复(2014-8-31 20:32):社会要发展,不必阻止。
- [1]ch555
- 越落后的地区,越偏远的地区,方言越古怪,越不能交流。
结论太笼统了,反例很多。 - 博主回复(2014-8-31 20:14):能不能举个反例?
- 博主回复(2014-8-31 19:55):这是大致的说法,肯定不严格。
1/1 | 总计:30 | 首页 | 上一页 | 下一页 | 末页 | 跳转
|
No comments:
Post a Comment