phymath999: 能猜出来的字符不运载信息，而不能猜出来的字符运载信息,空格所隐藏的字符属于多余度字符，不用那些字符也能运载该句子的全部信息。多余度大小对信息阅读和检错抗错有重要的意义

从信息熵角度看中文信息产业的发展

PHILIP ZHANG

前些时候，一些报导说，在中国软件市场，八十年代是中文操作系统竞争，九十年代是中文输入法竞争，从现在起，是办公室套件竞争。这个竞争线条，是按照微软公司中文产品的发展来描绘的：系统和基础科学技术的标准问题，微软公司已经解决，剩下的是应用软件市场开发问题了。

然而，仔细观察一下微软公司的中文软件系列，就能发现基础科学技术方面的错误（不是打打补丁就能修补的臭虫）。这些错误对中国的软件市场、语言文字工作、文化教育事业和有关科研方面造成的误导相当严重，以至于指明这些错误和探讨真理都成了非常困难的事情。如果把中文软件工业比喻作一棵参天大树，那么，微软公司中文系统的错误就出在树根上：微软公司在设计制作中文软件的时候，忽略了信息产业基础建设的核心问题 -- 信息熵。“千年虫”是基础建设过失造成的“定时炸弹”。微软公司产品的系统错误是“定量炸弹”，没有达到一定的程度，很难体会到这颗炸弹对中文信息产业的潜在威胁有多么严重。而达到一定程度的时候，问题可能已经积重难反，损失可能已经造成而难以弥补，中文的信息产业可能不得走回头路。换句话说，尽管微软公司产品的发展线条不能代表中文信息产业发展的实际和需要，但是，如果不搞好基础建设，那么，中文信息产业和软件市场最后还得回到微软公司那里去。中国早在七十年代就完成了中文信息熵基础工作，八十年代基本上完成了大规模的中文信息熵研究工作。这些，本来应该是中文软件工业的科学技术基础。然而，面临信息时代挑战，一些报刊杂志望文生义地使用信息论的一些术语词汇宣扬“汉字优越”。这些年，微软公司的中文系统被误认为“标准”，几乎成了一种迷信，迫使许多中文软件厂商为幸存而奔忙，无法从事基本建设。这些阻碍了信息科学的基础建设。这篇文章试图破除对微软的迷信，说明信息熵对中文信息产业和中文软件发展的重要意义，同时，希望中文软件厂商能更多过问科学技术的基础问题，把微软公司误导的中文软件市场转移到正确的轨道上来，也希望中国政府有关部门在制定软件工业标准的时候，要特别注意信息产业的基础建设标准的问题。【信息熵的来历、基本概念和方法】美国的信息产业之所以能有今天的称雄世界的实力和接连不断地产生新的技术产品，完全是跟长期基础建设分不开的。这个基础建设的最重要的内容，是如何使用信息科学技术的基本原理和方法：信息熵。第二次世界大战期间，美国为了提高信息储存和传递的效率，发明了多种新的编码方法，奠定了现代信息科学技术的基础。战争结束后，这些方法得到了飞跃发展。在这些方法当中，科学家闪农和霍夫曼提出的信息熵和数据压缩的理论和方法最能代表现代信息学的基本概念。这里用闪农最喜欢用的猜谜方法来说明信息熵的基本概念。假如有：我们大__都喜__使__计__机来管__数__。不用很多努力，就可以猜出完整的句子：我们大家都喜欢使用计算机来管理数据。闪农指出，能猜出来的字符不运载信息，而不能猜出来的字符运载信息。空格所隐藏的字符属于多余度字符，不用那些字符也能运载该句子的全部信息。多余度大小对信息阅读和检错抗错有重要的意义。比如：我__大________使______机来____数__。就很难猜出完整的句子，在信息传递的时候，也很难做检错和抗错。因此，保留一定的多余度(或冗余度)是非常重要的。信息熵方法的基本目的，是找出某种符号系统的信息量和多余度之间的关系，以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。信息熵是数学方法和语言文字学的结合，基本计算公式是： H = - LOG 2（P）其中：H 表示信息熵，P 表示某种语言文字的字符出现的概率，LOG 2是以二为底的对数，用的是二进制，因而，信息熵的单位是比特（BIT，即二进制的0和1）。五十年代，现代信息论介绍到中国。七十年代，中国科学家完成了中文汉字字符信息熵的初步计算工作，八十年代又做了更完整的计算。他们的基本方法是：逐渐扩大汉字容量，根据随机试验结果的各种概率，使用公式 H = - E（n， r=1） LOG （2） P （r）来计算熵值H。公式中，H 是静态信息熵，E（n， r=1）是从r 到n 个结果的和，LOG（2）是以2为底的对数，P（r）是第r 个结果的概率。这个公式是基本公式的一般静态方法，求到的数值是静态平均信息熵。中国科学家冯志伟等人的对中文字符信息熵计算的结果是：汉字容量：1 1052 1830 4912 5104 5211 12370
信息熵值：0 7.53 9.52 9.61 9.63 9.64 9.65 随着汉字容量增大，信息熵的增加趋缓；汉字增加到12370以后，不再使信息熵有明显的增加。通过数理语言学中著名的齐普夫定律（ZIPF'S LAW）核算，汉字的容量极限是12366个汉字，汉字静态平均信息熵的值是9.65比特，或者说，汉字的平均信息量是9.65比特（见冯志伟提出的“汉字容量极限定律”）。这是当今世界上信息量最大的文字符号系统。下面是联合国五种工作语言文字的信息熵比较：法文： 3.98比特
西班牙文：4.01比特
英文： 4.03比特
俄文： 4.35比特
中文： 9.65比特可以看出，拼音文字的信息熵小，差别不大。汉字的信息量最大，因而在信息管理和传递的时候处于最不利的地位。【信息熵的意义：数据储存】信息熵的直接意义是为信息工程设计提供基本的科学技术依据。就此来说，静态平均信息熵是基础的基础。例如，在为中文数据管理和传递设计硬件和软件的时候，首先要根据汉字静态平均信息熵决定如何储存和使用多大的空间来储存汉字字符。汉字的平均信息熵是9.65比特，每个汉字字符需要两个字节（一个字节等于8 比特）。汉字总量大约有五万六千个，需要十多万个字节才能保证中文信息的储存和传递有足够的待用字符。目前的中文字库包括二万多个汉字字符，占用将近4.5万个字节。尽管这个字库还没有包括所有的汉字字符，却已经是世界上消耗最大和成本最高的字符系统了。此外，汉字还在不断增加，每增加一个汉字就等于增加一个新的字符，需要增加一个字节来储存。这意味着汉字字符方式很难为中文信息管理建立长期稳定和规模合理的数据标准。英文等拼音文字的平均信息熵大都4.5个比特以下，每个字符只占用一个字节。例如英文，一共有26个字母字符，大小写和各种标点符号都算上，只要90字节左右就够了，不到中文字符消耗的千分之一。此外，在增加新的词汇的时候，这些拼音文字不需要增加新的字符，也不需要增加新的字节消耗，因而能够建立长期稳定和规模合理的数据标准。这是英文等拼音文字方式更适合信息数据管理的基本技术因素。【信息熵的意义：数据管理】信息熵大小的另一个重要意义是表明某种字符系统的效率。一般说来，文字的字符信息熵越大，原始数据输入的工作量越小，工作效率就越低。这里用二进制和十进制的数字信息管理说明。二进制只有两个符号，0和1，是规模最小和非常单一稳定的标准，可原始数据输入的整体工作量也是最大的。比如99这个数，二进制输入是“1100011”，要七个字符。用十进制，输入是“99”，两个字符。可是，十进制需要十个数字符号做标准，比二进制的规模大得多。在做数据管理的时候，二进制的功能强，灵活，而且非常简洁。十进制的信息量比二进制的大，可作业效率却比二进制的低得多。然而，二进制的多余度最小，人阅读起来很困难。十进制的多余度大，适合人类阅读。因此，机器用二进制作业，人用十进制阅读。这个对比说明，使用信息量大的字符系统，原始数据输入工作量可以降得很低，其代价是总体效率大大降低。如果信息量过大，那么，该字符系统就有可能仅仅用来作数据储存和检索，而不能用来作数据标准。不同信息量的字符系统可能有近似的多余度。据有关专家计算，中文和英文等拼音文字的多余度基本接近。计算方法是： R = 1 - H（LMT）/H（0）其中，R是多余度，H（LMT）是极限熵，H（0）是平均最大熵。由此计算，汉字的多余度是56%到74%，平均值是65%左右。美国专家BURTON和LICKLIDER 根据闪农的试验方法，算出英文的多余度在67%到80%，平均为73%左右。中国信息学和语言文字学专家冯志伟和尹斌庸等人指出：多余度高使语言文字精密，太高了就会造成学习和使用的烦琐浪费；中文和英文等拼音文字的多余度相差不大，说明它们的精密度相差不大，因而不存在语素方面的孰优孰劣的问题。可见，造成汉字方式整体效率低的基本因素不是多余度，而是信息熵。这才是问题的核心。【信息熵的意义：数据传递】计算机信息传递有两种方式：并联和串联。并联方式是：一个字节的八个比特同时传递，好像八座门同时打开，八个人同时进出。并联多用在小范围和短距离的数据传递，例如：计算机和印刷机的联接，一个办公室或一个办公楼内部的计算机联网（LAN），等等。并联的好处是速度快，问题是成本高。比如，在两个城市或两个国家之间用并联，那么，光是电缆的成本就高得很，更不要说有关的设施和维护了。串联的方式的成本比并联的要低的多，因而，在大范围和长距离的条件下作数据传递，大都用串联。国际网络用的就是串联（一些用户或网站自己可能用并联）方式传递数据。串联传递的时候，字符的字节是按照一个个比特来传递的，即一连串的0和1，实现过程是一连串的开关电路。通讯收发到一定比特数量，必须确定一个字节是否传递完毕，以便将一连串的0 和1 转换为人可以阅读的字符。英文等拼音文字的的平均信息熵小于4.5比特，一个字节有八个比特，因此，可以将剩余的比特用来作奇偶检验和抗错。中文的汉字方式需要两个字节，在建立字库的时候，两个字节的比特全都用满了，没有剩余的比特来作奇偶检验和抗错。这是中文网络通讯中很容易出现坏码（不是乱码）的基本原因之一。乱码没有编码损失，可以通过兼容来避免乱码，或者通过字节重新组合来挽救信息损失；而坏码是编码本身的损失，消减甚至丧失了兼容和字节重组的可能，很难挽救信息损失，即便能做些弥补，成本也是非常高的。为了满足多种语言文字网络通讯和防止坏码的需要，国际网络（如英特网）广泛采用MIME方式传递信息（MIME是Multipurpose Internet Mail Extensions的简称）。MIME方式的基本工作原理是：按照一定的进制，将所有的字符字节转换成国际通用ASCII 纯文本字符（每个字符用7个比特），以便能保证传递数据的兼容无损。 MIME方法的核心是使用七比特数据方式（7 BIT DATA方式，纯文本字符方式）传递信息，剩下的一个比特作奇偶检验。这种方式通用于所有的计算机和网络渠道。英文等信息熵小的拼音文字本身就使用纯文本字符，不需要MIME转换。中文字符信息熵大，没有MIME转换就很容易出现乱码或坏码。转换是有成本消耗的，而汉字方式的成本消耗是世界上最大的。【超级计算机能提高汉字方式的效率吗？】随着计算机的速度和储存能力等个方面的提高，中文信息管理和传递的困难是否会自动得到解决呢？不一定。困难是汉字方式本身的问题。例如，即便我们用四个字节来作国际标准字符集（国际标准组织IOS 已经多次提出这个方案），使每个汉字有足够的比特剩余来作奇偶检验和特性参数，然而，数据全面管理和传递的效率问题依然存在。原因是：（一）中文数据的文字方式决定了标准的多重性和规模过大，而且，只要汉字还再增加，它的字符集就是不稳定的。不管一个字符用多少字节，也不管计算机的储存容量有多大，这样的字符集做数据储存和检索还可以，做全面的数据管理就总是有严重问题。（二）汉字输入输出的字符仍然需要多次转换，还是高成本和高消耗的。现有的中文输入方法跟语言文字的标准规范之间的差别依然存在，人的操作和学习等效率还是没有得到提高。电笔输入作鉴别（如签字）的效果很好，但是，如果数据规模大，效率就不如键盘操作。声音输入作指令和小规模数据输入还可以，做大规模数据输入，就会因为劳动强度太大而不现实。更重要的是，键盘操作基本上不影响思维，而声音操作的脑力消耗比键盘操作的大得多，严重地妨碍思维。微软公司说，它的多媒体声音输入可以让中文输入更轻松愉快，那是商业夸张。电笔输入和声音输入是非常重要的技术，但是，这些技术突破并不能解决中文的效率问题。（三）拼音文字的每个字符只要一个字节，现在用两个字节的联码（UNICODE），已经有一个字节是多余的，在做数据处理和传递的时候，为此多支出了一倍的成本（包括处理多余字节的程序消耗）。这些多余成本基本是为了迁就中文等亚洲文字的需要，对拼音文字本身来说，基本上没有意义。如果用四个字节，就有三个字节是多余的，拼音文字就要多支出三倍的成本。在可见将来，各方面的发展能否抵消这些多余成本，还不清楚。使用拼音文字的各个国家是否乐意为了中国汉字的需要而继续牺牲自己的利益来年复一年地支出更多和毫无回收可能的成本，也不清楚。（四）通讯传递中，汉字字符由双字节变成了四字节，使原来的成本和消耗增加了一倍，平衡或抵消了字节增加和速度提高所带来的效益。中文效率的问题不是出在计算机方面，因而，不管计算机技术怎么发展，中文的低效率问题就依然存在。再说，计算机技术发展，所有的语言文字都得益，相比之下，原来高效率的文字方式的效率仍然是高效率的，汉字方式仍然难于跟拼音文字方式的效率相媲美。【信息熵：鉴别微软公司中文产品的有力工具】信息学的基本方法说明，把多余度规模控制在合理范围，是提高字符运行效率和计算机编码的中心课题。可是，将近二十年来，中文软件的发展基本倾向是不断地为输入方法加码和编制新码，只考虑市场利益，根本不考虑信息科学技术的根本问题和基本要求。微软公司搞的“智能”等输入方法是一个突出代表。例如，该公司说，使用它的“智能”输入方法，只要打出一个或数个汉字的编码，就能显示出整个词组或句子。微软公司把这样的方法称为“世界级”的高科技。其实，这种方法不外乎两条：（一）用数理统计方法列出字符组合的可能，把这些可能储存起来，根据用户打出的特定字符来寻找和显示这些可能。（二）用数理统计方法归纳字词之间的联系的可能和频率，建立这些可能和频率的索引，储存起来，根据用户击键的先后次序，寻找索引，再根据索引调度字符串，显示出来。这些方法，可以用“对号入座”来比喻。早在八十年代初期，许多英文文软件厂商就已经使用这些方法了，厂商可以预存各种可能，用户也能根据自己的需要来规定如何“对号入座”调动字符。然而，那个时候，各个厂商从来没有把这些方法称作“智能”技术。基本考虑是：（一）按照信息科学技术的基本原理来保证信息熵和多余度之间的合理比例关系，从而能保证英文信息有长期稳定的数据管理标准。（二）严格说来，“智能”技术是思维技术，即根据已有知识作出新东西，而“对号入座”是重复预存规定的机械动作，并不产生新东西。在英文市场，微软公司没有把“对号入座”宣扬成“智能”方法，否则，就会引起大家的笑话。然而，微软公司却在中国把“对号入座”的方法称作“智能”高科技来到处兜售。为此，该公司用了许多数学方法证明它的方法有多么先进，例如，用统计方法和树理论证明“智能”和“联想”输入法，用模糊数学证明词句联系和检测，等等。对没有学过有关数学方法和信息熵理论的人来说，那些新鲜词汇的确挺吓唬人，有可能为之蒙蔽，以为微软公司的方法可能真的是“世界级”的高科技。然而，如果了解了有关原理和方法，就能看出，微软公司的作法，不过是把早已有的“对号入座”方法冠以新的时髦词汇，对中文效率的提高并没有任何本质上的积极贡献。如果那些“对号入座”真的是“世界级”的高科技的话，那么，该公司为什么不把它用到英文市场呢？中文的信息熵本来就大，已经给信息管理带来不利条件。微软公司的方法不但对中文效率的改善提高毫无积极意义，而且还增加了数据管理的消耗和成本，甚至破坏了语言文字和信息管理的基本标准和规范。不过，微软公司最关心的是中国市场的利润，而不是中文信息科学技术的前途。现有的汉字方式对微软公司是非常有利的，该公司自然要它为眼中的“汉字文化传统”吹捧，甚至还把这种谬论和方法冠以“中文信息处理的重大技术突破”和“世界级”高科技产品的美名。这是愚弄人。事实最能说服人。让我们来看一个例子。下面的段落从微软公司的中文新闻报告（一九九九年三月四日）中直接摘录的： “中文处理能力有重大突破 Office 2000在中文处理方面也有重大突破。Office 2000中文版集成了最新的微软拼音输入法2.0并首次引进中文的语法校对和拼写检查。使得用户可以使用使用鼠标而无须其他设备来实现中文手写输入；并成功实现了基于Unicode的繁体中文简体中文之间的相互转换，为全球范围炎黄子孙进行中文交流提供了更有力的工具；汉语拼音的注音功能则为中文基础教育提供了方便。” 受过基础语文教育的人都能看到，这段话有不少基本常识的错误。例如：第二句里的“集成了”应该是“汇集了”。“使得用户可以使用使用……”一句当中，“使用”一词重复。这个句子没有主语，标点用了分号，使后面的并列句全都成了没有主语的错句，同时，有的并列句在分号后面用“并”，后来的又不用连接词了。在“并成功实现了……相互转换”一句中，“繁体中文”与“简体中文”中间少了“和”字，而“提供了更有力的工具”的“更”字，事先没有列出比较对象，是多余的。这些都不符合中文语法的基本常识和规范。从写作方面来看，这段话写得很别扭，阅读起来不通顺，很难上口朗读。这么短短的一段新闻报导，错误如此之多，微软公司的所谓“中文处理能力的重大突破”到底是什么？它的那些数理统计、树理论和模糊数学等等方法证明的高科技，使用的结果就是这个样子？这就是它的“世界级”的“智能”技术水平吗？从信息论的角度看，微软公司中文软件系列的“智能”方法造成了不少误导作用：它破坏了中文多余度的合理比例和相对稳定，违反了国家颁布的语言文字的基本规范，加大了中文语言文字学习和使用的差距。不管微软公司用了多少时髦词汇来描述它的中文软件产品，违背信息论基本原理和方法的错误依然存在，对中文信息产业的“定量炸弹”的威胁依然存在。【基础建设是中文信息产业的根本】从以上阐述可以看出，汉字信息量大，是中文信息管理和传递成本高、消耗大和效率低的基本原因。汉字为中国文明的延续发展发挥了巨大的历史作用。今天，汉字方式是阻碍中文信息科学技术发展的头号困难因素。中国可以在信息工业的机械设计和制作方面赶上世界先进水平，然而，如果不能改善中文的信息熵和多余度之间的关系，那么，中国的信息产业的整体就总是低效率的，就总得跟着别人后面走，难免挨打。一些美国人担心中国发展计算机和导弹技术会造成“中国威胁”，那的确是夸张了。即便把美国所有的计算机技术和导弹技术都交给中国，只要中国还是按照汉字方式来操作，那么，在计算机和导弹技术方面，中国就总是处于不利地位，总是赶不上美国。中国火箭导弹技术专家钱学森等人早就说过：如何提高中文的效率是关系到国家安全的大事情。许多从事中文信息熵研究的科学家们说：中国失去了整整一个打字机时代（工业革命），对中国的科学技术和文化教育带来了不利影响。在计算机信息时代，汉字方式和现代科学技术矛盾更加深化了，其中最大的问题是如何利用信息熵的方法来优化中文数据的管理和传递，即文字方式和书写工具（例如计算机）的最优结合。面对日益强盛的信息工业挑战，中国科学家是有充份准备的。如果中国能按照原来准备好了的方向发展，那么，中国的信息产业（包括软件产业）就会避免许多弯路，微软公司对中国软件市场的误导作用也不会那么严重。然而，这些年来，中国有些报刊杂志（其中包括某些官方大报刊）望文生义，以为“汉字信息量大”是好事情，把它作为鼓吹“汉字优越”论的依据，甚至把这些违背科学技术基本原理的谬论贴上爱国主义的政治标签。这种宣传极大地误导了人们对信息科学技术的理解。这不是在搞科教兴国，而是在加重中国信息科学技术发展所面临的困难，特别是加重了政治和文化方面的困难。信息科学技术跟语言文字息息相关，它的发展自然对许多国家的民族传统文化提出了挑战，其中包括对美国一类的信息工业大国的挑战。中国的历史悠长，文字方式独特，受到的挑战自然就最为严重。面对科学技术的挑战，就要用科学技术的发展来迎战，用极端民族主义的作法，最后总是失败，传统文化最后也还是保不住。中国主席江泽民多次提出，中国需要文艺复兴。这个号召有重大的历史意义，指明了中国民族传统文化延续和发展的唯一出路。文艺复兴的一个基本内容是文字方式必须符合时代发展的需要。“汉字优越论”所提倡的不是中国的文艺复兴，而是在鼓吹文艺衰退。中国政府可以通过法律手段和标准专利等手段来为国产软件和信息产业的发展提供环境保护，民间可以用文学作品等各种方式抵制外来货。然而，“发展才是硬道理。”中文软件和中文信息产业到底能不能在日益全球化的竞争中幸存，还得看自己的科学技术的基础建设搞得怎么样。就目前和可见将来的状况来说，中文信息产业基础建设的核心课题，就是如何利用信息熵的基本原理和方法来提高中文的效率。【作者补充】《光明日报》（99/9/8）把我的这篇文章作为开头，开始组织有关中文改革的专栏讨论。我衷心希望这个讨论能搞成真正的科学技术的讨论，而不是极端民族主义情绪的宣泄或为某种商业利益服务的争论。看了《光明日报》发表的讨论文章，有所感，附上供读者参考。中文改革是为中国文化造福，不是抛弃中国文化。雷海涛的文章《古老汉字绝非中国信息化的障碍》（《光明日报》99/9/8）有些提法不妥。例如，作者说：“电脑的字库里预备了常用汉字（包括次常用汉字），应该说已经基本够用。不过，这和英文的26个字母相比还是一个非常大的数量级。……就此有的人说，在电脑时代汉字是中国进入信息时代的瓶颈，甚至有可能使汉字这一古老的文化载体，成为阻挠今日中国走向现代化的难关，因而应该抛弃汉字，而使用拼音文字。这些说法无疑都是武断的，没有进行认真研究而做出的结论。” 常用字数量可以用来编写语文教材和工具书，也可以用来编制应用软件和制造电子字典或词典，甚至可以用来作语言文字的国家标准和规范，但是，常用字数量至多是信息科学技术中做统计研究的一个数据，而不是信息科学技术的基础依据。例如，当前多数计算机和网络都使用UNICODE（联码，基本包括所有现代语言文字字符的编码）。UNICODE 的根据不是各种语言文字的常用字（词）覆盖面，而是文字字符的信息熵比特数值。在UNICODE 范围内，可以编制2500字的汉字字库，也可以编制25000字的汉字字库。不管字库有多少字，汉字信息熵决定了每个汉字字符都需要两个字节。这是所有中文计算机硬件和软件设计的基本依据。在做信息熵计算的时候，不能只考虑常用字符，而是要使用字符的“容量极限定律”。况且，计算机做数据管理的根据是字符书写方式和字符编码指令，而不是常用字数量。例如，在编辑电话簿的时候，数据处理的根据是名单的文字书写方式和对所有字符编码的处理指令，而不是名单用了多少常用字。在今年九月召开的第十五届UNICODE 国际讨论会上，各国代表集中讨论的是文字符号的书写方式和信息科学技术发展的关系，而不是常用字符的多少。常用字数量是相对的。这些年常用的字，过些年就不常用了；而过去不常用的字，今天却可能很时髦。例如“酷”字，以前除了说“酷爱”、“冷酷”、“残酷”和“严酷”，基本很少用。现在，到处都用“酷”，比当年的“盖了帽了”要常用得多，“酷”字成了常用字。再说，不管一个字符是否常用，只要包括在数据里，就得按照通用于所有字符的和相当稳定的标准规范来统一处理，否则，数据管理就乱套了。因此，常用字数量不能作为数据管理的标准依据，更不是观察汉字在电脑时代是否有“瓶颈”的依据。所谓汉字方式在电脑时代遇到“瓶颈”，指的不仅仅是作者提到中文输入输出、储存和检索，而是全面的数据管理。如果光考虑计算机的中文输入输出、储存和检索，那么，美国IBM 公司早在60年代就全部实现了，到现在已经是30多年的老技术了。就微软公司在中国鼓吹的所谓“智能”输入法来说，美国软件WORDSTAR和WORDPERFECT 早在80年代初就实现了，加拿大一家公司制作的中文软件TIANMA也早在1984年就已经做到了。即便就考虑中文输入而不考虑其他，在中国，60年代就开始了有关试验研究，80年代以后出现了“万码（马）奔腾”，到现在，前后30来年，投入的人力、物力、资金和时间是世界上最多的，然而，不少问题还是没有解决。如果没有障碍需要克服，那么，仅仅为了输入就做那么大的投入，岂不是无的放矢和浪费吗？如何克服障碍？中国政府早就有了答案：坚持中文现代化的发展方向，坚持现代汉语拼音方案，坚持语言文字的标准规范化和有关的文字改革。1999年6月30日，中国国家主席江泽民和其他领导人接见了《当代中国》的编写组，其中包括该丛书《当代中国的文字改革》卷的科学家。在接见的时候，各位领导人充分肯定和高度评价了1949年到1985年文字改革工作的历程和成就，鼓励科学工作者继续坚持政府提出的政策，把现在和未来的工作做得更好。雷海涛的文章把中文改革的图景描绘成“抛弃汉字”，“是武断的，没有进行认真研究而做出的结论”的说法，不但不符合中文改革工作几十年的历史事实，也不符合中国政府一贯坚持的有关政策，更不符合国家领导人的殷切期望。作者把中文发展和向拼音文字学习对立起来的说法是极为不妥的。向拼音文字学习来搞好中文现代化，是许多中国科学家和文学家经过一百多年的努力而获得的认识，不是这十来年计算机普及才开始的想法。 1892年，中国清政府就开始尝试用拼音文字的方法为中文建立一套拼音字母系统。世纪之交以后，发生了历史意义非常深远的新文化运动和白话文运动，其中一个很重要的成就，就是采用拼音文字的标点符号，把中文传统的单字堆积写法变成了分句写法。20年代和30年代，中国科学界提出了采用罗马拼音文字方法跟汉字结合使用的主张和具体措施。后来，文学家茅盾等人提出了拼音和汉字并用的“双文制”的主张。在那前后，鲁迅、巴金、赵元任、曹禺、郭沫若、老舍、戴望舒、林语堂、周有光、王均、吕叔湘等等许多世界著名的中国文学家和学者，都是中文改革的坚决支持者和实践者，对中文现代化作出了卓越的贡献。他们中间许多人的作品在历史上之所以有地位，跟历代作品一样，是因为集中记录和反映了语言文字的变化和时代的特征。在延安时代，毛泽东等领导人一直关心文字改革工作，大力支持陕甘宁边区政府主席林伯渠召开了拥护拉丁化新文字大会，宣布边区政府在法律上给予新文字合法地位，让大众有使用“双文制”的自由选择权。这是中国历史上第一次使中文采用拼音文字方式全面合法化的政治建设和法律建设的成就，为新中国成立以后继续推行中文现代化的事业打下了政治基础和法律基础。 1958年，现代汉语拼音方案问世，解决了汉唐以后两千年没有解决的中文语音字符的问题，在向拼音文字学习方面跨出了重要的一步，是中文发展历史上的一件大事。多年来，现代汉语拼音方案不但是中国的国家标准方案，而且是联合国等国际组织处理中文文件的标准方案，同时，美国政府、美国国会图书馆和许多科研教育机构，也把现代汉语拼音方案作为管理中文文献的标准方案。从现代汉语拼音方案问世到现在，该方案一直是中国语文教学的基本内容之一。 60年代，中国科学院语言研究所编写的《现代汉语词典》完成，首次采用以拼音字母为主排列中文词汇的方法，取得了巨大成功。70年代末和80年代初期，纯粹用拼音分词方式排列中文词汇的方法，在对外中文教学试验中也取得了很大成功。这两个成功，为如何实行“双文制”提供了重要的参考经验。目前，中国许多报刊杂志的刊头，都使用“双文制”，将汉语拼音字符和汉字并列使用。可见，向拼音文字学习来搞好中文现代化，是中国政府的一贯政策，取得了举世瞩目的伟大成就，得到了中国人民和全世界各国人民的承认和称赞。不幸的是，这十多年来，有关政策和发展成就被歪曲为“全盘西化”，甚至被一些人作为“左倾路线的产物”而否定。雷海涛的文章把中文发展和向拼音文字学习对立起来，恐怕是因为没有好好看看中文发展的历史，也没有好好学习中国政府的一贯政策。需要说明，我的文章的原名是《从信息熵的角度看中文信息产业的发展》，而不是《光明日报》改成的《汉语的‘信息熵’劣势》。修改的题目不妥，可能会造成“汉语劣势”或“中文劣势”的误导，因而可能会把用我的文章作开头而提倡的辩论引至错误的方向。如果修改的题目是“汉字的信息熵劣势”，我还可以勉强接受。一字之差，意义完全不一样。我曾经就此请教过中国有关部门的领导和专家，他们同意我的看法，希望能做公开说明和纠正，避免误导。信息熵的对象是符号系统及其效率，不是语言或语言的优劣。语言不存在优劣的问题，而文字方式则存在效率高低的问题。同一种语言可以用不同的字符书写记录，因而可以有不同的文字符号信息熵。同时，不同的语言也可以有非常近似的字符信息熵，例如，英文、西班牙文、法文、意大利文和德文各有千秋，然而，它们的文字方式基本同根（古代拉丁文），因而它们的信息熵非常近似。提到英文就想到ABC、提到中文就想到方块字，是一种文字方式长期为某种语言作书写记录的结果，并不能说明一种语言和一种文字符号的关系是天生如此和一成不变的，更不能说明一种文化只能有一种不变的文字符号。因此，一说到中文改革，就作汉语汉字和拼音语言文字之间孰优孰劣的比较，实在没有必要，在科学技术原理上也说不通。用从北京到上海旅行打比方来说吧：选择坐牛车还是坐火车，全看需要。想慢慢悠悠、不计成本效益，就坐牛车；想快一点、讲究成本效益，就坐火车。不管选择什么车，旅行者还是自己，没有优劣之分，不同的是旅行效率。同样，在信息科学技术时代，中文面临的挑战是文字方式效率的选择能否满足中国现代化长征的需要的问题，而不是中文的优劣或汉语跟其他语言相比孰优孰劣的问题。做那种比较，实际上是极端民族主义心理在作怪。我这话说的可能有些激烈，却是那种比较的本质。从传说的黄帝时代造文字到现在，因为历史发展的需要，中文书写方式发生过多次变化。然而，中文还是中文，中国文化不但没有消亡，反而更加丰富多采和发扬光大，同时，中文的使用和学习效率也随着每次变化而不断提高，为中国的科学文化水平发展进步做出了巨大贡献。认为搞中文文字改革就是抛弃中国文化的想法，不但不符合中国文化发展的历史事实，而且也过低估计了中国文化在变化中幸存和发展的能力。说实在的，那种想法不是在说明保护中国文化的意愿，而是反映了对中国文化发展前途感到悲观的某种消极情结。

(End)

phymath999

Tuesday, February 19, 2013

能猜出来的字符不运载信息，而不能猜出来的字符运载信息,空格所隐藏的字符属于多余度字符，不用那些字符也能运载该句子的全部信息。多余度大小对信息阅读和检错抗错有重要的意义

No comments:

Post a Comment