Thursday, November 27, 2014

贝叶斯学派的,那么你会说先验概率分布完全是人为假定的一种对不确定性的刻划,和频率无关 ;赵南元,原来他搞的并不是传统的人工智能,而是带有哲学色彩的模拟认知系统

https://hchen2.wordpress.com/2007/03/03/%E6%88%91%E6%89%80%E7%9F%A5%E9%81%93%E7%9A%84%E8%B5%B5%E5%8D%97%E5%85%83%E6%95%99%E6%8E%88/

 

 

你的预报有多准?

在新语丝上关于天气预报的概率计算讨论得非常热烈,起因是在一篇科普文章里,作者就天气预报准确率为80%发表评论,说如果预报有雨,在降雨概率低的地方,你大可不必带伞。这里涉及到有关统计推断的几个重要概念:
 
1 什么是预报准确率?如果80%准确率指十次下雨天里气象预报有八次提前预报有雨,那么我只要天天预报有雨,准确率岂不是100%?如果80%指十天里有八天气象预报正确,那么我们仍关心其中有多少比例是雨天预报有雨,晴天报晴正确。假设两者都是准确率为80%,这是否说明气象预报比随机瞎猜更有效呢?这个问题成了新语丝上讨论的焦点之一。
 
2 先验概率是否影响对预报准确率的评价?如果一天为晴或雨的概率各50%,且每天的气象预报均统计独立,那么80%的晴天报晴雨天报雨准确率自然比随机瞎猜要强。可是,如果该地的降雨概率只有10%,那么一直报晴的错误率只有10%,尽管这对雨天的预报来说错误率为100%。现在我们知道,单看预报准确率无法区分两类错误:晴天报雨和雨天报晴。你可以要求在雨天报雨准确率不低于80%的条件下尽可能增大晴天报晴的概率,但是总体预测准确率不能保证仍是80%。
 
3 如果按照P(准确率)=P(晴天报晴)P(晴天)+P(雨天报雨)P(雨天)来评价天气预报水平是否有意义?我们以某地降雨概率为10%来评价以下预报机制:一直报晴的准确率为90%,而80%的晴天报晴雨天报雨其总体准确率也只有80%!实际上,我们更关心相对于晴天和雨天的先验概率分布,预报能够带给我们多少新的信息。一直报晴并不增加任何新的信息,所以该预报没有价值。
 
4 预报有雨且已知该预报80%晴天报晴雨天报雨准确率的情况下需要带伞吗?如果不麻烦,干嘛不?根据预报信息,降雨从先验概率0.1增长到后验概率0.31,似乎雨和晴仍是三七开,晴的可能性大,预报并不影响带伞与否的决策。如果你考虑先验晴雨比为9:1而后验晴雨比为9:4,这变化完全归功于80%的预报准确率。即使90%的预报准确率也不过让后验雨和晴的比率变为五五开罢了。换句话说,气象预报提供的信息不足以改变你对天气的先验判断。
 
5 统计推断一定基于频率意义上的概率分布吗?如果你是贝叶斯学派的,那么你会说先验概率分布完全是人为假定的一种对不确定性的刻划,和频率无关,我们并不关心每天的气象预测是否对应相同条件下的独立实验,而是人为假定基于已有知识(除了天气预报),未来某一天的晴雨比为9:1。天气预报所提供的信息必须以给定晴天或雨天后,预报结果的似然函数形式给出。似然函数不必服从概率分布。在某些特定情况下,先验分布也可以不服从常规的概率分布。
 
6 目前的争论对预报准确性的理解有帮助吗?对熟悉贝叶斯理论的人来说,以上结果没什么好惊讶的,但是对靠直觉草率判断的人来说,还是要记住:写清所有假设然后再开始做推断。举个例子:两个人在犯罪现场留下他们的血迹,根据化验结果,一为O型(在当地人群中约占60%),一为AB型(在当地人群中约占1%)。疑犯甲血型为O,与罪案现场血型之一相符。请问:此一证据是否增加该疑犯甲在罪案现场的指控?

我所知道的赵南元教授


大约十五年前我还在清华自动化系念本科的时候,曾经听人说起系里一个很怪的教授,基本上没什么人真正了解他在研究什么,而且他也不教我们本科生的课。他的名字倒是记住了,叫赵南元。后来我本科快毕业时,考了托和G,成绩都差强人意,闲暇无聊时常去照澜院的书店看书。在某个风和日丽的下午,我邂逅了一本名曰认知科学与广义进化论的书,从打开篇讲人工智能研究的局限和认知科学的研究方法就让我爱不释手,直到看完最后一页,感觉茅塞顿开又好像若有所失。然后才发现书的作者是赵南元,原来他搞的并不是传统的人工智能,而是带有哲学色彩的模拟认知系统。我至今还记得把这本书推荐给前好友林强时他诧异的表情,因为之前我才抨击过系里几位老师写的控制方面的教材东拼西凑着实不怎么样,他了解我对专业书的选择上一向挑剔。后来在挑战杯科展时看到赵南元的学生做的一个自学习扑翼系统不免上去多问几句,然后一个楞角分明的中年男子上来解释了一番,我后来才知道他就是赵教授,看上去非常年轻。在我读研究生时开始考虑用搏弈模型研究信息网络的计费问题,很多想法得益于赵的广义进化论的书。那是十年前了,我不过是一名普通的研究生,斗胆打电话到赵教授家里,希望向他请教一些书中关于搏弈论和智能代理方面的问题。赵南元没有什么架子,让我直接到他家里,讨论时一根接一根的抽烟。我素来讨厌烟味,但是也还能忍受相隔三米的赵教授一边交谈一边吞云吐雾。讨论的焦点集中在赵教授提出的自我表述模型有没有可能规范化,对信息不对称情况下的重复搏弈分析有何帮助。感觉赵的思维非常敏锐,估计没几个学生真正了解他的想法,所以他对我的追根究底表现得颇为兴奋,而且对我在细节上的纠缠也非常耐心。在我论文写作过程中还去过好几次赵教授家,最后他也同意加入我的答辩委员会并参加了我的论文答辩,但是他始终觉得我做的东西太偏工程,没有足够的科学上的创新(但是清华给了我优秀论文奖,估计和李衍达老师的抬爱有关)。直到我研究生毕业都一直没想起当面感谢赵南元给我的帮助和启发,在他看来也许这点讨论微不足道,也就值我论文结尾的一行致谢,可他的广义进化论对我思考问题方式的影响其实是非常久远的。出国以后,读到不少赵南元的随笔,先是在华夏文摘后来主要是在新语丝上,发现赵的主要论敌基本上都是鼓吹伪科学和民科妄人,和这些人争论科学伦理问题没有方舟子的韧劲很容易被唾沫淹死。不过赵如今已经有了自己的博克,看来主要精力已经不在认知科学这样的学术领域,转而从事科普和科学传播了。虽然说作为自动化系的教授这种角色转换未免可惜,不过和某些占着位子并无多少真才实学的人比他的工作其实同等重要。在学术造假泛滥的中国,普及科学的思想方法和写出论证严谨的科普文章也许比多发几篇SCI文章更来得实在。

No comments:

Post a Comment