爆发--人类的行为真的可以预测吗?
2012-07-30 15:35:55 来自: 秋叶 (不为金钱喜,不为红颜悲)
爆发的评论 3
爆发的评论 3
93%!
这本书的作者艾伯特-拉斯洛·巴拉巴西要告诉我们的一个结论就是:人类行为93%是可以被预测的,只要我们有足够多对个人行为模式的数据采集,在现在这个数字化时代,你又有什么行为模式没有留下数字化痕迹呢?
巴拉巴西用了一本书絮絮叨叨讲了好几个故事,还把一本书写成了他的研究和历史小说的穿越混搭(这点倒是超出我的93%的预测之外),就是为了告诉你,他是费了多大努力,才发现:
因为个人的行为模式是因为每个个体都排了一下优先级,所以当一个人任务越多,就越可能累积一些优先级不重要的工作,那么他会选择在一个时间段快速处理完这些工作,看起来,这种个人工作的特点就呈现了一种阶段爆发式的特点,更具体的说,遵从了幂律数学法则,你看,哪里都少不了《数学之美》。
当一个人的行为能够被预测的话,我们可以开始做哪些漂亮的工作?
巴拉巴西告诉你,这当然可以,不过这也刚刚开始,你赶紧来,下一场狂欢是属于大数据时代的,显然他还得写一本书。
在我看来,巴拉巴西的解释除了发现大部分人的行为模式不是泊松分布而是幂律分布外,并没有告诉我们什么特别值得新奇的东西,甚至幂律规律也不是什么特别神奇的玩意,我早就知道我是这习惯,比如我大学时期,总是把衣服累积到一大桶才批发处理,这种生活经验不需要太可以观察就可以发现。
我们很早就知道“三岁看到老”,一个人的行为是可以通过其个性进行推断和预测的,越是封闭的生活圈,一个人的行为就越容易被预测,别说大数据时代,我现在随时就可以告诉你我老爷子一天的行程,如果没有来客人或者生病,这个预测准确度也不会低于93%。
说实在的,人是自己习惯的奴隶,所以一个人的言行能被一定程度预测非常正常,在大数据观察的帮助下,能够达到过去无法期望的预测精准度也很正常。但是人之所以为人,就在于人的内心的不可预知和持续演变,这种演变给世界带来种种可能,也带来无数不可预测性,这本来就是一对矛盾。
我觉得巴拉巴西提出一个幂律规律,唯一的价值对我是可以用在时间管理术的教学中,对于预测人类或者个人的行为模式,他没有解释的关键问题是:
1、一个人的行为93%可预测并不可怕,也许让一个人一辈子都记忆深刻的事情,且不说是后悔还是幸福,也许来自那7%不可预测的行动,我的意思是怎样评估那7%对一个人行为预测的权重呢?
2、个人的行为模式分布特点如何成为群体行为模式预测的基础?93%的个体行为能被预测未必就能告诉我们关于未来的答案,因为很可能是那7%的无法预测的人改变了人类,比如你们都喜爱的乔布斯,或者咱们国家的毛泽东,谁能预测他们呢?但他们改变了世界。
这本书的作者艾伯特-拉斯洛·巴拉巴西要告诉我们的一个结论就是:人类行为93%是可以被预测的,只要我们有足够多对个人行为模式的数据采集,在现在这个数字化时代,你又有什么行为模式没有留下数字化痕迹呢?
巴拉巴西用了一本书絮絮叨叨讲了好几个故事,还把一本书写成了他的研究和历史小说的穿越混搭(这点倒是超出我的93%的预测之外),就是为了告诉你,他是费了多大努力,才发现:
因为个人的行为模式是因为每个个体都排了一下优先级,所以当一个人任务越多,就越可能累积一些优先级不重要的工作,那么他会选择在一个时间段快速处理完这些工作,看起来,这种个人工作的特点就呈现了一种阶段爆发式的特点,更具体的说,遵从了幂律数学法则,你看,哪里都少不了《数学之美》。
当一个人的行为能够被预测的话,我们可以开始做哪些漂亮的工作?
巴拉巴西告诉你,这当然可以,不过这也刚刚开始,你赶紧来,下一场狂欢是属于大数据时代的,显然他还得写一本书。
在我看来,巴拉巴西的解释除了发现大部分人的行为模式不是泊松分布而是幂律分布外,并没有告诉我们什么特别值得新奇的东西,甚至幂律规律也不是什么特别神奇的玩意,我早就知道我是这习惯,比如我大学时期,总是把衣服累积到一大桶才批发处理,这种生活经验不需要太可以观察就可以发现。
我们很早就知道“三岁看到老”,一个人的行为是可以通过其个性进行推断和预测的,越是封闭的生活圈,一个人的行为就越容易被预测,别说大数据时代,我现在随时就可以告诉你我老爷子一天的行程,如果没有来客人或者生病,这个预测准确度也不会低于93%。
说实在的,人是自己习惯的奴隶,所以一个人的言行能被一定程度预测非常正常,在大数据观察的帮助下,能够达到过去无法期望的预测精准度也很正常。但是人之所以为人,就在于人的内心的不可预知和持续演变,这种演变给世界带来种种可能,也带来无数不可预测性,这本来就是一对矛盾。
我觉得巴拉巴西提出一个幂律规律,唯一的价值对我是可以用在时间管理术的教学中,对于预测人类或者个人的行为模式,他没有解释的关键问题是:
1、一个人的行为93%可预测并不可怕,也许让一个人一辈子都记忆深刻的事情,且不说是后悔还是幸福,也许来自那7%不可预测的行动,我的意思是怎样评估那7%对一个人行为预测的权重呢?
2、个人的行为模式分布特点如何成为群体行为模式预测的基础?93%的个体行为能被预测未必就能告诉我们关于未来的答案,因为很可能是那7%的无法预测的人改变了人类,比如你们都喜爱的乔布斯,或者咱们国家的毛泽东,谁能预测他们呢?但他们改变了世界。
-------
还没看这个本书,只是由这段想到,在阿西莫夫的基地中,谢顿的历史心理学就是根据巨大的人口基数来预测人类的未来。
看完这篇,就可以不去看书了
赞同。
1. 93% 没看到怎么得出来的;
2. 这个赛克勒的故事就是为了表明十字军反叛是个成功的预言吗,还是他家巴拉巴西的家族背景,呵呵;
3. 作者的写作思路好像楼上所说的 论点-否定-新发现, 加上翻译上总觉得不那么顺,看起来晕;
4. 这个幂律是针对大规模人群的群体行为模式,对个人而言楼主说的对,我也是桌子上摆满了文件然后一次清空,一天在一两个时段高速回邮件,好像晚上做梦的REM也是这样;
5. 作者思路的确广阔,从动物到物理学人物,呵呵;
为什么我国的概率与统计学教科书里不怎么讲幂律分布?
4 个回答
什么是答案总结? 答案总结
赵卿元,统计学
收起应用领域:前面的回答主要都是集中在这一个原因,但讲的都不是很具体。我接触到的power law distribution有这么一些情况:
That’s Just Not Normal这篇博客中讲到了幂律分布出现的一些可能原因,我翻译一下:
幂律分布出现一般出现在以下几种动态系统中:
回到题主的问题。要想很好的回答这个问题,还是得从统计学教育的角度考虑。
评论中有人问如果期望和方差不存在,如何确定幂律分布。对于这个问题,首先我们要明确power law最重要的参数是幂的阶次。确定这个参数的方法有这些:
1. 最常见的是对power law的尾部画histogram,但这种方法非常容易产生误差;
2. 好一点的是做ccdf plot,这是现在最推荐的方法;
3. 要想求准确的估计幂次,最好的方法是算极大似然估计(MLE)。
具体的方法请参考这篇非常好的文献:Power law distribution in empirical data http://arxiv.org/abs/0706.1062。实际的例子可以看这个R package的例子:http://cran.r-project.org/web/packages/poweRlaw/vignettes/examples.pdf。
参考文献:
Angel,炒什么?
收起原因可能有这几个:
第一,幂律分布的研究起步得比较晚。正态分布在1718年就已经提出,在18世纪末已经很完善了,而泊松分布是1838年发表的,所以他们顺理成章地进入了概率论的教学范畴。而幂律分布则是起步晚发展得比较慢,19世纪帕累托提出了著名的20/80理论,这是幂律的基础,而比较系统的研究的出现时间不可考,但可以知道在复杂网络这一块直到上世纪末才对其有突破研究。
第二,虽然幂律分布广泛存在,但其最主要的研究集中于复杂网络领域,不仅时间比较近而且范围很窄。相关的教学大概是在网络理论中涉及。(做出这个判断的依据是在维基上没有其他领域有幂律分布这个概念)
除此之外,还有可能是因为幂律分布很难,对于概率统计之类的基础课程来说要求过高,无法加进来。
另外我看到武大教授陆君安正在呼吁把幂律分布加入概率论课本中,因为其应用越来越重要,越来越广泛。也许以后真的会有。
-----------------------------------------------------------------------------------------------------------------------------------------------
话说……接到邀请之后(谢邀~),我给我下学期的概率论老师发了封邮件问这个问题,同时自己也开始查。就在我哼哧哼哧快写完上述yy之后,老师回我了!他是这么说的:“这个分布确实在经典的教科书中(国内、国外都如此)不会讲。这恐怕是由于在数学上,正态分布以及其他的经典分布更是概率论发展初期所常处理的情况。但随着科技发展,power law(幂律)首先在物理中提出来(你去看统计物理、凝聚态物理的文献,有很多这个分布的情况),因为自然界的很多物理规律都满足幂律。现在发现在信息、文本中也越来越常见。”
也就是说,幂律分布没进基础课程是因为在时间上没占到先机,随着研究深入、成果越来越多,或许会出现在概率统计的基础课上。
ps发现这个理论蛮牛b的,对互联网的理论研究很有用。
邹日佳,哥伦比亚大学统计硕士二年级生
收起国内确实普遍上见不到幂律分布的踪影,国外的话还是会讲一些基础的东西的,例如大学所学的 Pareto 分布的图像,公式,矩。Cauchy 分布在国内国外都是一笔带过,作为没有矩的特例。
其实我觉得本科不讲或者只讲基础都挺好的,因为幂律分布种类太多,每种种类所应用的领域又不太一样,这应该是放在研究生的时候再深入研究的科目。应该是定了以后研究方向,再选择该领域所对应的幂律分布进行研究。
国内的统计学本科生如果直接就业,是很少会用到幂律分布的。他们主要进入到了大公司,银行,做计量,多元统计。国外的统计学本科生如果直接就业,也是很少会用到幂律分布的,他们主要进入了医药公司,做临床试验。
其实很多分布都是幂律分布,例如常见的 t 分布。但是我们自己在做研究性的数据分析时,往往先检验其是否可当作正态分布来处理,如果不可以则转换数据形式来作正态分布处理,而遇到不可以当作正态分布来处理的数据就直接放弃,这是统计本科生里非常常见的现象。采取这种 routine 的话,就不会抱有想要研究幂律分布的心思的。
综上所述,幂律分布种类繁多,适合研究生学习。幂律分布对于统计学本科毕业生基本用不到。幂律分布数据常被转化为正态分布数据进行研究。这三点私以为是大学不教授幂律分布的原因。
知乎用户
收起从某种程度上说,幂律分布这东西,物理学家观察经验方程是否与实际数据相吻合;但数学家需要严格给其下定义。物理学家在吻合数据时,可能部分区域吻合得不是很好,但近似的模型够用了;数学家则需要构建一个完美的模型,目前构建的模型无法平衡数学的严谨和真实的物理意义。这可能是目前幂律分布不适合进入课本的重要原因——幂律分布在不同学科的认识和应用存在一定矛盾。
同样,@赵卿元 从统计学教育角度的解读是非常有理的。
目前更适合的做法是开辟一门以网络科学(该名词没有明确定义)或社交网络分析为主题的课程。近几年北美、欧洲,甚至国内一些高校已经开始推行了,在MOOC上也有相应课程,并且有相应教材。这样回避了之前提到的矛盾,也让更多人有机会接触到幂律分布。
以上愚见请各位轻拍指正。
修改