Thursday, April 25, 2013

nflx 我们都像 “费米子”

我们都像 “费米子”
- 卢昌海 -
本文是替《科学画报》撰写的专栏短文, 本站版本在若干人名和术语初次出现时注有英文。
有过网络购物经验的读者想必都知道, 当你在购物网站——比如亚马逊 (Amazon) 或当当网——浏览或购买商品时, 网站通常会向你推荐一些商品。 这种推荐是基于商品的种类、 性质、 彼此间的相似性、 配套性、 以及对你本人或其它顾客的购物行为进行分析之后作出的。 在它背后是一套被称为推荐引擎 (recommendation engine) 的复杂系统。
推荐引擎在现代商业中扮演着日益重要的作用, 但迄今为止, 它的能力还是比较初级的, 时不时地会推荐一些与顾客兴趣南辕北辙的东西。 为了改善推荐引擎, 许多大公司都雇了技术人才进行研发, 著名网络媒体公司 Netflix 更是在 2006 到 2009 年间几度举办竞赛, 悬赏百万美元, 征集能将准确度提高 10% 以上的新推荐引擎。 2007 年, 这一竞赛的优胜者据说将 107 种不同算法融合在了一起, 其复杂度之高可见一斑。
如此复杂的技术需求, 对学术界也是一种吸引。 2013 年 1 月, 瑞士弗里堡大学 (University of Fribourg) 的物理学家瓜尔迪 (Stanislao Gualdi) 及同事就发表了一篇文章, 试图对推荐引擎做出系统性改进。 瓜尔迪等人注意到, 传统的推荐引擎有一个很大的问题, 那就是没有考虑到被推荐的东西所能允许的顾客数量可能是有限的。 比如我们常常有这样的经验, 一个推荐景点因被推荐而变得人满为患, 一家推荐旅馆因被推荐而变得一房难求。 凡此种种, 都说明顾客的需求常常是有排他性的, 不喜欢拥挤, 而且商品的供给也常常是有限的, 只能容纳数量有限的顾客。 传统的推荐引擎因为忽略了这一点, 常常会误导顾客。
怎么解决这一问题呢? 瓜尔迪想到了自己的老本行: 物理学。 在物理学上, 有一类极具排它性的家伙叫做费米子 (fermion)。 这种粒子的基本特点是: 一个状态只能容纳一个粒子。 当然, 推荐引擎的情况要比这宽松, 即便有排它性, 同一种商品所允许的顾客数目通常也多于一个 (但有限)。 不过, 在大方向上, 将顾客行为与费米子相类比成为了瓜尔迪等人的研究思路。
沿着这一思路, 并兼顾了同一种商品所允许的顾客数目可以多于一个 (但有限) 这一不同于费米子的特点, 瓜尔迪等人对推荐引擎做了系统改进。 在他们的改进中, 顾客需求的排他性体现在消费某种商品的顾客数目越多, 该商品对其他顾客的吸引力就越小上 (具体的减小方式不唯一, 可在简单与有效之间作折中, 甚至可将不同方式混合起来)。 那么, 改进的效果如何呢? 瓜尔迪等人以网络媒体公司 Netflix 为前面提到的竞赛所提供的 DVD 出租数据为依据进行了检验, 结果发现改进后的推荐引擎不仅可以有更高的准确度, 还可以增加被推荐商品的种类 (这是可以预料的, 因为顾客需求的排他性势必导致商品选择的多样化, 从而考虑这一因素可以增加被推荐商品的种类)。
不仅如此, 瓜尔迪等人还发现了一个出乎意料的结果, 那就是对顾客需求不存在排他性的商品, 引进排他性居然也能提升推荐的准确性——一个很好的例子就是他们检验改进效果所用的 DVD, 那是一种可以复制, 从而有多少人想买都不会有问题的商品。 这是什么缘故呢? 瓜尔迪等人认为, 这是因为在推荐领域有一个众所周知的效应, 那就是推荐结果往往会不适当地偏向于流行商品。 而排他性因为限制了流行商品的顾客数量, 而恰好抑制了偏向性。 从这个意义上讲, 几乎对所有商品, 作为顾客的我们都在某种程度像一群 “费米子”。
当然, 瓜尔迪等人的研究是否有实用价值, 目前还难下断语。 因为他们用来衡量推荐引擎准确性的理论指标与商家关心的经济利益并不是一回事。 对于商家来说, 对顾客数量人为设限不仅需要有勇气, 更需要强有力的证据使他们相信这样做有经济上的益处。 提供那样的证据无疑还需要更多的研究。 不过, 瓜尔迪等人所开辟的这个改进推荐引擎的新方向, 或许是值得注意的。

站长往年同日 (4 月 1 日) 发表的作品
站长近期发表的作品
=== 以下为网友讨论区, 本站版权声明不适用于以下内容 ===
网友: lifubo发表时间: 2013-03-31, 07:57:00
瓜耳迪这人很有洞察力啊。参与者应该是三个:买家、推荐商、卖家。我觉得应该是推荐商的利益最大化,不是卖家的利益最大化。这样可以部分回答文章最末一段的问题。
网友: 宇澄发表时间: 2013-03-31, 11:38:52
我所看的很多视频,YOUTUBE为主,就是被推荐看的。
其中值得看的多,不值得看的就会后悔上当浪费时间。
现在看视频逐渐养成习惯,先看看顶的多还是踩的多。
网友: 权权发表时间: 2013-03-31, 21:00:30
以我粗浅的理解,费米子之所以为费米子,是因为反对易关系,或者说波函数的反对称性。不相容性仅仅是反对称性的一个特殊情况,不能算是费米子的特征。经典的硬球因为势垒太高也不能占据空间同一点,但没有人会说经典的硬球是费米子,这篇文章介绍的工作如果仅仅是利用了“排它性”,那和费米子扯上关系只怕有些牵强,把标题换成“我们都像‘硬球’”应该也没问题;如果这项工作还用到了某种形式的交换反对称性,那才是名副其实得像‘费米子’。
网友: 卢昌海发表时间: 2013-03-31, 21:33:08
谢谢三位。

To 权权: “费米子” 这一比喻来自 Gualdi 的原始论文, 确实不是唯一可用的比喻。 不过这类短文无论从篇幅还是浅易程度上讲都不适合、 也没必要对这一明显只具有比喻作用的细节进行辨析, 或引进不同于原文的比喻。 我特意对标题中的费米子加上引号, 目的也正是为了弱化这一比喻, 以免较真。
网友: 权权发表时间: 2013-03-31, 21:45:22
呵呵正是,如今有句流行语,“认真你就输了”。
网友: blackhole发表时间: 2013-03-31, 23:44:47
不加权权的意见,适合大众。
加了权权的意见,适合有物理背景的大众。:)
网友: 卢昌海发表时间: 2013-04-01, 09:40:27
在“网友评论选录”中收录权权的意见,适合所有人。:-)
网友: zhangqq发表时间: 2013-04-01, 18:52:03
看权权的评论,无比惭愧。偶对各种“子”的概念就是硬球,真的不懂物理。

另外有一个疑惑,怎么才能评价新算法的效果涨了10%呢?如果有一个算法能评价其他算法的结果,是否它本身就可以改造成更好的算法呢?
网友: rainbow发表时间: 2013-04-02, 05:43:24
转一段和“费米子”略有关联的文字(作者为 Alain Connes):

The Princeton Companion to Mathematics,p1011:

I was asked to write some advice for young mathematicians.
My first observation is that each mathematician
is a special case, and in general mathematicians
tend to behave like “fermions,” i.e., they avoid
working in areas that are too trendy, whereas physicists
behave a lot more like “bosons,” which coalesce in
large packs, often “overselling” their achievements—an
attitude that mathematicians despise.
网友: 卢昌海发表时间: 2013-04-02, 07:57:13
呵呵,冒昧续貂一下:

... the only known exception to this observation came from Chinese mathematicians, whom tend to coalesce in large packs just like physicists, around areas pointed out by a few renowned oversea Chinese colleagues.
网友: zhangqq发表时间: 2013-04-02, 13:14:46
我特意wiki了一下费米子和波色子可是还是不懂。
看到24种flavour,更是直接晕倒了。

哈哈。
网友: 来自 159.226 的游客发表时间: 2013-04-09, 02:44:49
对这种“排他性”持有怀疑态度……还是无法相信他对所有的都有效果
网友: 来自 218.108 的游客发表时间: 2013-04-11, 02:45:23
更理想的,我认为是对整个市场经济环境最有利,一定程度上遏制垄断
不过这样来看,这个推荐算法就应当被普遍推广和使用,而不是控制在某一个“推荐者”手上
另外,推荐只是顾客到达商品的途径之一,是否接纳推荐并成交的主动权也永远属于消费者
再有,这种基于理性消费的提高“准确度”的算法是不是所有人都买单呢?我有时候就是很贱的像消费大家都消费的东西,饥饿营销对我就是tmd管用!XD
总之,我认为,推荐从消费本质上讲,诱导意义要大于所谓的准确,你不是我肚子里的蛔虫~
网友: shanqin发表时间: 2013-04-12, 07:17:25
不明觉厉。

No comments:

Post a Comment