网络评分体系真的有用吗?
“女士们,先生们,看过来!快来试试您的财运吧!”
说话的农民拔高了嗓音,想盖过身边的一片猪叫声和鸡鸣声。在他身边的木制看台上站着一头壮牛。它体形庞大,毛色光亮,用一双怀疑的牛眼打量着身边围观的人群。“只要您掏半个先令,女士们,先生们,这头漂亮的大牲口就归您啦!”
这是1906年一个深秋的午后,英国西南部港口小城普利茅斯正在举办一年一度的牲畜与家禽博览会。这里聚集着各色人等,牵着牲口的农户与穿修身长大衣的花花公子擦肩而过,农业专家和维多利亚时代的老幼妇孺挤在一起,他们都是来这里观赏全国最优质的牲口的。女人们都穿上了最好的鲸骨蓬裙,孩子们足蹬漆皮高帮鞋在泥水里乱踩。
那一天,一位农户照常组织着有奖竞猜以招徕路人在他的摊位前驻足。参加者只要花6便士,就有机会猜测这头公牛屠宰后能够产生多少公斤的牛肉。经过称重验证之后,答案最接近正确数值的竞猜者就能赢得全部的肉。
在一片攒动的高礼帽中间,有一位鬓发茂盛的84岁老绅士正盯着场子中间卖牛的农户收取下注的钱。他就是弗朗西斯·高尔顿(Francis Galton)爵士,19世纪最活跃的知识精英之一。在他看来,芸芸众生的智力水平只到他的脚后跟,而眼下这群围着牛下注的乌合之众,并不比地上啄着他靴子的母鸡更有脑子。仿佛是为了证实这一点,这位研究者本人也上前到农户那里下了一注,然后转身回家,确信自己又找到了优生学理论的最新证据。
这些牛肉、这位科学家和787个参与下注的人,就这样成了科学史上一场惊人发现中的重要角色。一个世纪以后,这个发现引发了大众研究的全面革新。
弗朗西斯·高尔顿爵士
弗朗西斯·高尔顿出身英国贵胄。他的家族在两代人之内诞生了不少当时英国最重要的知识分子,有医生、植物学家、探险家、诗人和大实业家。他的表哥不是别人,正是查尔斯·达尔文。
本着英国人的精神,高尔顿甚至研究了茶的化学成分和蛋糕的几何分割。比如他认为把圆形蛋糕切割成扇形,一片一片吃掉是“错误的方法”,而且他列了方程式来证明这一点。按照爵士的计算,应该沿蛋糕的直径从中间切出一条来吃,然后把剩下的两个半圆合起来,这样蛋糕留到第二天也不失美味。谢谢您啊,爵士!
但高尔顿如今为我们所知,主要因为他是“优生学之父”。高尔顿深信,他本人的家族中智者辈出,绝非偶然。因为聪明和愚蠢一样会遗传,父传子,子传孙。因为担心大英帝国里会诞生越来越多“低能蠢笨”之人,他提出了优生学的基本理论。他强调,为了人类的共同利益,应该鼓励聪明的人多生育。与他的表兄达尔文几十年前在《物种起源》中提出的“自然选择”理论恰恰相反,高尔顿推崇“理性选择”。
高尔顿同时也是一位出众的统计学家。他建立了人类形态研究实验室,测量不同人种的认知能力与他们各自外貌特征的联系。像他自己这样的白人颅骨光滑硕大,位于人种等级的顶层,而下等人、女性,还有他在英国殖民地各处旅行时考察的非洲当地人处于等级底端。这一套优生学理论在随后几十年中传遍世界。在其影响下,美国1909年首度立法,给“罪犯和智障者”绝育。而这样的“优生学”理论在纳粹德国手里发挥到了极致。
在高尔顿的时代,类似的精英主义观点并不少见。与他同时代的很多知识分子都深信乌合之众是愚昧无知的,而且他们数量越庞大,就越愚蠢。古斯塔夫·勒庞(Gustave Le Bon)在其1895年的著作《乌合之众:大众心理研究》中也说:“人独处时智慧,成集体时愚昧。”而早在1841年,查尔斯·麦凯(Charles Mackay)在《非同寻常的大众幻想与群众性癫狂》( Extraordinary Popular Delusions and the Madness of Crowds)中指出:“大众”缺乏反思能力。
高尔顿先生正是在这样一种时代背景下去普利茅斯“赶集”的,他的目的是收集群氓无脑的新证据。在翻遍787张下注的单子之后,他满意地记录下了结果:大多数人的预估与正确答案谬之千里,有的过低,有的则太高了。
然而,这些预估数字里却藏着一个惊人的秘密。农户将牛屠宰以后,这头大牲口变成牛肉的净重是543公斤。而参与竞猜者集体估算的平均值是542公斤,几乎堪称神算!
这难道纯属巧合?每个个体的预测都是错的,而且误差范围很大,为什么所有答案的平均值恰好是正确答案?“也许大众的民主决策,比我们以前想象的更值得信赖。”骄傲的高尔顿爵士,作为“优生学之父”,于1907年发表了他的这一研究结论,这显然对他本人的优生学理论是个讽刺。
群体的智慧
在高尔顿研究成果发表后的97年里,这个惊人的发现一直无人问津,被引用数加在一起也没超过10次。但在2004年,它借助畅销书《群体的智慧》( The Wisdom of Crowds)的问世重见天日。这本《纽约客》专栏作家詹姆斯·索罗维基(James Surowiecki)的力作写的是集体智慧正在改变我们今日的社会和经济。为了证明“群体的智慧”,索罗维基旁征博引,这才举出了高尔顿爵士当年的经历,吸引了当时研究者的目光。此书掀起了一阵对这个惊人结论的科学探求之风,在数年内开启了大众研究的新局面。
《群体的智慧》
高尔顿爵士无意间揭示的这个现象还没有一个专门的名称,研究人员便顺手以索罗维基这本书的名字“群体的智慧”来指代它。这个现象的规律很简单:当人们预估一个数值时,无须任何专业资质,所有普通个人估值的平均值最接近正确的答案,它肯定比这群人当中任何一个优秀个体的估计更准确。比如,如果你想知道埃菲尔铁塔有多高,只需要到大街上随便拦住50个人,不经过任何挑选,再问他们:“您觉得埃菲尔铁塔有多高?”然后求出50个答案的平均值,或找出中位数更好,你会得到“324米”的答案,这就是埃菲尔铁塔的高度。
奇怪的是,在2011年进入心理学领域以前,我听都没听过这个现象。研究大众的人,不知道大众很聪明。过分了!
我为这一现象在科学研究中的可能性感到兴奋,开始自己组织一系列实验。我大概做了十几个估值测试类实验,比如猜测纪念碑有多高,两个城市之间有多远,一条河的长度,一个屋子里的温度,一个公园的面积……结果屡试不爽!每一次,大众都给出了令人满意的答案,哪怕实验中个体的答案大多数错得离谱。
如果问题更复杂一些,不只是简单的猜数游戏,那集体的判断还有意义吗?在我的研究过程中发生的一件大事,也许是这个问题的最好注脚,那就是大众与加里·卡斯帕罗夫的传奇棋赛。
1999年,微软游戏平台向全世界发出一份邀约,邀请玩家来挑战国际象棋界的标杆、来自俄罗斯的国际象棋世界冠军卡斯帕罗夫。不问棋艺如何,不需要任何资历,谁都可以参加。受到这样一个前所未见的挑战的吸引,来自75个国家的超过5万名棋手上了场。他们中既有业余棋迷,也有俱乐部选手,还不乏一小拨棋坛新锐,但不管怎么说,5万人中没有一个跟卡斯帕罗夫属于同一个级别的。
这么多人要怎样相互配合,才能下出一盘逻辑连贯的棋?微软平台给大众队每一步24小时的时间,在此期间每个参赛者都可以提出自己的建议。平台收集所有建议,在一天结束之时,最多数成员共同选择的棋着儿会体现在棋盘上。
这场比赛情况特殊。两年之前,这位俄罗斯世界冠军刚遭计算机“深蓝”重创,如今又不得不忍耐这么一堆非常规选手。比赛的结果具有很大的不确定性,这5万个平凡的小脑瓜,到底能否攻破棋坛“老大”的棋局?
卡斯帕罗夫对阵计算机“深蓝”
1999年6月21日,棋赛开始。俄罗斯棋王执白子,首先挪动了他的“国王”。在24小时的悬念之后,大众队做出了回应:一招“西西里防御”,给出了对卡斯帕罗夫开局的最佳回击!大众队看来不是外行,主办方放心了。让对决继续吧!
这一盘棋下得高着儿迭出。业余大众队不仅玩得十分专业,还不乏出其不意的奇着儿。比如他们走的第10步,在高水平国际象棋赛事中前所未见,足以载入史册。那一步究竟是断送胜利的烂着儿,还是大众创造出的神来之笔?实际上,这步棋事后被卡斯帕罗夫本人赞为“卓越的理论创新”,也成为后来国际象棋比赛中常用的着数。很明显,从这一步开始,大众队占了上风。然而棋王终究是棋王,没那么容易扳倒。在连续4个月的艰苦厮杀之后,棋王卡斯帕罗夫仅余3子,下出了他的第64步……将!
大众队可谓虽败犹荣。他们不仅一直与棋王不相上下,还创造了新的国际象棋经典招式。“乌合之众”的判断远远超出我们的预期。
研究者们的注意力越来越多地转向更实际的问题,比如依靠综合数十人给出的解决方案,来寻找困难问题的最优解。我的一部分同事走得更远,甚至开始专门关注“医生群体的智慧”。同事们的研究显示,在一系列临床问题上,诸如患者是否需要手术,或者乳腺超声检查是否真的查出了癌细胞等,情况就像网络大众队与棋王卡斯帕罗夫势均力敌那样,一群医科大学生的综合判断似乎比一位经验丰富的专科医生的个人判断更为准确。
我们今天正逐渐认识到这一现象的内在逻辑:它并不属于哲学或心理学的范畴,而是一个概率论和统计学的现象。事实上,对于上述无论哪一类“挑战”,大家对正确答案都有一个模糊的想法。当然他们会出错,估计得太高或太低,但如果样本量足够大,个人之间的误差会相互抵消,让人们思维中的共同之处凸显出来,从而得出接近正确答案的估计。
要把这个现象视觉化,不妨想象一下掷飞镖游戏。一大群人一起玩飞镖,当然是有的人甩高了,有的人扎低了,有的人偏左,有的人偏右。但这些飞镖落点的平均值还是会相当接近靶心。那些误差彼此抵消了。即便你喝醉酒又蒙着眼,投出了几次极差的成绩,最终的平均落点也不会离正中太远,毕竟所有玩家投飞镖时瞄准的都是靶心。在这种情况下,人多势众确实胜过专家的单枪匹马。假如你约上20来个朋友,就能轻易击败荷兰的世界飞镖冠军迈克尔·范格文(Michael van Gerwen),前提是裁判同意让大众队每人投一次,然后求平均值。
然而,并不是所有情况下“乌合之众”都最聪明。首先,参与群众得对问题的解决方向有基本的直觉才行。还是以飞镖来举例,如果群众队中的成员根本不知道靶心在哪儿,那他们的飞镖将完全是随机投出的,即使求落点的平均值也没用。真正关键的因素还在于,群众不能都犯一样的错,必须错得花样百出才行。如果所有没扎准的镖全在靶心的左边,平均落点也会向左偏移。只有当扎歪的飞镖分布均匀,平均值才可能在中间。这就是斯科特·佩奇(Scott Page)著名的“多样性预测”定理:判断的多元化,包括错误的多样性,是“群体的智慧”生效时必不可少的因素。
不幸的是,多样性这一关键因素恰恰是相当脆弱的,它的头号敌人就是我们前面研究过的人际网络中的社交影响力。同样的竞猜游戏,如果个人在发表各自的估计之前有机会先跟别人讨论上5分钟,那么大多数人的判断都会趋向同一种错误。就好像有的飞镖上装有磁铁,当其中的一枚接触飞镖盘后,其他的飞镖全都会朝着它的方向偏,从而失去错误的多样性。社交影响力的负面效应可以表现得很快。近来有大量的研究证明,一个小小的暗示就足以让大众判断的平均结果偏离正确答案。这就是为什么我在日常生活中从来都没办法向朋友们证明“群体的智慧”有多妙;不管我如何三令五申不能跟其他人透露自己的猜测,在我说完题目的那一秒钟,总有那么一位缺心眼儿的朋友直接喊道:“埃菲尔铁塔?至少得有500米吧?”这下谁也玩不成了。因为他的这个小小提示会在其他人的脑海里深深扎根,把整群人的平均预测值带离正确答案。
当大众也找不着北
在网络的世界里,求大众观点的平均值已经成为一种流行做法。亚马逊、猫途鹰(TripAdvisor)、谷歌+等众多网络聚合平台都采用类似于“群体的智慧”的模式,邀请网民到自己的网站来评价产品,然后通过权重算法得出一个集体的评分。通常,借助从一星到五星的量表,用户就能对一本书好看不好看,一双鞋子舒服不舒服,一款相机的像素如何给出自己的感受,并让其他网民知道。
打开凤凰新闻,查看更多高清图片
这个做法如今变得如此普及,是时候把它当作一个社会现象来认真研究了。今时今日,什么都可以评分。喜欢昆汀·塔伦蒂诺的新片?去电影网站Allociné给个五星吧。觉得某家酒吧的气氛有点闷?上餐馆点评网站Yelp给它打个三星。觉得这个苹果挞的食谱实在太甜了?立刻上食谱网站Marmiton给个一星差评。
人也可以打分。不管是你的数学老师,还是上次跟你拼车的同路人,是你家附近的面包店师傅,或是你的一夜情对象……谁都逃不开。连私人医生也不能幸免!谷歌+上,那些被评为“冷漠”“粗心”“毫无同情心”的大夫会立刻被判低分,而另一些“热情又有能力”的大夫会得到五星好评。虽说国家医师协会理事会始终不认可这套评分系统,那些钻牙时下手太重的牙医照样会在网上得零分。
评分体系如今无处不在,举足轻重。因为群体判断在网络上公开后,一件商品能否畅销,或者服务能否得到认可,网民的打分很关键。他人对网民个体的打分也是如此。那些得到差评的个体很容易失去他人的信任,下一次去度假时,很可能在爱彼迎(Airbnb)上找不到房子,在优步(Uber)上也叫不到车。美国专门给饭店、酒吧评分的网络平台Yelp,现已变成普罗大众的米其林指南。大众只要用手指轻松点击,就能决定哪家饭店火爆,哪家饭店破产。商户在这个网站上每上涨或降低一颗星,营业额就会增加或损失10%。如果汤里掉了一根头发,或者服务员像门神一样凶神恶煞,那么饭店要小心了。网民们可不会客气。
你可能会问,这有什么问题?科学不是已经完美证明了群体智慧有用而且集体判断值得参考吗?事实并非如此,因为社会影响力依然存在。比如锡南·阿拉尔的团队做过一个让网民评价他们对网络新闻感兴趣程度的实验。实验者随机抽取了10万条新闻,每篇文章刚发出来,科学家就先上去给它打上第一个分数。结果显示,如果首条评价是肯定的,这则新闻的总平均分会升高25%,不管随后跟进了多少真实的网民评价。这是因为网民打分前都习惯先看看前人打的分,难免会受先前意见的影响。“从众效应”的强大之处在于,不管被评价对象的真实水平和质量到底如何,只要第一个“假评”是好评,后面的人也更倾向于给好评。
另外,用户间心照不宣的“互贿”心理是使评分系统失衡的另一个因素。在一个人人互评的世界里,为了给自己换回一个好评,还有什么比先给对方一个好评更有效呢?在优步上,司机跟乘客之间要互评;在爱彼迎上,房客跟房东互相打分。在北美的一些中学里,老师给学生的分数写在成绩单上,而学生给老师的分数体现在“评师网”(Rate My Professors)上。在这种情况下,也许老师在给学生的家庭作业打分时高抬贵手,就会使自己的网评多一颗星。事实上,2002年的一项研究显示,美国高校出现了普遍高分的现象,部分原因确实在于引入了学生给教师打分的系统。简单来说,我们每个人都有小辫子在别人手里,胆敢第一个打差评的人,就等着受到报复吧。
鉴于评分系统已遍布网络,无处不在,某些互联网企业趁机在网络上推出了一种“聚合通行证”。比如2015年成立的法国初创公司Famust把个人在不同网站上得到的分数集中起来,给每个人制作出一套社交声誉证件。最终我们可以依此获得任何人的性格综述:让·克劳德,谷歌+得分4.3的敬业药剂师,网约车软件Blablacar得分4.2的好司机,下厨软件Marmiton上的4.7星大厨,不过,他对追女人可不大在行,在交友软件Tinder上只有1.5分。这不禁让人想起英国电视剧《黑镜》的一集,未来城市的居民们在每一次互动后都互相评分。这个反乌托邦故事描绘了社会声誉不断恶化的主人公是如何一步步坠入地狱深渊的,意在警醒我们小心此类系统的滥用。
《黑镜》第三季第一集剧照
然而Peeple等应用软件的开发者似乎对此充耳不闻。2016年Peeple上架,专用来给你身边的人打分。邻居太吵,可以给两星。本区邮递员和蔼可亲,给五星。在手机应用商店里,Peeple自己收获了百余条评价,平均得分惨不忍睹:1.7 星。看来,普罗大众的肩膀上顶着的并不是摆设。
艺术和文化领域的情形又是怎样的?如果人们评头论足的对象不是一家饭馆或者一个司机的服务,而是一部电影、一本书或者一首歌,他们的集体判断又会不会失之偏颇呢?或者换个问法:单曲《江南Style》曾一举登上YouTube观看次数最多视频的宝座,是不是意味着这是一首杰作而必将载入史册呢?
邓肯·瓦茨的团队从2006年起就投身于这个问题的研究了。他们模拟了互联网音乐市场,建立了一个叫“音乐实验室”(MusicLab)的网络平台,在上面放了48首专业团队制作的音乐作品,都是首次面世的新作。之后,他们邀请15000名网民来听音乐并打分,以及免费下载他们喜欢的那些。
实验分了好几个阶段。第一阶段,听众在不知晓旁人好恶的前提下先做出独立的判断,结果这48首曲子的得分都差不多,并没有特别突出的。第二阶段,曲子还是那些曲子,不过听众换了一组,而且在听每首曲子之前,他们能先看到别人对音乐的评价。只需要这一步改变,就能使48首中的一首单曲脱颖而出,成为这个小社会里最受人喜欢的流行歌曲了。
照这么看来,评分系统真的能帮助消费者识别市场上的最佳产品吗?当上述实验做到第三阶段,结论很快引起了我们的担忧。在实验者换上新一组听众之前,这48首曲子的既往评分被清零了。这一次又产生了48首曲子中的当红歌曲,但和上次的不一样。实验不断重复,每一次都将前一轮的结果清零。于是,人们就会爱上一首不同的歌。似乎音乐本身的品质对于获胜歌曲来说根本不重要,大众每回都随机捧红一支曲子,把它推到流行榜首。人们被各类社交信息淹没,失去了审慎分析的能力。
不过根据研究者们的观察,被选中的当红歌曲并不是完全随机的。不管实验怎么做,最好的那些音乐从来没跌到谷底,最难听的那些也没能登上榜首。但在保持这种大趋势以外,任何结果都是有可能的。
以上你所了解的只是冰山一角而已。事实上,大众研究的这一细分领域才刚起步,但在短短的20年时间里积累的知识已经多到令人头晕目眩。新的群体智慧模型正在形成,可以预见,它们将很快被应用到你的日常生活中。投资者们个个摩拳擦掌,大众研究早已引起市场的兴趣。