简析互联网信息推荐算法
副标题[/!--empirenews.page--]
早在勒庞的时代,善于煽动引发传播就已经是公开的秘密。但是在今天、基于大数据的情绪驱动让一切变得套路化、标准化甚至科学化。 一、偏激的时代我们正在迎来一个越发偏激的时代,网络上、生活中戾气横行。 曾几何时,当移动互联网和信息革命以摧枯拉朽之势席卷全球时,田园诗一般的浪漫氛围曾经四处飘扬。人们满心以为,信息网络将彻底打破人与人之间的信息不对称,地球变得扁平,世界变得透明,贫富分化终将逆转,各个民族和阶层有更多的机会对话沟通和解。 然而现实无情击碎了人们的幻梦。仅以财富这一项看,在互联网时代的20年里,全球贫富分化加剧,仅以美国为例,根据《彭博》报道,前1%的富豪财富接近前90%精英阶层的总和。放到全球的范围,仅2017年,1%的富人就占有了82%的财富。 马修.杰克逊曾在《人类网络》一书中指出,决定人与人不同阶层和财富走向的核心有两个:一是信息,二是机会(资源)。 那么,在信息高度透明扁平的今天,为何人类的偏激和分化却更加严重了? 有一个说法是“信息茧房”。 二、信息茧房的假说2001年,美国法学家凯斯.桑斯坦在《网络共和国》一书中曾经提出:互联网时代,人们面对海量剧增的信息,会倾向于从中选择符合自己喜好的加以吸收,结果每个人摄取的内容越来越狭隘,一步步滑入信息茧房。 比信息茧房更加激进的说法是“网络巴尔干化”,1996年美国学者埃尔斯泰恩和布林约夫森提出,网络上的信息越来越多,人们喜欢的东西尚且看不过来,因此不会因为互联网更加开放开明,反而会更加封闭极端。 两个假说都指向了一点:信息的透明开放未必全都是好事,因为这样一来信息爆炸了、信息太多了、真假信息难辨,人们根本就看不过来了。 尽管信息透明开放带来了一种公平,但是人们“处理信息的能力和精力”参差不齐,这带来了新的不对等。 于是新的矛盾似乎产生了。人们把指向头条、淘宝这样的“算法推荐”平台,他们说:这些App基于某某算法对人做各种深度学习、大数据分析,后推荐的都是人们感兴趣的内容,这不是标准的“信息茧房”吗? 这个说法看起来很简单,也很粗暴,大的问题在于“看轻了算法”。 “算法推荐就是,我看到时尚、旅游、宠物的内容,停留的久,点了赞,结果以后平台给我推荐的都是时尚、旅游、宠物了。”他们总是这样说。 但这只是基于“内容特点”的推荐,是一种基础、表层的算法。如果仅仅只是这么简单粗暴,那么这些公司很容易就会走入兴趣的坑里,面临两大困局: 人是丰富多元的,每个人的兴趣偏好都是多样的。你随便问一个人他的爱好是什么,他自己可能也很难准确表述自己的兴趣构成。 人们的兴趣又是善变的,新的兴趣点随时可能涌现,而一些感兴趣的内容因为过度消费反而可能突然“腻味不感冒”了,从此边际效益递减。 就好像,天天在网上看萌宠,没准哪天就忽然不想看了,再看也不萌了。 事实上,无论头条、阿里,还是国外的脸书、谷歌,采用的算法维度都没这么简单。 三、算法的维度一个成熟的算法推荐系统,至少需要考虑五个维度。 一是算法模型。 常见的有协同过滤算法、监督学习算法Logistic Regression、深度学习、Factorization Machine、GBDT五种模型。 比如协同过滤模型,系统不断分析用户大概是怎样的人,然后进一步找到和他相似属性的人,根据这一类人的兴趣爱好进行推荐,把相似的内容推荐给臭味相投的人。也就是说,决定推荐的,不仅是看你一个人今天点赞了什么,更要看和你相似的人们喜欢什么。 以一个“人群”为基数进行海量持续分析,不断迭代优化,还会陷入信息茧房吗? 二是内容分析。 比如一篇文章的语义特征(关键词、Topic、实体词)、文本相似性特征、时空特征。 三是用户标签。 除了用户的兴趣、聚类、性别、年龄、地点等身份特征,还要围绕用户行为做好数据处理策略,比如过滤噪声、热点惩罚、时间衰减、惩罚展现。 四是结果评估。 如何兼顾短期和长期指标,如何兼顾用户指标和生态指标,如何通过ABtest实验持续优化推荐结果? 五是安全规范。 比如电商平台的反黄与合规,比如内容平台的ugc内容审核、风险内容识别技术(鉴黄、反谩骂及低俗)、泛低质内容识别(假新闻、洗稿、标题党等)。 可见,真正的算法推荐系统远比“喜欢看蛋糕推荐蛋糕”要复杂得多,也深入得多、智能得多。 把锅甩给技术和算法从来都是简单不费力的方法,只不过这样一来人们就会拒绝更深入的反思和改变。 美国明尼苏达大学计算机系专门进行了实验,让两组人同时在协同过滤算法推荐的平台上获取内容:一组人对推荐结果进行“跟随”,一组人对推荐结果毫不理会。 实验结果和一般的认知完全相反:综合21个月的数据,跟随组获得的信息更加丰富多元,不理会算法推荐的一组,视野反而更加狭窄了。 前几天今日头条的CEO朱文佳在生机大会上说,头条要做的就是通用信息平台,通过推荐、关注、搜索来分发图文、视频、音频、问答等各种信息内容,这种内容和分发手段的多元组合不仅不会带来信息茧房,还会带来一个“更大的世界”。 他说的可能是大实话,就像前面所说,如果头条们做的仅仅是“喜欢看萌宠就推荐萌宠”这种粗浅的推荐,那么一定会无法解决人们兴趣的多元、兴趣的善变和兴趣满足的阈值提升。 君子不立于危墙之下,如果不对人们进行更加深度的算法学习,今日头条根本不可能有今天。 四、兴趣,还是态度?事实上,喜欢筛选感兴趣的内容本来就是人类的习惯,是天性和本能。 试想,无论读书看报,还是逛书店、看电视,你是不是首先都要找自己感兴趣的?即便早期的网站,是不是也有主题和版块,方便你去筛选? 算法推荐只是加速了这一进程,让人们面对海量信息时、筛选感兴趣的内容更加简单高效。 前面说过,信息的爆炸带来了新的马太效应,在信息处理能力和精力上优裕的人变得更有优势。从这个角度说,算法推荐不仅不是造成分化的关键,反而是一种效率提升手段,帮助能力精力上并不占优的人弥补不足、提升效率,为什么反而要背锅呢? 每一次探讨人类的“偏激化”和“选择性认知”,我们都必须厘清一个概念,兴趣和态度。 兴趣并不会让人偏激,只有对某件事情的态度、观点和立场持续强化,变得封闭极端,人们才真正开始偏激起来。比如说:你的兴趣可能是足球,你的态度可能是对中国男足很不喜欢,如果这个情绪不断强化变成切齿痛恨了,你是不是就偏激了? 从这个角度说,算法推荐只能推荐你“感兴趣”的内容,却并不能了解你的“态度、观点和立场”,推荐你“喜欢拥护”的内容。 算法推荐可能知道你对智能手机感兴趣,会给你推荐锤子的内容,却并不知道你打心眼里不喜欢罗永浩,所以锤粉锤黑锤中立的东西都一股脑儿过来了。 算法推荐可能知道你对健康非常关注,会给你推荐医疗领域的消息,但并不知道你对中医或者西医的态度,所以它都会推荐。 分化裂化的罪魁祸首不是算法推荐,因为真正导致分裂的不是兴趣,而是人们在同一兴趣中不同的态度和立场被不断强化。 这就是常说的网络回音室原理,对于同一问题,人们总是喜欢听到和自己相似的观点,过滤相反的观点,后接收到的就像是自己的回音一样。 是什么在催生网络的回音室?如果算法推荐并不会带来信息茧房,究竟是什么在带来信息的“偏食”和情绪的偏激?而我们,又该如何应对和破解? 五、真正该警惕的一个答案可能是“单一”。 单一的信息获取渠道、单一的信息沟通模式是问题的根源。 无论是只在网站看编辑置顶,还是只在朋友圈看别人转发的文字,亦或者只关注大V的分享,甚至只听凭算法的推荐……只要一个用户、他对某一信息获取和沟通模式形成“路径依赖”,那么视野就可能渐渐变窄。 其实,每一种信息分发方式都有其独有价值,编辑分发带来的是“你应该知道的”,搜索带来“你想知道的”,推荐带来“你可能感兴趣的”,关注带来“你关心的人的动态”。 每一种分发方式都不可或缺,只有丰富多元的信息获取组合,搜索、关注、算法、熟人和陌生人整合起来,才能避免信息的偏食,这可能也是大平台们正在试图成为“综合化”的原因。 谷歌、百度不仅做搜索引擎,还在搜索结果之外加入内容推荐;微博在单纯的关注流和热搜之外,增加智能推荐和视频;头条则是算法推荐、要闻热文、大V关注、搜索多合一。 只有整合足够丰富的信息分发模式,甚至成为通用信息分发平台,才能从根本上避免信息茧房,进而全方面、智能化地了解用户、满足其信息需求。今日头条所说的“一横一竖”,也恰恰是围绕这方面来演化的。 另一个答案可能是“孤独”。 近几年社交衰退,人们正在从社会性动物,变成孤独型生物。 (编辑:好传媒网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |