「释放创意潜能,引爆内容创作热潮」
2024年,关于算法的争议再次升温,讨论热度有增无减。
推荐算法,兴起于网络早期,近年来已达到应用高峰,也是早期阿里、字节等互联网企业的重要增长驱动力。
简单来说,一位要求匿名的内容平台技术主管向凤凰网科技透露,“卓越的算法通常源自于精细且反复迭代的参数调整”。
如今,我们已经习惯了在购物平台上从数亿商品中迅速找到心仪之物,在外卖软件上精准匹配到心仪的餐品和合适的外卖骑手,以及在短视频App中获取到感兴趣的、有价值的内容。这一切的背后,离不开推荐算法的支持。 推荐算法已经成为现代互联网生活的基础设施。它不仅极大地提升了我们的生活便利性,还为企业提供了精准营销的机会。然而,随着算法的日益成熟和广泛应用,也引发了人们对隐私泄露和信息茧房效应的担忧。如何在享受便捷服务的同时,保护个人隐私,并确保信息的多样性,是我们需要共同思考的问题。
与普通民众相比,技术从业者更关注算法的技术细节,而普通人则更多地批评算法导致的信息茧房、缺乏价值观判断以及大数据价格歧视等问题。
当算法已经深深融入普通人的日常生活时,一个新的严峻问题也随之浮现:平台是否会任由算法朝单一方向无限制地演进?尤其令人担忧的是,在追求商业利益的过程中,算法是否会被推向无法控制的方向?
多位在抖音、小红书等平台有过任职经历的相关从业者认为,算法的“黑盒”在于,多数人所负责的只是“点”,很难有人能纵览全貌,这让处在“点”上的人,觉得算法就像一个黑盒。
前述技术负责人认为,算法和背后的设计者之间一直有一个天平,而算法工程师负责把这个天平调节到最佳的位置。“绝对不可能存在一直往某一个方向倾斜的情况,推荐是一个很复杂的事情,我们要把生态维持好,一定是多样性平衡,而且我们会有非常多的手段去调控算法”。
近年来,针对算法的治理行动始终未曾停歇。新一轮的算法治理旨在进一步推动算法导向正确、实现算法公平公正以及增强算法的公开透明度。 在这一过程中,我们需要更加关注算法设计与应用中的伦理问题,确保技术发展不会被滥用或误用。同时,公众对算法运作机制的理解和信任同样重要,这不仅有助于提升社会整体的数据素养,也能促进科技与人文的和谐共生。只有这样,我们才能真正让算法成为服务于人类福祉的工具,而不是造成新的不平等和偏见的源头。
现在,我们有必要打开这个黑盒。
推荐算法虽然不再神秘,但各平台凭借自身资源构建的护城河,依然使其之间存在差距。我们在与各大互联网公司的交流中了解到,大家有一个共同的认识,在算法技术和生态系统管理方面,最受瞩目的公司依然是抖音。
为此,我们向抖音集团副总裁李亮发出了对话邀约。
据李亮分享,抖音、头条推荐算法的原理和行业相比并无特殊之处,不同的是每个平台为算法定制的目标,即更看重什么。抖音更为看重的指标是用户的长期留存。
其认为,信息茧房一词在推荐算法诞生前就已出现,从商业逻辑上来讲,平台没有动力去制造所谓的“茧房”,也最有动力打破“信息茧房”。
由于算法作为一个“数学天才”,本身无法理解社会学、心理学、传播学等多领域的现象,特别是在评论区,“一些争议话题视频下面经常会有不同的观点,甚至对骂,这些交互数据,包括评论、点赞、点踩、举报等,会给算法一种交互很激烈、很热闹的信号,可能会让视频获得更多流量”。
这显然不是一种健康的发展趋势,抖音将通过优化内容生态和运营策略,来修正算法中不合理之处,从而减少那些不友好且具有争议性的内容流量。
李亮也表明,抖音一直致力于打击和治理传播虚假信息、极端言论和对立观点的行为,以获取更多流量。他坚信,这种生态治理措施最终将对平台的健康发展产生积极影响。
以下为凤凰网科技《浪潮》与李亮的对话,在不改变原意的情况下,经编辑发布:
《浪潮》:对于科技和互联网行业来说,算法是一项很关键的技术,尤其是推荐算法,你觉得它创造了哪些价值?
李亮:推荐算法在信息过载的时代成为了提高信息获取效率的重要工具,如今已经渗透到我们生活的各个方面。例如,在电商平台上,推荐算法用于推荐商品;在外卖平台上,它用于推荐商家;而在OTA平台上,则用于推荐民宿、酒店以及机票等。 这些推荐算法不仅极大地提高了我们的生活便利性,还帮助我们节省了大量时间和精力。然而,它们也带来了一些潜在的问题。例如,过度依赖推荐算法可能导致用户视野受限,只看到系统推送的内容,而忽视了其他可能更有价值的信息。此外,推荐算法的数据训练可能存在偏差,从而导致推荐结果的偏颇。因此,我们需要更加审慎地使用这些技术,并不断改进算法,以确保它们能够更好地服务于用户,提供更全面、公正的信息选择。
在视频行业,算法把相关内容推荐给可能感兴趣的用户,实现信息找人,信息在这个过程中得到高效率、更精准的分发。当信息连接到感兴趣的人,就会产生更大效益,比如说今年史铁生的《我与地坛》在抖音上翻红,非常多 00 后的网友重读史铁生,也带动这本书的销量增长,而传统书店将畅销书摆放在更显眼的位置,也是一种“推荐算法”。
推荐算法让信息高效分发,给小众内容、普通人更多被看到的机会,促进知识普惠,农技精准传播,宝藏小店被发现,农产品走出大山等等,都是推荐算法给各行各业带来的价值。对用户来说,推荐算法降低信息获取成本,可以减少因浏览大量无效数据而造成的时间、精力浪费,拓展新的兴趣。
《浪潮》:外界总说抖音的算法神秘,实际上是否如此?抖音采用的也是协同过滤这类经典推荐算法吗?还是已经历经了几番迭代,升级的重点是什么?
李亮:推荐系统是一个包含多种算法和策略的领域,其中协同过滤是一种重要的方法。目前,许多业界主流的推荐系统仍然采用了协同过滤的技术思路,但在具体实现上,比如如何利用协同数据优化向量表征的学习,以及如何将这些向量表征应用于内容推荐方面,学术界和工业界都在不断进行改进。除此之外,我们还会使用其他有效的算法,例如之前我们通过分析视频内容来进行推荐。如今,学术界和工业界也在积极探索基于大模型的推荐系统。
总体上说,抖音的推荐算法与其他平台相比并没有特别独特的地方,关键在于各平台为算法定制的不同目标,也就是各自重视的方面。抖音的核心指标是用户的长期留存率,这一指标就像北极星一样指引着公司的主要发展方向。留存率本质上是一个涉及用户数量的概念,意味着我们期望有更多的用户使用并认可抖音。长期与短期的差别不仅体现在时间跨度上,还会导致不同的结果导向。例如,为了提高长期留存率,抖音会更加注重用户的兴趣探索和长期使用习惯,而短期留存则更侧重于提升点赞数和视频完播率等即时互动指标。
《浪潮》:普通人对于算法的争议点还在于,目前平台没有主动给大家更多样化的算法制度选择,比如可以选择按时间顺序来排列,抖音是否考虑过更多样化的算法模式,这背后有什么技术难点吗?
李亮:我们所处的社会正面临信息过载的问题,任何规模适中的内容平台每天发布的新内容都远超个人能够消化的范围,因此按照时间顺序浏览所有内容变得不切实际。目前,抖音的算法中包含了兴趣探索机制,旨在帮助用户发现各种不同类型的内容。此外,抖音还提供了关闭个性化推荐的选择,此时推荐的内容将不再是根据个人喜好定制,而是基于大多数用户普遍喜爱的内容进行推荐。
《浪潮》:有人说信息茧房是因为人性本惰,不愿意思考,所以主动接受了算法投喂的信息,这才是思维固化的真相,你怎么看待这个观点?
李亮:“信息茧房”这个词在推荐算法成熟之前就出现了,算法不是“信息茧房”形成的先决因素。
现在普遍对“信息茧房”的担心,其实是所谓的信息偏食,即信息来源单一。事实上,每个渠道分发信息都有局限性,比如公众号关注列表来源于我们自己的喜好,过去门户网站是根据编辑的价值判断,朋友圈的信息则是被我们的好友关系过滤。只看公众号,门户或者朋友圈,都会陷入所谓的“茧房”。但实际上,大部分人都是看朋友圈,也看抖音,也看新闻客户端,信息来源是很综合的。
另外从商业逻辑上来讲,平台没有动力去制造所谓的“茧房”,也最有动力打破“信息茧房”,业界和学界的研究都表明了多元化内容有益于用户的长期留存。
《浪潮》:抖音都做了哪些更具体的事情?
李亮:我们从几方面来做这件事:
1)抖音的内容分发机制不仅限于推荐系统,还包括搜索、社交分享和热点热榜等非兴趣导向的推送方式。以热榜为例,它会展示当天重要的新闻事件,并在话题内容中汇集事件的最新进展,力求平衡不同的、理性的观点,帮助用户全面了解事件的全貌。 这样的机制设计能够有效地拓宽用户的视野,使他们接触到更广泛的信息。通过汇集不同角度的观点,用户可以更好地理解复杂的社会现象,培养更加全面和理性的思考能力。同时,这也为公众提供了一个关注社会热点、参与公共讨论的平台,有助于形成更加健康和积极的社会舆论环境。
2)抖音加强了社交推荐的机制,用户可以长按视频,点击“推荐”,这条视频就会被分发给抖音内的好友,并显示是“xxx 推荐”,这种社交推荐是对兴趣推荐的丰富和补充;
3)抖音的算法包含兴趣探索机制,旨在帮助用户发现更丰富多样的内容。比如,如果某个用户主要对音乐类视频表现出兴趣,平台会通过算法挖掘与音乐相关的领域,如尝试推送美术和舞蹈等类型的视频,以帮助用户拓展其他兴趣领域。尽管用户的兴趣点是多方面的,但通常会有主要的兴趣点和次要的兴趣点。在进行推荐时,我们会给予这些次要兴趣点更高的权重,以避免频繁向用户推送相同类型的内容。
4)抖音在推荐机制上注重内容的多样化,以避免用户看到的信息过于单一。例如,当用户对萌宠内容表现出兴趣时,如果不考虑多样性,该用户可能会连续收到三个关于宠物猫的视频以及两个其他类型的内容。然而,在考虑到多样性的前提下,用户只会接收到一个宠物猫视频,而接下来则会增加更多不同种类的内容,以此来提升信息的丰富度。 这种策略不仅有助于维持用户的兴趣,还能帮助用户更全面地了解外部世界。通过这种方式,平台可以确保用户不会陷入“信息孤岛”,从而拓宽了他们的视野。同时,这也为创作者提供了更多的曝光机会,使得各类内容都有可能获得关注,促进了内容生态的健康和多元化发展。
5)用户可以通过对内容或账号点击“不感兴趣”,以及利用内容管理工具设置自己的偏好来更好地优化和掌控自己的推荐。这种功能设计有助于用户更精准地过滤掉不感兴趣的信息,从而提高阅读体验。通过这种方式,平台不仅能够提供更加个性化的信息流,还能帮助用户避免被无关或低质量的内容所干扰。这无疑是提升用户体验的一个重要措施,同时也鼓励了高质量内容的创作与传播。
从人性上讲,思考、学习以及接纳不同的观点本身就是一个挑战,然而用户可以通过与算法的互动来改进算法的表现,使其成为我们工作和生活中的得力助手。例如,对于那些不感兴趣的内容频繁点击“不感兴趣”按钮,或是有针对性地主动进行搜索,用户的搜索行为将显著影响推荐结果。
《浪潮》:算法其实很难去理解情绪化的东西,比如很难理解什么是友善,可能会把对立、情绪化的内容当成是一种“友好互动”,进而去进行更多推荐分发,这个情况真实存在?
李亮:在一些争议话题的视频下,经常会出现不同观点的碰撞,甚至有时还会演变成激烈的争吵。如果仅依据互动数据进行推荐,这可能会导致这些问题进一步恶化,因为这样的机制可能无意中放大了负面内容。因此,抖音的推荐系统已经考虑到了这一点,并且正在努力避免不友好的讨论内容获得过多的关注。平台通过综合分析评论、点赞、点踩以及用户的举报情况,来调整算法,从而减少那些不友善或引发争议的内容的传播比例。 这种做法表明,社交媒体平台开始意识到其内容推荐系统需要更加注重维护一个健康和谐的社区环境。尽管技术手段可以帮助识别和过滤掉一部分不当内容,但如何更好地平衡自由表达与社区规范之间的关系,仍然是各大社交平台面临的长期挑战。
《浪潮》:这个纠偏过程具体是怎么操作的?
李亮:今年以来,我们对“不友善”言论的纠偏机制进行了进一步细化,特别是在评论审核方面,明确将是否存在攻击性和对立性表达作为重要考量因素。具体而言,我们将严重的侮辱谩骂或仇恨性言论、中度的对立贬损以及轻度的否定与指责等对立性言论均纳入了评论处置范畴。根据我们的统计数据,这些措施实施以来,相关言论在社区中的曝光量已经显著下降了43%。 这一系列举措不仅有助于净化网络环境,还促进了更加健康和谐的社区氛围。尽管如此,仍需持续关注和改进,以确保每一位用户都能在一个安全、尊重和包容的空间中交流和分享。此外,提高公众对于网络文明的认识和自我约束能力同样至关重要。
当评论区整体呈现出多方对立的情绪,并且这些观点以不友好的方式相互争执时,我们将限制部分视频的流量传播。这一措施旨在将评论区中的对立性氛围作为治理的重点对象,确保评论环境更加和谐。
第三层,在视频层面,对于采用制造对立或放大负面情绪等手段吸引关注的行为也进行了严格管控。在视频流量增长的过程中,我们会设置多轮流量审查机制,评估其是否“配得上”如此高的流量。可以说,这背后体现了平台运营者为算法指引方向的努力。
《浪潮》:所以“算法鼓励愤怒”其实是一种不正确的说法?
李亮:这里可能涉及了较为复杂的社会学、心理学和传播学议题,例如极化现象和回声室效应,学术界对此已有诸多研究。有研究表明,用户在社交媒体上接触对立观点后,非但没有进行反思或修正自己的立场,反而变得更加极端、更加愤怒。
从平台的角度来看,我们希望用户能够接触到多样化的视频和评论内容。同时,我们会努力分析视频和评论中的“煽动性”。对于那些包含不实信息或引导用户发表极端观点的视频,我们会限制其流量分发;对于煽动仇恨和对立情绪的评论,同样会减少其曝光度。而对于那些客观且理性的视频或评论,我们将给予正常推荐和曝光。
《浪潮》:算法虽然是一个极其高明的“数学天才”,但在很多时候,算法都算计不过人心。我们也了解到非常多人会利用算法的这些特点,以致于滋生灰黑产。你之前介绍过很多次某营销号案例,这是目前抖音在算法治理方面遇到的最经典问题之一吗,这个问题是从什么时候开始爆发的?
李亮:算法通常基于设定的规则、数据和模型来运行。它能快速处理海量的数据和复杂的模式识别。然而,像百准数据潘某某这样的营销号往往会利用一些狡猾的手段来创作内容。例如,营销号可能会采用表面上看似正常的标题、文案和发布策略,以迎合算法对热度、关键词、用户兴趣等因素的偏好。通过制造虚假的热度,如刷赞、刷评论或在内容中夹杂一些容易引起算法关注但内容不实的信息,这些营销号往往能够获得算法的初步推荐。这种情况可能导致算法产生误判。 这种现象揭示了算法在面对复杂且多变的人类行为时所面临的挑战。尽管算法具有强大的数据分析能力,但它们仍然难以完全抵御某些人为操纵。因此,需要不断优化算法的设计,提高其识别虚假信息的能力,并加强对内容创作者的监管,以确保信息的真实性和可靠性。此外,用户也应提高自身的媒介素养,学会辨别虚假信息,避免成为虚假信息传播的工具。
营销号问题在互联网上长期存在。这些账号一方面制造虚假信息,比如炒作明星八卦,导致不实消息泛滥;另一方面过度推广,发布低质量广告,并通过恶意刷量来吸引关注。这不仅损害了用户的优质体验,还破坏了平台的内容生态,扰乱了信息传播秩序,给平台的健康环境带来挑战。利用不实信息、极端和对立言论来博取流量,一直是抖音持续打击和治理的重点。
《浪潮》:营销号的治理牵扯的问题是什么?
李亮:首先我们明确打击不实信息,严格封禁反复发布不实内容的账号。治理不实言论涉及多方面复杂因素,是一个长期工作,保障各方权益与平台健康发展,也主要涉及一些考量:
其一,证据收集不易。封禁营销号需充分证据证明其不实,遵循确定信息源、核实真实性并留存记录等严格程序,证据不足直接封禁易引发法律纠纷,账号所有者可能以平台违反服务合同、侵犯用户权益、造成经济损失等理由起诉。
其二,我们会根据情节情况分级进行治理。区分炮制谣言和无意识传播,区分信息的危害程度,做出相应的管理。
《浪潮》:营销号发布的不实言论经常给企业和个人带来困扰,我们之前也听到了一些反馈,认为在抖音上投诉这些营销号时缺乏专人对接,大多数情况下只能通过平台化的投诉渠道进行处理。这是否意味着抖音在应对这类问题时有其特有的流程和方法?从某种角度来看,平台化处理虽能提高效率,但也可能让投诉者感到不够人性化,特别是在处理敏感或紧急的问题时,这种机制可能会显得不足。 此修改保留了原文的核心信息,同时加入了一点对于平台处理方式的看法,强调了虽然平台化处理有助于提高效率,但可能在某些情况下无法满足用户的个性化需求,特别是当遇到较为紧急或敏感的情况时,这种机制可能会显得不足。
李亮:关于是否专人对接的问题,我们觉得关键还是在于如何能够有效地、迅速地处理不实内容。
抖音对平台不实信息,首选会做主动的发现和治理。针对不实信息,尤其是社会信息,专业知识等影响较大的内容,会通过站内挖掘,站外监控,风险互通等渠道,主动进行不实信息的线索发现,由专门搭建的相关专业团队进行内容研判,对明确的不实信息录入不实信息库,发起回查和其他处置干预。依托这样的信息库算法能力,目前我们会对站内疑似的高风险不实信息进行召回和人工识别等进一步判断,在明确为不实信息后,会对新增和存量内容都做处置。
同时我们还在积极发现其他虚假不实类内容的特征,比如同质化批量发布“一眼假”的内容,针对这些内容特征构建算法能力,进行风险发现,从而提升对虚假不实类内容的治理能力。
抖音对于不实言论主要采用平台化的投诉处理流程,包括投诉受理、初步核实、深入调查(如有必要)、处理决策与执行、反馈与监督等环节。
抖音平台拥有海量内容,通过标准化和规模化处理能力,确保了大量的投诉能够得到有序处理,从而提高了处理效率。这种规模化的处理方式不仅有助于平台高效地收集和分析数据,还可以更深入地了解问题的分布情况。例如,平台可以通过统计不同类型的账号发布不实言论的投诉频率以及涉及的行业领域等信息,从而更好地了解问题的分布,有针对性地优化治理策略。平台化的投诉通道避免了人为因素可能带来的不公平现象,因为平台化流程是基于预先设定的规则来运行的。这些规则适用于所有的投诉案例,确保了每个投诉都能在相同的规则下得到公正的审核。 这种处理机制无疑提高了平台管理的透明度和公平性,但同时也需要关注规则制定的合理性和灵活性。在不断变化的信息环境中,固定的规则是否能有效应对所有情况,还需进一步探讨。此外,如何保证这些规则在实际操作中的严格执行,避免任何潜在的偏差,也是值得持续关注的问题。总的来说,这一机制为解决平台上的投诉提供了有效的框架,但仍需不断完善以适应日益复杂的内容环境。
同时,针对谣言频发的舆情敏感企业,抖音会密切关注相关的不实信息。如果侵权举报后台检测到相关举报,会将其转入优先处理队列,相比普通队列可以提前4至6小时进行处理。公司内部还构建了跨部门沟通机制,以减少信息传递中的误差。我们特别培训了一些熟悉特定企业谣言的“专家”员工,以便能够迅速判断和处理情况。根据我们的统计,11月抖音累计受理了18425起网络涉企侵权举报,处理了935个违规账号,有效举报达到11300件,投诉成功率为约61.3%。
《浪潮》:算法治理其实是一个全球难题,有的平台被质疑算法出发点是提升用户的参与度,而根据实验,让参与度提升的最有效办法就是让人愤怒,为了追求使用者的参与者,算法就决定散播一些“骇人听闻”的内容,它本质上是高层的一些决策导致了算法应用的走向,这个情况抖音有没有碰到过?
李亮:上面也提到过,抖音的算法目标是长期收益,所有的优化迭代都围绕着这个目标,看长期效果。抖音更关注“用户长期对平台的认同”。事实上我们发现,用户参与也分很多种类型,比如利用争议诱导情绪而引发的评论并不能带来长期收益,就不会成为抖音关注的目标,比如“骇人听闻”的内容很可能是刻意博流量,是抖音明确要打击治理的,对这类生态问题的打击并不会带来平台长期留存的下降,反而平台是更有收益的。
本文源自凤凰网科技的原创文章:《独家专访抖音集团李亮:平台无动力制造“信息茧房”》