《必须全部抓到它们:一家交易共享集团的在线追踪行为及其对重定向链的过度依赖》

《ACM Transactions on the Web》:Gotta Catch ’em all: On the Web Tracking Practices of a Deal-Sharing Conglomerate and their Heavy Reliance on Redirect Chain

【字体: 时间:2026年05月10日 来源:ACM Transactions on the Web

编辑推荐:

  摘要 联盟营销是一种日益增长的基于绩效的营销模式,其中联盟成员因用户注册、购买或访问购物网站而获得奖励 [16, 38]。预计到2025年,这种营销策略的价值将达到185亿美元 [31, 67]。交易共享平台利用这种营销策略,作为销售者的店面来展示促销活动和优惠。由于该服务免费使

  摘要
联盟营销是一种日益增长的基于绩效的营销模式,其中联盟成员因用户注册、购买或访问购物网站而获得奖励 [16, 38]。预计到2025年,这种营销策略的价值将达到185亿美元 [31, 67]。交易共享平台利用这种营销策略,作为销售者的店面来展示促销活动和优惠。由于该服务免费使用,它们通过联盟链接 [36] 在促成销售时赚取佣金。我们对Pepper [1] 及其扩展环境(交易共享平台中的关键参与者)所采用的跟踪技术进行了深入的端到端研究。通过为期一个月的系统爬虫,我们分析了10个活跃在不同国家、遵守不同隐私法律的交易共享网站的跟踪生态系统。我们的分析显示,大部分跟踪发生在交易共享平台与购物网站之间的重定向链 [40] 中。我们量化了重定向链中特定于跟踪的cookies使用、CNAME隐藏 [14] 和链接装饰 [52, 58] 的情况。我们发现,67.9% 的重定向链至少使用了其中一种额外的跟踪技术。我们发现,之前研究中检查的重定向链(仅限于基于HTTP的重定向)比我们研究中观察到的(基于HTTP、HTML和JS的重定向)受到更多限制,后者可以通过在运行时动态加载额外的跟踪资源来实现更积极的行为。最后,通过分析第三方服务的生态系统和交易共享网站的隐私政策,我们揭示了参与重定向链的众多行为者的存在。

AI总结 (实验生成)
此总结是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助发现、帮助读者评估相关性和协助来自相关研究领域的读者理解这项工作。它旨在补充作者提供的摘要,后者仍然是文章的官方总结。完整文章仍然是权威版本。点击此处了解更多信息。点击此处对摘要的准确性、清晰度和实用性发表评论。这样做将有助于改进和未来生成的版本。

1 引言
互联网从根本上建立在超链接之上,这使得网站之间的导航无缝进行。虽然一些超链接直接指向目标页面(例如产品页面),但在商业环境中,尤其是在联盟营销中,超链接通常会导致通过中间URL的一次或多次自动重定向。这些中间商允许第三方服务追踪销售、收集分析数据或跟踪用户。重定向在互联网上被广泛使用,包括当用户从搜索引擎 [64] 或社交网络 [5] 点击链接时,追踪器会在其中被插入。在联盟营销 [16, 38] 中,重定向尤为普遍,这是一种基于绩效的模型,联盟成员通过引导用户访问购物网站来赚取佣金。为了支持这一模型,联盟链接嵌入了唯一的标识符,并依赖重定向来引导用户通过跟踪基础设施。这种机制是影响者和出版商现代 monetization 策略的基础 [9, 44]。在幕后,点击联盟链接通常会触发一系列通过第三方服务进行的重定向,直到用户最终到达购物网站。这是一个隐私问题,因为链条中的每一步都会让用户暴露于跟踪之下,并且这是功能上的强制性要求(即,用户无法在不访问链条中的每个第三方服务的情况下到达目标网站)。此外,我们发现重定向链的不透明度导致了大量未记录的第三方服务通过各种技术对用户进行画像。尽管之前的研究已经探讨了网站上的跟踪 [14, 52, 65],但很少有研究关注网站之间的跟踪,特别是在重定向链中的跟踪 [9, 40]。与之前注重广度但较为表面的研究 [9, 40] 不同,据我们所知,这是第一项专注于联盟营销中重定向链跟踪机制的深入实证研究。
在本文中,我们通过一个快速增长、高度相关且之前未被研究的渠道——交易共享网站,来说明联盟营销的隐私问题。这些平台作为精选的店面,数百万用户在此发现促销信息和折扣产品,然后被重定向到联盟购物网站。更具体地说,我们将研究重点放在Pepper [1] 上,这是一个运营多个交易共享平台的主要国际集团(例如dealabs.com、hotukdeals.com、promodescuentos.com)。Pepper每月吸引超过2500万独立访问者 [1],并通过嵌入联盟链接和与第三方营销服务合作来 monetize 用户注意力。这些平台的规模和经济模式带来了独特的隐私风险。首先,它们作为联盟发布者,处理初始的cookie同意并在重定向链期间影响跟踪。其次,它们作为数百个购物网站的中介,使用户暴露于众多跟踪域名之下。第三,它们汇总了大量用户互动数据,成为行为画像的吸引目标。
在本文中,我们做出了以下贡献:
- 我们收集了10个Pepper拥有的平台上的180,852个联盟交易的独有人套数据,包括通向购物网站的全重定向链。数据收集时间是从2025年4月24日到2025年5月29日,平均每天爬取5659个交易。
- 我们详细分析了重定向链中的四种主要跟踪技术。虽然之前的工作仅关注基于HTTP的重定向,但我们发现交易共享平台中的重定向不仅基于HTTP,还包括基于HTML和JS的重定向。HTML重定向依赖于opause标签来“刷新”到另一个URL,这需要下载HTML文档甚至运行嵌入式代码或下载资源,使第三方服务能够通过JavaScript或基于像素的技术进行更精细的跟踪。
- 我们评估了用户同意对跟踪行为的影响。尽管存在合规横幅,我们发现即使没有用户同意,跟踪也是普遍存在的,特别是在涉及第三方中介的重定向链中。

文章的其余部分组织如下:第2节介绍交易共享平台。第3节介绍基于重定向的跟踪背景和情境。第4节描述了我们的数据收集和检测流程。第5节介绍了我们的数据集,第6节分析了结果。第7节讨论了相关工作,第8节进行了讨论。

2 交易共享平台的构架
交易共享平台位于电子商务和社交网络的交集处。它们的主要目标是向用户提供产品促销信息和折扣,同时营造一个用户可以分享、评论和评估这些交易的社区驱动环境。为了更好地理解这些平台的运作方式,本节分为两部分。第一部分“概念和功能”介绍了面向用户的核心元素:交易的结构和社区参与的作用。第二部分“生态系统和隐私问题”强调了支持这些平台的技术和商业基础设施,包括用户跟踪、数据处理和更广泛的联盟生态系统。

2.1 概念和功能
2.1.1 交易
交易共享平台的核心是交易本身。交易通常由用户提交,并由审核员审查以确保其有效性和符合平台指南。一些交易可能是赞助的,类似于新闻网站上的原生广告。图1显示了这样一个平台的主页,它作为销售者的促销店面,以无限滚动的方式展示众多交易。它列出了交易的摘要,并提供了足够的信息以鼓励用户点击它们。

2.1.2 社区
交易共享平台与传统折扣聚合器的区别在于它们的社交层。每个交易都通过用户的投票和评论得到了增强。当用户点击一个交易时,页面通常会向用户展示:
- 产品和图片:产品的视觉表示。
- 价格和折扣:当前促销价格以及与常规零售价格或竞争对手价格的比较折扣。
- 交易描述:包括条款和条件、享用优惠的逐步说明,以及提交交易的用户提供的进一步澄清或评论。
- 到期日期:如果适用的话,交易的期限或结束日期。
- 重定向和折扣代码:一个“获取交易”的按钮,将用户重定向到购物网站。如果需要,会提供一个可复制的代码来激活折扣。
- 人气评分或温度:用户可以根据感知的质量或相关性对交易进行投票。评分通常以“温度”来可视化,例如“热门交易”与“冷门交易”,这会影响交易在首页或趋势列表中的显示。获得高票数的交易更有可能出现在首页或趋势列表中,从而更有可能吸引访客购买。
- 评论区:这是用户体验的重要部分。用户可以分享对交易有效性的反馈,报告交易是否已过期,提供额外说明或批评,提出替代产品或供应商,或者简单地感谢发布者。这些讨论往往会影响交易的可信度和实用性。
用户可以在交易共享平台上建立自己的声誉。通过各种行动,他们可以获得徽章(例如,根据他们投票的交易数量、发布的交易数量、收到的投票数量)显示在他们的公共资料上,其中还包含其他信息,如他们分享的交易列表或他们发布的评论。用户还可以通过交易本身、论坛页面或直接消息进行互动 [33]。此外,交易共享平台还会奖励非常活跃的用户 [32]。奖励通过去除广告来改善用户体验,正如它们所说:“浏览交易时没有干扰。(没人喜欢广告,我们明白这一点)”。用户还可能收到礼品卡和其他福利,如佣金。

2.2 生态系统和隐私问题
2.2.1 用户跟踪和平台设计
交易共享平台主要通过联盟链接 [36] 来 monetize,这些链接跟踪用户和购买行为 [16, 38]。我们将在第3.1节进一步描述这一点。除此之外,平台还进行广泛的第一次方跟踪,以收集用户的行为数据。它们可以记录用户点击了哪些交易、探索了哪些产品类别、发布了哪些评论、为特定品牌或关键词配置了哪些警报,以及与网站的任何其他互动。这些数据使平台能够构建用户偏好、价格敏感性和购买意向的详细档案——所有这些都是优化个性化和 monetization 策略的宝贵信息。
一些平台在这个数据流程上走得更进一步。例如,dealabs.com 将所有与交易相关的图片下载并托管在自己的子域名上(例如static-pepper.dealabs.com),而不是直接链接到第三方商家内容。这种方法确保外部站点不会收到任何关于产品数据的HTTP请求——它们实际上从未被告知用户的兴趣——这加强了自包含的第一次方跟踪策略,限制了数据泄露并强化了平台控制。

2.2.2 复杂且不断发展的生态系统
尽管用户互动看起来很简单,但交易共享平台背后的生态系统是复杂的,涉及许多利益相关者。这些包括平台本身和用户,还有联盟网络、广告中介、分析服务以及 monetization 服务。它们共同构成了一个多层次的价值链,决定了单个交易是如何被跟踪、 monetize 和传递的。重要的是,这个生态系统在不断演变。访问一个主要的交易共享网站可能会启动与数百个外部服务的连接——平台在他们的cookie同意横幅中列出了340多个合作伙伴,除了chollometro.com(西班牙网站)仅列出了Google广告。这些包括联盟网络、广告交易所、个性化引擎和跟踪工具。随着平台适应新的 monetization 策略、调整隐私法规(如GDPR或浏览器限制),或整合新的技术服务,合作伙伴列表可能会频繁变化。这个不断变化的参与者网络增加了系统的不透明性和复杂性,使得用户难以完全理解他们的互动涉及的数据收集和利润分享范围。

3 背景
3.1 联盟营销
联盟营销是一种基于绩效的营销模式,其中联盟成员因用户注册、购买或访问购物网站而获得奖励 [8, 38]。这可以是销售百分比、固定价格或其他方案的形式。交易共享平台在很大程度上依赖于联盟营销。图2展示了它们运作的一般概述 [9]。过程始于用户访问交易共享网站,该网站以我们可以称之为交易的多种产品或服务形式呈现这些内容。点击一个交易会通过联盟网络将用户重定向到购物网站。如果用户完成购买,联盟网络将收到佣金,其中的一部分会回流给交易分享网站。这个佣金系统依赖于过程中每个利益相关者使用的一系列跟踪技术。图2展示了交易分享网站的概览。更具体地说,Pepper集团内的交易分享平台通过多种途径产生收入。除了联盟营销[36]之外,它们还向访客展示广告[35],并为用户购物网站的交易信息提供赞助展示[37]。这些平台为深入研究跟踪生态系统提供了极好的机会,因为它们整合了多种不同的收入模式下的跟踪机制。通过结合联盟跟踪、广告跟踪和赞助内容跟踪,它们创建了一个复杂但富有说明性的案例,用于分析各种跟踪技术是如何相互作用和相互加强的。

3.2 基于网络的跨站跟踪机制
联盟营销和交易分享平台依赖多种机制来跟踪用户访问的网站。为了理解交易分享平台周围的生态系统,我们的研究考察了实际中的跨站跟踪技术。由于这些技术的有效性,主要使用的技术包括第三方cookie、重定向、CNAME隐藏和链接装饰,我们将在下文中进行描述。

3.2.1 第三方cookie
第三方cookie主要用于跨站跟踪,特别是在网络广告生态系统中。十年前,跟踪几乎完全依赖于在第三方cookie中存储标识符[20]。通过在网络中的第三方脚本中设置cookie,跟踪器能够获得用户跨站活动的广泛信息。然而,由于对第三方cookie隐私风险的更好理解,这种情况正在发生变化。特别是隐私倡导者和隐私工具长期以来一直批评第三方cookie[2]。像Safari[71]或Mozilla[51]这样的注重隐私的浏览器,默认情况下会阻止或严重限制第三方cookie的使用。此外,监管机构和立法(如GDPR[22])也对第三方cookie的使用设定了限制,尤其是在未经用户同意的情况下。即使是市场占有率约为67%[66]的Chrome也在2020年宣布将使第三方cookie“过时”[62]。尽管Google在2024年7月正式放弃了这一决定[10],但在短短几年内,替代方案的发展和采用一直在增长,并正在改变跟踪生态系统。为了应对第三方cookie效力的下降,跟踪器们正在利用已知的技术,并设计新的技术。在这方面,我们可以提到CNAME隐藏[11, 14]、HTTP重定向[40]和服务器端跟踪[24],这些都是将跟踪操作转移到第一方上下文的尝试。这样,以前作为第三方资源加载的资源就变成了第一方资源,通常不会被浏览器阻止,即使第三方cookie被禁用或使用了针对第三方资源的保护工具也是如此。

3.2.2 重定向链
我们将重定向链定义为由单一用户操作(通常是点击超链接)触发的一系列连续的HTTP请求和响应,其中每个中间响应都会发出重定向(例如,通过HTTP状态码、HTML meta标签或JavaScript)。当最终目标页面加载完成且不再发出进一步重定向时,链就结束了。重定向链对网页用户来说是基本上看不见的,但每一步都代表了数据收集或用户跟踪的机会[50]。重定向从HTTP协议诞生之初就存在[6],并且后来进行了更新以防止歧义[60]。通过接收到特定的301状态码(如301),浏览器会被告知资源已被移动,并且需要在新URL上发起请求以加载内容。这一机制对跟踪器至关重要,因为重定向可以连续执行,要求浏览器访问一系列域名,即所谓的重定向链[40, 50],才能到达预期的目标页面。图3展示了重定向链的示例。每个被访问的域名都在第一方上下文中运行,可以设置第一方cookie,不再受到第三方cookie限制,并且不会被浏览器或保护工具阻止,而不会中断用户的导航。例如,如果广告拦截器阻止了重定向链中的任何域名加载,那么重定向就会被中断,用户将无法到达预期的网站。这无疑不利于此类工具的使用。

图3. 重定向链概览。
HTTP重定向是由服务器使用HTTP状态码[49]发起的。服务器会返回一个Location头部和一个重定向状态码(例如302 [47])。总是在浏览器加载任何页面之前对用户进行重定向。因此,跟踪器只能使用HTTP层级的可用技术(即HTTP cookie、HTTP头部、链接装饰)或更低级别的技术(例如TLS)。Koop等人[40]研究了这些重定向的跟踪方面。HTTP重定向需要完全访问Web服务器配置。如果开发者所在的平台有限制(例如,共享托管),他们可能没有足够的权限来实现HTTP重定向。

JS重定向。这种技术是通过JavaScript调用来重定向用户的。JavaScript调用在代码中的实现方式如下:
window.location = "https://example.com/";
URL也可以根据上下文动态生成。JS重定向允许跟踪器执行更为激进的技术,如第三方脚本调用、通过浏览器指纹识别收集信息等。在这种情况下,跟踪器可以自由决定何时进行重定向;可以在脚本执行后或满足特定条件时进行。虽然HTTP重定向是通过服务器软件的管理员权限配置的,但JS重定向是通过包含在HTML文件中的客户端JavaScript脚本实现的。

HTML重定向。重定向是通过HTML meta标签实现的,该标签旨在在刷新页面时更改URL。这种技术会在任何重定向之前加载完整的HTML文档,从而使跟踪器可以使用它们在常规网页中常用的任何技术(例如,如果浏览器允许的话,可以使用JS同步脚本)。用户总是在文档加载完成后被重定向。跟踪器可以在这些重定向中添加延迟,以便尝试加载或请求更多资源(例如像素跟踪、指纹识别)。与JS重定向类似,HTML重定向也是通过简单的HTML文件实现的。甚至更糟糕的是,它不需要浏览器允许JS。重定向在HTML文件中的实现如下:
表1总结了不同类型重定向之间的主要区别:即HTTP重定向、JS重定向和HTML重定向。

表1. 特征
| 类型 | JS重定向 | HTML重定向 | HTTP重定向 |
|----------------|-----------------|-----------------|-----------------|
| 动态URL | \(\checkmark\) | \(\times\) | \(\times\) |
| 重定向时机 | 即时(HTML加载后) | 即时(页面加载前) | 条件逻辑 |
| \(\checkmark\) | 是 | \(\times\) | \(\times\) |
| 需要管理员服务器访问 | \(\times\) | \(\times\) | \(\times\) |
| 脚本执行 | \(\checkmark\) | \(\checkmark\) | 是 |
| 同步JS | \(\times\) | \(\times\) | 不研究 |
| 在跟踪中的使用 | 不研究 | \(\checkmark\) | [40]中得到确认 |

JavaScript、HTML和HTTP重定向对于那些没有完全访问权限的跟踪器来说更容易实现(例如,当跟踪来自联盟网络时,跟踪器可能无法完全实现他们想要的所有跟踪技术)。然而,这些技术允许跟踪器进行更加激进的用户跟踪,因为它们打开了技术实现的可能性。根据所使用的重定向技术,用户可能会涉及其他跟踪技术(例如CNAME隐藏、链接装饰)。

3.3 CNAME隐藏
在解析域名时,DNS服务器返回一个包含要联系的服务器IP地址的记录。大多数情况下,返回的是包含单个IP地址的“A”记录,但也可以发送一个“CNAME”记录来将浏览器指向另一个域名。近年来,这种机制得到了广泛应用,因为它可以被滥用来将第三方域名隐藏在第一方域名后面[14]。例如,用户可能访问example.com,其中包含指向tracking.example.com上资源的链接。当浏览器解析域名时,它会收到一个CNAME记录,指向trackerA.com来获取该资源。由于使用了CNAME机制,资源将在第一方上下文中执行,而不在第三方上下文中执行。这种绕过机制使得网站能够整合具有更高权限的第三方跟踪器、广告或服务,规避浏览器的保护和广告拦截扩展程序。

3.4 链接装饰
一种在cookie之外与跟踪器共享信息的方法是通过链接装饰。通过在浏览器请求的URL中放置标识符,跟踪器可以在不需要第三方cookie或其他机制的情况下接收到该标识符[52, 58]。有三种不同的链接装饰方式可以用来在网站之间跟踪用户。例如,以下URL的各个部分都可以用来向下一个服务器分享标识符:
https://example.com/path/to/pixel_178216.jpg? param=paramId#fragId
- 资源路径“path/pixel_178216.jpg”
- 查询参数“paramId”
- 片段“#fragId”

4 方法论
在本节中,我们介绍了我们的网络爬虫的架构以及我们的爬取堆栈的技术细节。然后我们描述了用于检测第3.4节中介绍的跟踪技术的方法。

4.1 爬虫架构
社区驱动的交易分享平台的内容变化迅速,最受欢迎的产品很快就会出现在首页上或从首页消失。为了考虑到这种波动性,我们设计了一个以定期进行深入爬取为中心的架构。首先,我们定期从每个交易分享平台的“所有”页面提取按日期排序的交易列表,从最新的交易开始。其次,如图4所示,我们深入爬取每个交易,从交易分享网站一直爬到最终的购物网站,记录沿途的所有相关数据。为此,我们利用一系列Redis队列来协调爬取,并使用PostgreSQL数据库保存数据。我们使用Puppeteer[29]来实现爬虫,并自动化Chrome(112.0.5615.137),因为它在2025年1月的市场份额约为67.05%[66]。

实际上,我们每天多次爬取首页以及当天对应的交易。在后续对首页的爬取过程中,我们会访问新的交易,直到遇到之前已经爬取过的交易。每次爬取都使用一个干净的浏览配置文件,以确保观察到的跟踪行为不受之前设置的cookie的影响。我们对每个网站进行两次爬取:一次允许所有cookie的爬取,另一次拒绝cookie的爬取。Pepper集团的所有网站都显示相同的cookie同意横幅。要接受cookie,爬虫会点击“接受所有”按钮;要拒绝cookie(见第6.4节),爬虫会点击“不接受继续”按钮。如果没有找到相关的HTML属性,爬取就会停止,我们不会进一步探索。当cookie横幅未显示时(例如,在promodescuentos.com(墨西哥)网站上,因为任何规定都不要求cookie同意),我们会采取这种策略(即不点击cookie横幅来执行爬取)。对于每次爬取,我们的爬虫收集以下数据:
- 所有的网络请求及其响应,
包括:
- 对于请求:所有头部信息、时间戳、发起请求的脚本或URL、请求的HTTP方法以及是否为重定向。
- 对于响应:所有头部信息、时间戳、状态码、类型、大小、IP地址和内容。
- 每个浏览器cookie都以键值对的形式保存。每个cookie都关联到其来源,即JavaScript代码或请求,我们还收集了域名。我们从Set-Cookie头部收集了所有的HTTP cookie属性[46]。我们进一步分析了与跟踪能力相关的4个头部信息:
- HttpOnly
- SameSite
- Max-Age
- Secure
- 交易的属性
- Temperature(见第2节的定义)
- 评论数量
- 获取交易的链接
- 收集日期

我们不收集任何用户个人信息(即交易的创建者、在交易上发布的评论),以符合GDPR规定。我们的实现代码可以在https://zenodo.org/records/18723060找到。最后,我们采取多种措施来减少我们的足迹并避免被机器人检测系统发现。首先,我们通过限制对交易分享网站的请求频率来确保系统不会承受负担。其次,我们自动化了一个名为Xvfb[12]的虚拟显示中启动的浏览器,并激活了puppeteer-extra-plugin-stealth插件。第三,我们所有的爬取操作都是从一台托管在大学网络中的机器上进行的,该网络提供了欧盟内的高信誉IP地址。我们监控了爬虫的运行情况,没有发现任何与机器人检测相关的错误。此外,我们系统地验证了爬虫确实能够成功访问购物网站,而没有触发任何反机器人系统。更具体地说,我们利用了Pepper网站所使用的联盟网络的独特技术设置,该设置直接在重定向链的开始处包含了目标购物网站的URL。如果链中的最后一个元素的URL与联盟网络提供的URL相符,我们就知道我们的爬虫没有触发反机器人检测。

4.2 识别跟踪技术
在我们的爬取过程中,我们识别出了五种需要进一步研究的跟踪技术(即跟踪域名、重定向链、链接装饰、CNAME隐藏和cookies)。下面我们将介绍如何在我们的数据集中检测这些技术。

4.2.1 识别跟踪域名
根据之前的研究[14, 40, 58],我们通过将遇到的所有域名与知名的广告拦截列表(如EasyList [17]和EasyPrivacy [18])进行比对来识别跟踪域名。当域名与分享交易的网站所属国家(如西班牙、法国、德国、荷兰、意大利和波兰)匹配时,我们还会使用EasyList社区维护的区域列表。这大大增加了我们能够识别的特定国家脚本的数量。

4.2.2 重定向链
我们追踪从分享交易平台到目标购物网站的重定向链。基于Koop等人的研究[40],我们检查了所有可能的重定向技术,采用了细粒度的处理方法:
- 在协议层:HTTP包含30x代码[47],用于重定向到任意URL;
- 在HTML中:meta标签支持带有http-equiv属性的刷新值,可以实现自动加载另一个URL;
- 在JavaScript中:多个浏览器API支持将用户重定向到任意URL。
在大多数情况下(95.2%),从Pepper平台进行的第一次重定向涉及到单一实体digidip.net。这个域名属于Digidip公司,而Digidip实际上是Pepper的联盟网络,这解释了它在我们的研究中的高出现率。digidip有一个稳定的URL模式,使我们能够提取出最终的购物网站URL。更准确地说,它遵循以下格式:
https://.digidip.net/visit?url=&ppref=&ref=ppr
我们的爬取架构允许我们从点击“获取交易”按钮的那一刻开始,一直跟踪到访问购物网站的过程,包括其间加载的所有资源。

4.2.3 链接装饰
为了检测重定向链中的链接装饰,我们首先将所有URL参数提取为键值对。然后,我们识别出那些键类似于标识符(如“id”或“tag”变体的参数。实际上,我们选择任何包含这些词汇的参数,而不考虑大小写。尽管这种方法可能会遗漏一些标识符,但它通过报告最少的链接装饰数量,提供了一个保守的跟踪估计。
由于这些链接也可能包含稳定的、非跟踪的产品标识符,我们排除了所有明确标有“product id”等词的参数。此外,根据Munir等人的研究[52],我们移除了基于时间戳的标识符。然后,我们采用两种方法来识别特定于跟踪的参数。第一种方法我们称之为“跟踪域名关联”。如果一个链接装饰被一个跟踪域名使用,我们就认为它用于跟踪。这与Randall等人的最新研究[58]结果一致。第二种方法叫做“动态值分析”。在这种情况下,我们会用新的账户信息再次爬取同一笔交易,只提取那些在两次爬取之间值发生变化的标识符。这种技术的假设是,如果对于同一笔交易,不同的账户信息下值保持不变,那么这个值很可能代表一个与产品相关的标识符。相反,如果值发生变化,它可能表明这是一个潜在的跟踪参数,从而可以过滤掉与产品相关的标识符。

4.2.4 CNAME隐藏
基于之前的研究[11, 14],我们通过解析每个域名直到DNS解析过程中的最终A记录来识别CNAME隐藏。如果最终域名被认定为跟踪行为,我们就将其归类为CNAME隐藏。在许多情况下,需要多个解析步骤,因为第一个CNAME记录可能不会直接解析为A记录,而是指向另一个CNAME记录。
然而,我们发现这种方法不够彻底,因为在我们的数据集中未能检测到任何CNAME隐藏行为。由于之前报告的CNAME隐藏数量通常要高得多,我们还向CNAME记录背后的最终域名发送了一个GET请求。通常,我们会发现一个额外的HTTP重定向,引导我们到一个新的域名,然后我们再次将其与4.2.1节中提到的广告拦截列表进行比对。我们发现这种最后的HTTP重定向实际上会将某些域名识别为跟踪器。这是一个很好的例子,展示了这些不同跟踪技术是如何结合使用的。

4.2.5 Cookies
我们在爬取过程中收集了所有设置的cookies,并记录了它们的来源,无论是通过HTTP请求还是通过JavaScript代码添加的。这使我们能够准确地将其分类为属于分享交易平台、中间商和购物网站的三类。我们根据Open-Cookie-Database列表[41]按用途对cookies进行了分类(例如,功能型、营销型和分析型)。Open-Cookie-Database最近被法国CNIL用来开发隐私审计工具[21]。我们从潜在的跟踪cookies列表中排除了未分类的cookies。

5 数据集
我们收集了一个包含180,852笔交易的全面数据集D,这些交易来自属于Pepper集团的10个高度活跃的分享交易平台。据我们所知,Pepper ecosystem是全球最大的分享交易网站集团之一。根据Semrush[63]报告的数据,最接近的竞争对手是Ziff Davis[72]和Plebicom[56]。具体来说,Pepper每月的访问量达到1.89亿次,而Ziff Davis和Plebicom分别为2900万次和60万次。我们从2025年4月24日到5月29日监控了Pepper网站的交易活动。表2总结了每个分享交易网站的交易分布及其所在国家。总共,我们的爬取记录了50,808,571个HTTP请求。

表2. 分享交易网站及交易数量
- dealabs.com(法国):50,728笔交易
- promodescuentos.com(墨西哥):43,102笔交易
- hotukdeals.com(英国):62,483笔交易
- nl.pepper.com(荷兰):41,527笔交易
- mydealz.de(德国):51,149笔交易
- chollometro.com(西班牙):59,289笔交易
- pepper.pl(波兰):53,451笔交易
- Preisjaeger.at(奥地利):34,627笔交易
- pepperdeals.se(瑞典):36,564笔交易
- pepper.it(意大利):36,181笔交易

爬取频率。图5展示了每天每个平台抓取的交易数量。平均而言,我们每天抓取5,659笔交易。我们选择在每个分享交易平台的新交易发布后立即进行爬取,以构建一个全面的数据集。为了分析用户同意对跟踪生态系统的影响,每笔交易会被爬取两次:第一次接受所有cookies,第二次拒绝cookies。

图5. 每天及每个分享交易网站的爬取分布

购物网站。我们的数据集D中爬取的各种交易对应于4,709个购物网站。如图6所示,亚马逊.xxx是9个国家中最受欢迎的购物网站。

图6. 购物网站分布

6 结果
在本节中,我们评估了跟踪技术是如何通过用户导航实现的。首先,我们展示了在分享交易平台中发现的跟踪技术。然后我们检查了重定向链的使用情况,包括其长度和重定向类型。接下来,我们分析了重定向链与其他跟踪技术(如链接装饰、CNAME隐藏)的结合。之后,我们研究了重定向链中设置的cookies,以及用户同意对cookies保存的影响。最后,我们分析了参与这些重定向链的第三方,并将其与Pepper的隐私政策进行了比较。

6.1 Pepper当前的跟踪状态
我们分析了在用户点击“获取交易”按钮之前发起的请求中直接实施的跟踪机制。我们的测量结果显示,当用户没有通过cookies横幅给予同意时,大约27%的出站请求被标准的跟踪过滤器列表拦截,这与最新的AdGuard Tracker Report[3]的结果一致。当用户同意跟踪时,这一比例上升到了38%。作为对比,在不需要用户同意的墨西哥平台promodescuentos上,46%的请求被拦截;这表明即使在用户被重定向之前,各平台的跟踪活动也一直较高。
我们使用Open-Cookie-Database[41]将分享交易平台设置的cookies分为三类:功能型、营销型和分析型。我们的分析显示,这些平台会根据用户的同意情况调整它们的cookies行为。特别是,只有在用户明确同意分析型跟踪时,才会设置一个分析型cookies。相比之下,无论用户是否同意,都会设置五个营销型cookies,显示出更加激进的基础行为。值得注意的是,荷兰版本的Pepper(pepperdeals.se)的跟踪行为更为明显:默认设置了七个营销型cookies,在用户同意后增加到十个。至于功能型cookies,我们观察到最初只设置了两个,用户在同意后数量翻倍。
此外,我们还观察到大量未被标准cookies列表分类的cookies。平均而言,分享交易平台设置了八个未分类的cookies(pepperdeals.se设置了16个);当用户同意所有跟踪时,这个数字增加到了19个(pepperdeals.se设置了32个)。在大多数情况下,这些未分类的cookies都在平台的cookies政策[34]中有明确说明。
总体而言,当用户同意完全使用cookies时,分享交易平台的跟踪政策变得更加激进。然而,在我们的数据集中我们发现了两个例外。首先是promodescuentos.com(墨西哥),该平台没有显示cookies同意横幅——鉴于缺乏类似GDPR的法规,这是可以预期的结果。在这个平台上,我们平均记录了25个营销型cookies和37个未分类的cookies。第二个更令人惊讶的例子是nl.pepper.com(荷兰),它的行为与其他遵守GDPR的Pepper网站不同。我们目前还无法解释这一异常。
尽管存在营销型cookies和未经同意就联系第三方域名的情况,但所研究的分享交易平台中实现的跟踪技术通常遵循众所周知、经过充分研究的模式,并没有表现出重大的技术缺陷。

6.2 重定向链的使用
一旦用户被重定向到购物网站,跟踪行为会显著加剧。此时,用户会接触到更多的第三方跟踪器,包括指纹识别技术和数据共享行为,这些比在分享交易平台上观察到的都要多。当用户点击“获取交易”按钮时,就会触发重定向链。这些链由一系列中间URL组成,将用户从分享交易平台引导到最终的商品网站。虽然用户几乎察觉不到这一过程,但它却是实现联盟营销和用户跟踪的核心组成部分。
在这些重定向链中,用户会被大量跟踪。每个重定向步骤通常通过向URL添加参数或执行脚本来收集数据。这些机制既用于归因(确保平台获得推荐佣金),也用于行为分析,因为多个第三方可能会记录这一事件。

6.2.1 重定向链长度
重定向链的长度非常重要,因为每个重定向步骤都是一个可能提取数据和跟踪用户的第三方服务。购物网站通常依赖于相同的重定向架构和第三方服务。因此,两个长度相同但指向不同购物网站的重定向链会包含不同的第三方服务。如图7所示,62%的重定向链包含一个元素,即digidip.net(见第4节)。在18.5%的情况下,重定向链包含digidip.net和另一个第三方服务。更一般地说,对于某个特定的购物网站,有82%的概率会遵循相同的重定向链。

图7. 每笔交易的重定向链长度
我们数据集中观察到的最复杂的重定向链包含了11个不同的第三方域名(如果只考虑它们的有效顶级域名(eTLDs),最终才到达购物网站。我们发现了22次这样的链,所有这些链都指向同一个购物网站,表明这是一个稳定且刻意设计的多跳跟踪设置。在另一个极端情况下,4.8%的交易根本没有重定向:用户直接从分享交易平台被发送到购物网站。我们假设这些情况对应于赞助交易或直接合作关系,其中第三方联盟中介被跳过,跟踪由平台或商家内部处理。这表明在33.2%的重定向链中,用户在到达目标购物网站之前会被重定向到一个非必要的(并且具有跟踪功能的)第三方。
为了说明这一现象,我们举了一个包含五步第三方重定向链的代表性例子。用户的旅程始于dealabs.com,最终到达商家网站courir.com。在用户访问过程中,他们会被依次重定向到一系列第三方域名:首先是digidip.net,然后是clevationly.com、r.v2i8b.com、api.kelkoogroup.net,最后是fr-go.kelkoogroup.net。所有这些中间域名都与已知的跟踪和广告技术有关。我们将在接下来的部分进一步分析它们的跟踪能力和技术手段。

6.2.2 重定向类型
重定向链的每个步骤都可以通过第3节中介绍的不同技术来实现。以courir.com为例,第一次通过digidip.net的重定向是通过HTML刷新完成的。随后的三次重定向(分别通过clevationly.com、r.v2i8b.com和kelkoogroup.net)则依赖于基于HTML的重定向机制。这使得更复杂的跟踪成为可能,例如动态脚本的执行和额外数据的收集。特别是kelkoogroup.net在重定向的同时:(a)嵌入了一个像素跟踪器;(b)发送了一个POST请求,传输了与用户相关的元数据(如用户代理);然后才将用户最终重定向到商家网站。

表3展示了我们数据集中存在的重定向类型分布。我们观察到大多数是HTTP重定向,而HTML和JS重定向较少。尽管如此,不同类型的重定向可能会重叠(例如,包含HTML文件的HTTP重定向也可能通过meta标签进行重定向)。例如,100%的digidip.net请求同时使用了HTTP和HTML重定向技术。我们通过对浏览器(包括桌面和移动版的Chrome和Firefox)的实际行为进行测试,发现HTTP重定向具有优先级。虽然这降低了当前的跟踪能力,但也意味着现有的基础设施可以轻松地转向基于HTML的重定向,并提升跟踪效果。

表3. 重定向类型
| 重定向类型 | 总数 | Pixel | CNAME | Cookies | ID | HTTP状态码30X | HTML状态码20X | JS状态码20X | JS状态码20X | HTTP和HTML重叠 |
|-----------------|--------|--------|---------|---------|---------|---------|----------|-----------|--------------|
| | 178,478 | 178 | 179 | 52,624 | 4,039 | 1,504 | 2 | 178,478 |
| | (99%) | (0.06%) | (29%) | (0.02%) | (0.008%) | (82%) |
| | xx | xx | xx | 0 | 0 | 0 | 0 |
| | 52,624 | 52,624 | 660 | 660 | 0 | 0 | 0 |
| | (29%) | (29%) | 0 | 0 | 0 | 0 | 0 |

6.2.3 HTML文件分析
为了研究HTML和JS重定向中包含的额外跟踪技术,我们分析了接收到的HTML文件。通过关注脚本包含情况(内联或外部),我们可以确定重定向是基于JS还是基于HTML的。实际上,我们在HTML重定向文件中没有发现JavaScript,而在JS重定向中发现了32个外部脚本。然而,我们在660个HTML重定向中发现了img HTML标签,这些标签从跟踪域名下载了尺寸为1x1的图片(即像素[5, 23, 70])。Fouad等人的先前研究[23]发现像素占跟踪请求的23.34%,而在我们的数据集中这一比例仅为0.003%。然而,当仅考虑基于HTML的重定向时,这一比例上升到了16%,表明这种重定向类型确实被用于增强用户跟踪。

6.3 基于网络的跨站跟踪分析
HTML-based重定向文件中包含的数据并不是跟踪者可以利用的唯一机制。除了客户端技术外,还有几种跟踪策略是在网络层面实施的,必须直接在HTTP请求层面进行分析。这些策略包括使用特定的头部信息、URL参数和其他元数据,它们可以在重定向过程中揭示或传输与用户相关的信息。

6.3.1 链接装饰的普遍性
链接装饰可以在重定向链中用来将用户标识符从一个第三方服务传递到后续服务,从而实现跨站跟踪[58]。根据第4.2.3节的定义,我们探讨了两种用于跟踪目的的链接装饰类型:跟踪域名关联(跟踪域名处理标识符)和动态值分析(标识符在每次爬取中都是唯一的)。图8通过比较每个链中的标识符总数与与跟踪域名关联的标识符以及使用动态值的标识符数量来展示它们的普遍性。我们发现,使用跟踪域名的链接装饰占链的31%,而使用动态值的链接装饰占48%。

图8. 根据标识符类型划分的链接装饰普遍性

然而,这仅反映了部分情况。通过对URL中动态值的分析,我们发现了另外3%的重定向链,这些链如果不依赖于已知的跟踪域名则会被忽略。结合基于域名的检测和动态值的存在,我们发现51%的重定向链通过链接装饰包含了某种形式的跟踪标识符。在本文的剩余部分,我们将跟踪域名和动态URL值视为识别链接装饰式跟踪的统一方法。我们的结果超过了Randall等人的先前研究[58]的发现,他们显示有8.1%的10,814个独特URL路径被用于跟踪。

为了完成之前的分析,我们研究了第三方服务在链中共享给定标识符的频率,即相同的标识符被多个服务使用。如图9所示,虽然92%的标识符没有在链之间传递,但我们发现有5%的标识符至少被两个第三方服务共享。在最极端的情况下,有178个标识符被四个第三方服务共享。

图9. 每个重定向链中重复的ID值数量

6.3.2 CNAME隐藏的存在
我们通过计算在重定向链中隐藏跟踪服务的CNAME调用的数量来估计CNAME隐藏的相关性。这里报告的数字基于额外的HTTP重定向,如第4.2.4节所述,因为文献中的标准CNAME隐藏检测方法在我们的数据集中未能识别出任何案例。我们观察到第三方服务很少使用这种技术,只有180个(0.006%)重定向链至少使用过一次CNAME隐藏。在之前的研究中,有报告称前10,000个网站中有9.98%使用了CNAME隐藏来隐藏跟踪器[14]。这种差异可以通过不需要在重定向链中隐藏跟踪器来解释,因为这些跟踪器不容易被阻断而不影响导航。

具体来说,使用CNAME隐藏的180个重定向链对应于两个多次出现的第三方服务。首先,我们在mydealz网站的链中只发现了connexity.com,它隐藏在bizrate.com和sylikes.com后面。其次,webgains.com出现在所有分享交易的平台上,除了pepperdeals.se,它隐藏在ikhnaie.link后面。尽管出现次数很少,但我们仍然在重定向链中检测到了这种技术,这对用户隐私构成了额外的威胁。所有被识别的跟踪技术都可能被结合起来使用。

6.3.3 综合跟踪技术
到目前为止,我们分别研究了每种跟踪技术。然而,在实践中,第三方服务通常会并行使用多种技术,如图10所示。这一观察并不令人惊讶,因为没有单一的标准来规范重定向链中的用户跟踪。每个第三方行为者都采用自己的架构和首选的跟踪机制组合。

图10. 跟踪技术的组合

我们的分析显示,67.9%的重定向链至少使用了一种研究过的技术。这一高比例表明,即使看似简单的重定向链(如仅涉及digidip.net的链)仍然使用某种形式的隐藏跟踪。值得注意的是,尽管Digidip的官方网站声称它不会设置跟踪cookie(“Digidip不会在我们发布者的网站上放置cookie,但是与Digidip合作的第三方网络可能在用户访问我们的发布者网站时在用户的浏览器中安装cookie”[3]),我们仍然观察到他们在基于HTML的重定向中下载了像素图像,显示了额外的隐藏跟踪。

在所有链中,链接装饰和跟踪标识符是最常见的策略。在13%的情况下,它们与cookie结合使用,以实现持久的跨访问跟踪。如第6.3.2节所述,CNAME隐藏很少被观察到,与其他技术的结合更为罕见,反映了它在我们的样本中的采用率较低。

这些结果揭示了重定向链中额外的跟踪量。一旦用户点击“获取交易”按钮,在67.9%的情况下,会观察到额外的跟踪技术。这一现象可以通过Digidip.net为其佣金系统[36]跟踪用户来解释。

6.4 同意与Cookie
跟踪的另一个重要方面是网站如何尊重用户在重定向链中对cookie的同意。为此,我们分析了接受或拒绝cookie对每个爬取到的交易的影响,以及这种选项缺失对promodescuentos.com(墨西哥)的影响。第6.1节研究了交易共享平台中cookie的使用情况。

首先,图11展示了GDPR类似国家和墨西哥的法律框架之间的差异。我们根据生态系统层(即交易共享、重定向链、购物)来描述cookie的使用情况。正如预期的那样,在交易共享平台上接受cookie会增加该层上的cookie数量。我们在购物网站上没有观察到差异,因为我们没有与它们的cookie广告互动。更令人惊讶的是,在交易共享平台上接受cookie仅略微增加了重定向链中的cookie数量。我们原本预期会观察到显著的差异,这应该对应于用户的真实同意。

图11. 根据用户同意情况对跟踪的影响

然后,我们使用Open-Cookie-Database [41]按照第6.1节的方法对重定向链中的cookie进行分类。因此,我们观察到根据用户同意情况有小的行为调整。实际上,只有在用户同意分析cookie时,才会保存一个分析cookie。当用户不同意时,至少会保存一个市场cookie。当用户同意市场cookie时,这个数量增加到6个。最后,只有1个cookie被归类为功能性的,平均有10个cookie没有被分类。再次,即使存在小的差异,我们也预计会有更显著的差异。特别是当用户不同意cookie时,在整个链中观察到多个cookie的存在非常令人惊讶。实际上,由于大多数链只有一个重定向步骤,佣金系统不应该需要那么多cookie。

此外,通过分析4个cookie属性[65](即Secure、Http-Only、SameSite、Max-Age)在重定向链中设置的情况,我们发现并非所有cookie都遵守欧洲数据保护委员会(EDPB)的指南[19]。实际上,33%的重定向cookie不包含Secure属性,即这些cookie不是在HTTPS协议下设置的。此外,只有46%的cookie包含Http-Only头部,这意味着剩余的54%的cookie暴露于客户端读取,可能导致跨站脚本(XSS)攻击。接下来,32%的cookie包含Samesite: Strict头部值,这个头部旨在防止跨站请求伪造(CSRF)攻击。最后,与EDPB指南[19]相反,5%的cookie不遵守cookie的最大存储时间(即13个月)。除了在重定向链中非必要地使用大量cookie外,许多设置的cookie没有实施安全协议,这进一步暴露了用户的隐私。

最后,尚不清楚在交易共享网站上对cookie的同意应该如何影响重定向链。实际上,我们发现无论用户的选择如何,第三方服务的数量保持不变。此外,我们观察到awin1.com这个最突出的第三方服务默认设置了两个跟踪cookie,无论用户的同意选择如何。在交易共享平台上找到的隐私政策中提到了“Axel Springer Teaser Ad GmbH”,这个名字与awin1.com的所有者“Axel Springer Group”非常相似。然而,相应的cookie应该由另一个域名*.d.adup-tech.com设置。在这种情况下,不清楚谁应该在交易共享平台和awin1.com之间声明这些cookie并详细说明它们。这种不确定性促使我们进一步研究隐私政策和交易共享网站的官方合作伙伴。

用户同意使得交易共享平台可以通过cookie实现额外的跟踪能力,从而改善用户画像。当用户不同意使用cookie时,实际上使用的cookie数量减少了。然而,参考第6.2.3节,缺乏用户同意似乎会增加链中隐藏跟踪技术的数量。这种做法引发了法律问题,文献中对这些问题的回答并不简单。

6.5 第三方服务和隐私政策
隐私政策是跟踪生态系统的一个重要组成部分。在欧洲,为了保护个人数据并确保个人对其信息的权利,实施了《通用数据保护条例》(GDPR)。一个直接的结果是,组织必须在其隐私政策中披露他们所依赖的合作伙伴以及他们如何处理个人数据[7]。我们从Pepper集团各种交易分享平台的cookie横幅中收集了第三方合作伙伴的列表,所有这些平台都列出了相同的342个合作伙伴。cookie横幅的一个选项将这些合作伙伴分为14个不同的目的,包括“在设备上存储和/或访问信息”、“使用有限的数据来选择广告”、“创建个人化广告的プロフィール”或“使用プロフィール来选择个人化广告”。第二个选项提供了每个合作伙伴的详细信息,包括他们的目的、处理的数据以及“使用cookies和类似技术”。图12显示了hotukdeals.com上的cookie管理界面的截图,突出显示了A.Mob合作伙伴。该界面显示了该合作伙伴的目的、它收集的数据以及它存储在用户浏览器中的cookies。在这里,A.Mob在adotmob.com域名下存储了一个为期一年的“uid”cookies。这种级别的细节非常受欢迎,远超过通常可以找到的信息。不幸的是,尽管这些政策有努力并表现出明显的透明度,我们的爬取揭示了一个不同的现实。

图12. hotukdeals.com上显示与A.Mob第三方合作伙伴相关信息的cookie横幅截图。

在我们的爬取过程中,我们遇到了517个独特的第三方域名。我们将这些域名与相应的公司进行匹配,以检查它们是否在隐私政策中正确提及。这项任务可能相当复杂,因为广告和营销生态系统中的公司经常被收购和合并,即使所有权发生变化后,旧的域名仍然在使用。首先,我们利用了DisconnectMe列表[15],这是一个由社区维护的域名-公司链接列表。这使我们能够识别出28个(5%)第三方域名的公司。其次,我们通过访问这些公司的网站并将结果与WhoTracks.Me [25](另一个公共数据库)进行比较,手动验证了爬取过程中访问量最大的21个第三方域名的覆盖情况。我们发现了另外10个未包含在DisconnectMe列表中的第三方域名的域名-公司链接。因此,我们总共识别出了38个(7.4%)第三方域名的公司。

表4显示了所有重新识别的公司列表以及它们在重定向链中出现的相应次数。尽管在识别所有公司时遇到了困难,但市场主要集中在少数几个跟踪实体上。例如,PublicisGroup在其前21个域名中拥有3个使用不显眼名称的域名:emjcd.com、tkqlhce.com和anrdoezrs.net。此外,由于社区列表难以跟踪跟踪域名的变化,许多请求仍然对应于未知公司。最后,在这24家公司中,有13家(54%)被DisconnectMe列表归类为广告公司,3家(12.5%)被归类为联盟营销公司。然而,虽然我们预计会在Pepper网站的隐私政策中找到其中的大多数公司,但实际上只有8家(30%)出现在其中。

表4. 在Pepper隐私政策中出现的跟踪或联盟营销公司:
| 公司 | 被识别次数 | 是否出现在Pepper隐私政策中 |
|--------------|-----------|-----------------------------|
| Digidip | 58 | \(\checkmark\) |
| 未知 | 13 | |
| Aliexpress | 8 | |
| PublicisGroupe | 7 | \(\checkmark\) |
| Awin | 6 | \(\checkmark\) |
| Impact | 3 | \(\checkmark\) |
| Fnac Darty | 1 | \(\checkmark\) |
| Tradedoubler | 7 | \(\checkmark\) |
| Kwanko | 7 | \(\checkmark\) |
| TradeTracker | 6 | \(\checkmark\) |
| Rakuten | 3 | \(\checkmark\) |
| Google | 3 | \(\checkmark\) |
| Effinity | 2 | \(\checkmark\) |
| Branch | 2 | \(\checkmark\) |
| Public-Idées | 9 | \(\checkmark\) |
| Adform | 4 | \(\checkmark\) |
| Otto | 2 | \(\checkmark\) |
| CommandersAct | 1 | \(\checkmark\) |
| ResolutionMedia | 1 | \(\checkmark\) |
| Amazon | 12 | \(\checkmark\) |
| Microsoft | 10 | \(\checkmark\) |
| Meta | 8 | \(\checkmark\) |
| Partnerize | 4 | \(\checkmark\) |
| Bytedance | 2 | \(\checkmark\) |
| SingularLabs | 2 | \(\checkmark\) |
| 在180,852个重定向链中检测到的公司(24家公司+未知类别)|

“Count”指该公司在我们爬虫经过的重定向链中出现的次数。“跟踪或联盟营销”指的是DisconnectMe的分类。“隐私政策”表示该公司是否当前出现在Pepper的交易网站隐私政策中。

这些数字凸显了了解交易分享平台背后生态系统是多么困难,因为我们的爬虫发出的请求并没有在它们的隐私政策中得到准确反映。这对用户和网站管理员来说都是一个问题。首先,用户在到达购物网站之前可能不知道他们会访问的潜在第三方,这对隐私有重大影响(见第8.1.3节)。其次,网站管理员可能不知道他们实际依赖的第三方服务列表。像dealabs.com这样的网站拥有数百个合作伙伴,它在一个高度动态的环境中运营,其中重定向的第三方每天都在变化。维护一个最新的列表是一项复杂的任务,尤其是当涉及到跟踪cookies及其目的时。

例如,表4中的重尾分布显示Digidip是生态系统中的关键参与者。这令人惊讶,因为Digidip及其母公司mrge在交易网站的任何页面上都没有被提及。查看Digidip的隐私政策[13]后,其内容证实了我们的直觉,即正确维护一个准确的隐私政策是具有挑战性的。第15节标题为“第三方服务”,仅列出了4家公司,最后一条记录是:“可以在发送书面请求至[email protected]后获得所有服务的当前列表,因为这个列表在不断变化。”由于Digidip的合作伙伴列表非常动态,他们无法在其网站上直接提供最新版本。

7 相关工作
7.1 联盟营销和Cookies的使用
联盟营销在经济学文献中已被广泛研究。然而,其技术实现受到的关注相对较少。Chachra等人[9]研究了联盟营销中Cookies的使用,主要检测cookie填充欺诈(即,在用户未同意的情况下保存联盟cookies)。这种联盟营销滥用最初是由Hogan [30]引入的。然而,据我们所知,联盟营销中的跟踪实践,特别是在交易分享平台中的跟踪实践,从未被研究过。本研究旨在描述建立在这些平台之上的跟踪生态系统。

N. Singh等人[65]研究了电子商务网站中Cookies的使用。他们分析了用户在同意前后的Cookies设置。作者还提供了关于不良Cookies属性和违反隐私指南可能引入的安全问题的见解。我们的研究并不关注用户同意前后对电子商务网站的影响。我们更具体地关注用户同意对交易分享平台内Cookies使用的影响以及重定向链的影响。这里不考虑购物网站。

7.2 重定向链
Koop等人在2020年研究了重定向链,并发现Alexa排名前50k的网站中有11.6%包含链接,这些链接将用户引导到100个最常见的重定向器之一。他们发现,参与重定向跟踪的主要行为者也是在网上执行用户跟踪的行为者,以便他们能够尽可能多地识别用户,无论用户使用哪种浏览器浏览网站。

尽管他们的研究中提到了HTML和JS重定向,但并未进一步探讨这些重定向。在这项研究中,我们系统地分析了访问交易时发生的数据共享平台和购物网站之间的重定向链。我们考虑了所有类型的所有重定向,分析了其内容和中间资源(无论是HTML还是JS重定向)。此外,他们的大规模研究收集了页面上的可用链接,然后对其进行了分析。在我们的案例中,Pepper并不直接提供重定向链接(它是通过JS动态生成的),因此我们的研究会忽略他们的研究。

另外,重定向也在cookie同步的背景下进行了研究[54]。在这种情况下,重定向通常用于主要导航之外(例如,通过在加载页面时发出额外的HTTP 200 [48]请求)。在我们的研究背景下,重定向链嵌入在用户的导航中,并且是网站正常运行所必需的,这导致跟踪行为者的透明度缺乏,并且几乎不可能阻止它们,详见第8.1.3节。

7.3 CNAME隐藏
Dao等人在2020年1月发现,Alexa Top 300K网站中有1,739个网站使用了基于CNAME的隐藏技术进行跟踪。他们还发现,在2016年至2020年的4年期间,这种技术的采用率从顶级网站开始上升。Ren等人在2020年12月发现,超过4%的Alexa Top 10K网站进行了第一方重定向到被识别为第三方广告商或跟踪器的域名。他们还记录了108个第一方cookies被泄露给第三方的案例。Dimova等人[14]在2020年10月发现,前10,000个网站中有9.98%使用了至少一个基于CNAME的跟踪器,并且这些跟踪器主要用于补充常规的第三方跟踪服务。他们还发现,其他方设置的cookies在95%的网站中导致了CNAME跟踪器。最后,Fouad等人[24]在其方法中使用CNAME隐藏作为检测服务器端跟踪的步骤之一,这将通常由浏览器完成的跟踪请求转移到了服务器端。他们在7,367个网站上发现了474个通过CNAME重定向进行跟踪的域名。

在这项研究中,我们包括了CNAME隐藏的检测,以揭露可能隐藏在第一方域名背后的跟踪者。此外,Dimova等人的研究[14]也没有允许我们检测所有CNAME隐藏案例,因为即使展开了所有CNAME,也有跟踪域名隐藏在重定向之后。

7.4 链接装饰
Randall等人[58]研究了用于跟踪的查询参数,并发现他们在爬取过程中遇到的10,814个独特URL路径中有8.1%用于跟踪。Munir等人[52]开发了一种名为Purl的工具来清理装饰链接中的跟踪信息。在2023年4月对Tranco Top 1M的20K网站进行的爬取中,他们发现他们收集的独特链接装饰中有45.55%属于跟踪服务。

在这项研究中,我们分析了链接装饰,以检测在重定向链中与跟踪者共享的标识符。我们使用他们的方法在特定的跟踪案例中检测链接装饰,这与大规模研究相反。最后,我们观察到重定向链中的ID值重复,而Randall等人[58]没有详细说明他们是如何观察到UID重复的。

7.5 第三方和同意管理
先前的工作[39, 43, 53]在不同程度上讨论了与第三方跟踪和相关同意管理相关的问题。然而,交易分享网站及其重定向链的背景足够特别,值得进一步调查。例如,Lin等人[43]考虑了移除第三方对用户导航的影响。在我们的案例中,重定向链中发现的各方被浏览器视为第一方。因此,与作者的建议相反(即完全移除第三方),重定向链是不可跳过的,不会中断用户导航。Papadogiannakis等人[53]表明,大多数跟踪发生在收集用户同意之前。然而,交易分享平台实际上是在收集并尊重用户的同意,但仅限于他们的网站内部。一旦用户进入重定向链,遇到的各方就会隐藏起来,且不会收集任何同意。最后,Kancherla等人[39]描述了修改同意设置的挑战。我们的研究完成了他们的工作,展示了收集重定向链用户同意的难度。虽然我们的研究没有研究撤销或更改用户同意,但这可能是未来一个有趣的方向。

8 讨论和局限性
在第6节中,我们展示了我们的调查结果,使我们能够更好地理解围绕交易分享网站的跟踪生态系统。在这一节中,我们讨论了这些结果的意义、我们的工作提出的问题以及我们工作的局限性。

8.1 讨论
8.1.1 跟踪分布和稳定性
我们的实验表明,交易分享网站本身会跟踪用户,但很少依赖复杂的技术。它们通常保存跟踪cookies并展示广告。同样,我们预计不同国家的交易分享网站在架构和跟踪方面会有显著差异。实际上,我们发现各个社区的技术栈是稳定的,唯一的例外是promodescuentos.com(墨西哥),该网站没有显示cookie横幅。这种差异是因为墨西哥不受GDPR法规的约束,即使墨西哥有相关法规[28],但执行得并不严格。尽管这导致交易分享网站上有更多的cookies,但其对其他层的影响仍不清楚,这鼓励了进一步的研究。实际的跟踪架构是围绕一系列第三方服务组织的,在交易分享平台和购物网站之间的重定向链中起到关键作用。首先,一个名为digidip.net的单一重定向实体充当了近所有交易的中心枢纽,有效地跟踪用户离开交易分享平台的行为。我们原本预期会看到一个更加分散的系统,有多个参与者与不同的交易分享网站合作,而不是这种高度集中的模式。其次,第三方服务的数量因交易而异,有些交易会涉及多达十个第三方服务。需要注意的是,这只是整个情况的一部分,因为我们无法直接监控服务器端的跟踪行为[24]。链中的任何参与者都可能收集用户数据,包括IP地址、User-Agent或“指纹”[42]。因此,尽管我们观察到它们都使用了某种已识别的跟踪技术,但这可能只是跟踪行为的一个下限估计,而不是全部情况。

8.1.2 生态系统的透明度
通过第三方服务的重定向链进一步模糊了隐私政策和cookie信息,对多个利益相关者造成了影响。一方面,重定向链使网站管理员能够轻松更换合作伙伴,而无需修改整个技术栈。另一方面,交易分享生态系统的动态性质使得管理员难以更新他们的隐私政策,因为他们缺乏必要的工具来实现这一点。这是一个值得进一步研究的领域,并且在未来的研究中应该提出新的工具。此外,用户很难理解他们的数据是如何被收集和处理的。这些重定向行为对用户隐私的影响缺乏透明度,进一步凸显了需要采取更加规范和负责任的方式来处理用户数据[7]。Digidip公司隶属于mrge集团,该集团的目标是成为“全球性的商业广告一站式服务提供者”,这个集团汇集了五家同类公司[4]。mrge的目标是整合多个商业广告网络,创建一套完整的解决方案,连接发布者、创作者和广告商。该集团运营着超过200个网络,如果合作列表中缺少Digidip或mrge,会增加生态系统透明度的不确定性。

8.1.3 同意管理及责任
我们注意到,除了对用户的不透明度之外,重定向链可能也没有尊重用户的同意。无论用户是否在交易分享网站上拒绝了跟踪,第三方服务的数量和行为都不会改变。即使用户拒绝了营销cookie,其中一些服务仍然会在重定向链中设置。同样,我们在重定向链中发现了许多在交易分享网站的隐私政策中未声明的第三方服务。这突显了需要进一步审查用户同意对第三方服务的影响。此外,这些发现的法律后果也应当被探讨。例如,交易分享网站是否需要对重定向链中的所有参与者负责?根据我们的数据集观察,交易分享网站只知道链的起点,而不知道终点。那么,重定向链中的每个第三方服务都应该请求用户的同意吗?根据GDPR的规定,重定向链仍然是一个灰色地带,因为尚未建立相关的判例法。这种情况类似于Santos等人[61]提出的联合控制概念。另外,根据Matte等人[45]的研究,我们怀疑在重定向过程中设置cookie的行为可能违反了GDPR和ePrivacy指令中关于用户同意的要求。实际上,设置cookie是需要用户同意的(GDPR第4.11条[68],ePrivacy指令第5.3条[55])。我们认为,对于重定向链也应当获得用户的同意。这样做将确保更大的法律确定性,并使实践符合GDPR的合法性、公平性和透明度原则(GDPR第5.1条[69])。

8.1.4 不完美的对策
注重隐私的用户可能会试图避免使用重定向链。Pepper的网站提供了一种透明的方式,可以直接从第一次重定向步骤中提取最终的购物网站URL。因此,重写URL可以绕过整个链。然而,这种特定的技术实现不能推广到整个Web,例如使用URL缩短服务会完全掩盖目标URL[40]。设计上,通过重定向进行的跟踪可以防止任何广告拦截软件的干扰。实际上,阻止相关域名会导致重定向中途停止,从而限制用户访问购物网站。在链的任何环节,只有下一步的信息存在于HTTP头部或meta HTML标签中,使得规避变得不可能。这也解释了在重定向链中CNAME隐藏技术的有限使用:第三方服务本身就很难被拦截。

我们还发现,目前用于检测跟踪标识符和CNAME隐藏的最先进方法可能遗漏了一些实例。我们的方法在重定向链中识别出了大约多3%的跟踪标识符,并检测到了所有CNAME隐藏的实例。这突显了流行阻止列表的固有缺陷,同时也表明需要对实际系统进行更细致的研究,以更好地了解这些技术的普遍性。

8.2 限制
本文关注的是有限数量的交易分享网站,这意味着其他平台可能会有不同的行为。然而,选择10个网站使我们能够深入分析它们,并更深入地了解其内部运作机制。同样,我们研究了在不同法律框架下运行的多元化活跃社区,展示了这些法规如何影响它们在同意和cookie方面的行为。我们从欧盟的一个角度爬取了所有交易分享平台的数据。由于这些平台受到GDPR的约束,这提供了一个保守的跟踪估计值,因为GDPR通常要求参与者遵守更严格的规则。此外,我们仍然观察到GDPR类似国家和墨西哥交易分享网站之间存在显著差异。这项研究可以在不同法律框架下的多个国家中进行复制,以更好地衡量它们的本地化跟踪情况。我们主要关注五种常用的基于网络的跨站跟踪技术。然而,还可以进一步研究其他技术,包括浏览器指纹识别[42]或WebSockets的使用[4]。关于WebSockets,尽管它们在交易分享网站上很活跃,但我们发现它们主要用于软件质量监控,而不是跟踪。需要进一步调查这些技术在重定向链中的使用情况。最后,我们的爬取架构无法识别重定向链之间的用户标识符。如第4节所述,每次访问交易及其相关的重定向链时都使用一个干净的浏览器配置文件。因此,我们无法检测到同一个用户标识符被传递给多个链中的不同第三方服务。

9 结论
交易分享平台为购物网站生成了大量流量,使客户能够从产品和服务促销中受益。这些免费平台的商业模式主要基于跟踪和用户画像,以便从购物网站的销售中获取佣金[36]。在我们的深入研究中,我们证明了交易分享平台确实使用了多种跟踪技术,使它们成为研究现实世界跟踪生态系统的主要对象。我们对Pepper集团10个高度活跃的交易分享网站进行了全面分析,发现了多种跟踪技术的系统性使用。我们特别关注重定向链,因为它们是交易分享平台上跟踪行为最显著的部分。我们观察到一些重定向是通过meta HTML标签和JS脚本实现的,而不是通过HTTP 30X代码[47],这允许第三方服务引入额外的像素跟踪[5, 23, 70]。我们还发现,多种跟踪技术,包括链接装饰[52, 58]、CNAME隐藏[11, 14]和cookie都很普遍,并且每个重定向链至少使用其中一项技术。

Koop等人[40]之前的研究提到了HTML和JS重定向,但他们的研究主要集中在HTTP重定向上。我们的研究揭示了其他使用的技术,并引发了关于这些技术用途的疑问。对HTML或JS重定向链的大规模研究留待未来的工作来完成。此外,我们还研究了隐私政策和同意如何影响交易分享网站上的用户跟踪。我们发现,拒绝跟踪并不会影响重定向链的行为,因为涉及的第三方服务数量保持不变。这直接关联到交易分享网站隐私政策的透明度问题,这些网站通常包含数百个合作伙伴。遗憾的是,我们在隐私政策中没有看到重定向链中访问的前三名第三方域名。此外,即使用户拒绝接受营销cookie,我们仍然观察到一些cookie在重定向链中被设置。这引发了一些关于何时应通知用户数据收集情况的疑问。当前的GDPR应用[22]应该重新审视,以考虑到参与重定向链的第三方服务的演变,同时也要考虑到交易分享网站在跟上这些变化方面面临的困难。总体而言,我们认为应该在用户与大量不透明的第三方服务互动时,进一步努力提高用户的知情同意程度。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号