标签搜寻领域指南:Internet数据收集的隐藏世界

上面的图片是我最珍贵的财富之一,它是Internet数据收集世界变得多么野蛮的快照。

从2013年开始,我花了数千个小时来扫描数百万个网站,以更好地了解如何收集数据和跟踪访客。 当我启动数据初创公司Mezzobit时,就开始了这一旅程,但很快就迷上了,花费了许多晚上和周末来研究这些活动背后的公司,从而建立了一个拥有近4,000家公司的数据库。

Facebook及其与Cambridge Analytica的失误可能代表了收集和跟踪的极端情况,但这只是冰山一角。 这些活动为全球数字广告支出提供了约250B美元的收入,近3万亿美元的电子商务收入。 但是,在月底在欧洲实施GDPR以及Facebook周围的Sturm und Drang的结合,已经开始揭露了幕后的真实情况。

该图显示了我见过的最糟糕的扫描,每个点代表一个或多个JavaScript标签,在单个页面中跟踪像素,广告和其他第三方调用。 不幸的出版商是我在美国的一个新闻网站,我不愿掩饰其身份,这是一个众所周知的新闻网站,其态度是将外部代码引入其页面中,其行为比平均水平差30倍。

以免您开始纠缠珍珠,数据收集和跟踪不会(也不应该)消失。 没有它,就不可能拥有我们知道和喜爱的互联网,再加上数万亿美元的创造价值。

但是,行业,消费者和监管机构正在迅速意识到一条界限,因为这种疯狂的数据馈送会降低用户体验,导致违反法规的行为,并从毫无戒心的在线贸易伙伴那里吸取无数的价值。

现在是重新思考和重新启动的时候了,找到一种快乐的媒介,在这种媒介中,利润可以持续不断地与透明性,问责制和对消费者隐私的尊重相结合。 俗话说,猪发胖,但猪被宰杀。

为简单起见,我们将把 网站运营商 发行商 ,但同样的事情发生在一定程度上通过电子商务的企业,品牌,政府,非营利组织和有数字存在其他人遇到的站点。 同样, 即使可能涉及数百种不同类型的代码 ,我们也将使用word 标签 来引用 网页所调用的任何对象

网页对于访问者来说似乎是单片的-您所看到的一切似乎都来自站点运营商的服务器-但这很少起作用。

考虑一下普通网页的典型功能,几乎所有功能都涉及第三方。 利用高科技产业解放了网站运营商,使他们能够以低成本或免费的方式迅速利用丰富的功能,但同时也将每个网页转变为互联网上的暴民。

第三方公司可以通过以下几种不同的方式进入您的普通媒体或电子商务网站(括号中带有每种公司类型的示例):

  • 发布者创建的内容 (文字,照片,视频), 但通常由基于云的软件(WordPress,Squarespace)处理,并涉及内容交付网络或CDN (Akamai,Fastly)
  • 跟踪访客操作,浏览器/操作系统/机器的位置和类型的分析工具 (Adobe,Chartbeat)
  • 社交共享不仅涉及社交网络(Facebook,Twitter),而且涉及绑定到多种服务的工具(AddThis,ShareThis)
  • 评论和审阅平台允许访问者讨论文章(Disqus,Livefyre) ,并提供有关电子商务和列表网站上的产品和服务的反馈(Bazaarvoice,TrustPilot)
  • 所有类型的广告:搜索(Google,Microsoft) ,台式机(AppNexus,OpenX)和移动广告 Yieldmo,AdColony)上的横幅广告,视频广告(FreeWheel,Adap.tv) ,融合到周围内容中的广告(TripleLift,Nativo) ,以及成千上万提供幕后水暖服务的公司(Tapad,护城河,Integral Ad Science,DoubleVerify)
  • 支持 Internet上大多数电子商务站点的系统(Magento,Shopify)
  • 数据管理平台 (KRUX,Lotame)收集用户数据,并将其漏斗到其他系统,以收集和销售数据(Acxiom公司,Bombora)地定位广告或个性化的网页,以及公司和确定基于IP地址的位置(的MaxMind ,Cuebiq)
  • 帮助企业跟踪所有客户交互的客户关系管理系统 (Salesforce,Marketo)
  • 为每个用户个性化内容和演示的工具 (获利,Bloomreach),在不同的页面设计上执行测试以增强参与度(最优化为Maxymiser)
  • 内容推荐服务 (Taboola,Outbrain)在许多新闻网站文章的末尾提供了“为您推荐”框,也为网站运营商创造了收入。
  • 可以处理所有类型网站(BrainTree,Stripe)以及内容支付(Paywall)平台(Piano,Clickshare)的 付款的支付系统
  • 面向工程师的工具,例如系统监视(Catchpoint,Cedexis) ,错误检测(Sentry,Bugsnag) ,标签管理(Tealium,Ensighten) ,安全性(PerimeterX,Proofpoint)和数据处理(Keen IO,Alooma)
  • 众多其他供应商,例如客户服务(Zendesk,LiveChat) ,视频平台(JW Player,Kaltura)和调查提供商(Qualaroo,SurveyMonkey)
  • 甚至还有公司跟踪所有这些事件以及谁是谁(Datanyze,BuiltWith)

网页上收集的大多数数据都是匿名的,并且不包含个人身份信息(PII),例如姓名,电子邮件地址或标识号,尽管欧洲对PII的定义随着GDPR的增长而扩大。

您的Web浏览器将加载与URL关联的HTML页面(基本上是一个大文本文件),并开始逐行对其进行解析以构建页面和相关功能。

许多代码与页面内容有关,但是浏览器经常会碰到如下内容:

这是Google DoubleClick广告管理器(称为GPT)的引导JavaScript代码。 它需要调用Google的服务器(googletagservices.com)来检索脚本,然后由浏览器执行该脚本。

反过来,Google会级联呼叫其他广告技术提供商以执行其他功能,而这些公司通常会自己向更多公司打电话。 尽管站点之间有所不同,但最终您会得到如下所示的内容:

从上至下阅读:DoubleClick框代表GPT标签,与其连接的每一行都是Google或其他供应商加载到页面上的单独标签。 因此,在此示例中,一个标签导致另外15家公司被带入用户的浏览器。

尽管网站运营商故意将Google的代码放置在网页中,但Google下游的供应商通常与运营该网站的公司没有法律关系。 一位电视网络负责人曾经告诉我,有500多家公司与他的100亿以上的每月访问者进行了互动,但他只与其中的30家签订了合同。

这是我们在一个主要的发布者网站上看到的一个示例,该站点深15层:

有时,在一个综合浏览量中,这种方法可以进行40次以上的迭代,其中一些供应商众所周知,而另一些则默默无闻。 对于该网站的访问者来说,这意味着您的浏览器会从发布商处检索页面,然后绕过站点操作员,对每个供应商进行40个单独的连续点对点呼叫。

这就像举行派对并邀请您的朋友,然后邀请您的朋友,依此类推,直到周六亲密的夜晚聚会最终填满了足球场。 一些聚会的人增加了聚会的趣味性,也欢迎其他聚会的人,而另一些聚会的人则喝掉你所有的酒后扔进壁橱。

同样,大多数标记供应商(包括上面列出的标记供应商)都向站点运营商和访问者提供有价值的服务,而其他标记供应商则表现不佳,其活动范围从交付恶意软件到舔曲奇(听起来很有趣,但事实并非如此)。稍后)。

通过检查将技术调用链接到公司名称的域名注册很容易找出大多数公司的身份,例如AppNexus的adnxs.com或Dataxu的w55c.net。 但是,所有标记调用中约有3%故意使用私有域注册来掩盖此连接。

这并不意味着有些邪恶,但掩盖会产生不透明性,使站点运营商和消费者更难理解已经很复杂的交易。 有时,这样做是出于防御目的,例如一个广告技术供应商试图通过使用可笑的随机域名(例如SummerHamster.com,AtticWicket.com和SilkenThreadiness.com)来混淆消费者广告屏蔽软件。

无论他们如何到达页面,大多数标签都可以不受限制地访问有关用户和页面的数百个数据元素:正在查看哪些内容,采取了哪些操作,用户来自何处,他们的技术设置以及喜欢。 同样,这通常不包括PII,但是没有什么可以阻止标签提供者抓取表单来收集名称或电子邮件地址。

通常,数据通常与存储在cookie中的匿名用户ID相关联,这可以帮助在存在标签的每个站点上建立详细的用户行为配置文件。 您无需成为Facebook或Google即可; 有数十家公司(许多消费者从未听说过)在全球10%以上的顶级网站上贴有标签。

为了使Internet嗡嗡作响,需要进行此类数据访问和跟踪,但是何时足够? 在我最近参加的一次行业活动中,一个大型数据公司的小组成员被问及他希望从站点访问者那里收集多少信息。 “所有这些,”是他的回答,只是带有讽刺意味。

顺便说一句,从移动应用程序收集数据采取了完全不同的途径,尽管跟踪跟踪器是应用程序发布者面临的一个问题,但它与台式机和移动网络不一样。

广告技术行业的一位创始人之父曾告诉我关于1990年代发行商的动向,要求发行商将其初创公司的标签插入其网页中,以启用其广告服务器。

用一个典型的回应来解释:“我们很疯狂地将第三方代码放到我们的网站上,以便它可以窥探访问者并与他们和我们的页面保持联系。”

向前迈进Web 2.0的曙光(现在这个术语已经八轨墨盒那么古朴)了,Web的体系结构开始发生变化。 静态平面HTML页面通过定期与远程服务器通信的JavaScript变得活跃起来,从而使站点操作员可以更轻松地使用第三方服务。 结合CSS和其他新兴技术,网络变得更加动态。 但也更混乱。

随之而来的是行为定向广告的兴起-使用数据选择哪些用户可以看到哪些广告,以及以程序化方式-通过成千上万家公司收集的大量广告来为每次广告展示进行自动拍卖。 掀起了云计算革命,亚马逊网络服务(以及后来的其他服务)在没有大笔资金支出的情况下使初创企业更容易,更便宜地启动,并导致了更高的复杂性:

在分析了成千上万个站点之后,我发现了一些导致这一日益严重的问题的模式:

房屋打扫不佳

网站就像圣诞树一样,有时出版商会迷失挂在其上的装饰品的踪迹。 我曾在一家新闻行业协会工作,该协会在数千个顶级媒体网站上都贴有标签。 财团合并了,但是一年后,我仍然可以找到数十个名牌网站的标签,然后逐渐消失。 最近,我审核了另一个站点,并发现了一个第三方标签,该标签在三年前进行了为期一个月的测试。 从那时起(由于人员变动),该网站意外地保持了在线状态,合法地收集了数十亿次浏览量的数据。

广告合作伙伴滥交

程序化广告拍卖可以吸引数十个(有时数百个)广告技术公司参与竞标过程。 但是,为了确定竞标显示给特定访问者的特定广告的价格,他们必须检查该用户是否已在互联网上其他地方被看到(cookie ID,没有实名或PII)以及他/她是否与广告客户所需的任何有价值的细分受众群。

这个cookie同步过程创建了一种标记调用模式,我们将其标记为爆炸形,因为它类似于烟花。 单个广告单元的一次竞标可能会出现多个爆炸,每个爆炸都由10至50家公司组成,并且一个页面上可能会有多个广告单元。 根据发布者配置广告技术的方式,他们可能对这些下游调用几乎一无所知或无法控制。 这是一个典型的一系列呼叫示例,以及单个页面上产生的星暴现象,导致50多家公司。

有时,一旦初始拍卖结束,单个广告位就会立即转售,这会产生更多的爆炸。 大型广告交易所对此不屑一顾,因为这会混淆交易,可能会吸引被禁止的买家,甚至会产生更多的爆炸。

根据发布商如何积极利用其网页获利以及程序性拍卖中对出价人类型的限制,这甚至可能变得更加复杂。 敞开大门意味着低谷的广告技术公司及其信誉欠佳的客户会来电话。 我们看到一个这样做的站点网络,导致大量广告出现不必要的重定向,提供了安装工具栏和应用程序(阅读:广告软件和恶意软件)以及普遍糟糕的用户体验的信息。 这些C-list广告客户中的一些通过使用数百个(有时是数千个)映射到同一页面的域名来绕过欺诈过滤。

意外的访客和动作

就标签动作而言,可接受的是供应商的上下文以及与站点操作员的关系。 预计视频提供商会更改用户界面以插入播放器,而分析厂商不应影响页面的视觉呈现。 在一家主要的新闻发布商处,我们看到一家长期的窗口小部件供应商突然开始嗅探Facebook API并获取用户数据,这违反了他们的服务条款(尽管最近的事件表明,执行频率不高)。 最终,它是由供应商代码中的错误触发的,这是一个无辜的错误,但几个月以来发布商都没有注意到。

来自看似无关的公司的异常“ ridealong”标签比这些失误更为常见。 例如,嵌入来自领先的GIF提供程序的以下图像,可以使您变得非常可爱,并获得了一些分析,应用程序监视和数据收集标签。 该公司使用它来了解谁在看GIF,但这样做的作用是从发布者的网站收集了完整的受众数据。 完全合法,但发现后通常会让站点运营商感到惊讶。

为什么每个人都应该关心

要从Kierkegaard借用,通常只能向后理解Internet,但是无论如何它都会向前发展。 代表美国顶级品牌的美国全国广告商协会前主席托尼·佩斯(Tony Pace)恰当地表达了与数字媒体有关的这一观点。

“当你看到数字媒体供应链, 谁是地狱就这样,曾经建造这件事情 ,如果他们想它是有道理的和有长寿?”

除发布和广告技术外,互联网世界也可能发生类似情况,这引起消费者和数字企业的关注。 哪里有奥秘,哪里就有边缘和混乱。

在我的下一篇文章中,我将深入探讨为什么这对几乎每个人(包括今天赚钱的人)都是不​​好的交易,并讨论一些鼓励更多理智和责任感的前进道路。


约瑟夫·加拉诺(Joseph Galarneau)是一位长期的数字领导者,他创立了一家位于纽约的初创公司Mezzobit,专注于数据感知,然后被全球最大的广告交易所之一OpenX收购。 在此之前,他曾担任Newsweek的首席运营官和数字GM,以及新闻行业分析联盟的首席产品官。 他是国际隐私专业人士协会(International Association of Privacy Professionals)认证的隐私技术专家,还曾在纽约大学和耶鲁大学教授数字策略和分析,为主要的数字发布者和广告客户贸易团体提供了有关数据泄漏的咨询服务,并在SxSW Interactive和Mozilla音乐节。