“数据驱动归因模型是通过比较转化路径结构和给定特定事件顺序的相关转化可能性来实现的。路径结构的差异以及相关的转化概率差异是计算渠道权重的算法的基础。某个营销渠道的存在对转化概率的影响越大,该渠道在归因模型中的权重就越高。底层概率模型已被证明比最后点击方法更能预测转化。数据驱动归因力求最好地代表现实世界中客户的实际行为,但它是一种估计值,应尽可能使用受控实验进行验证。” (重点是我)
同样,本文建议将条件概率方法与 bagged 逻辑回归模型相结合。如果这对你来说意义不大,请不要担心——我将在此建议使用更简单的条件概率方法的变体。
首先我想看一下 Google 上述对其数 哥斯达黎加电话数据 据驱动归因功能的解释中似乎暗示的模型类型。例如,假设我们想查看最基本的信用规则:应为单次先前访问分配多少信用?Google 上述解释中概述的基本逻辑将建议采用如下方法:
(假设为 4%)
查找曾经访问过的回访者的转化率(假设为 7%)
上次访问的积分 = ((7-4)/7) = 43%
在我看来,这个模型有些缺陷(尽管我很确定这个缺陷在于我应用了 Google 对其数据驱动归因的解释,而不是模型本身)。例如,假设我们有一大群重复访问者,他们只是因为之前的访问才访问网站的,但转化率很低。我们希望将这些(少量)转化的功劳归因于之前的访问,但上述模型可能会给他们分配低或负的功劳;这是因为即使这群人的转化是由之前的访问引起的,他们的转化率也低于新访客。这只是这个模型最终可能具有误导性的一个例子。