大数据:使用相关性的营销
本文摘要:订阅专栏撤销订阅 产品&运营,游戏平台/分期电商/社交/互金。16401国内有一家民营航空公司,会员不下数百万,会员的一个重要信息是Email地点。另外一边,微博账号请求也需要一个Email地点。通常来说,同一个Email地点意味着航空公司里的会员和微博里的会员,
订阅专栏撤销订阅 产品&运营,游戏平台/分期电商/社交/互金。

1640

1
国内有一家民营航空公司,会员不下数百万,会员的一个重要信息是Email地点。另外一边,微博账号请求也需要一个Email地点。通常来说,同一个Email地点意味着航空公司里的会员和微博里的会员,应该是同一个人。公司做了一个筛选,合并出十万个用户来。

然后一家第三方公司的数据部门介入,主要使命是看这十万航空公司会员的微博用户,在社会化媒体上的行为,比如“说”些什么,比如喜欢介入什么样的话题去转发评论,比如喜欢重视什么样的商业账号。研讨这类事的原因在于:这个航空公司很想知道它在社会化媒体上发起什么样的活动(以及活动所装备的礼品刺激)会吸引到这十万会员参加,成为earned media。

这个案例并不是严厉意义上的大数据,因为数据仍是不行海量。不过,它的原理和大数据营销有关:寻求相关性。

相关性不是因果,很可贵出这样的结论:因为常常坐某某航空公司的班机,所以喜欢参加某某活动(反过来也不建立)。但这两个变量之间,从遍及意义上讲,存在一定的关联。这个道理就像穿红袜子和炒股票的关系,或许有一定的关联络数,但绝不是因果关系。相关搞成了因果,差不多和“迷信”就没有差异了。

商业应用上,其实不太需要拼命发掘因果。你只需知道坐该航空公司班机和参加特定活动之间存在一定概率就好了,至于究竟是为何,可以暂时疏忽之。关于营销业者而言,这个概率哪怕能协助到营销活动提高10%参加度,都是不小的成效。

但问题在于,很多人把相关同等于因果,这样的做法会构成很有些误导性的结论。比如说,当在这个十万航空公司用户中发现,他们特别喜欢某类活动,这个结论是不具有推广性质的。再新增五万航空公司微博用户时,你很难把上述那个结论也放他们头上。因为这里边没有因果关系。要确认因果关系,有必要通过一个很杂乱的观察和考虑过程,扫除所谓“隐性变量”。这不是那么简略的做一些数据分析就能够的。相关性是因果的条件,可是不等于因果。

于是,大数据呈现了。

大数据寻求的是海量数据,海量到什么份上?就是全样本。全样本和抽样显然是不同的。以前的研讨,因为操作性的关系,很难做到全样本,需要去抽样。抽样的科学做法是“随机”——不过这一点听着容易,做起来适当困难。真实的随机抽样需要花很多钱(使用社交网络关系,通过一个用户做问卷再发动这个用户找更多的人来做问卷,一点都不随机),并且一个无法绕过的弊端在于:假如你使用调查询卷的方法,你很难扫除答复者的言语答复一定就是ta心中真实的主见或者实践上的真正行为。

大数据首要不是抽样,它取得的数据是全体样本数据,其次它不是在让用户答复问题,而是实打实地去获取用户的“行为”。用户声称对某活动会有爱好和用户是否参加了某活动,显然后者更能说明问题。

最重要的一点,大数据分析和抽样分析的核心差异在于:前者是动态的,后者是静态的。

前文提到,随机抽样方法是本钱很高的,故而它很难每天都去做一次——事实上,为某个特定的问题一个月乃至一个季度做一次随机抽样,都很难施行。于是,一个随机抽样所构成的结论,实际上是静态的,它只能说明在做那次调研时的一些相关性。当有新的用户(样本)加入时,很难再说明以前的相关性是否可以建立——除非,你能找到真实的扫除了各种隐形变量后的因果关系。

假如试图减少本钱去做非随机抽样,那么,它的结论就更没有推广意义(学术一点称之为外部效度性,非随机抽样外部无效度)。当新用户加入后,非随机抽样的结论根本不能适用。

但大数据的分析却是动态的,每秒都有可能发生一个新的结论。让我们用最多见的亚马逊页面上的“购买此商品的顾客也同时购买”来举例。

这个部分里的商品是活动的,因为新购买的发生,会导致这个模块里的商品可能会发生变化。不过,这个模块也有多是导致商品集中化购买的重要原因:用户看到了这个模块里引荐的商品而发生购买的多是很大的(也许ta本来就没有任何购买的想法,乃至连这个商品都不晓得)。但关于大数据来说,原因是什么一点也不重要,它要做的——至少在电子商务领域——无非是提高客单价算了。买了A书和买了B书之间的因果研讨,那是学者们的事,不是商人关怀的事。

大数据处理的方式不是探幽细究型的,煞费苦心去想究竟原因为什么没有这个必要,不过拿出一些结论来演绎也是会闹笑话的:比如吃海参有助于提高智商。大数据其实不需要做什么演绎,它的使命只是让你在某一时刻能做到提高成功率的事,哪怕只有1%。量一大,1%都是极其可观的。

回到航空公司的详细案子来。10万同时具有航空公司会员和微博会员的人,并不是随机抽样而得,故而这10万关于全体数百万航空公司会员而言,没有代表性。但我们的方针不是想寻求坐这家航空公司班机的人和参加某网络活动的因果关系,我们只是想提高一下参加活动概率并期望看到更多人会去转发某个活动算了。故而,10万微博用户,够了。

在某一个时点,跑了一下数据,大致能看到一些相关性,于是我们开始设计某种活动,并有针对性地让这10万微博用户知道,这次取得的参加度和转发率,比毫无数据支撑布景下的胡乱策划,成功率应该会高一点。相同的人力投入,得到了相对而言的较高效果,这就是数据分析的优点。

过了三个月后,又有需要策划的活动,留意,这一次仍然需要再跑一次数据。因为样本可能不是只有10万了,也许15万,也许命运欠好有2万微博用户现已“死亡”,只剩8万。另外一个多是有某些新的外部变量加入,比如出来一种新的商品让很多人趋附者众高度重视。这个时分拿上一次的数据来辅导策划,又是瞎子骑瞎马,夜半临深渊了。

不同的时点,或者方针不同的活动,都需要再次跑数据,这多是大数据分析的麻烦的地方。不过,核算机的长处就是核算,花上一两个小时设计几个公式或模型,相对以前动不动要搞随机抽样,便当性提高很多倍,值得尝试。

更庞大一点的就是真正意义上的“大数据”了。本年年初互联网圈阿里要并购新浪微博,从商业逻辑上讲,一个是中国最大的消费平台,一个是中国最大的碎片化言辞平台,两者数据的合并,是颇能挖出更多的相关性来。

当你宣布一条微博时,遽然配套出来了一条广告。是的,你很烦,感觉又被骚扰了。但从商业角度而言,假如你以前的烦是一万次广告推送才会有一次点击,现在变成九千次一次点击,都是了不起的前进。一万次为何会变成九千次?因为一个人的言辞和ta的消费倾向,确实是存在一定相关性的。

广告圈里一句名言:我知道我的广告糟蹋了一半,但我不知道糟蹋了哪一半。一些营销业者宣扬说他们能够让你不糟蹋那一半。不要相信他们。关于广告来说,从糟蹋50%到糟蹋49%,都是很值得去投入的事。建立在相关性而非因果上的大数据营销,不可能让广告主从此不再糟蹋广告,它只能做到:糟蹋得少一点。

这就够了。

—— ——

再说一下随机样本和全样本的关系。理论上讲,你可以设计一个模型,每秒钟都在那里抽样,不是没有操作性。但问题在于,随机抽样生成的成果都存在一定差错,既然手上现已有全样本,又何必去搞什么抽样。关于核算机而言,核算1亿个样本,和核算一千个样本,价值虽然有差,但全样本没有差错,已足以补偿这点价值。

来自艾瑞网,本文由扯氮集博主魏武挥原创撰写

给作者打赏,鼓励TA抓紧创作!

api.qrserver/v1/create-qr-code/?size=300x300&data=