策略-电子邮件:要不要进行拆分测试?营销学教授问题28818

问题

主题:策略

电子邮件:拆分测试还是不拆分测试?

发布的JESmith在美国东部时间2009年5月7日上午10:31 500点

你认为电子邮件营销活动的分割测试对于小列表有价值吗?在最近的一次网络研讨会上，演讲者表示，除非客户的列表规模达到5万人，否则他们不认为分割测试具有统计学意义，相反，他们鼓励客户专注于最佳实践。

想法吗?

要继续阅读这个问题和解决方案，请注册…它是免费的!

订阅
或者,登录

反应

发布的arthursc在5/7/2009上午11:45 接受

那个演讲者似乎是个白痴。当然，无论是否进行测试，您总是希望使用最佳实践。顺便说一句，测试是一种最佳实践。

这一切都归结于什么是统计上有效的样本，对我来说，答案并不复杂。

在直邮中，经验法则总是在最初的时候为每个分割或面板5M，然后重新测试(在任何渠道中都必须这样做)，如果结果不确定，就坚持5M，或者如果结果看起来有希望，就增加到10M, 15M或类似的计数。现在，这假设了一个特定的最小总列表数量，但尽管如此，这是常见的做法。也就是说，如果我有一个5-6M的列表，我仍然会测试!我分裂到2.5米。当然，样本越小，数据就越不可靠，这取决于你的回复率。底线是测试小组需要获得足够的反馈才能采取行动。

在电子邮件中，这在概念上是相同的，尽管在电子邮件测试中的最佳实践，简单地说，就是取一些小样本(见下文)作为测试面板，发送电子邮件给他们，然后将剩余的与获胜的面板展开。许多公司由于各种原因无法做到这一点，因此求助于标准的A/B或A/B/C测试，这取决于数量。

但电子邮件的问题是，回复几乎总是比直接邮件低。(当然，投资回报率可能更高)。因此，使用较小的测试面板数量可能会有问题。但不一定。

假设你总共只有500万份清单，但你知道你需要找出一周中的哪一天、主题行或节目最适合观众。你直觉地知道，每个面板做2.5M的A/B分割似乎不会得到足够的响应来指导你。

但是等等!也许你会做得很好，得到总数的1%或50个回复或订单。如果一个面板有40个，另一个有10个呢?我得说这说明了什么!你应该推出吗?不一定。这只是个小样本，也可能是侥幸。如果可能的话，你最好重复这个测试。获得类似的结果，然后推出。

但是，如果测试小组的结果如此接近，以至于在误差范围内他们是平局呢?(当然，在大量的电子邮件中也会发生这种情况。)也许这意味着您所测试的内容在响应中并不重要。这是可行的。但也许这确实意味着样本太小，没有意义。
你怎么知道该得出哪些结论呢?你得再测试一次!

因此，最重要的是，即使是大的测试面板通常也需要重新测试，而真正的小样本大多数总是需要重新测试，特别是当结果接近时。

不要因为数量小而不测试，只要知道如何检查和处理数据，在什么情况下数据是可操作的，并随时准备休息。

但最后，每个面板低于2.5M的测试不太可能有用。
发布的ajanzer在5/7/2009下午12:12 接受

有一个在线工具可以查看在线广告的分割测试是否具有统计意义，我想你也可以将其应用于电子邮件活动。

https://www.splittester.com/

对于广告印象，我用电子邮件数量代替，而对于点击率，我用回复率代替。免责声明:我不是统计学家，也没有在电视上表演过。
发布的SteveByrneMarketing在5/7/2009下午12:36 接受

同意上面的海报-测试，测试，测试。

我通常测试主题行(因为在科学方法中，一次只能测试一个元素)。我的测试基于报价结构，意思是要么给出一个(a)报价和一个类似的(b)报价，要么用不同的方式表达相同的报价。

例如，“买一送一”总是比“5折”更有效。

如果您想讨论报价结构，请参阅我的个人资料的联系信息。

史蒂夫

祝你好运,

史蒂夫
发布的wnelson在5/7/2009下午1:45 接受

Jono,

哦，看在上帝的份上，这里不需要任何“经验法则”的答案!让我们用数学代替直觉。统计效度是一个非常精确的答案，包括三个方面:宇宙大小、样本大小、置信水平和误差幅度。对于较低的误差边际和/或较高的置信水平，您需要更多的样本。可接受的置信水平和误差幅度是一个商业决策——纯粹而简单。权衡是准确性的价值与抽样的成本(以美元和时间为单位的成本)。此外，信息的使用也会影响这个决定。如果你使用数据来做决定，而这个决定是+/- 25%，那么你不需要抽样的置信水平超过75%。通常，置信水平为95%，误差范围为5%。你如何理解:如果你有一个测试，其中60%的人回答“是”，那么你可以将其理解为“样本结果表明，我们有95%的信心，回答“是”的真实人口比例在55%到65%之间。

如果每个网站有150个受访者，而采取预期行动的差异大于10%(比如电子邮件A, 55%点击电子邮件B, 45% -你有95%的把握A比B好150和50,000有很大的不同，不是吗?也不需要几百万。

你可以使用计算器，比如at:https://www.dimensionresearch.com/resources/calculators/ztest.html．

结果出来后，你可以重新计算，看看置信度是多少。当它足够高时，你就有了结果。每次分割的样本量不必相同。

我希望这能有所帮助。

Wayde
发布的琳达·怀特海德在5/7/2009下午5:40 接受

对于你的问题，你已经收到了一些非常棒、详细的回复。在我看来，毫无疑问，无论列表大小，您都应该进行测试。正如Wayde所说，你总能得到有用的信息，帮助你做决定。我们写了一篇关于我们在以前的公司进行电子邮件测试的经验的文章，你可能想看看https://blog.adbase.com/2008/10/email-testing-your-guide-to-better-response..。．
还有，还有件事我想让你知道。有一种ESP具有分段测试功能，即mailchimpwww.mailchimp.com
MailChimp可以在你的列表中随机抽取一个小样本进行A/B测试，分析你的结果，然后自动优化你的广告，并将其发送给你列表中的其他用户。专利申请中。”
我没有使用过他们的服务，但据我所知，它看起来不错，声誉也不错。

琳达·怀特海德
Zuz营销
发布的Jay Hamilton-Roth在5/8/2009上午8:26 接受

从数学上讲，你确实需要一个大的样本量来执行统计上有效的拆分测试。使用一个小得多的样本会产生结果，但它们可能无法精确地放大。韦德和亚瑟给了你很好的解释。

然而，如果你没有一个大的样本量，那么你仍然会得到对你的业务很重要的数据:什么更好(a vs. B)。数据不一定会扩大(从样本量500到50000)，但这不是你现实世界的问题。你只是试图优化你所拥有的数据/操作。
发布的wnelson在5/8/2009下午3:05 成员

Jono,

我没有指出的一点是，样本应该反映人口的混合情况。如果你的样本是随机的，并且紧密地反映了整个人群的构成，那么你确实可以将每个站点的样本扩大到150，并且有95%的把握，结果将反映+/- 5%以内的人群。这就是统计的结果。当然，如果+/-5%的误差太大(就像如果两个样本的结果重叠，如果你加上+/-5%，那么它们看起来是一样的)，那么就需要更多的抽样。但是，如果你分别取150个样本，结果是邮件a有20%的回复，邮件B有40%的回复，那么你可以95%肯定邮件B更好。然而，如果你想对邮件B的结果做出推断，如果你把它发送给你的人群(比如说，1,000,000)，那么你只能说，在95%的置信度下，人群的回复率将在32%到48%之间。(误差幅度为8%)。如果你想纠正这个问题，使推断的误差在+/-5%以内，那么每个样本中都需要384个样本。如果你想要+/-1%(95%置信水平)，你需要9513个。如果你想在误差不超过1%的情况下获得99%的置信度，那么你需要每个数据都有16,317个置信度。

然而，在误差范围和置信水平的边界内，你当然可以用一个群体中小到150万到100万的样本或整个宇宙中的整个受访者群体来扩大结果……如果样本是随机的，并且反映了宇宙的总体(确保你包含了足够多的ET)。

Wayde
发布的JESmith在5/8/2009下午4:12 作者

这是一个有趣的线索，我学到了很多。谢谢大家的插话。

Wayde:谢谢你在讨论中引入误差幅度。如果我理解正确的话，听起来我可以使用这样的计算器来确定在我的电子邮件列表上运行测试的误差范围?

https://www.americanresearchgroup.com/sams.html

举个例子，如果我有一个500人的电子邮件列表，用主题行A向250人的随机样本发送邮件活动，主题行B向另外250人的随机样本发送邮件，并且打开率的差异大于5%的误差范围，我得到了一个有效的测试?
发布的wnelson在5/8/2009下午4:52 成员

Jono,

不完全是。你的测试在每个测试中有250个样本是有效的。事实上，在95%的置信度下，每个样本中有250个样本，您可以检测到+/-4%的差异。然而，你上面链接的计算器将允许你测试一个样本，并为你提供所需的样本量，以确保你的样本结果反映总体(只要样本中的成员反映总体，随机抽取，等等)。

我认为我发送的那个(但我发现它不起作用)可以让你在得到结果时测量两个样本的误差范围和置信水平，当你达到预期的误差范围时，你可以停止。我认为这个链接对你有用:

https://www.dimensionresearch.com/resources/calculators/ztest.html

但是，让我来帮你想一下!当您发现两个样本是不同的——其中一个具有更高的打开率——您将希望知道该打开率的估价值。如果您的总体中有128,063人或更多，则每组中需要384人，以便样本结果反映+/-5%范围内的总体结果，置信度为95%。250会有6.19%的误差。如果这样可以，那就顺其自然吧。否则，使用384。用这个计算器进行单个样本测试，而不是你发布的那个:

https://www.raosoft.com/samplesize.html

明白吗?

Wayde
发布的matthewmnex在5/10/2009上午5:40 接受

亲爱的所有人，这条帖子真的引起了轩然大波:)

我希望你不介意我插句话:)

我倾向于同意这里的每个人:)

分割测试是一个重要而强大的工具，但当样本量太小时，结果最多只能是轶事。

问题是，用户的行为可能很善变，取决于天气、新闻、是否周四。

为了获得更准确的读数，我现在所做的是根据获得联系人的日期在数据库中标记每个人，并在我的跟踪中添加这个“批量编号”。

通过这种方式，我可以看到打开、点击和转化率与联系人年龄的比较。

新联系人往往比旧联系人更活跃，但即使是2年的联系人也能表现良好。

如果我某天在一个小平台上发了一封邮件，然后第二天又发了一封完全相同的邮件。如果测试集的大小太小，结果可能会有显著不同。这就是为什么我在一定程度上同意主持研讨会的人的观点。小于50K DB是非常小的。

如果你有20%的打开率和20%的点击率，那么你仍然只有2000次点击，但同样的50K基础每天都会有非常不同的表现，当然这取决于邮件的容器和目的。

我倾向于将获取成本(每条记录)与每条记录产生的收入进行比较，并让它作为我发送邮件的频率和类型的指南。

分裂测试，是的，我可能会做一些，但我会给结果加一大撮盐，不会浪费太多时间试图用这么小的DB进行科学测试。用你的直觉和作为营销人员的经验来决定你想要向他们发送什么类型的信息，祝你好运:)
发布的wnelson在5/10/2009上午10:32 成员

马太福音谈到了善变。根据他对善变的定义，“用户会因为天气、新闻、是否周四而变得很善变”，这种被称为善变的行为是随机的。我向你保证，当我们计算样本量并确定可以做出的推论时，统计数据完全理解随机性。统计学是基于过程的随机性质，如果过程不是随机的，统计学就不会起作用。

让我们这样看:如果你有四种反应:
1)那些觉得主题有趣又开放的人
2)发现主题无趣而不打开的人
3)不小心打开邮件，但发现主题不有趣的人
4)觉得主题有意思但不打开的人

3和4是错误。错误是随机的。如果我们取150人的样本，3和4在整个人群中的误差变化是相同的，那么有些人今天会打开它，因为他们觉得这个主题有趣，明天就不会打开了，因为随机事件阻止了他们。同样的，有些人今天不打开邮件是因为邮件主题无趣，明天又不小心打开了。因此，今天随机抽取150人的样本，明天会反映出同样的结果，即使同一个人今天和明天的行为不同。另一个人会有不同的表现，弥补随机的行为。

我在上面的帖子中解释的统计数据是有效的——前提是样本是随机抽取的，并且在样本中导致错误的行为是随机的。在这种情况下，我相信这是真的。我们的直觉反应是，要了解人口，需要大量的信息。事实上，更多的数据意味着样本结果更接近地反映总体(例如，95%确定你在总体结果的+/- 5%范围内)。然而，统计数据告诉我们我们还有多远。我们是否在抽样上投入更多以获得更精确的数据取决于数据的价值以及我们如何使用它，而不是更多抽样的成本(时间和金钱)。如果你有无限的预算，那就永远尝试。如果你没有，那么抽样，直到你达到抽样成本与精确度的收益递减。

Wayde
发布的加里纰漏在5/10/2009 12:51 PM 接受

亲爱的Prodmktguy,

不管你的名单上有多少人，任何数量的人的统计相关性和他们对提议做出回应的可能性都是基于该提议的副本(你所说的)对接受者及其问题或需求的影响。

我的观点是，你听的演讲者
在你的网络研讨会上是个笨蛋。严厉吗?是的。但这是一个诚实的意见。

你没有说你的名单有多大，但让我们假设有5000人。这不是一份无名小卒的名单，而是一群朋友、邻居和你在街上经过的人。他们会走路，会说话，他们都有心跳，而且，假设你自己把这个名单凑在一起，而且这不是一个买来的名单，这些人出现在你的名单上是有原因的:为你感到的需求或痛点找到解决方案。

让我们假设这个痛点是一种消除后院鹿蜱的强烈愿望，但你的数据也显示，你名单上的每个人都是动物权利支持者，他们都养鲤鱼，都养蜜蜂。

如果你把你劈成两半并发送你的列表一个伟大的解决方案,坚持使用的,但有效的化学去除蜱虫的花园,一个化学也是剧毒鱼和蜜蜂,你发送的另一半列表消灭虱子的出色地精心设计提供一个小盒子的技巧被插入到电源50英尺远的地方,你的反应率是两封邮件吗?

如果你没有进行测试，并发送第一封邮件，你的营销资金就会被打上一个零分，你的PR部门就需要做一些解释了。不好的。

测试的全部意义在于提炼和完善，这样你就能知道什么可行，什么不可行，这样你就能充分利用营销预算。测试的另一个原因是，即使是一个小列表，你也不用浪费钱告诉不接受测试的观众他们根本不感兴趣，或者他们强烈反对的东西。

关键是要建立你可以服务的关系，做到这一点的最好方法之一是测试，审查，返工和改进，然后重新测试。

别忘了，你不是在群发邮件给成千上万的人。你只和一个人就他们的需求进行一次对话。进入那个人的大脑。和那个人谈谈对他们来说重要的事情。迎合这种需求并提供惊人的价值，你就会获得信任、信誉和人们的信心。但只有当你从他们的角度切入他们的痛点时，你才能得到这些东西，而做到这一点的最好方法是细化你所说的话的元素，直到他们直接切入解决需求的方法。

我希望这能有所帮助。
发布的JESmith在5/11/2009晚上9:39 作者

不用说，我在大学里没有上过统计学课程，所以我想确保我没有弄错。

假设我的电子邮件列表上有15818个人。我在给我那些过世的捐款人发募捐邮件。版本A是没有图片的申诉，版本B是有图片的申诉。

我将版本A随机发送给7902人，其中692人点击了我的捐赠按钮。
我将版本B随机发送给7916人，其中582人点击了我的捐赠按钮。

假设我在用计算器(https://www.dimensionresearch.com/resources/calculators/ztest.html)正确，看起来我可以有99.9%的信心评级，认为版本a每次都将优于版本B。

我说对了吗?

谢谢:)
发布的wnelson在5/11/2009晚上10:49 成员

好工作!你做得很好!是的，没错。现在，如果你想要推断如果你向128,063人或更多的人发送电子邮件，选项A会有多好，你可以使用:

https://www.raosoft.com/samplesize.html

你可以说，选项A的结果是95%的置信度，人口打开率是8.76% +/- 1.1%。

Wayde
发布的JESmith在5/12/2009上午9:41 作者

韦德-向前一步，后退一步。

我不太明白你是怎么用的www.raosoft.com/samplesize.html以确定选项A将导致95%的置信度，人口打开率将为8.76% +/- 1.1%。

请告知?
发布的wnelson在5/12/2009上午11:20 成员

没问题。在下面的第三个方框中，将人口规模设置为1,000,000。其他一切保持不变。在页面底部，在“备用场景”下-如果您将“100”更改为7902。下面是1.1%。这是95%置信度的误差范围。你的A选项比例是8.76%。(692/7902)。因此，从这个样本中，你可以有95%的信心说，对于1,000,000或更高的种群，“开放”的总体平均值将是8.76% +/- 1.1%。

Wayde
发布的加里纰漏在5/12/2009下午5:37 成员

你的名单上有15818人。

对失足捐赠者的募捐呼吁。版本A没有图像，版本B有图像。

根据您的发现和计算，您有99.9%的信心评级，版本a (NO IMAGES)每次都将优于版本B，对吗?

呃?我说，这仅仅是基于一封邮件吗?如果是这样，那么，唉，亲爱的小伙子。我不这么认为。事实上。错了。原因如下:

许多人会说数字从不说谎。但这些人忘记了，数字可以用来歪曲结果，捏造假设和假设。在非营利性基金中，在支票兑现之前，什么都不要假设!然后计算你的成功。

对数字坚如磐石的信仰有极大的危险。

如果你给那些参加过你的非营利性活动(黑领结活动、开幕式、舞会等)的人发送邮件，他们更倾向于积极地回复你的带有图片的邮件，因为这些图片显示了和他们一样的人，也就是说，和他们社会群体、经济背景等相同的人，都过得很开心。

这是人的本性，老伙计:物以类聚。

同样地，如果你发送的邮件与节日或公认的日子有关(万圣节，7月4日，女王的生日，等等)，并且邮件显示了以前万圣节活动的人，同样，收件人会看到这些图像，然后看到他们自己在做那件事并采取那项行动，因为现在，他们有了你包含的图像的参考框架。

混合你的信息和图片的比例，并将这些图片与一个事件，一个主题，或以前的经历(收件人玩得很开心，或者他们认识的人和照片中的人玩得很开心)联系起来，向更少的人发送更小的邮件，你会得到不同的结果。

当你发送邮件时，邮件内容、邮件内容、或者邮件在人们脑海中描绘的画面同样重要。

我希望这个观点不会把事情弄得太离谱，但值得记住的是，一个人永远不应该假定自己的数字没有说谎。

引用本杰明·迪斯雷利的话(这句话后来被马克·吐温推广开来)“有谎言，该死的谎言，还有统计数据。”

祝你好运。

加里纰漏
威尔明顿，德，美国
mr.garybloomer
发布的wnelson在5/13/2009下午1:43 成员

毫无疑问，统计数据是万恶之源。在最早的基督教、伊斯兰教、犹太教和佛教文献中，当提到邪恶时，会给出百分比——作者95%确信85%以上的统计学家是邪恶的。

我相信穴居人在RockProfs上发表过一个讨论，说火也不好。毕竟，如果不小心使用，可能会伤害到你。如果鲁莽使用，它可以摧毁整个文明。它还可能被恶意使用。然而，当小心翼翼的穴居人蜷缩在寒冷之中时，一些学会了如何正确使用火并理解所有必要的注意事项的人却在屋里，温暖无比。

在几乎每一项科学进步中，统计学都被用作决策和降低风险的工具。如果没有统计数据，我们可能不会登上月球——至少在9年内，而且在这个过程中至少不会损失几十个人。但是，还有一些穴居人不相信我们成功登上了月球。你正在阅读这篇文章的电脑——如果没有统计学的使用，可能就不可能制造出来。嗯，它不会像现在这么小，也不会那么便宜。你接收信号的互联网——电信是基于统计的。

然而，就像火一样，统计只是一种工具。统计学的定义是:收集、组织和解释数字数据的数学。统计学不能取代科学、理性或常识。我们都听过这样的讽刺:如果我把手放进一桶冰和一桶沸水中，我的身体平均温度是50摄氏度。

通过起草一堆问题并将其发送给大量潜在受访者并使用由此产生的统计数据来进行“调查”是愚蠢的。调查问题有设计指南，只有经过多个步骤的重点测试和试点过程后，任何有知识和受人尊敬的市场研究人员才会发布这样的调查。来自调查的数据将被仔细分析许多参数，包括相互关联，偏差等。

这样的调查很少会成为研究的唯一工具。市场研究有两个分支——定量研究和定性研究。我们一直在讨论定量分支。在定量研究中，调查和相关统计等工具通常基于属性数据。属性数据是Yes/No，或者“从七个选项中选择评级”。虽然管理每个数据点的成本较低，但信息的价值较低。需要更多的样本才能有统计学意义的数据。定量统计的另一个分支使用可变数据。可变数据被测量，如速度或长度。在电子邮件营销活动中，很难想出任何有意义的变量数据来衡量。 But, if we could, we'd need much a smaller sample size than we could with attributes data - like some place around 70 max ever.

至于市场研究的另一方面，定性方面，这个分支依赖于一对一的测试。想想焦点小组。使用多种不同的方法，直接的反馈和观察可以使理解更加全面。正如garybloomer先生所建议的，与少数客户的对话比从一百万受访者那里得到的调查结果更有价值，因为你可以问你想问的问题，然后，如果你需要澄清——“为什么”——你也可以问。你的回答会让你有一个更全面的了解。定性数据在早期尤其重要。进行一系列的焦点小组测试可以帮助制定基于结果的电子邮件“规则”。然而，定性研究有两个利弊:首先，它很昂贵。第二，正因为如此，很难覆盖一个具有代表性的群体，这样你就可以确定测试中的个体是整个群体的代表。一般来说，定性统计是用来提出假设，定量统计是用来证明。 So we'd do focus group testing initially, develop some ideas, and then prove those ideas using a survey across a broad sample. In the case of an email where there are content questions - proportion of pictures and kinds of images, wording of calls to action, etc - the survey may be split into many more splits than two so that you can look at these aspects. Another area of statistics would be employed - experimental design - and sample sizes of each "split" would be determined that way.

然而，并不是所有的事情都需要一遍又一遍地进行统计测试。使用“最佳实践”通常是最好的途径，因为这些最佳实践可能已经被证明过了，再次测试它们是一种资源浪费。所以，从了解和使用最佳实践开始，如果有你不知道的实践，就进行测试。加里布卢姆和其他人讨论了许多最佳实践。

如果这里的问题真的是“如何提高我的打开率”，答案是更严格地遵循最佳实践。事实上，问题是，如果人口少于5万，分割测试在统计学上是否相关。统计相关性是“可测试的”，意味着一些非常精确的东西。并且在满足所有条件的前提下，分裂检验具有统计相关性。网络研讨会给予者声明的另一部分，“使用最佳实践”——正如其他人所说，为什么不使用最佳实践而不考虑分割测试呢?

请注意，当我讨论统计推论时，我使用了精确的语言来陈述结果:“在99.9%的置信度下，样本a的打开率高于样本b。”此外，在95%的置信度下，真实的人口打开率将为8.76% +/-1.1%。我也明确了条件。该样本必须是随机抽取的，并能代表整个人口。“随机”有说明符。想象一下“把15000个名字放在帽子里，然后把它们画出来。”至于样本在多大程度上代表了总体，有统计学检验。

然而，这一切都回到了数据的价值。一般来说，您将进行统计测试，直到数据的成本等于它的价值。用经济学术语来说，当数据的边际值为零时，就停止测试。此外，如果你的整个人口是500人(甚至可能是15,000人)，考虑与他们每个人交谈而不是“测试”的可能性。如果人口是10万或100万，那么这是不可能的。

因此，这应该足以将世界完全分化为“善”和“恶”两派，甚至可能将一些人转变为邪恶一方，为大战做准备。或者至少可以帮助一些失眠症患者。

Wayde

回到顶部

技术交流:策略

问题

电子邮件:拆分测试还是不拆分测试?

反应

发表评论

相关的讨论

社区信息

25位专家
(策略)

问题

电子邮件:拆分测试还是不拆分测试?

反应

发表评论

相关的讨论

社区信息

25位专家(策略)

25位专家
(策略)