Menu

如何进行A/B测试

当像我们这样的营销人员创建登录页面、撰写电子邮件副本或设计CTA按钮时,我们很容易用直觉来预测什么会让人们点击和转换。
但基于“感觉”的营销决策可能对结果非常不利。与其依靠猜测或假设来做出这些决定,不如运行一个A/B测试——有时称为分割测试。

A/B测试是有价值的,因为不同的受众表现不同。对一家公司有用的东西不一定对另一家公司有用。事实上,转化率优化(CRO)专家讨厌“最佳实践”这个术语,因为它实际上可能并不适合您。

但是A/B测试也可能很复杂。如果你不小心,你可能会对人们喜欢什么和他们喜欢什么做出错误的假设——这些决定很容易误导你策略的其他部分。
继续阅读,学习如何在数据收集之前、期间和之后进行A/B测试,以便从结果中做出最佳决策。

什么是A/B测试?

A/B测试,也被称为“分割测试”,是一种营销实验,你“分割”你的受众,以测试一个活动的许多变化,并确定哪个表现更好。换句话说,您可以将营销内容的版本A展示给一半的受众,而版本B展示给另一半受众。

要运行A/B测试,您需要为一段内容创建两个不同的版本,并对单个变量进行更改。然后,您将向两个规模相似的受众展示这两个版本,并分析哪个版本在一段特定的时间内表现得更好(足以对结果做出准确的结论)。

A/B测试帮助营销人员观察一个版本的营销内容与另一个版本的表现。为了提高网站的转化率,你可以进行以下两种A/B测试:

例1:用户体验测试

也许您想看看将某个特定的call-to-action (CTA)按钮移到主页顶部而不是保留在侧边栏中是否会提高它的点击率。
要测试这个理论,您需要创建另一个反映CTA位置变化的替代web页面。现有的设计——或者说“控制”——是版本A。版本B是“挑战者”。然后,您将通过将这两个版本分别显示给预定百分比的站点访问者来测试这两个版本。理想情况下,看到这两种版本的访问者的百分比是相同的。

例2:设计测试

也许您想知道,更改您的call-to-action (CTA)按钮的颜色是否可以提高它的点击率。

要测试这个理论,您需要设计一个具有不同按钮颜色的替代CTA按钮,该按钮将导致与控件相同的登录页面。如果您通常在您的营销内容中使用红色的call-to-action按钮,但是绿色的变体在您的a /B测试之后获得了更多的点击,那么从现在开始,您应该将您的call-to-action按钮的默认颜色更改为绿色。

A/B测试的好处

A/B测试对营销团队有很多好处,这取决于您决定测试什么。不过,最重要的是,这些测试对企业很有价值,因为它们成本低,但回报高。

假设您雇佣了一位内容创建者,年薪为50,000美元。该内容创建者每周为公司博客发布5篇文章,每年总计260篇。如果该公司博客上的平均每篇文章能产生10条线索,那么你可以说,为该公司产生10条线索的成本略高于192美元(5万美元的薪酬÷260篇文章= 192美元/篇)。这是一个实实在在的改变。

现在,如果您让这个内容创建者花两天时间为一篇文章开发一个A/B测试,而不是在这段时间内编写两篇文章,您可能会花费192美元,因为您少发布了一篇文章。但是,如果A/B测试发现您可以将每篇文章的线索转化数量从10条提高到20条,那么您只需花费192美元,就可以使您的企业从博客获得的潜在客户数量增加一倍。

当然,如果测试失败,你损失了192美元,但现在你可以让你的下一个A/B测试更有教育意义。如果第二个测试成功地将博客的转化率提高了一倍,那么你最终就花了284美元,使公司的收入翻了一番。无论你的A/B测试失败多少次,它的最终成功几乎总是超过进行它的成本。

您可以运行许多类型的分割测试,以使最终的实验物有所值。以下是营销人员在进行A/B测试时对其业务的一些常见目标:

增加网站流量:测试不同的博客文章或网页标题可以改变点击该超链接标题进入你网站的人数。这可以增加网站流量。

更高的转化率:测试CTA上不同的位置、颜色,甚至文本,都可以改变点击这些CTA进入着陆页面的人数。这可以增加在你的网站上填写表格的人数,向你提交他们的联系信息,并“转化”为一个线索。

较低的弹出率:如果你的网站访问者在访问你的网站后很快离开(或“弹出”),测试不同的博客文章介绍、字体或特色图片可以降低回弹率并留住更多的访问者。

降低弃车率:根据MightyCall的数据,电子商务企业发现,40% – 75%的客户在离开网站时,购物车里都是商品。这就是所谓的“购物车废弃”。测试不同的产品照片、退房页面设计,甚至是显示运费的地方都可以降低这种报废率。

现在,让我们浏览一下如何进行A/B测试

运行A /B测试所需的所有东西——一个A /B测试跟踪模板,一个指导和灵感的操作指南,以及一个统计重要性计算器,以查看您的测试是成功的、失败的还是不确定的。

在A/B测试之前

1.选择一个变量进行测试。

当您优化web页面和电子邮件时,您可能会发现有许多变量需要测试。但是要评估更改的有效性,您需要隔离一个“自变量”并度量它的性能——否则,您无法确定是哪个变量导致了性能的变化。
您可以为单个web页面或电子邮件测试多个变量;确保每次只测试一个。
查看市场资源中的各种元素,以及它们在设计、措辞和布局方面的可能替代方案。您可能测试的其他内容还包括电子邮件主题行、发件人名称和个性化电子邮件的不同方法。
请记住,即使是简单的改变,比如改变电子邮件中的图像或“CTA”按钮上的文字,也能带来很大的改进。事实上,这类变化通常比较大的变化更容易测量。
注意:有时候测试多个变量比测试单个变量更有意义。这是一个叫做多元测试的过程。

2.确定你的目标。

尽管您将为每个测试度量许多指标,但是在运行测试之前,选择一个主要的指标来测试。事实上,在你建立第二个变量之前就开始做。这是因变量
考虑一下这个变量在测试结束时的位置。你可以陈述一个假设,并根据这个预测来检验你的结果。
如果您等到之后才考虑哪些指标对您来说是重要的,您的目标是什么,以及您提出的更改可能会如何影响用户行为,那么您可能不会以最有效的方式设置测试。

3.创造一个“控制”和一个“挑战者”。

现在有了自变量,因变量和期望的结果。使用这些信息将您正在测试的任何东西的未修改版本设置为您的“控件”。如果您正在测试一个web页面,这是一个未更改的web页面,因为它已经存在。如果您正在测试一个着陆页面,这将是您通常使用的着陆页面设计和复制。
在此基础上,创建一个变体,或一个“挑战者”——网站、登录页面或电子邮件,您将根据自己的控制进行测试。例如,如果您想知道在登录页面中包含推荐信是否会有所不同,请设置没有推荐信的控制页面。然后,创造你的变化与证明。

4.将你的样本组平均随机地分开。

对于那些你对观众有更多控制的测试,比如电子邮件,你需要和两个或更多的观众进行相同的测试,这样才能得出决定性的结果。
如何做到这一点取决于您使用的A/B测试工具。例如,如果您是HubSpot企业客户,正在对电子邮件进行A /B测试,HubSpot将自动将流量分配给您的变体,以便每个变体都能随机抽取访问者。

5.确定您的样本大小(如果适用)。

您如何确定您的样本大小也将根据您的A/B测试工具以及您正在运行的A/B测试的类型而有所不同。
如果您正在测试一封电子邮件,您可能想要将A/B测试发送到列表中较小的部分,以获得统计上有意义的结果。最终,您将选择一个赢家,并将获胜的变体发送到列表的其余部分。
如果您是HubSpot企业客户,则可以使用滑块帮助确定示例组的大小。它可以让你对任何样本大小进行50/50的a /B测试——尽管其他所有的样本分割都需要至少有1000个收件人的列表。

6.决定你的结果需要有多有效。

一旦你选择了你的目标指标,想想你的结果需要有多重要才能证明你选择了一个变量而不是另一个变量。统计显著性是A/B测试过程中经常被误解的一个非常重要的部分。如果你需要从市场营销的角度重温一下统计意义,我建议你阅读这篇博客。

你的自信水平越高,你对结果就越有信心。在大多数情况下,您需要95%的最低置信水平—最好是98%—特别是在需要进行时间密集型实验的情况下。然而,如果不需要那么严格的测试,有时使用较低的置信率是有意义的。

HubSpot的高级软件工程师马特•罗特(Matt Rheault)喜欢把统计意义比作下注。你觉得下注的胜算有多大?说“我有80%的把握这是正确的设计,我愿意把一切都押在它上面”类似于运行A/B测试重要性到80%,然后宣布赢家。

罗特还说,在测试一些只需稍微提高转化率的指标时,你可能想要一个更高的信心阈值。为什么?因为随机方差更有可能发挥更大的作用。

他解释说:“降低我们的信心阈值可以让我们感到更安全的一个例子是,进行一项可能将转化率提高10%或更多的实验,比如重新设计一个英雄部分。”“这里的结论是,变化越彻底,我们就越不需要在过程上明智地进行科学研究。改变得越具体(按钮颜色、微复制等),我们就应该越科学,因为这种改变不太可能对转化率产生重大而显著的影响。”

7.确保您在任何活动中一次只运行一个测试。

为一个广告测试不止一件事——即使不是在同一个资产上——可能会使你的结果复杂化。例如,如果你在A/B测试登陆页面的同时测试一个指向登陆页面的电子邮件活动……你怎么知道是什么变化导致了线索量的增加?

8.使用A/B测试工具。

要在您的网站或电子邮件中进行A/B测试,您需要使用A/B测试工具。如果您是HubSpot企业客户,HubSpot软件有一些特性,可以让您测试电子邮件(在这里学习如何测试)、call -to-action(在这里学习如何测试)和登录页面(在这里学习如何测试)。

对于非Hubspot企业客户,其他选项包括谷歌Analytics的实验,它允许您对单个web页面进行最多10个完整版本的A/B测试,并使用随机的用户样本比较它们的性能。

9.同时测试两个变量。

时间在你的营销活动的结果中扮演着重要的角色,无论是一天的时间,一周的一天,还是一年中的一个月。如果在一个月内运行版本A,一个月后运行版本B,您如何知道性能变化是由不同的设计或不同的月份引起的?

当您运行A/B测试时,您需要同时运行这两个变体,否则您可能会对结果产生怀疑。

唯一的例外是,如果您正在测试计时本身,比如寻找发送电子邮件的最佳时间。这是一个很好的测试,因为根据您的业务提供的内容和您的订阅者是谁,订阅者参与的最佳时间可能因行业和目标市场的不同而有很大差异。

10.给A/B测试足够的时间来产生有用的数据。

同样,您需要确保您的测试运行足够长的时间,以获得足够大的样本量。否则,很难判断这两种变异之间是否存在统计学上的显著差异。

多长时间足够长?根据您的公司和您执行A/B测试的方式,在数小时内就可以获得统计上显著的结果……或几天……或数周。获得统计上有意义的结果所花费的时间很大程度上取决于你获得了多少流量——因此,如果你的企业没有获得大量网站流量,那么你运行A/B测试所需的时间就会长得多。

理论上,你不应该限制你收集结果的时间。(阅读本文了解更多关于样本大小和时间的信息。)

11.寻求真实用户的反馈。

A/B测试与定量数据有很大关系。但这并不一定能帮助你理解为什么人们会对别人采取某些行动。当您运行A/B测试时,为什么不从实际用户那里收集定性的反馈呢?

询问人们意见的最好方法之一是通过调查或民意测验。您可以在站点上添加一个退出调查,询问访问者为什么不单击某个CTA,或者在感谢页面上添加一个退出调查,询问访问者为什么单击按钮或填写表单。

例如,你可能会发现,很多人点击了一个“行动召唤”(call-to-action)按钮,就会看到一本电子书,但一旦他们看到了价格,他们就不会转换了。这类信息可以让你深入了解为什么你的用户会以何种方式行事。

12.关注你的目标指标。

同样,尽管您将度量多个指标,但是在进行分析时,请将注意力集中在主要目标指标上。
例如,如果你测试了一封电子邮件的两种变体,并选择了线索作为你的主要指标,不要被打开率或点击率所左右。您可能会看到较高的点击率和较低的转化率,在这种情况下,您可能最终选择点击率较低的变体。

13.使用我们的A/B测试计算器测量你的结果的重要性。

既然您已经确定了哪种变异表现得最好,现在就来确定您的结果在统计上是否具有显著性。换句话说,他们是否足以证明改变是正当的?

为了找到答案,你需要进行一个统计显著性的测试。你可以手动操作…或者你可以把你的实验结果代入我们免费的A/B测试计算器。对于您测试的每个变体,都会提示您输入总尝试次数,比如发送的电子邮件或看到的印象。然后,输入它完成的目标数量——通常您将查看单击,但这也可能是其他类型的转换。

计算器将吐出你的数据产生的获胜变异的置信水平。然后,将这个数字与您选择的确定统计显著性的值进行比较。

14.根据结果采取行动。

如果一种变异在统计上比另一种好,那么你就赢了。通过禁用A/B测试工具中的丢失变量来完成测试。

如果两个变量在统计上都没有更好的差异,那么您刚刚了解到您测试的变量没有影响结果,您必须将测试标记为非结论性的。在这种情况下,坚持原来的变体——或者运行另一个测试。您可以使用失败的数据来帮助您在新的测试上确定新的迭代。

虽然A/B测试可以帮助您在个案的基础上影响结果,但是您也可以将您从每个测试中学到的经验应用到将来的工作中。例如,如果你在邮件营销中进行过A/B测试,并且反复发现在邮件主题行中使用数字可以产生更好的点击率,那么你可能需要考虑在更多的邮件中使用这种策略。

15.计划下一次A/B测试。

你刚刚完成的A/B测试可能帮助你发现了一种新的方法,让你的营销内容更有效——但不要就此打住。总是有更多优化的空间。

您甚至可以尝试在同一web页面的另一个特性上进行A/B测试,或者通过电子邮件进行测试。例如,如果您只是在登录页面上测试了一个标题,为什么不对body copy进行一个新的测试呢?或配色方案?或者图片?时刻关注提高转化率和线索转化的机会。

订阅我们的博客

最新的微信营销、SCRM、自动化场景营销话题,以及各种最新实践案例,第一时间为您奉上