O que é Teste A/B e como usá-lo no marketing de lojas virtuais?
Índice
E-book Automação de Marketing
6 problemas que você pode resolver no seu e-commerce de forma automática!
Veja como usar o teste A/B para melhorar os resultados de marketing da sua loja virtual com e-mails personalizados.
Um teste A/B ajuda o seu e-commerce a tomar a decisão certa na hora de se comunicar com clientes e usuários.
Ao desenvolver o teste A/B, deve-se considerar o tamanho da amostra, a conversão esperada, o nível de significância estatística e o tempo de mensuração.
Veja neste artigo tudo que você precisa saber sobre teste A/B para melhorar a comunicação de lojas virtuais, e o que mais vale a pena prestar atenção ao planejar e administrar esses testes.
O que é um teste A/B?
O teste A/B é uma ferramenta que permite comparar duas versões de uma determinada solução e avaliar qual traz melhores resultados. Os testes podem ser aplicados aos e-mails enviados aos clientes de uma loja virtual, ao layout das sub páginas do site, ao texto do botão de checkout, aos banners e pop-ups ou à forma como produtos são apresentados nos aplicativos de celular.
Tudo pode ser testado pelo teste A/B, desde que certos parâmetros sejam atendidos:
- Ter um impacto sobre o que estamos testando (isso é óbvio: não faz sentido testar algo, se não conseguirmos introduzir as mudanças sugeridas após o teste).
- Preparar duas versões de uma determinada solução para nossos usuários.
- Testar apenas um aspecto de alguma solução específica (não tente testar tudo de uma vez).
- Apresentar cada uma das versões a grupos comparáveis de usuários (muito importante!).
- Medir quantos usuários se familiarizam com as variantes individuais (se estivermos testando um site, é o número de visualizações da variante do site em questão, no caso de e-mails, geralmente medimos a taxa de abertura).
- Medir quantos reagiram da maneira desejada (definida de forma variada, dependendo do objetivo das atividades de marketing: podem ser cliques em um link, curtidas, adição de um produto ao carrinho de compras, compra ou avaliação de um produto após a compra, entre outros).
- Aceitar que o teste A/B é apenas uma ferramenta, que auxilia em nosso trabalho, mas não nos isenta da decisão final.
Aposte no conhecimento para desenvolver o seu negócio!
Teste A/B para E-mail Marketing
Um bom exemplo de Teste A/B é usado para e-mail marketing. Na plataforma edrone selecionamos ENGAJAMENTOS -> NEWSLETTER A/B e criamos uma campanha ou selecionamos uma campanha salva anteriormente; na seção AJUSTE, selecionamos a porcentagem de destinatários para os quais as variantes A e B serão enviadas.
Na seção DESIGN definimos o modelo das mensagens – separadamente para a variante A e B. Depois, como em uma newsletter normal, determinamos o remetente e, possivelmente, os cupons e o público-alvo.
Usamos essa ferramente para testar a taxa média de abertura de uma newsletter – a porcentagem de clientes que acessa esse tipo de conteúdo – é de cerca de 10%. Além disso, nossa experiência mostra que 75% dos usuários entre os que responderam ao e-mail (abriram a mensagem e/ou clicaram no link da mensagem), o fizeram nas primeiras 24 horas após o envio. Os 25% restantes abriram o e-mail vários dias após o envio.
Podemos ver claramente o maior número de newsletters abertas na data de envio e no segundo dia. A mensagem de boas-vindas é aberta imediatamente ou nunca é aberta.
Dos fatos acima, podemos tirar duas conclusões muito importantes:
● o teste deve durar um dia (24h) – não vale a pena esperar mais.
● 10% * 75% = 7,5% – esta é a porcentagem de abertura da newsletter que podemos esperar no segundo dia.
Como calcular os resultados do Teste A/B?
Quando realizamos o teste, determinamos um valor percentual, para qual parte do banco de dados o teste será enviado. Para estimar quantos e-mails serão abertos até que o teste seja concluído, os supostos 7,5% de respostas obtidas após 24 horas devem ser multiplicados pela porcentagem de newsletters direcionada ao teste e pelo tamanho do nosso banco de dados.
Vamos supor que nosso banco de dados contenha 100 mil e-mails. Em AJUSTAR -> “Determine a porcentagem de destinatários” definimos, por exemplo, 10% para a variante A e 10% para a variante B (é sempre a escolha mais segura testar o mesmo número para a variante A e a variante B).
O teste incluirá: 10% * 100.000 = 10.000 e-mails na variante A e o mesmo número na variante B. No total, enviaremos 20.000 e-mails. Diante disso, após 24 horas, podemos esperar 750 aberturas de e-mails na variante A e o mesmo número na variante B (total de 1500 em ambos os grupos de teste).
Agora precisamos usar estes dados para determinar qual das variantes – A ou B – é melhor.
Agende uma demonstração gratuita e ganhe 5% de desconto no seu plano anual.
A estatística por trás do Teste A/B
Antes de determinar o resultado do teste A/B para o envio das newsletters vamos entender como funciona um teste estatístico, com o exemplo simples de um cara e coroa!
Em primeiro lugar: Vamos supor que queremos verificar se uma moeda é viciada ou não. Planejamos um experimento, por exemplo, decidimos que jogaremos uma moeda 10 vezes. Contaremos o número de vezes que saiu coroa e o número de vezes que saiu cara. Na próxima etapa, calcularemos a probabilidade de nosso resultado, que obtivemos no experimento, assumindo que a moeda não era viciada. A suposição de que a moeda não é viciada é conhecida como hipótese nula. Vamos comparar a probabilidade calculada com certo número convencional que nos diz o quão improvável deve ser o resultado do nosso experimento, a fim de determinar se a moeda está viciada ou não. Diríamos então que rejeitamos a hipótese nula em favor da chamada “hipótese alternativa”: a moeda é viciada.
Em segundo lugar: significância estatística – este é o número, que nos diz quão improvável deve ser o resultado do nosso experimento, a fim de rejeitar a hipótese nula (0 hipótese) em favor da hipótese alternativa. Por outro lado, isso significa a porcentagem de casos em que vamos determinar erroneamente que a moeda é viciada (hipótese alternativa), quando na verdade ela não é viciada (hipótese nula). Normalmente, são 5%.
Em terceiro lugar: o poder do teste – este é um número que especifica com que frequência percebemos uma moeda viciada, com a suposição de que ela é realmente viciada. Normalmente, são 80%.
O número de tentativas (lançamentos de moedas), a significância estatística e o poder do teste são definidos antes de realizar o experimento!
Um exemplo com uma moeda: planejamos 10 tentativas e também decidimos um determinado nível de significância estatística. Como resultado do experimento, obtivemos 3 coroas em 10 jogadas de moeda. O que podemos dizer sobre essa moeda? Se a moeda não for viciada (hipótese nula), tal resultado ocorre em 12% dos casos. Anteriormente, definimos a significância estatística no nível de 5%, que é um valor inferior. Isso significa que não podemos rejeitar a hipótese nula (a moeda não é viciada) – então reconhecemos que a moeda não é viciada. No entanto, se como resultado do experimento obtivemos apenas 2 coroas em 10 tentativas, calcularemos que a probabilidade de tal resultado para uma moeda não viciada é de apenas 4% e rejeitamos a hipótese nula em favor da hipótese alternativa: a moeda é viciada.
Importante ressaltar que, geralmente, queremos rejeitar a hipótese nula, porque significa a ocorrência de um efeito (por exemplo, a diferença dos e-mails no teste A/B), portanto, ao contrário da vida real, ficamos felizes quando demonstrarmos que nossa moeda é viciada.
Agora que aprendemos a fazer testes estatísticos, vamos voltar à nossa pergunta inicial: qual deve ser o tamanho da amostra (quantas vezes temos que jogar a moeda) para poder determinar no nível de significância estatística se a moeda é viciada ou não?
Tudo depende de quão precisos queremos ser. A capacidade de detectar uma moeda viciada que dá coroa em 99% das tentativas e cara em 1% das tentativas é diferente da capacidade de detectar uma moeda que dá coroa em 60% das tentativas e cara em 40% das tentativas.
No primeiro caso são necessárias apenas 16 tentativas para obter um resultado estatisticamente significativo (ou seja, indicando a rejeição da hipótese nula) em 95% dos experimentos, enquanto, no segundo caso, são necessárias até 369 tentativas.
Como fazer um teste A/B?
Vamos voltar aos testes A/B. Primeiro, queremos determinar quantos e-mails devemos enviar. Para isso, vamos usar uma calculadora de teste A/B.
Como usar calculadora de Teste A/B?
Assim como no exemplo da moeda, onde o tamanho da amostra depende se temos uma moeda para a qual sai coroa em 99% das tentativas e cara em 1% das tentativas, ou uma moeda na qual sai coroa em 60% das tentativas e cabeça em 40% das tentativas; também neste caso precisamos estabelecer a suposição quanto ao efeito esperado.
No nosso caso é a conversão (as visualizações de produtos, adição de produtos ao carrinho de compras, dependendo do que queremos medir). No campo Baseline Conversion rate ou “Taxa de conversão da base”, inserimos a taxa de conversão esperada, com a qual nossas variantes serão comparadas. De onde vem esse valor? É melhor baseá-lo em newsletters anteriores, estudo ou desenvolvimento apresentado no setor. Sugerimos colocá-lo em 10%, que é o valor médio de conversão para os clientes da edrone.
No campo Minimum Detectable Effect ou “Efeito Mínimo Detectável”, inserimos a precisão com a qual nosso teste será capaz de indicar que as versões do teste A/B (variação) diferem do nível da linha de base. Se selecionarmos uma linha de base de 10% e um “Efeito mínimo detectável” em 2%, a taxa de conversão real da variante A será de 10%.
- Se a taxa de conversão real na variante B for inferior a 8% ou superior a 12%, poderemos detectar essas diferenças com nosso teste em 80% dos casos (80% é o poder do teste). Em outras palavras, nosso teste detectou diferenças maiores que 2% com uma eficácia de 80%, assumindo que a taxa de conversão média estará no nível de cerca de 10%.
- Se a taxa de conversão real na variante B estiver na faixa de 8-12%, nosso teste não detectou essa diferença e não permitirá rejeitar a hipótese nula, afirmando que a variante fornecida difere da conversão de linha de base.
- Também é possível que a hipótese B possa ter uma conversão de 10% e que A difira ou não difira em +- 2% dela. A situação é totalmente simétrica.
Outros dados que devem ser observados:
- “Nível de significância α” é o nível de significância que discutimos anteriormente (geralmente definido em 5%). É melhor deixar o valor padrão.
- A opção “Absoluta” / “Relativa” determina se usamos porcentagens ou pontos percentuais (é melhor deixar “Absoluta”).
- “Potência estatística 1-β” é a potência do teste (geralmente 80%). Também é melhor deixar o valor padrão.
Na calculadora, lemos um valor de tamanho de amostra de 1629 por variante de teste. No exemplo que apresentamos no início deste artigo, enviamos 10.000 e-mails por variante e esperamos 750 e-mails abertos por variante após 24 horas. Se nosso teste fosse a conversão de um e-mail aberto para, por exemplo, uma compra, que ocorre com uma taxa média de conversão de 10%, então deveríamos enviar duas vezes mais e-mails!
Neste ponto, poderíamos perguntar por que estamos comparando a taxa de conversão com o nível da linha de base, e não as duas variantes entre si. Por enquanto, ainda não estamos verificando o resultado do teste. A calculadora descrita é usada para calcular o tamanho da amostra e o valor da “Taxa de conversão da linha de base”, que deve ser tratado como o valor médio da conversão das variantes A e B (que não é conhecido no momento do teste, mas contamos com nossa experiência ou conhecimento dos especialistas da edrone).
O que acontece se cometermos um erro em nossa suposição em relação à conversão da linha de base? Suponhamos que o valor real de conversão da variante A seja 15% e o da variante B seja 17%. A conversão média de ambas as versões será de 16% e a diferença 1%. A calculadora indicará um tamanho de amostra de 5352 por variante. Se enviarmos apenas 1629 e-mails por variante, de acordo com nossas suposições, isso significa que nossa precisão será muito baixa para detectar a diferença entre A e B com 80% de chance.
Por outro lado, devemos nos perguntar se precisamos de tal precisão; se as versões diferem em apenas 2% na conversão, com um nível médio de 16%, provavelmente não importa muito qual versão enviaremos eventualmente.
Resultados do Teste A/B
Agora estamos chegando ao cerne da questão. Após planejarmos qual percentual da base de dados enviaremos a newsletter, é hora do envio e dos resultados. Os resultados são coletados no guia Resumo A/B.
Olhando apenas para os números, poderíamos pensar que a criação A está ganhando em relação à criação B. No entanto, quando inserimos os resultados na calculadora de resultados, verificamos que a diferença não é estatisticamente significativa.
Ferramentas de marketing para teste A/B
Alguns sistemas de marketing usados para verificar qual opção é melhor após um período estabelecido (por exemplo, 24 horas) são interrompidos se o teste mostrar que a diferença entre A e B é estatisticamente significativa. Isto é um erro!
Cada execução do teste está associada a um erro específico decorrente do nível de significância estabelecido e do poder do teste. Se realizarmos o teste muitas vezes, até o momento em que obtivemos um resultado estatisticamente significativo, sempre introduziremos um erro que se soma a cada teste.
Isso pode ser comparado a uma situação em que gostaríamos de provar que temos uma moeda que dá cara 30% das vezes e coroa 70% das vezes. Faríamos o teste jogando a moeda e anotando o número de caras e coroas que obtivemos até aquele ponto.
Continuaríamos até que a média de todos os lançamentos fosse realmente 30% de caras e 70% de coroas. Claro, isso não faz sentido. Mesmo que a moeda não seja viciada (é caracterizada por 50% de chance de cair cara e 50% de chance de cair coroa), com certo número de tentativas pode acontecer que os lançamentos resultem em 30% de cara para cima e 70% das coroas para cima.
Verificar a significância do teste, sem decidir se devemos parar ou continuar o teste, não é incorreto, mas é uma perda de tempo, porque não poderíamos usar o conhecimento dos resultados do teste.
No exemplo de teste A/B para o envio de e-mails, a audiência é limitada. A situação é um pouco diferente quando estamos testando, por exemplo, a página inicial, quando novos usuários estão entrando constantemente. Não podemos adicionar novos destinatários depois de enviarmos a correspondência. Isso significa que antes de enviar a mensagem precisamos fazer um cálculo: quantos usuários abrirão nosso e-mail e se esse número é suficiente para avaliar as versões testadas.
O plano de marketing normalmente prevê o envio de vários e-mails em uma semana. Repetir um teste que não terminou com uma conclusão clara pode ser uma perda de tempo. Mas, isso não deve interromper nossas atividades de marketing. É melhor encerrar o teste após 24 horas e realizar o envio independentemente do resultado. Se o teste não terminou com resultados estatisticamente significativos, vamos testar outra mensagem com base nos conhecimentos anteriores.
Também devemos resistir à tentação de interromper o teste muito cedo. Se definirmos um tempo de duração do teste de 24 horas só é possível avaliar os resultados após esse tempo.
Conclusão sobre Teste A/B para e-commerce
Como vimos, o teste A/B é um tópico amplo. A boa notícia é que você não precisa memorizar tudo isso, porque o sistema edrone irá guiá-lo neste processo. Além disso, o algoritmo da edrone sempre indicará o vencedor do teste e verificará se as versões A/B diferem estatisticamente ou não.
Agende uma demonstração gratuita do sistema edrone e adote o teste A/B para melhorar os resultados de marketing da sua loja virtual.
Maciej Mozolewski
Postgraduate studies in Statistical Methods in Business at the University of Warsaw. Since then, he’s been dealing with the issues of artificial intelligence and machine learning.
E-book Automação de Marketing
6 problemas que você pode resolver no seu e-commerce de forma automática!