Estrategia Multicanal

Más de $300,000.00 en ventas con email marketing, SMS y WhatsApp.

Veja o case completo.
Página principalBlogNovidades edrone¿Qué es una prueba A/B y cómo usarla en el marketing de tiendas virtuales?
Homens conferem estatísticas do teste a/b na edrone

¿Qué es una prueba A/B y cómo usarla en el marketing de tiendas virtuales?

Maciej Mozolewski

Mira cómo usar la prueba A/B para mejorar los resultados de marketing de tu tienda en línea con correos electrónicos personalizados.

Una prueba A/B ayuda a tu e-commerce a tomar la decisión correcta al comunicarse con clientes y usuarios. 

Al desarrollar la prueba A/B, se debe considerar el tamaño de la muestra, la conversión esperada, el nivel de significancia estadística y el tiempo de medición. 

Ve en este artículo todo lo que necesitas saber sobre la prueba A/B para mejorar la comunicación de tiendas virtuales, y qué más vale la pena prestar atención al planear y administrar estas pruebas.

¿Qué es una prueba A/B?

La prueba A/B es una herramienta que permite comparar dos versiones de una determinada solución y evaluar cuál trae mejores resultados. Las pruebas pueden aplicarse a los correos electrónicos enviados a los clientes de una tienda virtual, al diseño de las subpáginas del sitio, al texto del botón de pago, a los banners y pop-ups o a la forma en que se presentan los productos en las aplicaciones móviles. 

Ejemplo de mensajes preparados para prueba A/B, que difieren en un detalle en el texto.
Ejemplo de mensajes preparados para prueba A/B, que difieren en un detalle en el texto.

Todo puede ser probado mediante la prueba A/B, siempre que se cumplan ciertos parámetros:

  • Tener un impacto sobre lo que estamos probando (esto es obvio: no tiene sentido probar algo si no podemos introducir los cambios sugeridos después de la prueba).
  • Preparar dos versiones de una determinada solución para nuestros usuarios.
  • Probar solo un aspecto de alguna solución específica (no intentes probar todo a la vez).
  • Presentar cada una de las versiones a grupos comparables de usuarios (¡muy importante!).
  • Medir cuántos usuarios se familiarizan con las variantes individuales (si estamos probando un sitio, es el número de visualizaciones de la variante del sitio en cuestión, en el caso de correos electrónicos, generalmente medimos la tasa de apertura).
  • Medir cuántos reaccionaron de la manera deseada (definida de forma variada, dependiendo del objetivo de las actividades de marketing: pueden ser clics en un enlace, “me gusta”, adición de un producto al carrito de compras, compra o evaluación de un producto después de la compra, entre otros).
  • Aceptar que la prueba A/B es solo una herramienta, que ayuda en nuestro trabajo, pero no nos exime de la decisión final.
Suscríbete a nuestro boletín

¡Apuesta en el conocimiento para desarrollar tu negocio!

O administrador dos seus dados pessoais é a EDRONE BRASIL TECNOLOGIA LTDA. Cuidaremos dos seus dados de contato de acordo com nossa política de privacidade.

Prueba A/B para Email Marketing

Un buen ejemplo de prueba A/B se utiliza para email marketing. En la plataforma edrone seleccionamos COMPROMISOS -> NEWSLETTER A/B y creamos una campaña o seleccionamos una campaña guardada anteriormente; en la sección AJUSTE, seleccionamos el porcentaje de destinatarios a los que se enviarán las variantes A y B. 

En la sección DISEÑO definimos el modelo de los mensajes – por separado para la variante A y B. Luego, como en un boletín normal, determinamos el remitente y, posiblemente, los cupones y el público objetivo.

Panel de control de Prueba A/B para Newsletter en edrone.
Panel de control de Prueba A/B para Newsletter en edrone.

Usamos esta herramienta para probar la tasa media de apertura de un boletín – el porcentaje de clientes que accede a este tipo de contenido – es de alrededor del 10%. Además, nuestra experiencia muestra que el 75% de los usuarios entre los que respondieron al correo electrónico (abrieron el mensaje y/o hicieron clic en el enlace del mensaje), lo hicieron en las primeras 24 horas después del envío. El 25% restante abrió el correo electrónico varios días después del envío.

Número ilustrativo de correos electrónicos abiertos en las primeras 24 horas

Podemos ver claramente el mayor número de boletines abiertos en la fecha de envío y en el segundo día. El mensaje de bienvenida se abre inmediatamente o nunca se abre.

De los hechos anteriores, podemos sacar dos conclusiones muy importantes:

● la prueba debe durar un día (24h) – no vale la pena esperar más.

● 10% * 75% = 7,5% – este es el porcentaje de apertura del boletín que podemos esperar en el segundo día.

¿Cómo calcular los resultados de la Prueba A/B?

Cuando realizamos la prueba, determinamos un valor porcentual, para qué parte de la base de datos se enviará la prueba. Para estimar cuántos correos electrónicos se abrirán hasta que la prueba se complete, los supuestos 7,5% de respuestas obtenidas después de 24 horas deben multiplicarse por el porcentaje de boletines dirigidos a la prueba y por el tamaño de nuestra base de datos.

Supongamos que nuestra base de datos contiene 100 mil correos electrónicos. En AJUSTAR -> “Determina el porcentaje de destinatarios” definimos, por ejemplo, 10% para la variante A y 10% para la variante B (siempre es la elección más segura probar el mismo número para la variante A y la variante B). 

La prueba incluirá: 10% * 100.000 = 10.000 correos electrónicos en la variante A y el mismo número en la variante B. En total, enviaremos 20.000 correos electrónicos. Ante esto, después de 24 horas, podemos esperar 750 aperturas de correos electrónicos en la variante A y el mismo número en la variante B (total de 1500 en ambos grupos de prueba).

Ahora necesitamos usar estos datos para determinar cuál de las variantes – A o B – es mejor. 

¡Transforma tu tienda virtual en una máquina de ventas!

Programa una demostración gratuita y obtén un 5% de descuento en tu plan anual.rnrn

O administrador dos seus dados pessoais é a EDRONE BRASIL TECNOLOGIA LTDA. Cuidaremos dos seus dados de contato de acordo com nossa política de privacidade.

* Información requerida

La estadística detrás de la Prueba A/B

Antes de determinar el resultado de la prueba A/B para el envío de los boletines vamos a entender cómo funciona una prueba estadística, con el ejemplo simple de cara y cruz!

En primer lugar: Supongamos que queremos verificar si una moneda está cargada o no. Planeamos un experimento, por ejemplo, decidimos que lanzaremos una moneda 10 veces. Contaremos el número de veces que salió cruz y el número de veces que salió cara. En la siguiente etapa, calcularemos la probabilidad de nuestro resultado, que obtuvimos en el experimento, asumiendo que la moneda no estaba cargada. La suposición de que la moneda no está cargada es conocida como hipótesis nula. Compararemos la probabilidad calculada con cierto número convencional que nos dice cuán improbable debe ser el resultado de nuestro experimento, a fin de determinar si la moneda está cargada o no. Diríamos entonces que rechazamos la hipótesis nula en favor de la llamada “hipótesis alternativa”: la moneda está cargada.

En segundo lugar: significancia estadística – este es el número que nos dice cuán improbable debe ser el resultado de nuestro experimento, a fin de rechazar la hipótesis nula (0 hipótesis) en favor de la hipótesis alternativa. Por otro lado, esto significa el porcentaje de casos en los que vamos a determinar erróneamente que la moneda está cargada (hipótesis alternativa), cuando en realidad no está cargada (hipótesis nula). Normalmente, son 5%.

En tercer lugar: el poder de la prueba – este es un número que especifica con qué frecuencia percibimos una moneda cargada, con la suposición de que realmente está cargada. Normalmente, son 80%.

El número de intentos (lanzamientos de monedas), la significancia estadística y el poder de la prueba se definen antes de realizar el experimento!

Un ejemplo con una moneda: planeamos 10 intentos y también decidimos un determinado nivel de significancia estadística. Como resultado del experimento, obtuvimos 3 cruces en 10 lanzamientos de moneda. ¿Qué podemos decir sobre esta moneda? Si la moneda no está cargada (hipótesis nula), tal resultado ocurre en el 12% de los casos. Anteriormente, definimos la significancia estadística en el nivel del 5%, que es un valor inferior. Esto significa que no podemos rechazar la hipótesis nula (la moneda no está cargada) – entonces reconocemos que la moneda no está cargada. Sin embargo, si como resultado del experimento obtuvimos solo 2 cruces en 10 intentos, calcularemos que la probabilidad de tal resultado para una moneda no cargada es de solo el 4% y rechazamos la hipótesis nula en favor de la hipótesis alternativa: la moneda está cargada.

Es importante resaltar que, generalmente, queremos rechazar la hipótesis nula, porque significa la ocurrencia de un efecto (por ejemplo, la diferencia de los correos electrónicos en la prueba A/B), por lo tanto, a diferencia de la vida real, nos alegramos cuando demostramos que nuestra moneda está cargada.

Ahora que aprendimos a hacer pruebas estadísticas, volvamos a nuestra pregunta inicial: ¿cuál debe ser el tamaño de la muestra (cuántas veces tenemos que lanzar la moneda) para poder determinar en el nivel de significancia estadística si la moneda está cargada o no? 

Todo depende de cuán precisos queremos ser. La capacidad de detectar una moneda cargada que da cruz en el 99% de los intentos y cara en el 1% de los intentos es diferente de la capacidad de detectar una moneda que da cruz en el 60% de los intentos y cara en el 40% de los intentos. 

En el primer caso se necesitan solo 16 intentos para obtener un resultado estadísticamente significativo (es decir, indicando el rechazo de la hipótesis nula) en el 95% de los experimentos, mientras que, en el segundo caso, se necesitan hasta 369 intentos.

¿Cómo hacer una prueba A/B?

Volvamos a las pruebas A/B. Primero, queremos determinar cuántos correos electrónicos debemos enviar. Para ello, vamos a usar una calculadora de prueba A/B. 

Calculadora de tamaño real de la muestra en una prueba A/B.
Calculadora de tamaño real de la muestra en una prueba A/B. Fuente 

¿Cómo usar la calculadora de Prueba A/B?

Así como en el ejemplo de la moneda, donde el tamaño de la muestra depende si tenemos una moneda para la cual sale cruz en el 99% de los intentos y cara en el 1% de los intentos, o una moneda en la cual sale cruz en el 60% de los intentos y cara en el 40% de los intentos; también en este caso necesitamos establecer la suposición respecto al efecto esperado. 

En nuestro caso es la conversión (las visualizaciones de productos, adición de productos al carrito de compras, dependiendo de lo que queremos medir). En el campo Tasa de conversión base, ingresamos la tasa de conversión esperada, con la cual nuestras variantes serán comparadas. ¿De dónde viene este valor? Es mejor basarlo en boletines anteriores, estudio o desarrollo presentado en el sector. Sugerimos ponerlo en 10%, que es el valor medio de conversión para los clientes de edrone.

En el campo Efecto Mínimo Detectable, ingresamos la precisión con la cual nuestra prueba será capaz de indicar que las versiones de la prueba A/B (variación) difieren del nivel de la línea base. Si seleccionamos una línea base del 10% y un “Efecto mínimo detectable” del 2%, la tasa de conversión real de la variante A será del 10%.

  • Si la tasa de conversión real en la variante B es inferior al 8% o superior al 12%, podremos detectar estas diferencias con nuestra prueba en el 80% de los casos (80% es el poder de la prueba). En otras palabras, nuestra prueba detectó diferencias mayores que el 2% con una eficacia del 80%, asumiendo que la tasa de conversión media estará en el nivel de alrededor del 10%.
  • Si la tasa de conversión real en la variante B está en el rango del 8-12%, nuestra prueba no detectó esta diferencia y no permitirá rechazar la hipótesis nula, afirmando que la variante proporcionada difiere de la conversión de línea base.
  • También es posible que la hipótesis B pueda tener una conversión del 10% y que A difiera o no difiera en +- 2% de ella. La situación es totalmente simétrica.

Otros datos que deben ser observados:

  1.  “Nivel de significancia α” es el nivel de significancia que discutimos anteriormente (generalmente definido en 5%). Es mejor dejar el valor predeterminado.
  2. La opción “Absoluta” / “Relativa” determina si usamos porcentajes o puntos porcentuales (es mejor dejar “Absoluta”).
  3. “Potencia estadística 1-β” es la potencia de la prueba (generalmente 80%). También es mejor dejar el valor predeterminado.

En la calculadora, leemos un valor de tamaño de muestra de 1629 por variante de prueba. En el ejemplo que presentamos al inicio de este artículo, enviamos 10.000 correos electrónicos por variante y esperamos 750 correos electrónicos abiertos por variante después de 24 horas. Si nuestra prueba fuera la conversión de un correo electrónico abierto para, por ejemplo, una compra, que ocurre con una tasa media de conversión del 10%, entonces deberíamos enviar el doble de correos electrónicos!

En este punto, podríamos preguntar por qué estamos comparando la tasa de conversión con el nivel de la línea base, y no las dos variantes entre sí. Por ahora, aún no estamos verificando el resultado de la prueba. La calculadora descrita se utiliza para calcular el tamaño de la muestra y el valor de la “Tasa de conversión de línea base”, que debe ser tratado como el valor medio de conversión de las variantes A y B (que no se conoce en el momento de la prueba, pero contamos con nuestra experiencia o conocimiento de los especialistas de edrone).

¿Qué pasa si cometemos un error en nuestra suposición respecto a la conversión de línea base? Supongamos que el valor real de conversión de la variante A es del 15% y el de la variante B es del 17%. La conversión media de ambas versiones será del 16% y la diferencia del 1%. La calculadora indicará un tamaño de muestra de 5352 por variante. Si enviamos solo 1629 correos electrónicos por variante, de acuerdo con nuestras suposiciones, esto significa que nuestra precisión será muy baja para detectar la diferencia entre A y B con un 80% de probabilidad. 

Por otro lado, debemos preguntarnos si necesitamos tal precisión; si las versiones difieren en solo un 2% en la conversión, con un nivel medio del 16%, probablemente no importa mucho qué versión enviaremos eventualmente.

Resultados de la Prueba A/B

Ahora estamos llegando al meollo de la cuestión. Después de planear qué porcentaje de la base de datos enviaremos el boletín, es hora del envío y de los resultados. Los resultados se recopilan en la guía Resumen A/B. 

Resultados de una prueba A/B en el sistema edrone.
Resultados de una prueba A/B en el sistema edrone.

Mirando solo los números, podríamos pensar que la creación A está ganando en relación a la creación B. Sin embargo, cuando ingresamos los resultados en la calculadora de resultados, verificamos que la diferencia no es estadísticamente significativa.

Herramientas de marketing para prueba A/B

Algunos sistemas de marketing utilizados para verificar cuál opción es mejor después de un período establecido (por ejemplo, 24 horas) se interrumpen si la prueba muestra que la diferencia entre A y B es estadísticamente significativa. ¡Esto es un error! 

Cada ejecución de la prueba está asociada a un error específico derivado del nivel de significancia establecido y del poder de la prueba. Si realizamos la prueba muchas veces, hasta el momento en que obtuvimos un resultado estadísticamente significativo, siempre introduciremos un error que se suma a cada prueba. 

Esto puede compararse a una situación en la que quisiéramos probar que tenemos una moneda que da cara el 30% de las veces y cruz el 70% de las veces. Haríamos la prueba lanzando la moneda y anotando el número de caras y cruces que obtuvimos hasta ese punto. 

Continuaríamos hasta que la media de todos los lanzamientos fuera realmente del 30% de caras y del 70% de cruces. Claro, esto no tiene sentido. Incluso si la moneda no está cargada (se caracteriza por un 50% de probabilidad de caer cara y un 50% de probabilidad de caer cruz), con cierto número de intentos puede suceder que los lanzamientos resulten en un 30% de cara hacia arriba y un 70% de cruces hacia arriba. 

Verificar la significancia de la prueba, sin decidir si debemos detenernos o continuar la prueba, no es incorrecto, pero es una pérdida de tiempo, porque no podríamos usar el conocimiento de los resultados de la prueba.

En el ejemplo de prueba A/B para el envío de correos electrónicos, la audiencia es limitada. La situación es un poco diferente cuando estamos probando, por ejemplo, la página de inicio, cuando nuevos usuarios están entrando constantemente. No podemos agregar nuevos destinatarios después de enviar la correspondencia. Esto significa que antes de enviar el mensaje necesitamos hacer un cálculo: cuántos usuarios abrirán nuestro correo electrónico y si ese número es suficiente para evaluar las versiones probadas.

El plan de marketing normalmente prevé el envío de varios correos electrónicos en una semana. Repetir una prueba que no terminó con una conclusión clara puede ser una pérdida de tiempo. Pero, esto no debe interrumpir nuestras actividades de marketing. Es mejor cerrar la prueba después de 24 horas y realizar el envío independientemente del resultado. Si la prueba no terminó con resultados estadísticamente significativos, vamos a probar otro mensaje basado en los conocimientos anteriores.

También debemos resistir la tentación de interrumpir la prueba muy pronto. Si definimos un tiempo de duración de la prueba de 24 horas, solo es posible evaluar los resultados después de ese tiempo.

Conclusión sobre la Prueba A/B para e-commerce

Como hemos visto, la prueba A/B es un tema amplio. La buena noticia es que no necesitas memorizar todo esto, porque el sistema edrone te guiará en este proceso. Además, el algoritmo de edrone siempre indicará al ganador de la prueba y verificará si las versiones A/B difieren estadísticamente o no. 

Programa una demostración gratuita del sistema edrone y adopta la prueba A/B para mejorar los resultados de marketing de tu tienda virtual.

Maciej Mozolewski

Maciej Mozolewski

Postgraduate studies in Statistical Methods in Business at the University of Warsaw. Since then, he’s been dealing with the issues of artificial intelligence and machine learning.