¿Por qué no marcar con colores o iconos la escala de NPS en las encuestas?
Recientemente mientras hablaba con una directora de Proyecto acerca de la implementación de un Programa VOC, me comentó que uno de las prácticas más comunes en la que se incurre a la hora de presentar una encuesta, es colorear la escala de NP

Recientemente mientras hablaba con una directora de Proyecto acerca de la implementación de un Programa VOC, me comentó que uno de las prácticas más comunes en la que se incurre a la hora de presentar una encuesta, es colorear la escala de NPS o CSAT, y que esto pueda afectar el resultado.
Fue por eso que decidimos desde el blog de WOW! investigar a fondo y descubrir que tanto es recomendable o no, colorear o agregar iconos a la hora de enviar una encuesta de satisfacción de cliente.
El problema es que algunas personas que gestionan las encuestas NPS presentan ahora este esquema visual a los clientes que realizan sus encuestas, lo que probablemente sesgue las respuestas.
Aquí está otro ejemplo:
Lo que destaca aquí es el código de colores de la escala numérica. No se debería hacer una codificación por colores de la escala. Porque esto señala a los encuestados qué números se consideran buenos, cuales puntúan la recomendación e identifica los números malos o de detracción. En su lugar, los encuestados deberían centrarse en la idea de recomendar y en el continuo completo en el que pueden responder. (sin discriminar por color).
Este ejemplo también ilustra otros problemas y errores en el uso del NPS. En primer lugar, esta escala utiliza del uno al diez, en lugar del cero al diez, lo que probablemente infla el NPS. En segundo lugar (y debido a que va de uno a diez) no hay un punto medio neutral. Tercero, las etiquetas del texto son incorrectas, y hay buenas razones para etiquetar los puntos finales exactos con un lenguaje más extremo que "muy". En cuarto lugar, no debería haber una opción de "no sabe" o NA porque los encuestados que no pueden responder a esta pregunta no deberían recibir la pregunta en absoluto.
Leyenda: Figura 1: Ejemplo de una escala de 11 puntos coloreada, que corresponde probablemente a la puntuación "neta".
La figura 1 muestra un ítem de satisfacción de 11 puntos, pero basándose en los colores, es probable que las respuestas sin procesar se puntúen utilizando el mismo esquema de puntuación "neta" que se utiliza en el Net Promoter Score. Según este esquema, las dos casillas superiores se consideran satisfechas (similares a los promotores), los 7 y 8 son neutrales, y todo lo que sea 6 e inferior es insatisfecho (similar a un detractor).
Los colores utilizados aquí también señalan al encuestado qué respuestas se consideran buenas (verde), cuáles son malas (rojo) y cuáles están en el medio (amarillo).
Esto puede ayudar a los encuestados a responder más fácilmente a la escala, pero ¿Qué hace en las respuestas?
Figura 2: Adaptaciones de dos variaciones de la escala de colores a las que respondieron los participantes en Tourangeau et al. (2007).
Lee también: Gracias Guía: Qué es y cómo se mide el eNPS o Employee Net Promoter Score
Figura 3a: Una variante estándar sin color del ítem Posibilidad de Recomendación.
Figura 3b: Una variante de degradado del ítem Probabilidad de Recomendación.
Figura 3c: Una variante en tres colores del ítem Probabilidad de Recomendación.
Figura 4: Diferencia en los patrones de respuesta para las respuestas agregadas para las variaciones de degradado, de tres colores y sin color del ítem de Probabilidad de Recomendar.
Mira también: Por qué la retención de clientes es el mejor indicador del éxito
Para el ítem de satisfacción, vemos un patrón similar al del ítem NPS (Figura 5). El porcentaje de los que seleccionan las respuestas menos favorables (0 a 6) disminuye ligeramente cuando se muestran las dos variantes de color (21% y 20% frente a 25%).
Figura 5: Diferencia en los patrones de respuesta de cada una de las nueve marcas para las variaciones de degradado, de tres colores y sin color del ítem de satisfacción.
Si se observan las diferencias dentro de las nueve marcas (figura 6), se observa menos patrón. La variación sin color tiende a tener puntuaciones más bajas en algunas marcas (por ejemplo, Amazon, Walmart), pero no en todas (en el caso de Southwest, el desnivel fue el más bajo).
Figura 6: Diferencia en los patrones de respuesta para cada una de las nueve marcas para las variaciones de degradado, tricolor y sin color del ítem Probabilidad de Recomendar. Las barras de error son intervalos de confianza del 90%. escala de NPS
En el caso de la satisfacción, el patrón es menor. La versión sin color tiende a ser inferior a una o a las dos versiones con color en algunas marcas, pero no en todas; en dos casos (Southwest y Home Depot) es nominalmente la más alta.
Figura 7: Diferencia en los patrones de respuesta de cada una de las nueve marcas para las variaciones de gradiente, tricolor y sin color del ítem de satisfacción. Las barras de error son intervalos de confianza del 90%.
Los resultados del Estudio de la escala de NPS sugieren que la adición de color puede tener un pequeño efecto de reducción de las respuestas detractoras, pero sólo cuando los resultados se agregan entre los participantes y entre las marcas. Sin embargo, el tamaño de las muestras en la configuración entre sujetos era relativamente modesto y sólo lo suficientemente grande como para detectar diferencias de tamaño medio.
Figura 8: Diferencia en los patrones de conducta de las respuestas agregadas para las variaciones de tres colores y sin colores del ítem Probabilidad de Recomendación. escala de NPS
También se observa un patrón similar con el ítem de satisfacción. El porcentaje de los menos satisfechos se reduce en el grupo de los tres colores (15% frente al 11%) y aumentan los que declaran una mayor satisfacción (47% para los tres colores y 45% para los sin colores).
Figura 9: Diferencia en los patrones de reacción para las respuestas agregadas para las variaciones de tres colores y sin colores del ítem de satisfacción.
La figura 10 muestra las diferencias entre las marcas para el ítem Probabilidad de Recomendación. En general, la versión de tres colores tuvo medias ligeramente más altas (entre 1% y 3%) y la diferencia (utilizando una prueba t por pares) fue estadísticamente significativa para Target (p = 0,04) y Home Depot (p < 0,01).
Figura 10: Diferencias en las puntuaciones medias de Probabilidad de Recomendación entre las versiones de tres colores y sin colores. Las diferencias entre Target y Home Depot fueron estadísticamente significativas (p < 0,05). escala de NPS
La figura 11 muestra las diferencias entre las marcas para el ítem de satisfacción de 11 puntos. Una vez más, la versión de tres colores tuvo medias ligeramente superiores (entre el 1% y el 2%). La diferencia (mediante una prueba t pareada) sólo fue estadísticamente significativa en el caso de Target (p = 0,03).
Figura 11: Diferencias en las puntuaciones medias de satisfacción entre las versiones con tres colores y sin colores. Las diferencias del blanco fueron estadísticamente significativas (p < 0,05).
Cuadro 1: Cambio de las 518 respuestas de las cuatro marcas de la versión sin color a la versión con tres colores. En general, se observa un ligero cambio hacia respuestas más positivas (compensado en cierta medida por algunos cambios hacia respuestas más negativas).
¿Por qué no colorear la escala de NPS?
Según algunas investigaciones, colorear la escala de NPS no es recomendable. Acá se explica con un gráfico:

¿Cuándo aplicar colores a las escalas de NPS?
La visualización con código de colores es ideal para el análisis y la elaboración de informes. Porque Ayuda a los directivos a entender la mecánica del NPS. Pero mostrárselo a los encuestados es un gran error. Crea un sesgo en la medición, lo que anula el propósito de hacer un seguimiento de la satisfacción del cliente.¿Influyen los colores de las categorías en las respuestas?
Las opciones de respuesta de las encuestas tienen todo tipo de formas, tamaños y, ahora, colores. El número de puntos, la adición de etiquetas, el uso de números y la utilización de un tono positivo o negativo son factores que pueden manipularse. Estos cambios también pueden afectar a las respuestas, a veces modestamente, y a veces mucho. Existe cierta preocupación por el hecho de que las escalas de respuestas largas (más de tres puntos) son difíciles de responder para la gente. Por ejemplo, de acuerdo a una investigación de Measuring U, se pudo concluir, que existe apoyo a que las escalas cortas se perciben como más fáciles que las largas (cuando los participantes están obligados a elegir). Sin embargo, la misma investigación determinó, que no hay ninguna diferencia en el tiempo de respuesta entre las escalas de 3 y 11 puntos. En realidad, los participantes preferían tener más puntos para captar adecuadamente sus sentimientos hacia una pregunta en una encuesta. También se descubrió que al utilizar escalas de 3 puntos se pierde demasiada información, ya que no hay forma de diferenciar entre los que responden de forma ambigua y los que responden de forma extrema. Así que hay buenas razones para utilizar escalas con más puntos. Una alternativa que utilizan algunos diseñadores de encuestas para facilitar las escalas multipunto más largas, es dividirlas en colores. En la Figura 1 se muestra un ejemplo de una encuesta sobre concesionarios de automóviles (proporcionada en línea por Adam Rawmshaw).
Investigación sobre los colores de las escalas
Algunos artículos en línea recomiendan no utilizar escalas de colores. Por ejemplo, Joe Hopper recomienda no colorear las escalas, como las utilizadas en el ítem Net Promoter Score, porque sesgaría las respuestas. Sin embargo, no proporcionó datos sobre esta recomendación. Un artículo de Insightrix sugiere que los encuestados pueden percibir las escalas coloreadas como más severas y dar calificaciones más moderadas. En otro estudio, esta vez de Tourangeau et al. (2007), que es citado por Measuring U, ofrece algunos datos interesantes: Los autores sostienen que los encuestados utilizan una serie de heurísticos (atajos mentales) cuando responden a las escalas. Para ver cómo el cambio de color y de tonalidad de los colores (de oscuro a claro) afecta a las respuestas, realizaron dos experimentos.
Asignación de un panel online con sede en Estados Unidos
En dos estudios, los autores asignaron aleatoriamente a unos 2.500 participantes de un panel online con sede en Estados Unidos a una de las ocho condiciones de la escala que variaban el color, el tono, las etiquetas y los números. Dos de las condiciones de las escalas se muestran en la Figura 2. Esta configuración permitió a los autores investigar los efectos de interacción entre el color y otros factores de la escala. Los participantes respondieron a preguntas sobre actitudes generales y estilos de vida utilizando ítems con anclajes de etiquetas de favor/oposición y frecuencia. Descubrieron que el sombreado de las opciones de respuesta tenía un efecto pequeño, pero estadísticamente significativo. Cuando los puntos finales de la escala estaban sombreados en diferentes tonos, las respuestas tendían a desplazarse hacia el extremo superior de la escala (normalmente entre 0,1 y 0,2 puntos en una escala de siete puntos). Curiosamente, descubrieron que este pequeño efecto desaparecía cuando los puntos estaban totalmente etiquetados y, en general, sólo era detectable cuando se agregaban los ítems entre sí (las diferencias no eran estadísticamente significativas a nivel de ítems individuales), y no encontraron ninguna diferencia en los tiempos de respuesta por los cambios en el tono y el color. En resumen, encontraron un pequeño efecto, pero ofuscado por los efectos mayores del etiquetado. Para comprender mejor cómo el color puede afectar a las escalas de probabilidad de recomendación y satisfacción de 11 puntos, más utilizadas, se realizaron dos estudios propios:


Resultados del estudio 1
A partir de los resultados del estudio de Tourangeau et al. (2007), primero se agregaron todas las respuestas (de modo que, si una persona opinó sobre cinco marcas, sus puntuaciones se incluyeron cinco veces). En la figura 4 se muestran los resultados agregados de los participantes y las marcas. Ambas variantes de color tuvieron un número ligeramente inferior de detractores en comparación con el grupo estándar sin color (26% y 24% frente al 32% respectivamente). Nota: Como los datos de las mismas personas se utilizan varias veces dentro de cada categoría, se incumple el supuesto de independencia utilizado en la mayoría de las pruebas estadísticas, por lo que se realizaron las pruebas estadísticas sólo en el análisis a nivel de marca.



Resultados del estudio 2
En la figura 8 se muestran los resultados agregados de los participantes y las marcas para la puntuación neta de los promotores. Como se vio en el Estudio 1, la escala de respuesta de tres colores tiene el efecto de reducir ligeramente el número de detractores en comparación con el grupo estándar sin colores (21% frente a 18%) y, en este caso, de aumentar el número de promotores (51% de los de tres colores y 47% de los sin colores).



Ligero cambio positivo
Para entender mejor la causa del cambio en las puntuaciones medias, observamos el número de participantes que cambiaron de categoría cuando se utilizó la escala de tres colores para el ítem Probabilidad de recomendar. En total, obtuvimos 518 respuestas de los 184 participantes de las cuatro marcas y las dos variantes de la escala. La tabla de la escala de NPS 1 muestra que hay cambios entre todas las categorías (era de esperar que hubiera algún movimiento sólo por casualidad), pero el mayor movimiento es de negativo a positivo: de detractores a pasivos (17) y de pasivos a promotores (15). Esto se compensa con la mitad de movimientos de pasivos a detractores, pero sigue siendo suficiente para ver un modesto cambio en las puntuaciones al alza. También se observa un patrón similar en la escala de satisfacción.