El estudio de Jakob Nielsen y su artículo del año 2000
El gurú de la usabilidad Jakob Nielsen, ya jubilado, escribió en el año 2000 un famosísimo artículo que tuvo una enorme repercusión en el ámbito de la usabilidad.
Considero que este artículo ha sido excesivamente simplificado y mal interpretado en muchas ocasiones. Yo mismo he caído en esta interpretación simplista en alguna ocasión.
Como consecuencia, durante décadas se ha extendido la idea de que, para realizar un test de usabilidad con personas usuarias, son suficientes 5 personas.
El título del artículo de Nielsen tampoco ayuda a desmontar esta idea: “Why You Only Need to Test with 5 Users”.
Sin embargo, realizando una lectura cuidadosa del artículo, se extraen matices importantes.
En primer lugar, debemos situarnos en el contexto histórico del año en que se escribió el artículo. Han pasado más de 25 años desde entonces. La usabilidad era un concepto poco conocido. Aún no existía el concepto de experiencia de usuario (UX). Los pioneros como Nielsen, que evangelizaban sobre usabilidad en aquellos años, se enfrentaban al desconocimiento de la mayoría de los clientes sobre sus beneficios, y se consideraba, por muchos, que invertir en usabilidad era caro y complejo.
Por ello, Nielsen comienza el artículo afirmando que “algunas personas creen que la usabilidad es muy costosa y compleja, y que las pruebas de usuario deberían reservarse para los pocos proyectos de diseño web con un gran presupuesto”.
La primera intención de Jakob con su artículo es combatir la idea de que los estudios de usabilidad son caros, demostrando que, en la mayoría de los casos, con 5 usuarios se pueden detectar alrededor del 85 % de los problemas de usabilidad.
Estos datos se basan en una de las escasísimas investigaciones empíricas realizadas sobre el tema: un estudio publicado por Tom Landauer y el propio Jakob Nielsen en 1993 1.
En dicho estudio, la curva que representa cómo evoluciona el porcentaje de problemas de usabilidad detectados a medida que aumenta el número de personas usuarias es una curva de rendimientos decrecientes o curva de saturación.
Esto se debe a que, conforme se añaden más usuarios, se aprende menos, ya que se observan las mismas incidencias una y otra vez.
Pero profundicemos algo más en los resultados del estudio de Nielsen: para localizar el 100 % de los problemas de usabilidad, necesitamos tan solo 15 personas usuarias. Y aquí es donde aparece la segunda idea importante del artículo. Si se dispone del presupuesto para hacer una prueba con 15 personas, es mejor invertir ese dinero en 3 pruebas con 5 usuarios en diferentes momentos del desarrollo que en una única prueba con 15 personas. Es decir, es preferible evolucionar el producto de forma iterativa, como proponen las metodologías ágiles de desarrollo de software: solucionar los problemas detectados en una primera iteración, realizar una nueva prueba, corregir, y así sucesivamente.
Incluso en el artículo de 2000, Jakob defiende que hay casos en los que conviene realizar pruebas con más de 5 usuarios. En concreto, cuando los perfiles de usuarios son muy diferentes. Por ejemplo, un sitio web que es utilizado tanto por madres y padres como por niñas y niños.
Conclusiones del artículo del año 2000 de Jakob Nielsen
- Con 5 usuarios, casi siempre se alcanza la relación coste-beneficio óptima.
- Jakob pretendía combatir la idea de que los estudios de usabilidad son caros.
- Es mejor invertir el dinero en 3 pruebas con 5 usuarios que en una sola prueba con 15.
Llegados a este punto, basarnos en un único estudio publicado en 1993 quizá no sea lo más adecuado para la realidad actual, 30 años después, en la que las interfaces tecnológicas son mucho más complejas y ricas en funcionalidades.
Estudio de Laura Faulkner de 2003
No mucho después del artículo de Nielsen, la investigadora Laura Faulkner publicó en 2003 un estudio 2 de campo realizado en el Applied Research Laboratories de la Universidad de Texas en Austin.
Actualmente, Laura Faulkner es doctora en Psicología Experimental en experiencia de usuario y Head of AWS UX Research en Amazon Web Services.
Sin embargo, por alguna razón... 🤔, el estudio de Faulkner apenas se conoce. Veamos lo que averiguó.
Realizó pruebas de usabilidad con muestras de diferentes tamaños: 5, 10, 20, 30, 40, 50 y 60 usuarios.
Resultados clave
Con 5 usuarios:
- Alta variabilidad y baja fiabilidad.
- Se detectaron entre el 55 % y el 99 % de los problemas, dependiendo de la muestra.
- Media: se detectó el 85 % de los problemas.
Con 10 usuarios:
- Mínimo: 82 % de los problemas.
- Media: 95 %, con menor desviación estándar.
Con 20 usuarios:
- Todas las muestras detectaron al menos el 95 % de los problemas.
Faulkner concluye que el número de usuarios debe ajustarse al contexto. Aumentar el tamaño de muestra mejora significativamente la confiabilidad y validez de los resultados. Sugiere usar el máximo número de participantes que el presupuesto y la logística permitan.
Aunque 5 usuarios pueden ser suficientes en algunos casos, existe un riesgo considerable de pasar por alto problemas importantes.
Este estudio ofrece una crítica sólida al uso rígido de la regla de los 5 usuarios y apoya un enfoque más flexible y basado en la evidencia.
Artículo de Jakob Nielsen de 2012
En 2012, Jakob Nielsen escribe un nuevo artículo en el que:
- Añade excepciones a la regla de los 5 usuarios.
- Rebaten algunos argumentos a favor de usar más participantes.
Veamos primero las excepciones:
- Estudios cuantitativos: Un test de usuarios es una prueba cualitativa. Para comprobar hipótesis cuantitativas, se requieren al menos 20 usuarios para obtener datos estadísticamente significativos.
- Card sorting: Para un card sorting recomienda al menos 15 usuarios por grupo.
- Eyetracking: Para obtener mapas de calor significativos, se requieren al menos 39 usuarios.
También rebate argumentos que considera débiles a favor de usar más de 5 usuarios:
- "Nuestra web tiene millones de usuarios": La evaluación de la calidad de un elemento de diseño es independiente de cuántas personas lo usen. Por el contrario, la decisión de corregir un fallo de diseño debe considerar su uso: podría no valer la pena mejorar una funcionalidad con pocos usuarios; es mejor dedicar el esfuerzo a solucionar algo con millones de usuarios.
- "Nuestra web tiene cientos de funcionalidades": Este es un argumento a favor de ejecutar varias pruebas diferentes, cada una centrada en un conjunto más reducido de características, no de tener más usuarios en cada prueba. No se puede pedir a nadie que pruebe más de unas pocas tareas antes de que el usuario se canse. Sí, se necesitarán más usuarios en general para un diseño rico en características, pero es necesario distribuirlos en varios estudios, cada uno centrado en un subconjunto de la agenda de investigación.
- "Nuestra web tiene varios públicos distintos": Esta puede ser una razón válida para probar con un conjunto de usuarios más amplio, ya que se necesitarán representantes de cada grupo objetivo. Sin embargo, este argumento solo es válido si los distintos usuarios se comportan de maneras completamente distintas. Ejemplos válidos serían un sitio web dirigido tanto a médicos como a pacientes o una aplicación de subastas donde se pueden vender y comprar cosas.
- "Nuestra web genera muchos ingresos, por lo tanto, cualquier error es inaceptable": Incluso los proyectos de diseño de mayor valor optimizarán su ROI manteniendo cada estudio pequeño y realizando muchos más estudios de los que un proyecto de menor valor podría permitirse.
Conclusiones
Las conclusiones que extraigo después de analizar lo que afirman estas voces autorizadas en el campo de la investigación UX son las siguientes:
- Realiza pruebas de usabilidad con el máximo número de participantes que el presupuesto permita, con un máximo de 20 usuarios por cada público objetivo.
- Si el presupuesto es limitado, realiza pruebas con un mínimo de 5 usuarios por cada grupo objetivo.
- Mejor realizar varias pruebas con 5 usuarios que una única prueba con muchos usuarios.
No obstante, para establecer criterios más sólidos y científicos sobre cuántas personas usuarias son necesarias para un test de usabilidad, sería preciso realizar más investigaciones y publicar estudios rigurosos que permitan llegar a conclusiones avaladas por la ciencia.
-
Nielsen, Jakob, y Landauer, Thomas K.: "Un modelo matemático para la detección de problemas de usabilidad", Actas de la Conferencia ACM INTERCHI'93 (Ámsterdam, Países Bajos, 24-29 de abril de 1993), págs. 206-213. ↩
-
Faulkner, L. Beyond the five-user assumption: Benefits of increased sample sizes in usability testing. Behavior Research Methods, Instruments, & Computers 35, 379–383 (2003). ↩