Aktueller Newsletter


Zum Newsletter anmelden

Wie viele Testpersonen werden für einen Usability Test benötigt?

Autor: Isabel Skiba


Die meisten Usability Tests zielen darauf ab, Usability Schwachstellen aufzudecken und wenn möglich, nach Schweregrad zu bewerten. Testpersonen und der Aufwand, der bei einem Usability Test pro Testperson entsteht, sind teuer und doch das wichtigste Gut in der Usability Testung. Doch wie viele Testpersonen sind überhaupt nötig um gewinnbringende Ergebnisse zu erzielen? Eine allgemeingültige Antwort auf diese Frage scheint es nicht zu geben. Denn nicht nur die Anzahl der Testpersonen, sondern auch andere Faktoren beeinflussen die Ergebnisse eines Usability Tests.


Benutzergruppen

Zunächst sollte bei der Auswahl der Testpersonen darauf geachtet werden, alle potentiellen Benutzergruppen abzudecken. Das ergibt sich schon alleine aus der Überlegung heraus, dass unterschiedliche Benutzergruppen die Software und Website auf ganz unterschiedliche Art und Weisen nutzen. Dabei ist ein Zusammenhang zwischen Benutzergruppe und Use Cases zu erkennen. Unterschiedliche Benutzergruppen korrelieren oft mit unterschiedlichen Use Cases. Investoren werden sich vielleicht für den Aktienkurs interessieren, während sich Kunden eher für das Produkt interessieren. Es bietet sich dementsprechend an getrennte Tests für jede Benutzergruppe durchzuführen. Man erzielt so aussagekräftigere Ergebnisse.


Die Testpersonen

Testpersonen, auch wenn aus derselben Nutzergruppe, unterscheiden sich oft stark voneinander. Manche stoßen vielleicht auf sehr viele Fehler, während andere nur sehr wenige entdecken. So kommt es zustande, dass mit manchen Testpersonen-Samples nahezu alle Fehler entdeckt werden, während mit anderen nur ein kleiner Anteil der Fehler gefunden wird. Je weniger Testpersonen wir testen, desto größere Abweichungen ergeben sich bezogen auf die gefundene Gesamtfehleranzahl. Bei Gruppen aus fünf Testpersonen ist die Varianz noch sehr groß. Verdoppelt man die Testpersonenanzahl auf 10 erreicht man schon sehr viel sicherer den angestrebten Wert. Abweichungen werden hier seltener.

In einer qualitativen Studie mit 100 verschiedenen Testpersonengruppen wurde genau dieser Zusammenhang gefunden (Faulkner). Bei Tests mit jeweils fünf Personen entdeckten einige Gruppen 86% der Fehler, während andere nur 55% erreichten. Gruppen mit jeweils 10 Testpersonen fanden dagegen immer mindestens 82% der Fehler. Waren es 20 Testpersonen war der niedrigste Wert sogar 95%. Je höher also die Testpersonenanzahl, desto sicherer werden alle Fehler entdeckt. Wie an den Zahlen zu erkennen ist, ergibt sich dabei allerdings ein asymptotischer Verlauf, sodass weitere Testpersonen immer weniger Mehrwert bringen.


Eine Formel für die Berechnung der optimalen Testpersonenanzahl

Anhand einer Formel von Nielsen und Landauer kann die nötige Testpersonenzahl in Abhängigkeit von der Wahrscheinlichkeit einen Fehler zu entdecken berechnet werden.

Die Formel beruht auf der Annahme, dass Fehler mit einer Wahrscheinlichkeit von 31% entdeckt werden. Ist das der Fall, dann könnten laut dieser Formel mit 5 Testpersonen 84% der Probleme entdeckt werden.

Die Wahrscheinlichkeit von 31% ist allerdings hypothetisch und wird von Kritikern als sehr hoch angesehen. Andere Untersuchungen lieferten nur eine Wahrscheinlichkeit von 10% einen Fehler zu entdecken (Spool und Schröder). Wenn die Wahrscheinlichkeit für die Entdeckung eines einzelnen Fehlers 10% beträgt, bräuchte man schon 15 Testpersonen um schlussendlich 84% der Gesamtfehleranzahl zu entdecken.

Verschiedene Einflussfaktoren können die Wahrscheinlichkeit auf ein Problem zu stoßen beeinflussen

  • Die Vertrautheit der Nutzer mit dem System und der geforderten Interaktion
  • Die Testmethode
  • Der Umfang der Software oder Website und die Anzahl der nötigen Interaktionen um zum Ziel zu kommen.
  • Die Repräsentativität der Testpersonen für die Zielgruppe der Software oder Website.
  • Die Beschaffenheit der Usability Probleme, z.B. der Schweregrad eines Problems.
  • Der Status der User Experience des Systems.

Ziele der Usability Studie und Auswertungen

Die Ziele einer Studie und die Art der Ergebnisse, die erzielt werden sollen, spielen ebenso eine Rolle. Informationen über die Auftretenshäufigkeit und den Schweregrad eines Fehlers sind bei sehr wenigen Testpersonen nicht vertrauenswürdig (Cockton). Statistische Auswertungen sollten eine Testpersonenanzahl von 20 nicht unterschreiten. Bei Tests, bei denen laut mitgedacht wird, werden mehr Fehler entdeckt werden, als ohne (Nielsen). Bei dieser Technik würden also wohlmöglich weniger Testpersonen benötigt werden. Demgegenüber stehen Studien mit Eyetracking. Je nachdem, wie und zu welchem Zweck Eyetracking eingesetzt wird sollten dabei mehr Testpersonen eingesetzt werden als bei einer qualitativen Studie, für die Erstellung von Heatmaps rät Nielsen zu mindestens 39 Testpersonen.


Der Umfang des zu testenden Systems

Der Umfang einer Software oder Website sollte bei der Planung eines Usability Tests ebenfalls berücksichtig werden. Man stelle sich nur einmal vor wir testen ein System, das sehr komplex ist und bei dem es viele verschiedene Wege gibt, um ans Ziel zu kommen. Eine Testperson würde nur einen Pfad benutzen. Was wäre dann mit allen anderen Fehlern, die erst bei der Benutzung eines anderen Weges auftauchen würden? Ganz einfach: Sie blieben ungesehen. Wenn es alleine nur zwei verschiedene Wege gäbe, hätte nur die Hälfte der Testpersonen überhaupt die Möglichkeit auf einen Fehler dieses Weges zu treffen.


Mehrere kleine Tests

Bei sehr komplexen Systemen ist eine Lösung den Test zu unterteilen. Eine Testpersonengruppe würde dann einen Weg austesten, während eine andere Gruppe einen anderen Pfad benutzt oder vielleicht sogar nur einen Teilschritt. Die Ergebnisse könnten so differenzierter betrachtet werden. Für die jeweiligen Tests könnten dann unter Umständen kleinere Testpersonengruppen verwendet werden (siehe Nielsen).


Iterative Testung

Beim Usability Engineering wird die Methode des User Centered Design (UCD) und ein iteratives Vorgehen mit Prototyping eingesetzt. D.h. es werden zunächst Mockups und frühe Prototypen entwickelt und diese bereits Usability Tests unterzogen. Der Prototyp wird weiterentwickelt, neuerlich getestet, verbessert und verfeinert. Dieses Vorgehen ist lt. ISO 9241-210 mittlerweile auch ein Standard. Es sollten also mehrere Tests im Laufe der Entwicklung eines Systems durchgeführt werden. Je mehr Tests gemacht werden, desto geringer kann die Anzahl der Testpersonen pro Test sein.


Fazit

Es gibt viele verschieden Aspekte, die bei der Entscheidung wie viele Testpersonen man testen will, zu beachten sind. Man sollte sich über die zu erwartende Beschaffenheit der Fehler, die Voraussetzungen bei der Auswertung, den Umfang der zu testenden Software und Website, die Benutzergruppen und die Evaluierungsmethode Gedanken machen. Hat man diese Parameter, so weit wie es im Vorfeld möglich ist, erfasst, sollte man sich über die Ziele der Testung klar werden. Mit welchen Ergebnissen bin ich zufrieden? Ist es in Ordnung, wenn vielleicht nur 85% der Gesamtfehleranzahl entdeckt werden, oder möchte ich mit einem Test 100% aufdecken? Schließe ich noch weitere Tests an, oder belasse ich es bei einem Testdurchlauf? Wie viele Ressourcen (Zeit und Geld) stehen mir zur Verfügung? Ein zusammenfassendes Modell über die Zusammenhänge dieser Aspekte gibt es leider noch nicht. Die Entscheidung wie viele Testpersonen ausreichend sind bleibt also eine "Bauchentscheidung".


Quellenangabe:

Bevan, N., Barnum, C., Cockton, G., Nielsen, J., Spool, J., & Wixon, D. (2003). The magic number 5: is it enough for web testing?. In CHI'03 extended abstracts on Human factors in computing systems, 698-699

Faulkner, L. (2003). Beyond the five-user assumption: Benefits of increased sample sizes in usability testing. Behavior Research Methods, Instruments, & Computers, 35(3), 379-383.

Genov, A. (2005). Iterative usability testing as continuous feedback: A control systems perspective. Journal of Usability Studies, 1(1), 18-27.

Medlock, M. C., Wixon, D., Terrano, M., Romero, R., & Fulton, B. (2002). Using the RITE method to improve products: A definition and a case study. Usability Professionals Association, 51.

Nielsen, J. (1992). Evaluating the thinking aloud tech- nique for use by computer scientists. In Hartson, H.R., and Hix, D. (Eds.), Advances in Human-Computer Interaction Vol. 3, Ablex. 69-82.

Nielsen, J. (2000). Why you only need to Test with 5 Users. Nielsen Norman Group.

Nielsen, J. (2012). How Many Test Users in a Usability Study? Nielsen Norman Group.

Nielsen, J., & Landauer, T. K. (1993). A mathematical model of the finding of usability problems. Proceedings of the INTERACT'93 and CHI'93 conference on Human factors in computing systems, 206-213

Redish, J. G., Bias, R. G., Bailey, R., Molich, R., Dumas, J., & Spool, J. M. (2002, April). Usability in practice: formative usability evaluations-evolution and revolution. In CHI'02 extended abstracts on Human factors in computing systems, 885-890

Spool, J., & Schroeder, W. (2001). Testing web sites: Five users is nowhere near enough. CHI'01 extended abstracts on Human factors in computing systems, 285-286.



Weiteren Newsletter anzeigen