Berechnung der erforderlichen Mindest-Stichprobengröße für unendliche und endliche Grundgesamtheiten

Realisierung und Bereitstellung durch Dr. U. Janatzek, M.A.

Für unendliche Grundgesamtheit
Für endliche Grundgesamtheit
Konfidenzniveau: 
(z = 1.96)
Mittelwert der Grundgesamtheit:  (P = 0.5)
Fehlerbereich:  (ε = 0.05)
Geschätzte Rücklaufquote in %: 
  
Konfidenzniveau: 
(z = 1.96)
Mittelwert der Grundgesamtheit:  (P = 0.5)
Fehlerbereich:  (ε = 0.05)
Populationsgröße / Grundgesamtheit:  (N)
Geschätzte Rücklaufquote in %: 

n ≥ z² ⋅ P ⋅ Q
ε²
N
n ≥ 
1 + (N − 1) ⋅ ε²
z² ⋅ P ⋅ Q



Erläuterungen zu den Formelwerten und Eingabefeldern:


Konfidenzniveau (z):
Das Konfidenzniveau oder auch Vertrauensniveau bezeichnet einen aus der zentralen Wahrscheinlichkeit der Standardnormalverteilung berechneten Wert der gewählten Sicherheitswahrscheinlichkeit und bestimmt neben dem Fehlerbereich wesentlich die Stichprobengröße.
Liegt das Konfidenzniveau z.B. bei 95 %, heißt das, daß ein statistischer berechneter Wert im Rahmen einer Stichprobe mit 95 %iger Wahrscheinlichkeit auch für die Grundgesamtheit innerhalb des Konfidenzintervalls liegt - die Chance ist also recht hoch, daß der Durchschnitt in der Grundgesamtheit genau innerhalb des Fehlerbereichs liegt.
Das bedeutet aber auch, daß, würde die Stichprobe 100 mal wiederholt, in fünf Fällen dies für die Grundgesamtheit nicht stimmt. Der Wert des Konfidenzniveaus wird in der der Formel mit z angegeben. Um es in der Formel verwenden zu können, muß es quadriert werden.

z-Werte für gängige Vertrauensintervalle:
50 % z = 0,674
75 % z = 1,15
90 % z = 1,65
95 % z = 1,96
97,5 % z = 2,24
99 % z = 2,58
Als Standardwert wird für gewöhnlich 95 % gewählt. Zur Bestimmung anderer als der hier genannten Werte gibt es in der entsprechenden Fachliteratur wie auch im Netz entsprechende Tabellen.

Fehlerbereich (ε):
Das griechische (kleine) Epsilon ε steht für das lateinische Wort Error, also 'Irrtum' im Sinne von 'Fehler' und bezeichnet in der Formel den Fehlerbereich bzw. die gewählte Fehlertoleranz. Je kleiner dieser Fehlerbereich gesetzt wird, umso mehr steigt die Wahrscheinlichkeit, daß die Ergebnisse der Stichprobe den wahren Verhältnissen in der Grundgesamtheit entsprechen.
ε und die Stichprobengröße stehen dabei in einer Art antiproportionalem Verhältnis: Je größer die Fehlertoleranz, desto kleiner die benötigte Stichprobe.
Gerade der tolerierbare Fehlerbereich wirkt sich also erheblich auf die Größe der erforderlichen Stichprobe aus. Eine Änderung von 10 % auf 1% bewirkt eine knappe Verhundertfachung der Stichprobengröße (vgl. Tabelle) und damit eine Erhöhung des Auswertungsaufwandes und der Kosten. Als konservativer Wert für den Fehlerbereich wird deshalb standardmäßig meist 5 % bestimmt. Auch ε muß zur Verwendung in der Formel quadriert werden.

FehlerbereichKonfidenzniveauMittelwertRücklaufquoteStichprobengrößeAnzahl Fragebögen
1 %95 %50 %20 %960448020
2 %95 %50 %20 %240112005
3 %95 %50 %20 %10685340
4 %95 %50 %20 %6013005
5 %95 %50 %20 %3851925
6 %95 %50 %20 %2671335
7 %95 %50 %20 %196981
8 %95 %50 %20 %151755
9 %95 %50 %20 %119595
10 %95 %50 %20 %98485

Mittelwert der Grundgesamtheit (P):
Bei neuen Erhebungen wird hier für gewöhnlich der Wert 50 % gewählt. Wurde bereits eine Erhebung vorgenommen, kann auch der Wert eingetragen werden, der sich aus der vorherigen Erhebung ergeben hat. Beispiel:
Im Rahmen Ihres Studiums untersuchen Sie die Frage, ob die in der Stichprobe abgebildeten Merkmalsträger vor ihrem 18. Lebensjahr bereits illegale Drogen konsumiert haben. Da darüber hinsichtlich der von Ihnen definierten Grundgesamtheit noch nichts bekannt ist, tragen Sie den Wert 50 % ein.
Es stellt sich heraus, daß 65 % der Befragten die Frage nach dem Drogenkonsum bejaht haben. Diese Befragung wiederholen Sie später mit der gleichen Grundgesamtheit. Nun können Sie den Wert 65 % als P einsetzen, was die Höhe der notwendigen Stichprobengröße verringert.
P wird in der Formel nicht mit z.B. 50 angegeben, sondern in diesem Fall mit 0,5 und 65 % entsprechend mit 0,65 usw. P kann also im Prinzip zwischen 1 % und 100 % liegen.

Q (1 − P):
Q ist zwar Element der Formel, jedoch wird dazu kein Wert eingegeben. Denn die Größe von Q ergibt sich aus der Größe von P. Was sehr einfach zu berechnen ist, denn Q = 1 − P. Bevor die Formel aufgelöst werden kann, muß also zuerst Q bestimmt werden. Ist P z.B. 0,5 kann Q nur ebenfalls 0,5 sein, denn 1 − 0,5 = 0,5. Wäre P 0,3 dann Q entsprechend 0,7. Q und P ergeben zusammen also immer 1.
Wichtig ist, daß der tatsächliche Mittelwert (also P und damit auch Q) noch unbekannt ist und erst durch die Auswertung ermittelt werden soll. Darum handelt es sich bei P um einen Schätzwert, der so gelegt wird, daß das Produkt aus P ⋅ Q einen möglichst hohen Wert annimmt. Das ist bei 0,5 ⋅ 0.5 gegeben, denn das Ergebnis ist 0,25 (0,6 ⋅ 0,4 ergeben hingegen den geringeren Wert 0,24). Dies soll gewährleisten, daß selbst für den ungünstigsten Fall eine ausreichend hohe Stichprobengröße generiert wird. Denn mit wachsendem Produktwert von P ⋅ Q erhöht sich auch der Stichprobenumfang.

Rücklaufquote (R):
Die Rücklaufquote ist weder Teil der Formel noch der Berechnung der Stichprobengröße selbst, sondern stellt bei dem hier präsentierten Online-Rechner eine Zusatzfunktion dar (ebenso der Zufallsgenerator bei endlichen Grundgesamtheiten). Insbesondere wenn mit zu verschickenden Fragebögen gearbeitet wird, kann sie jedoch wichtige Hinweise auf Aufwand / Kosten und überhaupt der Brauchbarkeit der Methodik geben. Denn es kann vorkommen, daß bei manchen Rücklaufquoten (die nur Schätzwerte aufgrund vorheriger Erfahrungen sind) mehr Fragebögen verschickt werden müßten, als es überhaupt Merkmalsträger in der Grundgesamtheit gibt. Das heißt, im Prinzip müßte eine Vollerhebung durchgeführt werden. In diesen Fällen können keine repräsentativitätssichernden reinen Zufallsstichproben gezogen werden, es sei denn, die Werte für P und ε werden entsprechend geändert. Auch ist es möglich, auf die bekannte Faustformel n = 30 zurückzugreifen oder eben eine andere Erhebungsmethode zu wählen.
Die erforderliche Anzahl an Fragebögen ist anhand der Stichprobengröße leicht zu berechnen: (n ÷ R) ⋅ 100. Man teilt also die Stichprobengröße durch die zu erwartende Rücklaufquote und multipliziert das Ergebnis mit 100.
Für bestimmte zu erwartende Rücklaufquoten muß also eine bestimmte Höhe der Grundgesamtheit gegeben sein. Das nachfolgende Listing (Standardwerte vorausgesetzt) gibt dazu einen groben Überblick:

Listing erforderlicher Grundgesamtheiten in Bezug auf die Rücklaufquote:
Rücklaufquote 30 % = Grundgesamtheit muß mindestens 0910 betragen.
Rücklaufquote 25 % = Grundgesamtheit muß mindestens 1160 betragen.
Rücklaufquote 20 % = Grundgesamtheit muß mindestens 1550 betragen.
Rücklaufquote 15 % = Grundgesamtheit muß mindestens 2190 betragen.
Rücklaufquote 10 % = Grundgesamtheit muß mindestens 3480 betragen.
Rücklaufquote 09 % = Grundgesamtheit muß mindestens 3900 betragen.
Rücklaufquote 08 % = Grundgesamtheit muß mindestens 4430 betragen.
Rücklaufquote 07 % = Grundgesamtheit muß mindestens 5120 betragen.
Rücklaufquote 06 % = Grundgesamtheit muß mindestens 6040 betragen.
Rücklaufquote 05 % = Grundgesamtheit muß mindestens 7330 betragen.

Auflösung der Formel per Hand bzw. Taschenrechner - Schritt-für-Schritt-Anleitung:
Zu Übungszwecken kann es sinnvoll sei, die Formeln selbst einmal nachzurechnen, um ein besseres Verständnis für die Zusammenhänge der Werte zu entwickeln.. Leider lassen sich viele Leute (auch Studierende) von Formeln abschrecken, da sie auf den ersten Blick "kompliziert" erscheinen. Schaut man sie sich aber genauer an, so zeigt sich oft (aber nicht immer!), daß sie doch leichter zu lösen sind, als anfangs gedacht. Dies gilt auch für die Formel zur Berechnung der erforderlichen Stichprobengröße bei endlichen Grundgesamtheiten, also diese:

N
n ≥ 
1 + (N − 1) ⋅ ε²
z² ⋅ P ⋅ Q

Was die einzelnen Elemente der Formel bedeuten, wissen wir bereits. Doch wie läßt sie sich lösen?
Zunächst muß man sich im Klaren darüber sein, daß es sich im Prinzip um eine Bruchrechnung handelt, wobei der Nenner der ersten Bruchs selbst aus einem Bruch besteht. Das heißt also, daß, will man die Formel analysieren und lösen, man von hinten anfangen muß oder "bottom up".
Zur Lösung setzen wir die Standardwerte voraus, also für z = 95 % = 1,96, für P = 50 % = 0,5, für ε = 5 % = 0,05 und für N = 7500 (die RÜcklaufquote spielt hier keine Rolle und wird weggelassen).
Wichtig zu beachten ist, daß P und ε nicht als 50 bzw. 5 in die Formel einfließen, sondern als 0,5 und 0,05. Das heißt 1 entspricht hier 100 %. 50 % von 1 ist demnach 0,5 und 5 % von 1 entspricht 0,05. Bevor man die Formel lösen kann, müssen jedoch zwei Schritte vorher durchgeführt werden:

Schritt 1: Umwandlung von P und ε.
P ergibt sich daraus, daß 1 durch 100 geteilt und dann mit P multipliziert wird, also: 1 ÷ 100 ⋅ P.
Wenn P 50 % beträgt, also: 1 ÷ 100 ⋅ 50.
Mit ε wird genausi verfahren, also: 1 ÷ 100 ⋅ ε.
Wenn ε 5 % beträgt, also: 1 ÷ 100 ⋅ 5.

Schritt 2: Bestimmung von Q.
Dies ist, wie bereits zu sehen war, einfach, denn Q = 1 − P.
Wenn P = 0,5 ist, also: 1 − 0,5 = 0,5. Q entspricht also (ebenfalls) 0,5.

Schritt 3: Quadrierung der Werte.
Mit Quadrierung ist gemeint, daß die Werte mit sich selbst multipliziert werden müssen. Das jeweilige Ergebnis wird dann in die Formel eingesetzt. Also:
z = 1,96. Jetzt z mit z multiplizieren: 1,96 ⋅ 1,96 = 3,8416. z² entspricht also 3,8416.
ε = 0,05. Jetzt ε mit ε multiplizieren: 0,05 ⋅ 0,05 = 0,0025. ε² entspricht also 0,0025.

Mit den eingesetzten Werten sieht die Formel nun so aus:

7500
n ≥ 
1 + (7500 − 1) ⋅ 0.0025
3.8416 ⋅ 0.5 ⋅ 0.5

Jetzt kann mit der Lösung der Formel begonnen werden. Da es sich um Brüche handelt, kann dies zeilenweise geschehen. Begonnen wird mit der untersten Zeile, also mit
z² ⋅ P ⋅ Q
Mit den eingesetzten Werten sieht die Zeile also so aus:
3,8416 ⋅ 0,5 ⋅ 0,5
Dies sieht nun schon weit weniger "bedrohlich" aus und läßt sich auch leicht ausrechnen, das Ergebnis lautet 0,9604. Das war Zeile Nummer drei.
Jetzt Zeile Nummer zwei (also der Zähler des zweiten Bruchs), die da lautet:
(N − 1) ⋅ ε²
Entgegen der Regel wird hier - weil N − 1 in einer Klammer steht - zuerst die Strichrechnung ausgeführt, was zielich einfach ist. Denn wir wissen, daß N für 7500 steht, und 7500 − 1 = 7499. Dieses Ergebnis wird nun mit ε² multipliziert, also: 7499 ⋅ 0,0025 = 18,7475. Dieses Ergebnis der zweiten Zeile teilen wir nun durch das Ergebnis der dritten Zeile, also:
18,7475 ÷ 0,9604 = 19,520512286547271970012494793836
Natürlich dürfen wir die 1 + vor dem Bruch nicht vergessen, also: 19,520512286547271970012494793836 + 1 = 20,520512286547271970012494793836
Dieses Ergebnis stellt jetzt den Nenner des oberen Bruches dar. Der Zähler dieses Bruches ist N, von dem wir wissen, daß der Wert 7500 beträgt. Gerechnet wird also:
7500 ÷ 20,520512286547271970012494793836 = 365,4879515321267106084362108596
Damit sind wir auch schon fast fertig. Wie zu sehen, kommt bei dem Ergebnis keine ganze Zahl heraus. In diesen Fällen wird das Ergebnis immer aufgerundet, egal ob hinter dem Komma eine 5 oder eine 2 steht - denn man kann ebenso wenig an 0,5 Personen einen Fragebogen schicken, wie an 0,2 Personen.
Die nächsthöhere Ganzzahl ist 366. Somit lautet auch das Ergebnis, daß die Mindest-Stichprobengröße 366 beträgt.
Fertig!






Script-Download: Nutzungsbedingungen
Dieser Online-Rechner zur Berechnung der erforderlichen Mindest-Stichprobengröße für unendliche und endliche Grundgesamtheiten ist für nicht-kommerzielle, insbesondere für Lehr- und Lernzwecke freigegeben!
Unter der Bedingung, daß die Hinweise auf den Urheber weder in den Meta-Tags noch sonst irgendwo im Quelltext verändert, verdeckt oder entfernt werden und die Nutzung ausschließlich nicht-kommerziell erfolgt, darf jeder das hier zum Download angebotene Script frei verwenden, auch auf seiner eigenen Seite installieren und seinen eigenen Nutzern zur Verfügung stellen. Das Script darf auch hinsichtlich seiner Funktionalität (ebenfalls unter weiterer Nennung der ursprünglichen Urheberschaft) verbessert oder erweitert werden, ebenfalls darf es an das eigene Seiten-Design angepaßt werden.
Die Nutzung des Scripts erfolgt - gleichwohl Sicherungsfunktionen gegen Mißbrauch einprogrammiert wurden - auf eigene Gefahr, für die Richtigkeit der Ergebnisse wird keine Haftung übernommen, auch in jeglicher anderer Hinsicht wird eine Haftung ausgeschlossen.
Bei Nutzung muß das Script durch den Nutzer ebenfalls zum Download angeboten werden. Die hier niedergelegten Nutzungsbedingungen dürfen nicht geändert werden. Die Urheberangaben dürfen nicht gegen die Nutzerdaten ausgetauscht werden.
Wer diese üblichen Nutzungsbedingungen akzeptiert, kann das Script hier downloaden:

Script-Downlooad Online-Rechner zur Berechnung der erforderlichen Mindest-Stichprobengröße für unendliche und endliche Grundgesamtheiten (ZIP-Datei, 10KB)

Hinweis: Das Script wurde in PHP programmiert. Damit es auf anderen Servern lauffähig ist, muß dort zwingend PHP installiert sein.