Bij schattingen probeer je een gemiddelde uit een steekproef te presenteren als indicatie voor het gemiddelde van een populatie. Zo’n schatting is het midden van een interval dat de juiste waarde met een gekozen betrouwbaarheid omvat en niet overdreven breed is.
De onnauwkeurigheid (de halve afstand tussen boven- en ondergrens van zo’n symmetrisch interval rond het steekproefgemiddelde) kun je zo scherp kiezen als je wilt maar bij een gegeven aantal waarnemingen zal dat ten koste gaan van de betrouwbaarheid omdat de kans dat die grenzen het juiste getal blijven omvatten dan steeds kleiner wordt.
De formule voor de onnauwkeurigheid d is:
d = FPC x tabelwaarde x standaarddeviatie/wortel uit steekproefomvang
Zo wordt de steekproefomvang bepaald als de andere factoren bekend zijn. En daar zit ‘m nu het probleem…….
de FPC is een factor die laat zien hoe klein de steekproef is ten opzichte van de populatie en dus tegen 1 aankruipt als de populatie groter is (ten opzichte van de steekproef). Die ken je niet bij de opzet van de steekproef, dus zetten we maar op 1 (of we passen een enorme hoop wiskunde toe die nauwelijks iets oplevert) en dan overschatten we de benodigde steekproef.
De tabelwaarde hangt af van de gekozen betrouwbaarheid en… de steekproefomvang! Los je dat op door de normale verdeling te gebruiken, dan onderschat je de benodigde steekproef (maar dat weegt meestal wel op tegen de overschatting hier boven. ) Als je 2 invult zit je altijd goed….
De standaarddeviatie ken je niet, want dat is een maat voor spreiding rondom het gemiddelde dat je nu juist probeert te schatten. Haha… Als je op zoek bent naar een percentage kun je voor de standaarddeviatie 0,5 invullen (voor de scherpslijpers: de √{0.5x(1-0,5)} maar voor een metrische variabele zal je toch echt een standaarddeviatie moeten ophoesten! Vaak gebruikt men daar een pilot voor maar pas op: als die pilot te klein is loop je een gigantisch risico de standaarddeviatie te onderschatten. Sterker nog: een populatie met 5% verschillen ongelijk nul zal bij een pilot van 30 in meer dan 20% van de gevallen een standaarddeviatie van 0 geven en dus een benodigde steekproef van 0!
Bij het schatten van percentages is de simpele vuistregel die leidt tot een steekproef die zeker groot genoeg is d= 1 x 2 x 0.5 /√{n} dus n=1/(d-kwadraat). Het spreadsheet op deze website levert zeker een lager aantal op dan die vuistregel.
Nogmaals: deze sheet geeft een steekproef om een percentage te schatten dat voldoende nauwkeurig en betrouwbaar bepaald moet worden. Je kunt er niet mee toetsen of een fout (nagenoeg) niet in een populatie voorkomt.
Voor de sheet heb je nodig:
- De omvang van de populatie: als je niet weet, naar boven afronden.
- Het vermoedelijke foutpercentage: alleen als je zeker weet dat het geen 50% is, afwijken van 50% (maar kijk wat dat uitmaakt!).
- De gewenste onnauwkeurigheid (eenzijdig: halve afstand van boven- naar ondergrens, meestal 1-5%).
- De vereiste betrouwbaarheid (tweezijdig!), meestal 90-95%.
Voor het schatten van een gemiddelde van een metrische variabele is er ook een sheet te maken. Dan kan je de spreiding niet afschatten, maar heb je ofwel de echte standaarddeviatie nodig, dan wel een schatting uit een pilot steekproef. Zoals hierboven al vermeld, kleven er bezwaren aan pilot steekproeven. .