Steekproefselectie - Steekproeven.eu

Geldsteekproeven
Om een conclusie in geld te bereiken is een geldsteekproef de simpelste manier van selecteren. Alle transacties worden onder elkaar gezet en doorgeteld. Vervolgens worden euro’s gestoken. Elke euro leidt naar een te controleren transactie en het oordeel over die transactie is het oordeel over de gestoken euro.

Elke transactie heeft dus een kans op selectie die samenhangt met het aantal euro’s van die transactie. Er worden inderdaad meer euro’s gecontroleerd dan de gestoken euro’s, die niet meetellen bij de steekproefomvang. Er zijn wiskundige modellen die daar mee rekening houden bij de bepaling van de toereikendheid van de steekproef, maar stelt u zich daar niet te veel van voor, het effect is niet erg groot.

Soorten geldsteekproeven
Wie bij het gebruiken van een data-analysetool als IDEA of ACL om een (geld)steekproef vraagt, krijgt de keuze uit drie opties: een recht-toe-recht-aan steekproef, een steekproef op basis van een vast interval, of een steekproef door middel van Cell-sampling. Hier onder beschrijf ik deze opties. Onder aan de pagina geef ik een link naar een tool om steekproeven mee te trekken.

Verder zijn hier en hier twee blogs te vinden over de vraag hoe om te gaan met negatieve bedragen in een positieve controle met behulp van een geldsteekproef.

Standaard (random)

Laten we beginnen met de standaard steekproef. Niks mis mee: we laten de computer gewoon n waarnemingen uit M steken. In geval van een geldsteekproef zijn dat eurocenten, en de software vertelt welke transacties geraakt zijn. Het is mogelijk dat een transactie tweemaal of vaker geraakt wordt, en door even te zoeken in de menustructuur van de software kan ook duidelijk worden welke euro(cent) er precies gestoken is.

Nogmaals, niks mis met deze methode, ware het niet dat accountants graag hun steekproef gelijkmatig over de populatie verdelen. Niet zozeer vanwege een wat overdreven behoefte aan representativiteit, maar omdat het handig plannen is als men kan voorspellen hoeveel waarnemingen men moet controleren in een deel van de gehele populatie.

Vast interval

Daarvoor is de methode van het vaste interval bedacht. We steken n euro’s uit M door eerst J = M/n te bepalen (naar beneden afronden a.u.b.!) en uit de eerste J euro’s er random één aan te wijzen. Door daar vervolgens telkens J bij op te tellen krijgt men n waarnemingen die mooi gelijkmatig over de populatie zijn verdeeld. Een post van omvang X heeft selectiekans X*n/M zodat de foutprojectie per post gelijk is aan foutbedrag/selectiekans = foutfractie x interval.

Deze simpele methode was ook toepasbaar geweest in de niet meer voor te stellen situatie dat u met de hand 10 dossiers uit een stapel van 100 moet kiezen. Door de 3e, de 13e, 23e, etc. te pakken krijgt u een eerlijke steekproef waarin elk dossier evenveel kans op selectie heeft en voorkomt u dat u na 60 dossiers er al 9 heeft aangewezen.

Is het echt zo simpel? Ja, en een beetje nee. Als u die eerste waarneming maar netjes random kiest is er wat dat betreft niets aan de hand. Maar, hoe kiest u 3 waarnemingen uit 10? De oplossing is om de populatie eerst aan te vullen met de niet-bestaande 11e en 12e waarneming en dan uit 4 cellen steeds een waarneming te kiezen. In 1 op de 3 gevallen zult u dus 3 waarnemingen vragen en er 4 krijgen.

Verder is er voor statistici een interessante vraag of deze steekproef wel voldoende random is, omdat zodra de eerste waarneming gekozen is alle andere waarnemingen vastliggen. In plaats van M^n, zijn er nog maar J mogelijke steekproeven te trekken. Over dat probleem heeft de beroemde statisticus Hoeffding (1956) zich druk gemaakt. Zijn conclusie is: wie zo de steekproef trekt mag niet meer gebruikmaken van formules voor trekken zonder terugleggen. Maar ja, dat waren accountants toch al niet van plan, want de steekproefomvang is natuurlijk maar een fractie van de populatie.

De methode van het vaste interval heeft een interessant gevolg voor grote posten. Een post van omvang J moet minstens één keer aangewezen worden, en als een post meer dan eenmaal is aangewezen moet hij groter zijn dan J. Gevolg is dat fouten in posten groter dan J (het zogenaamde top-stratum) niet geëxtrapoleerd worden. Slechts hun foutbedrag wordt opgeteld bij de geprojecteerde en de maximale fout, en na correctie mogen die bedragen weer afgetrokken worden.

Er is wel een ander probleem. Stel we controleren de salarissen met een steekproef met een vast interval. Het is mogelijk dat het repeterende karakter van het salarisbestand met bedragen per persoon per maand in de steekproef terugkomt. J zal maar gelijk zijn aan het totaal(bedrag) van de salarissen per maand…

Cell Sampling

De derde methode is Cell-sampling, beroemd geworden door Leslie, Teitlebaum en Anderson (1979), al is hun boek meer beroemd geworden door de voorgestelde evaluatiemethode dan door de selectiemethode. Leslie et al. (1979) wilden gehoor geven aan de twijfel of het vaste interval wel random genoeg was en stelden voor de populatie van M euro’s wel in cellen van J=M/n (omlaag afronden!) op te delen, maar dan uit iedere cel een nieuwe random selectie te maken.

Dat lijkt een stuk meer random, toch? Groot voordeel is dat er geen risico meer is van een patroon in de populatie dat in de steekproef doorkomt. Maar nadelen zijn er ook:
• Het top-stratum bestaat niet meer uit posten groter dan J maar groter dan 2 x J, behalve in de eerste en de laatste cel, daar is de grens weer J;
• Een post van twee euro kan (zei het met kans J^(-2)) tweemaal gestoken worden (en dan telt de eventuele fout ook twee keer mee…);
• De kans dat een post van omvang X wordt geselecteerd is een derdegraads functie van X. Dat maakt de foutprojectie, het gevonden foutbedrag gedeeld door de selectiekans, nodeloos omslachtig.

Al met al lijkt het er op dat Cell-sampling een paardenmiddel is, en dat de nadelen van selectie met een vast interval gemakkelijk kunnen worden opgevangen door de populatie (random, of naar omvang van de post) te sorteren.

Tooling

Met een gebruiksvriendelijke app zoals Zypper is het mogelijk om een geldsteekproef (op basis van een vast interval) te selecteren. Voor BTW controles is een aantal standaard stappen al genomen voor een opzet van een steekproef conform de CAB (Controleaanpak Belastingdienst), maar iedereen kan met deze app een steekproef trekken die past bij de gemaakte keuzes.

Literatuur
Gill, R.D. (1983); The Sieve Method as an Alternative to Dollar-Unit Sampling: the Mathematical Background; Mathemathisch Centrum, Amsterdam.
Hoeffding, W. (1956); On the Distribution of the Number of Successes in Independent Trials. Ann. Math. Statist.; ed. 27, pp. 713-721.
Leslie, D.A., A.D. Teitlebaum, R.J. Anderson (1979), Dollar Unit Sampling: A Practical Guide for Auditors, Copp Clark Pitman, Toronto.