| <<< | S53_Benford |
Benford: niet alle cijfers komen even vaak voor!
Ieder getal bestaat uit cijfers. Als je de cijfers telt in een groot aantal
verschillende getallen zullen alle cijfers 1 tot en met 9 ongeveer even vaak
voorkomen. Het cijfer 0 (nul) komt bij de natuurlijke getallen natuurlijk iets
minder vaak voor, omdat een van nul verschillend getal niet met een nul kan
beginnen. De rest van dit verhaal gaat over de frequentie van het eerste cijfer
van een groot aantal getallen. Cijfers die niet vooraan staan komen gemiddeld
even vaak voor en zijn in dit verband niet interessant.
Tot zover is er nog niets schokkends gebeurd. Het is niet te geloven dat er
aan dit ogenschijnlijk flauwe onderwerp nog iets zinnigs valt te beleven. Toch
is dat wel zo. In het oude Binas boekje dat in mijn boekenkast staat vond ik
de gegevens van een aantal diersoorten. In tabel nummer 86 staan daar 279 getallen
(als ik de laatste kolom gemiddeld aantal eieren of jongen even weglaat). Ik
telde op die bladzijden het aantal getallen dat met een "significante"
1 begint, dat zijn er 88. Significant wil zeggen dat een nul als eerste cijfer
van een getal niet meetelt. Zo is het significante eerste cijfer van 427 en
van 0,00427 in beide gevallen een 4. Aangezien er 9 mogelijkheden zijn voor
het eerste cijfer van een willekeurig getal en deze mogelijkheden even waarschijnlijk
zijn (schijnen te zijn) zou je verwachten dat in deze tabel ongeveer 279/9 =
31 van die getallen met een 1 beginnen en niet 88. Een enorm verschil tussen
waarneming en verwachting! De voorlopige conclusie is dat niet alle negen cijfers
even vaak voorkomen aan het begin van een getal. In deze kleine steekproef uit
de Binas is het percentage enen 88/279 maar liefst 31.5 procent.Voor je het
weet ben je hiermee verzeild in een onderzoek naar een uiterst merkwaardig en
haast onverklaarbaar verschijnsel. De astronoom Simon Newcombe deed een zelfde
onderzoek in 1881 nadat hij opgemerkt had dat tabellenboeken meer versleten
waren op bladzijden met een laag begincijfer. Frank Benford verrichtte in 1938
opnieuw een uitgebreid onderzoek en vond een wetmatigheid die bekend staat als
de wet van Benford (Benford's Law).
Wat is het verschil tussen het soort getalverzamelingen in de Binas tabellen
en in Benfords tabellen enerzijds en een "gewone" random getalverzameling?
De Benfords getallen zijn gekozen, samengeraapt, uit verschillende categorieën;
het zijn getallen die elk een verschillende waarschijnlijkheid hebben. Neem
het voorbeeld van de huisnummers uit een telefoonboek. Niet alle straten zijn
even lang, duidelijk is dat er maar zeer weinig huisnummers voorkomen boven
de 1000, terwijl een huisnummer als 12 daarentegen erg vaak voor zal komen.
En daar zit 'm de kneep. De kans op een groot getal moet kleiner zijn dan de
kans op een klein getal.
De wet van Benford kan gesimuleerd worden door uit te gaan van verzamelingen randomgetallen met randomgrenzen, zie voor een toelichting de helpbestanden van ORSTAT (het in deze huispagina gelinkte VU programma dat gratis te downloaden is). In het programma BENFORD2 is dat gebeurd:
![]() |
![]() |
![]() |
De formule die hier bij hoort voor de kans P(b) op een begincijfer b, is:
P(b) = log (1+1/b)
met 10 als grondtal van de logaritme.