Inferentie: zuiverheid, vertekening en variabiliteit
Op basis van steekproefgegevens uitspraak doen over de populatie, is de betekenis van inferentie bij statistiek. Waarom we op basis van steekproefgegevens uitspraak mogen doen over de populatie wordt o.m. bepaald door de centrale limietstelling, die zegt dat de steekproevenverdeling van vele steekproefgrootheden de populatieverdeling steeds dichter en dichter zal naderen, naarmate onze steekproefomvang groter wordt. Er kan sprake zijn van zuiverheid, vertekening en variabiliteit.
Inferentie
Via steekproefgegevens uitspraak doen over een populatie is statistische inferentie. We gaan een steekproefgrootheid gebruiken voor het schatten van een populatieparameter. Hierbij is het belangrijk om te onderzoeken in welke mate er sprake is van zuiverheid, vertekening en variabiliteit.
Centrale limietstelling
De centrale limietstelling bepaald dat de steekproevenverdeling van vele steekproefgrootheden de populatieverdeling steeds dichter en dichter zal naderen naarmate de steekproefomvang groter wordt. Omwille hiervan mag men steekproefgegevens gebruiken om een populatieparameter te schatten.
Zuiverheid steekproefgrootheid
Wanneer we een steekproefgrootheid gebruiken voor het schatten van een populatieparameter (bv. het gemiddelde), is deze parameter een zuivere schatter, als de verwachting hiervan gelijk is aan de waarde van de populatieparameter.
Voorbeeld zuiverheid
Stel dat het gemiddelde loon in een steekproef van 100 mensen gelijk is aan 1400, en dit gemiddelde is gelijk over de hele populatie (dus bv. over alle inwoners van Nederland), dan spreken we van een volledige zuivere schatter van het populatiegemiddelde aan de hand van onze steekproef. Het steekproefgemiddelde is dan een zuivere voorspeller van ons populatiegemiddelde. Indien deze maar in zeer kleine mate afwijkt van het populatiegemiddelde (bv. 1405) kan men dus ook zeggen dat deze een grote zuiverheid kent en maar in zeer kleine mate vertekend is.
Vertekening steekproefgrootheid
Een steekproefgrootheid is vertekend als het gemiddelde van zijn steekproevenverdeling niet samenvalt met de waarde van de parameter in de populatie.
Voorbeeld vertekening
Zoals in het vorige voorbeeld gedemonstreerd, spreken we daar van 'vertekening' als het gemiddelde in de populatie (redelijk opvallend) niet hetzelfde is. Wanneer uit onze populatie naar boven komt dat het gemiddelde loon bv. 1500 is (in tegenstelling tot 1400 via onze steekproef bepaald), zien we dat dit een redelijk groot verschil is met onze steekproefverwachting. Vertekening is dus de tegenhanger van zuiverheid en dus een synoniem van 'niet zuiver'.
Variabiliteit steekproefgrootheid
Een steekproefgrootheid heeft ook variabiliteit. Dit is de hoeveelheid waarin de steekproefgrootheid tussen de verschillende steekproeven zal variëren. Hoe kleiner deze variabiliteit is, hoe nauwkeuriger de steekproefgrootheid wordt als schatting van de populatieparameter.
Voorbeeld variabiliteit
Wanneer het gemiddelde loon uit 3 verschillende steekproeven van 100 mensen uitkomt op bv. 1400, 1460 en 1320 kunnen we dus spreken van een redelijke variabiliteit in onze steekproefverdeling. Per steekproef blijkt het gemiddelde loon dan redelijk van elkaar te verschillen. Hoe groter de variabiliteit tussen deze verschillende steekproeven, hoe minder nauwkeurig de steekproefgrootheid wordt als schatter van de populatieparameter.
Bedenking
In verband met het vergelijken van onze steekproefparameter met onze populatieparameter kunnen we ons nog het volgende afvragen: Wanneer we via een steekproevenverdeling dus een populatieparameter gaan schatten, hoe kunnen we uiteindelijk dan bepalen of deze zuiver is of niet als we niet over de waarde van de populatieparameter beschikken. Want zuiverheid duidt dus op het feit dat deze overeenkomt met de parameter in de populatie. Wat moeten we dan doen als we niet kunnen vergelijken met de populatieparameter? Of is deze populatieparameter dan sowieso gegeven om mee te kunnen vergelijken? Omdat we dan anders toch ook niet kunnen weten of er sprake is van bv. vertekening in de steekproevenverdeling?
Antwoord
Op basis van theoretische inferentiële statistiek kan er gezegd worden dat indien we voor de steekproeftrekking de juiste procedures volgen (=correcte berekeningen doen), dat dan de steekproefuitkomst gemiddeld gesproken (dus als we de procedure vele malen zouden herhalen) zal overeenkomen met de populatieparameter. In één concrete steekproef zal de uitkomst eerder afwijken. Zuiverheid is dus een kenmerk van de procedure (die weerspiegeld wordt in de steekproevenverdeling) en niet van één concrete schatting