Bivariate en multivariate analyse in de statistiek
Om het verband tussen 2 of meerdere variabelen te bepalen, gebruikt men in de statistiek de bivariate en multivariate analyse. Op basis van significantietoetsing probeert men dan te testen of dit verband significant is naar de populatie toe. De sterkte van dit significant verband kan men dan bepalen door middel van een associatiemaat. Er zijn verschillende analysemethoden die gebaseerd zijn op het meetniveau van de variabele.
Bivariate en multivariate analyse
Wanneer men een analyse wilt doen stelt men zich 4 cruciale vragen:
- Is er werkelijk een verband tussen de variabelen?
- Is het verband statistisch significant (=significantietoetsing)?
- Hoe sterk is dit verband (wordt bepaald via associatiematen)?
- Wat is de aard of richting van het verband?
Significantietoetsen
We vertrekken hierbij van een mogelijk verband dat we hebben gevonden via een steekproef. Dan gaan we dus aanduiden of dit verband ook betekenisvol is naar de populatie en hoe sterk dit verband is. Deze nulhypothese (= 'er is geen betekenisvol verband in de populatie') en het mogelijk verwerpen ervan door de alternatieve hypothese (= 'er is wel een betekenisvol verband aantoonbaar in de populatie') is de kern van het significantietoetsen.
Meetniveau van de variabele
Cruciaal om een mogelijk verband te analyseren is eerst te kijken op welk meetniveau de variabele gemeten is. Naargelang het meetniveau worden er namelijk andere analysemethoden gebruikt.
Interval meetniveau
Variabelen met een vaste meeteenheid en volgorde, maar geen nulpunt wat de afwezigheid van het kenmerk zou aanduiden. Bijvoorbeeld temperatuur.
Ratio meetniveau
Variabelen op dit meetniveau gemeten hebben ook een vaste meeteenheid en volgorde, maar ze hebben ook een nulpunt, wat de afwezigheid van het kenmerk aanduidt. Iemand die 0 euro heeft, heeft gewoonweg geen geld. Bij een variabele op intervalniveau gemeten, wil een nulpunt daar wel iets zeggen. Wanneer het 0 graden is, kunnen we niet zeggen dat er 'geen temperatuur is'.
Nominaal meetniveau
Hierbij heeft de variabele verschillende categorieën maar deze hebben geen specifieke volgorde. Een voorbeeld van een nominale variabele is de provincie waar men in woont.
Ordinaal meetniveau
In tegenstelling tot bij het nominale meetniveau hebben de verschillende categorieën wel een volgorde. Een voorbeeld van een ordinale variabele is de kledingmaat: small, medium, large. Hier zien we duidelijk een volgorde in de grootte van de maat. De nominale en ordinale variabelen worden ook wel 'categorale variabelen' genoemd
Analysemethoden
Het meetniveau van de variabele is belangrijk om te kunnen bepalen welke analysemethode we kunnen gebruiken.
We kunnen veel analysemethoden gebruiken. Hieronder worden enkele methoden besproken waarbij het verband tussen 1 afhankelijke variabele en 1 of meerdere onafhankelijke variabelen wordt onderzocht.
- Chi-kwadraat toets
- T-toets
- F-toets
- Enkelvoudige en meervoudige regressie
- Logistische regressie
Chi-kwadraat
De werkwijze van de Chi-kwadraat toets werd reeds toegelicht binnen InfoNu met als titel:
De Chi-kwadraat toets. Belangrijk is wel nog te vermelden dat het om het 'te onderzoeken verband' tussen
2 categorische variabelen gaat. Dit wil dus zeggen: variabelen die gemeten zijn op nominaal en ordinaal meetniveau.
De T-toets
Via de T-toets onderzoeken we een significant verband tussen
een onafhankelijke dichotome variabele en een afhankelijke interval/ratio variabele. We onderzoeken bv. het gemiddelde loon voor de categorieën van de dichotome variabele (man/vrouw). Wanneer we merken dat er een verschil is betreffende het loon via een steekproef, gaan we bij significantietoetsing toch starten met de nulhypothese van: 'er is geen verschil inzake het loon van mannen en vrouwen in de populatie'. We gaan onderzoeken of het verschil dat we gevonden hebben betreffende ons loon niet louter gebaseerd is op toeval.
De F-toets
De F-toets peilt naar het significant verband tussen
een onafhankelijke categorische variabele en een afhankelijke interval-ratio variabele. Omdat het hier over meerdere categorieën gaat (bij een dichotome variabele zijn er slechts 2 categorieën, terwijl er bij een categorische variabele meerdere categorieën zijn), dienen we niet alleen een significant verschil van de gemiddelden te bepalen, maar ook naar de spreiding binnen en tussen de groepen te kijken.
Enkelvoudige en meervoudige lineaire regressie
Via enkelvoudige en meervoudige lineaire regressie kijken we in welke mate één of meerdere onafhankelijke variabele(n) de afhankelijke variabele probeert te voorspellen. Cruciaal is hierbij dat we kijken dat
beide variabelen gemeten zijn op intervalniveau. Omdat men ook graag categorische variabelen in een regressievergelijking opneemt, zorgt men er vaak voor dat deze omgezet worden in dummies. Op deze manier kunnen we ook werken met een stijging van 1 eenheid zoals bij intervalvariabelen het geval is. Per categorie wordt er dan aangeduid of deze categorie 'wel (=1) of niet (=0)' van toepassing is. De regressievergelijking is gelijk aan y=a+bx+e. a stelt hier de waarde voor wanneer er geen voorspellende x-variabelen zijn opgenomen. b geeft de mate aan waarin y veranderd als de x-variabele met 1 eenheid toeneemt, terwijl de 'e' de foutenterm in de vergelijking voorstelt. Bij meervoudige regressie zijn er dan dus meer 'bx-en' opgenomen in de vergelijking omdat we met meer onafhankelijke variabelen werken.
Logistische regressie
Bij logistische regressie is deze keer de afhankelijke variabele gemeten op dichotoom niveau, terwijl de onafhankelijke variabele(n) op intervalniveau gemeten is (of zijn). We onderzoeken bv. de Odds Ratio van alcohol drinken in vergelijking met geen alcohol drinken op het krijgen van een auto-ongeluk. Hierbij bepaalt de WALD-test of er een significant verband is naar de populatie toe.
Associatiematen
Associatiematen bepalen de sterkte van het significant verband. Wanneer we echter zouden aantonen dat het verband naar de populatie toe niet significant is, heeft het geen zin om de sterkte van het verband aan te duiden omdat dit duidt op te veel toeval in onze steekproef. Zoals aangetoond bij de analysemethoden onderzoeken we vaak het verband tussen variabelen die gemeten zijn op een verschillend meetniveau. Daarom geldt in de statistiek in dat geval de regel dat we ons moeten toespitsen op een associatiemaat die geldig is voor het laagste meetniveau van de opgenomen variabelen in onze analyse. Als we bv. het verband onderzoeken tussen een interval variabele(bv. loon) en de opleiding die iemand heeft gevolgd, moeten we kiezen voor een nominale associatiemaat enz. De term hoog en laag hebben hier betrekking op de nauwkeurigheid waarmee een variabele is gemeten. Interval- en ratiovariabelen zijn het hoogst, hierna komen ordinale en dan nominale variabelen. Er is ook een specifieke maat voor dichotome variabelen ( variabelen met 2 categorieën zoals bv. geslacht) Hieronder vindt u een overzicht van welke associatiemaat bij welk meetniveau dient gebruikt te worden:
- Interval: Pearson correlation
- Dichotoom: phi
- Nominaal: Cramer’s V (soms wordt ook Lambda gebruikt)
- Ordinaal: Spearman’s rho, Kendall’s tau-c, Gamma, Somer’s D
Interpretatie van het verband
- -1 – 0 – 1: bij intervalvariabelen.
- 0 – 1: bij categorale variabelen
- De waarde 0 duidt op geen verband
- 1 duidt op een positief en perfect verband
- -1 duidt op een perfect negatief verband