Bivariate en multivariate analyse in de statistiek

Bivariate en multivariate analyse in de statistiek Om het verband tussen 2 of meerdere variabelen te bepalen, gebruikt men in de statistiek de bivariate en multivariate analyse. Op basis van significantietoetsing probeert men dan te testen of dit verband significant is naar de populatie toe. De sterkte van dit significant verband kan men dan bepalen door middel van een associatiemaat. Er zijn verschillende analysemethoden die gebaseerd zijn op het meetniveau van de variabele.

Bivariate en multivariate analyse

Wanneer men een analyse wilt doen stelt men zich 4 cruciale vragen:
  • Is er werkelijk een verband tussen de variabelen?
  • Is het verband statistisch significant (=significantietoetsing)?
  • Hoe sterk is dit verband (wordt bepaald via associatiematen)?
  • Wat is de aard of richting van het verband?

Significantietoetsen

We vertrekken hierbij van een mogelijk verband dat we hebben gevonden via een steekproef. Dan gaan we dus aanduiden of dit verband ook betekenisvol is naar de populatie en hoe sterk dit verband is. Deze nulhypothese (= 'er is geen betekenisvol verband in de populatie') en het mogelijk verwerpen ervan door de alternatieve hypothese (= 'er is wel een betekenisvol verband aantoonbaar in de populatie') is de kern van het significantietoetsen.

Meetniveau van de variabele

Cruciaal om een mogelijk verband te analyseren is eerst te kijken op welk meetniveau de variabele gemeten is. Naargelang het meetniveau worden er namelijk andere analysemethoden gebruikt.

Interval meetniveau

Variabelen met een vaste meeteenheid en volgorde, maar geen nulpunt wat de afwezigheid van het kenmerk zou aanduiden. Bijvoorbeeld temperatuur.

Ratio meetniveau

Variabelen op dit meetniveau gemeten hebben ook een vaste meeteenheid en volgorde, maar ze hebben ook een nulpunt, wat de afwezigheid van het kenmerk aanduidt. Iemand die 0 euro heeft, heeft gewoonweg geen geld. Bij een variabele op intervalniveau gemeten, wil een nulpunt daar wel iets zeggen. Wanneer het 0 graden is, kunnen we niet zeggen dat er 'geen temperatuur is'.

Nominaal meetniveau

Hierbij heeft de variabele verschillende categorieën maar deze hebben geen specifieke volgorde. Een voorbeeld van een nominale variabele is de provincie waar men in woont.

Ordinaal meetniveau

In tegenstelling tot bij het nominale meetniveau hebben de verschillende categorieën wel een volgorde. Een voorbeeld van een ordinale variabele is de kledingmaat: small, medium, large. Hier zien we duidelijk een volgorde in de grootte van de maat. De nominale en ordinale variabelen worden ook wel 'categorale variabelen' genoemd

Analysemethoden

Het meetniveau van de variabele is belangrijk om te kunnen bepalen welke analysemethode we kunnen gebruiken.
We kunnen veel analysemethoden gebruiken. Hieronder worden enkele methoden besproken waarbij het verband tussen 1 afhankelijke variabele en 1 of meerdere onafhankelijke variabelen wordt onderzocht.
  • Chi-kwadraat toets
  • T-toets
  • F-toets
  • Enkelvoudige en meervoudige regressie
  • Logistische regressie

Chi-kwadraat

De werkwijze van de Chi-kwadraat toets werd reeds toegelicht binnen InfoNu met als titel: De Chi-kwadraat toets. Belangrijk is wel nog te vermelden dat het om het 'te onderzoeken verband' tussen 2 categorische variabelen gaat. Dit wil dus zeggen: variabelen die gemeten zijn op nominaal en ordinaal meetniveau.

De T-toets

Via de T-toets onderzoeken we een significant verband tussen een onafhankelijke dichotome variabele en een afhankelijke interval/ratio variabele. We onderzoeken bv. het gemiddelde loon voor de categorieën van de dichotome variabele (man/vrouw). Wanneer we merken dat er een verschil is betreffende het loon via een steekproef, gaan we bij significantietoetsing toch starten met de nulhypothese van: 'er is geen verschil inzake het loon van mannen en vrouwen in de populatie'. We gaan onderzoeken of het verschil dat we gevonden hebben betreffende ons loon niet louter gebaseerd is op toeval.

De F-toets

De F-toets peilt naar het significant verband tussen een onafhankelijke categorische variabele en een afhankelijke interval-ratio variabele. Omdat het hier over meerdere categorieën gaat (bij een dichotome variabele zijn er slechts 2 categorieën, terwijl er bij een categorische variabele meerdere categorieën zijn), dienen we niet alleen een significant verschil van de gemiddelden te bepalen, maar ook naar de spreiding binnen en tussen de groepen te kijken.

Enkelvoudige en meervoudige lineaire regressie

Via enkelvoudige en meervoudige lineaire regressie kijken we in welke mate één of meerdere onafhankelijke variabele(n) de afhankelijke variabele probeert te voorspellen. Cruciaal is hierbij dat we kijken dat beide variabelen gemeten zijn op intervalniveau. Omdat men ook graag categorische variabelen in een regressievergelijking opneemt, zorgt men er vaak voor dat deze omgezet worden in dummies. Op deze manier kunnen we ook werken met een stijging van 1 eenheid zoals bij intervalvariabelen het geval is. Per categorie wordt er dan aangeduid of deze categorie 'wel (=1) of niet (=0)' van toepassing is. De regressievergelijking is gelijk aan y=a+bx+e. a stelt hier de waarde voor wanneer er geen voorspellende x-variabelen zijn opgenomen. b geeft de mate aan waarin y veranderd als de x-variabele met 1 eenheid toeneemt, terwijl de 'e' de foutenterm in de vergelijking voorstelt. Bij meervoudige regressie zijn er dan dus meer 'bx-en' opgenomen in de vergelijking omdat we met meer onafhankelijke variabelen werken.

Logistische regressie

Bij logistische regressie is deze keer de afhankelijke variabele gemeten op dichotoom niveau, terwijl de onafhankelijke variabele(n) op intervalniveau gemeten is (of zijn). We onderzoeken bv. de Odds Ratio van alcohol drinken in vergelijking met geen alcohol drinken op het krijgen van een auto-ongeluk. Hierbij bepaalt de WALD-test of er een significant verband is naar de populatie toe.

Associatiematen

Associatiematen bepalen de sterkte van het significant verband. Wanneer we echter zouden aantonen dat het verband naar de populatie toe niet significant is, heeft het geen zin om de sterkte van het verband aan te duiden omdat dit duidt op te veel toeval in onze steekproef. Zoals aangetoond bij de analysemethoden onderzoeken we vaak het verband tussen variabelen die gemeten zijn op een verschillend meetniveau. Daarom geldt in de statistiek in dat geval de regel dat we ons moeten toespitsen op een associatiemaat die geldig is voor het laagste meetniveau van de opgenomen variabelen in onze analyse. Als we bv. het verband onderzoeken tussen een interval variabele(bv. loon) en de opleiding die iemand heeft gevolgd, moeten we kiezen voor een nominale associatiemaat enz. De term hoog en laag hebben hier betrekking op de nauwkeurigheid waarmee een variabele is gemeten. Interval- en ratiovariabelen zijn het hoogst, hierna komen ordinale en dan nominale variabelen. Er is ook een specifieke maat voor dichotome variabelen ( variabelen met 2 categorieën zoals bv. geslacht) Hieronder vindt u een overzicht van welke associatiemaat bij welk meetniveau dient gebruikt te worden:
  • Interval: Pearson correlation
  • Dichotoom: phi
  • Nominaal: Cramer’s V (soms wordt ook Lambda gebruikt)
  • Ordinaal: Spearman’s rho, Kendall’s tau-c, Gamma, Somer’s D

Interpretatie van het verband

  • -1 – 0 – 1: bij intervalvariabelen.
  • 0 – 1: bij categorale variabelen
  • De waarde 0 duidt op geen verband
  • 1 duidt op een positief en perfect verband
  • -1 duidt op een perfect negatief verband
© 2011 - 2024 Brunos, het auteursrecht van dit artikel ligt bij de infoteur. Zonder toestemming is vermenigvuldiging verboden. Per 2021 gaat InfoNu verder als archief, artikelen worden nog maar beperkt geactualiseerd.
Gerelateerde artikelen
Meetniveau in de statistiekMeetniveau in de statistiekEen veel voorkomend begrip in de statistiek is het meetniveau van een variabele. Afhankelijk van het meetniveau van de v…
Kwantitatieve analyse: kwantitatieve gegevens verwerkenKwantitatieve analyse: kwantitatieve gegevens verwerkenDe fase van kwantitatieve analyse komt aan de orde als de dataverzameling is afgerond. Het gaat over het verwerken van k…
Aard van een statistisch verband weergeven in een tabelAard van een statistisch verband weergeven in een tabelDe aard of richting van een statistisch verband kunnen we weergeven door middel van een kruistabel of een gemiddelde tab…
Meetniveaus: Nominaal, Ordinaal, Interval en RatioMeetniveaus: Nominaal, Ordinaal, Interval en RatioWanneer je onderzoek doet heb je vaak variabelen die je hierin moet verwerken. Variabelen zijn elementen uit een onderzo…

Didactiek: leerlingkenmerkenDe leraar moet doelen kunnen kiezen, ordenen en formuleren. Voor deze doelen te kunnen bereiken, moet men echter vooraf…
Middenjury als alternatief voor schoolOm heel wat uiteenlopende redenen kunnen of willen kinderen niet (meer) gewoon naar school gaan, zoals dat in onze maats…
Bronnen en referenties
  • Inleidingsfoto: Geralt, Pixabay
  • Statistiek: bivariate en multivariate analyse UA
Brunos (127 artikelen)
Laatste update: 01-05-2020
Rubriek: Educatie en School
Subrubriek: Methodiek
Bronnen en referenties: 2
Per 2021 gaat InfoNu verder als archief. Het grote aanbod van artikelen blijft beschikbaar maar er worden geen nieuwe artikelen meer gepubliceerd en nog maar beperkt geactualiseerd, daardoor kunnen artikelen op bepaalde punten verouderd zijn. Reacties plaatsen bij artikelen is niet meer mogelijk.