InfoNu.nl > Educatie en School > Methodiek > Bivariate en multivariate analyse in de statistiek

Bivariate en multivariate analyse in de statistiek

Bivariate en multivariate analyse in de statistiek Om het verband tussen 2 of meerdere variabelen te bepalen, gebruikt men in de statistiek de bivariate en multivariate analyse. Op basis van significantietoetsing probeert men dan te testen of dit verband significant is naar de populatie toe. De sterkte van dit significant verband kan men dan bepalen door middel van een associatiemaat. Er zijn verschillende analysemethoden die gebaseerd zijn op het meetniveau van de variabele. Wanneer men een analyse wilt doen stelt men zich 4 cruciale vragen:
  • Is er werkelijk een verband tussen de variabelen?
  • Is het verband statistisch significant (=significantietoetsing)?
  • Hoe sterk is dit verband (wordt bepaald via associatiematen)?
  • Wat is de aard of richting van het verband?

We vertrekken hierbij van een mogelijk verband dat we hebben gevonden via een steekproef. Dan gaan we dus aanduiden of dit verband ook betekenisvol is naar de populatie en hoe sterk dit verband is. Deze nulhypothese (= 'er is geen betekenisvol verband in de populatie') en het mogelijk verwerpen ervan door de alternatieve hypothese (= 'er is wel een betekenisvol verband aantoonbaar in de populatie') is de kern van het significantietoetsen.

Meetniveau van de variabele

Cruciaal om een mogelijk verband te analyseren is eerst te kijken op welk meetniveau de variabele gemeten is. Naargelang het meetniveau worden er namelijk andere analysemethoden gebruikt. De verschillende meetniveaus zijn:
  • Interval: variabelen met een vaste meeteenheid en volgorde, maar geen nulpunt wat de afwezigheid van het kenmerk zou aanduiden. Bijvoorbeeld temperatuur.
  • Ratio: variabelen op dit meetniveau gemeten hebben ook een vaste meeteenheid en volgorde, maar ze hebben ook een nulpunt, wat de afwezigheid van het kenmerk aanduidt. Iemand die 0 euro heeft, heeft gewoonweg geen geld. Bij een variabele op intervalniveau gemeten, wil een nulpunt daar wel iets zeggen. Wanneer het 0 graden is, kunnen we niet zeggen dat er 'geen temperatuur is'.
  • Nominaal: hierbij heeft de variabele verschillende categorieën maar deze hebben geen specifieke volgorde. Een voorbeeld van een nominale variabele is de provincie waar men in woont.
  • Ordinaal: in tegenstelling tot bij het nominale meetniveau hebben de verschillende categorieën wel een volgorde. Een voorbeeld van een ordinale variabele is de kledingmaat: small, medium, large. Hier zien we duidelijk een volgorde in de grootte van de maat. De nominale en ordinale variabelen worden ook wel 'categorale variabelen' genoemd

Analysemethoden

Het meetniveau van de variabele is belangrijk om te kunnen bepalen welke analysemethode we kunnen gebruiken.
We kunnen veel analysemethoden gebruiken. Hieronder worden enkele methoden besproken waarbij het verband tussen 1 afhankelijke variabele en 1 of meerdere onafhankelijke variabelen wordt onderzocht.
  • Chi-kwadraat toets
  • T-toets
  • F-toets
  • Enkelvoudige en meervoudige regressie
  • Logistische regressie

Chi-kwadraat

De werkwijze van de Chi-kwadraat toets werd reeds toegelicht binnen InfoNu met als titel: De Chi-kwadraat toets. Belangrijk is wel nog te vermelden dat het om het 'te onderzoeken verband' tussen 2 categorische variabelen gaat. Dit wil dus zeggen: variabelen die gemeten zijn op nominaal en ordinaal meetniveau.

De T-toets

Via de T-toets onderzoeken we een significant verband tussen een onafhankelijke dichotome variabele en een afhankelijke interval/ratio variabele. We onderzoeken bv. het gemiddelde loon voor de categorieën van de dichotome variabele (man/vrouw). Wanneer we merken dat er een verschil is betreffende het loon via een steekproef, gaan we bij significantietoetsing toch starten met de nulhypothese van: 'er is geen verschil inzake het loon van mannen en vrouwen in de populatie'. We gaan onderzoeken of het verschil dat we gevonden hebben betreffende ons loon niet louter gebaseerd is op toeval.

De F-toets

De F-toets peilt naar het significant verband tussen een onafhankelijke categorische variabele en een afhankelijke interval-ratio variabele. Omdat het hier over meerdere categorieën gaat (bij een dichotome variabele zijn er slechts 2 categorieën, terwijl er bij een categorische variabele meerdere categorieën zijn), dienen we niet alleen een significant verschil van de gemiddelden te bepalen, maar ook naar de spreiding binnen en tussen de groepen te kijken.

Enkelvoudige en meervoudige lineaire regressie

Via enkelvoudige en meervoudige lineaire regressie kijken we in welke mate één of meerdere onafhankelijke variabele(n) de afhankelijke variabele probeert te voorspellen. Cruciaal is hierbij dat we kijken dat beide variabelen gemeten zijn op intervalniveau. Omdat men ook graag categorische variabelen in een regressievergelijking opneemt, zorgt men er vaak voor dat deze omgezet worden in dummies. Op deze manier kunnen we ook werken met een stijging van 1 eenheid zoals bij intervalvariabelen het geval is. Per categorie wordt er dan aangeduid of deze categorie 'wel (=1) of niet (=0)' van toepassing is. De regressievergelijking is gelijk aan y=a+bx+e. a stelt hier de waarde voor wanneer er geen voorspellende x-variabelen zijn opgenomen. b geeft de mate aan waarin y veranderd als de x-variabele met 1 eenheid toeneemt, terwijl de 'e' de foutenterm in de vergelijking voorstelt. Bij meervoudige regressie zijn er dan dus meer 'bx-en' opgenomen in de vergelijking omdat we met meer onafhankelijke variabelen werken.

Logistische regressie

Bij logistische regressie is deze keer de afhankelijke variabele gemeten op dichotoom niveau, terwijl de onafhankelijke variabele(n) op intervalniveau gemeten is (of zijn). We onderzoeken bv. de Odds Ratio van alcohol drinken in vergelijking met geen alcohol drinken op het krijgen van een auto-ongeluk. Hierbij bepaalt de WALD-test of er een significant verband is naar de populatie toe.

Associatiematen

Associatiematen bepalen de sterkte van het significant verband. Wanneer we echter zouden aantonen dat het verband naar de populatie toe niet significant is, heeft het geen zin om de sterkte van het verband aan te duiden omdat dit duidt op te veel toeval in onze steekproef. Zoals aangetoond bij de analysemethoden onderzoeken we vaak het verband tussen variabelen die gemeten zijn op een verschillend meetniveau. Daarom geldt in de statistiek in dat geval de regel dat we ons moeten toespitsen op een associatiemaat die geldig is voor het laagste meetniveau van de opgenomen variabelen in onze analyse. Als we bv. het verband onderzoeken tussen een interval variabele(bv. loon) en de opleiding die iemand heeft gevolgd, moeten we kiezen voor een nominale associatiemaat enz. De term hoog en laag hebben hier betrekking op de nauwkeurigheid waarmee een variabele is gemeten. Interval- en ratiovariabelen zijn het hoogst, hierna komen ordinale en dan nominale variabelen. Er is ook een specifieke maat voor dichotome variabelen ( variabelen met 2 categorieën zoals bv. geslacht) Hieronder vindt u een overzicht van welke associatiemaat bij welk meetniveau dient gebruikt te worden:
  • Interval: Pearson correlation
  • Dichotoom: phi
  • Nominaal: Cramer’s V (soms wordt ook Lambda gebruikt)
  • Ordinaal: Spearman’s rho, Kendall’s tau-c, Gamma, Somer’s D

Interpretatie van het verband

  • -1 – 0 – 1: bij intervalvariabelen.
  • 0 – 1: bij categorale variabelen
De waarde 0 duidt op geen verband
1 duidt op een positief en perfect verband
-1 duidt op een perfect negatief verband
© 2011 - 2017 Brunos, het auteursrecht van dit artikel ligt bij de infoteur. Zonder toestemming van de infoteur is vermenigvuldiging verboden.
Gerelateerde artikelen
Meetniveau in de statistiekMeetniveau in de statistiekEen veel voorkomend begrip in de statistiek is het meetniveau van een variabele. Afhankelijk van het meetniveau van de v…
Kwantitatieve analyse: kwantitatieve gegevens verwerkenKwantitatieve analyse: kwantitatieve gegevens verwerkenDe fase van kwantitatieve analyse komt aan de orde als de dataverzameling is afgerond. Het gaat over het verwerken van k…
Aard van een statistisch verband weergeven in een tabelAard van een statistisch verband weergeven in een tabelDe aard of richting van een statistisch verband kunnen we weergeven door middel van een kruistabel of een gemiddelde tab…
Meetniveaus: Nominaal, Ordinaal, Interval en RatioMeetniveaus: Nominaal, Ordinaal, Interval en RatioWanneer je onderzoek doet heb je vaak variabelen die je hierin moet verwerken. Variabelen zijn elementen uit een onderzo…
Statistiek - Meetniveaus en statistiekStatistiek - Meetniveaus en statistiekIn de statistiek heeft alles te maken met meetniveaus. Deze zijn erg belangrijk om te bepalen welke soort berekeningen j…
Bronnen en referenties
  • Inleidingsfoto: Geralt / Pixabay
  • Statistiek: bivariate en multivariate analyse UA

Reageer op het artikel "Bivariate en multivariate analyse in de statistiek"

Plaats een reactie, vraag of opmerking bij dit artikel. Reacties moeten voldoen aan de huisregels van InfoNu.
Meld mij aan voor de tweewekelijkse InfoNu nieuwsbrief
Reacties

Sem Kiburg, 27-09-2016 12:06 #2
Beste meneer/mevrouw
Ik heb voor school een opdracht gekregen om verschillende grootheden te interpreteren op zinvol en niet zinvol op bepaalde meetniveaus. Mijn vraag is daarom ook:
Is het zinvol om de scheefheid, variantie en range te berekenen om nominaal, ordinaal, interval en ratio niveau?

met vriendelijke groet,
Sem Kiburg

Soete Michel, 22-07-2013 11:57 #1
Bij interpretatie van de associatie doet men alsof alle associatiematen variëren tussen -1 en +1 of tussen 0 en +1. Hierbij wordt de odds ratio, een in de geneeskunde zeer belangrijke maat van associatie, genegeerd.
Men laat zich ook niet uit over de hoegrootheid van de associatie indien de maat zich tussen -1 en o of tussen 0 en 1 bevindt. Impliciet gaat men er daarbij van uit dat de maten associatie niet meten maar dat er een verband is tussen de meting en de eigenlijke associatie of/en dat eigenlijk niet associatie gemeten werd maar een effect van associatie zoals bv. bij het relatief risico waar men ook het relatief risico als een maat van associatie beschouwt.
Het is nochtans mogelijk de sterkte van associatie zelf direct te meten. Alle andere metingen zijn er op hun best een afkooksel van deze directe meting.

Infoteur: Brunos
Laatste update: 17-12-2016
Rubriek: Educatie en School
Subrubriek: Methodiek
Bronnen en referenties: 2
Reacties: 2
Schrijf mee!