Dit artikel is ook te downloaden als Word document: klik.


Betrouwbaarheid van de GIT2 overschat

Peter Tellegen

mei 2005

Persoonlijkheids- en Differentiële Psychologie RuG

.

Eind 2004 is de GIT2, de herziene versie van de Groninger Intelligentie Test uitgebracht (Luteijn & Barelds, 2004). Onlangs verscheen eveneens een Nederlandse bewerking van de KAIT (Kaufman - Intelligentietest voor Adolescenten en Volwassenen; Mulder, Dekker & Dekker, 2004) terwijl binnenkort een nieuwe Technische verantwoording zal verschijnen voor de WAIS-III NL.
Daarmee zijn dan in Nederland en Vlaanderen drie recent genormeerde intelligentietests voor adolescenten en volwassenen beschikbaar. Wanneer de nieuwe verantwoording van de WAIS is verschenen, is het onze bedoeling in te gaan op de psychometrische aspecten van deze tests en deze onderling te vergelijken.

Vooruitlopend daarop wordt in dit artikel aandacht besteed aan de betrouwbaarheid van de GIT2.
Het blijkt dat de methode die is gebruikt om de betrouwbaarheid vast te stellen aanvechtbaar is en niet juist toegepast. Er is geen reden om te veronderstellen dat de betrouwbaarheid van de test niet voldoende hoog is, maar de gegevens die in de Handleiding worden gepresenteerd, leiden tot een aanzienlijke overschatting van de nauwkeurigheid waarmee het GIT2-IQ kan worden vastgesteld.
Een dergelijke overschatting is nadelig voor de cliënt, voor degeen die de testuitkomst beoordeelt en voor de interpretatie van testuitkomsten in het kader van wetenschappelijk onderzoek.

Betrouwbaarheid, interne consistentie en stabiliteit

De betrouwbaarheid van het GIT2-IQ wordt beoordeeld op grond van een test-hertestonderzoek bij 44 personen. De tussenliggende periode was gemiddeld twee maanden. De hertestcorrelatie voor het IQ is opvallend hoog, .99. Op grond van deze betrouwbaarheid is een standaardmeetfout berekend van 1.51 die wordt toegepast voor de hele leeftijdsrange van de test die loopt van 16 tot 86 jaar.

Bij intelligentietests is het gebruikelijk om de betrouwbaarheid te baseren op de interne consistentie van de subtests. De auteurs hebben echter gekozen voor de hertest-betrouwbaarheid omdat zij de nauwkeurigheid van de intelligentiebepaling zo willen beoordelen dat deze niet wordt beïnvloed door het moment van afname van de test.

Op zich valt hier veel voor te zeggen omdat men hierbij niet alleen met toevallige meetfouten rekening houdt (betrouwbaarheid in engere zin) maar ook met weinig relevante schommelingen in prestatie op korte termijn (gebrek aan stabiliteit). Als gevolg hiervan kan verwacht worden dat de hertestcorrelatie (stabiliteit) lager zal uitvallen dan de betrouwbaarheid die op interne consistentie wordt gebaseerd. Dit blijkt ook uit het onderzoek met de KAIT waar de betrouwbaarheid van het IQ gelijk is aan .95 en de stabiliteit (hertestbetrouwbaarheid) .89. Bij de WAIS-III NL wordt voor het IQ een betrouwbaarheid gerapporteerd van .98 en een stabiliteit van .95. In het Amerikaanse normeringsonderzoek met de WISC-III is de (op interne consistentie gebaseerde) betrouwbaarheid .96 en de stabiliteit .94. Voor de oorspronkelijke GIT wordt een betrouwbaarheid vermeld van .97 en een hertestcorrelatie voor het IQ (gebaseerd op 5 subtests) van .85.

Bij al deze vergelijkingen is de hertestbetrouwbaarheid lager dan de betrouwbaarheid die gebaseerd wordt op de interne consistentie. Voor de GIT2 zou dit betekenen dat de op interne consistentie gebaseerde betrouwbaarheid nog hoger zou moeten zijn dan .99 en dat we hier te maken hebben met een vrijwel perfect betrouwbare test.

Betrouwbaarheidsgegevens van de GIT2

Voor het IQ is door de auteurs geen betrouwbaarheid berekend die gebaseerd is op de interne consistentie, maar wel voor de meeste subtests. De uitkomsten staan in onderstaande tabel.
De betrouwbaarheid van de subtests is op drie manieren bepaald, namelijk met hertestcorrelaties en met twee methoden die gebaseerd zijn op de interne consistente, te weten coëfficiënt alfa en de split-half betrouwbaarheid. De hertestcorrelaties zijn gebaseerd op een groep van 44 personen. Coëfficiënt alfa en de betrouwbaarheid met de split-half methode zijn gebaseerd op de 1514 personen van de normeringssteekproef

Tabel 1: Betrouwbaarheid en stabiliteit van de GIT2- scores
.
onderdeel alfa
N=1514
split-half
N=1514
hertestcorrelatie
N=44

woordenlijst .73 .77 .89
legkaarten .81 .83 .86
vaaropdrachten .87 .92 .95
sorteren .82 .84 .92
figuur ontdekken .85 .87 .91
cijferen - - .87
draaikaarten .83 .76 .85
matrijzen .75 .85 .82
woord opnoemen (gemiddeld) [.70] - .92

GIT2-IQ .94 - .99

Overschatting en onderschatting

Naar de mening van de auteurs zijn de interne consistentiewaarden minder geschikt omdat ze de betrouwbaarheid onderschatten als gevolg van de uiteenlopende moeilijkheid van de items. Dit is op zich wel juist maar men kan dit ondervangen door de formule voor labda-2 te gebruiken in plaats van alfa. Onze ervaring is dat dit op subtestniveau tot een betrouwbaarheid leidt die .01 a .02 hoger is. Dit effect van onderschatting als gevolg van uiteenlopende moeilijkheden is niet van toepassing bij de split-half methode.

Naast een mogelijke onderschatting, is er met de methode van betrouwbaarheidsbepaling bij de subtests ook sprake van overschatting van de betrouwbaarheid. Deze is namelijk gebaseerd op alle ruwe scores tezamen waarbij niet is gecorrigeerd voor het leeftijdseffect. De (voor leeftijd) genormeerde scores zullen dus minder betrouwbaar zijn dan de niet naar leeftijd gedifferentieerde ruwe scores. Het is daarom niet duidelijk waarom de auteurs bij de subtests de hertestcorrelaties gebaseerd hebben op de ruwe scores in plaats van op de genormeerde scores.

Daarnaast wordt de betrouwbaarheid bij alfa en bij de split-half methode ook overschat omdat als gevolg van de afbreekregels en/of tijdlimieten de subtestscores niet onafhankelijk zijn. Dit effect zal zich vooral voordoen bij de gehanteerde split-half methode en verklaart ook waarom deze uitkomsten bij de meeste subtests hoger zijn dan alfa.

Betrouwbaarheid GIT2-IQ d.m.v. interne consistentie

Door de auteurs wordt geen betrouwbaarheid van het IQ gegeven die gebaseerd is op de interne consistentie. Door ons is dit wel gedaan waarbij we ons hebben gebaseerd op de alfa's van de subtests. Voor 'woord opnoemen' is deze berekend op grond van de correlatie tussen de twee woordonderdelen. Voor 'cijferen' hebben we de hertestcorrelatie gebruikt. De betrouwbaarheid van het GIT2-IQ (volgens de methode van gestratificeerde alfa) is dan .94. Dit is een plausibele en zeer acceptabele waarde.

Een extreem hoge betrouwbaarheid ligt ook niet in de verwachting aangezien de correlaties tussen de testonderdelen matig zijn (gemiddeld .30).

Betrouwbaarheid GIT2-IQ d.m.v. hertestonderzoek

Het feit dat de hertestcorrelaties zoveel hoger zijn uitgevallen dan de betrouwbaarheidsmaten had reden moeten zijn om deze uitkomsten met het nodige wantrouwen te bekijken en ze niet als uitgangspunt te nemen voor de hele test. De onderzoeksgroep bestond slechts uit 44 personen waarbij dertigers en veertigers oververtegenwoordigd waren. Daarnaast was het gemiddeld IQ te hoog (M=110.1) en was de spreiding van de IQ-scores nogal groot (SD=19.8). Aangezien betrouwbaarheidsmaten en correlaties direct afhankelijk zijn van de spreiding dient men hiervoor te corrigeren als men de uitkomsten in een afwijkende groep wil interpreteren voor de normgroep. Toepassing van deze correctie geeft een hertestbetrouwbaarheid van .98 in plaats van .99.

Bij het berekenen van de standaardmeetfouten en de standaardschattingsfouten is de berekening ook niet goed uitgevoerd aangezien hierbij niet gebruik is gemaakt van de standaarddeviatie in de onderzoeksgroep, maar van de (kleinere) standaarddeviatie in de normgroep. Dit laatste kan wel maar dan moet ook de betrouwbaarheid worden aangepast. Al met al heeft dit als gevolg dat de standaardmeetfout van het IQ (uitgaande van de hertestcorrelatie) gelijk is aan 2.08 en niet 1.51 zoals in de handleiding wordt vermeld.

Zuivere intervallen

Het is ons inziens zeer terecht dat de auteurs van de GIT2 ontraden om IQ's als getal te rapporteren. Als men dit wel wil doen dan bevelen zij aan in ieder geval een betrouwbaarheidsinterval te gebruiken. Dit is een goed advies maar dan dient het interval wel zo realistisch mogelijk berekend te worden. Zoals gezegd, de standaardmeetfout van 1.51 is te laag als gevolg van een verkeerde berekening en dient 2.08 te zijn.
De uitkomst van het hertestonderzoek lijkt echter zo onwaarschijnlijk dat men veel beter gebruik kan maken van de betrouwbaarheid van het IQ van .94 die gebaseerd is op de interne consistentie. Het 95% betrouwbaarheidsinterval heeft dan naar beide zijden een breedte van 7 punten in plaats van de breedte van 3 punten die nu wordt verondersteld.

Als deze methode wordt gevolgd, heeft dit ook als voordeel dat kan worden nagegaan of de betrouwbaarheid wel constant is over de hele leeftijdsrange.

Intelligentieniveau en GIT2-IQ

De auteurs waarschuwen voor een te absolute interpretatie van de uitkomst. Daarom zou het verstandig zijn om naast het hierboven besproken betrouwbaarheidsinterval (waarbij men aangeeft hoe nauwkeurig men uitspraken kan doen over de prestatie op deze negen subtests) ook een interval weer te geven dat gebaseerd is op de generaliseerbaarheid. Hierbij worden de subtests als steekproef uit het relevante domein beschouwd. Deze generaliseerbaarheidscoëfficiënt (gebaseerd op aantal subtests en correlaties tussen de subtests) is volgens een door ons uitgevoerde berekening .79. Dit betekent dat men met het GIT2-IQ wel behoorlijk nauwkeurige uitspraken kan doen over het prestatieniveau op deze test, maar niet over het intelligentieniveau.


to top to top to top to top

homepage T&T homepage SON-tests