De COTAN en de WISC-III De COTAN en de WISC-III Verkoop WISC-III stopgezet Verkoop WISC-III voorlopig stopgezet Beoordeling WISC-III volgens COTAN-normen Beoordeling WISC-III volgens COTAN
WISC-III NDC aan gebruikers NDC aan gebruikers WISC-III De normering Normering WISC-III: representativiteit WISC-III Opmerkingen en Suggesties Handleiding WISC-III: opmerkingen
WISC-III Een illusie armer De WISC-III; Een illusie armer Afname WAIS-III of WISC-III? Afname WAIS-III of WISC-III? Steekproef WISC-III schiet te kort Steekproef WISC-III schiet te kort
Het herstel van de WISC-III Het herstel van de WISC-III De COTAN-beoordeling 2003 WISC-III De COTAN-beoordeling 2003 WISC-III de WISC-IV De WISC-IV
De aangepaste normen van de WISC-III De aangepaste normen van de WISC-III Critici WISC-III in het ongelijk gesteld Critici WISC-III in het ongelijk gesteld Boom stopt distributie WISC-III Boom stopt distributie WISC-III
Enquête toekomst WISC-III Enquête toekomst WISC-III Representatieve normen WISC-III van de baan Representatieve normen van de baan Hoe retourneer ik de WISC-III? Hoe retourneer ik de WISC-III?
Nieuwe CBS-tabel ontkracht WISC-III normen CBS-tabel ontkracht WISC-III normen Derde versie normen WISC-III Derde versie normen WISC-III .


Dit artikel is ook te downloaden als Word document: klik.

De Handleiding van de WISC-IIINL

correcties, opmerkingen en suggesties

Peter Tellegen

Persoonlijkheids- en Differentiële Psychologie, RuG

september 2002

1 xii een na laatste zin: tests i.p.v. test
Hoofdstuk 1: Inleiding
2 Pag. 4 verwijzing Flynn, 1984: in literatuurlijst kloppen verwijzingen niet. Van twee publicaties zijn er drie gemaakt.
3 Pag.7 tabel 1.2: subtest doolhoven hoort bij Performaal
4 Pag. 8 Hertesteffect: waarom niet resultaten vermeld van amerikaans hertestonderzoek met WISC-III (Wechsler, 1991), p. 169-172
5 Pag 9 Andere oorzaken van laag presteren. Waarom wordt niet gewezen op bestaan andere tests (bijv. nonverbaal). Taalproblemen bij allochtonen zouden explicieter aan bod moeten komen. Het is duidelijk dat anderstaligheid de uitslag op de WISC-III kan beïnvloeden. De Algemene Standaard Testgebruik van het NIP stelt dat in een dergelijk geval gezocht moet worden naar een alternatief voor de test. Dit dient in de handleiding duidelijk vermeld.
6 Pag. 10 Hoort hierbij ook niet de bespreking van kinderen met motorische handicaps, staat nu verderop bij pag. 44.
Hoofdstuk 2: Ontwikkeling en normering van de WISC-III
7 Pag. 14 Flynn-effect. Flynn, 1984, noemt 3 IQ-punten per 10 jaar voor de VS. Onderzoek met amerikaanse WISC-III geeft verandering over 17 jaar van 5.3 IQ-punten. Waarom wordt dit niet aangehaald (Wechsler, 1991, p. 197-199). Dit alles leidt tot geschatte verandering van 6 punten ipv 7 tot 10 zoals in handleiding wordt vermeld.
8 Pag. 16 Samenstelling verbale subtests. Aandacht voor onderscheid Vlaams-Ned. Is natuurlijk uitstekend maar waarom is nergens aandacht voor taalkundige aspecten voor allochtonen. Of ging men er toch al van uit dat de WISC voor allochtonen ongeschikt is. De aanbevelingen van de Test Screeningscommissie komen nergens aan bod.
9 Pag. 20 Beschrijving subtests. Betrouwbaarheden worden vermeld voor heterogene leeftijdsgroep. Niet relevant en misleidend. Dit zou in ieder geval duidelijk moeten worden gemaakt. Beter zou zijn een gemiddelde alpha.
10 Pag. 21 Waarom geen gemiddelde subtestscores per leeftijdsgroep en apart vlaams/ned. Waarom geen (summiere) empirische informatie over andere aspecten.
11 Tabel 2.4. Het verschil in kop 'Aantal opgaven WISC-R' en 'Aantal opgaven van de WISC-R' is niet duidelijk.
deel Wijzigingen (pag. 22-27) overgeslagen
12 Pag. 28 Bovenaan, definitie populatie. Toegevoegd moet worden: tenminste 6 jaar in Ned/Vl woonachtig en niet ernstig lichamelijk of verstandelijk beperkt.
13 Pag. 28 Stratificatie. Algemene verwijzing naar publicaties CBS e.d. Te algemeen. Wat is waarop gebaseerd.
14 Pag. 28 Onderaan. Kinderen met leer- en/of opvoedingsproblemen afkomstig uit Speciaal Onderwijs is onduidelijk. De term LOM wordt niet meer (of mag niet meer) gebruikt. Zit hier nu wel of niet de oude MLK-groep bij?
15 Pag. 29 Bovenaan. Kan de conclusie worden getrokken dat enkele jaren Nederlandstalig onderwijs een voorwaarde is voor WISC afname.
16 Tabel 2.5: Nederland, meisje percentage moet zijn 51% i.p.v. 51.
17 Pag. 29 Waarom is het gestratificeerde steekproefplan uitgedeid van 1100 naar 1229. Waarom is proportie Ned/VL zo ongelijk; waarom is proportie m/v zo ongelijk over leeftijdsgroepen.
18 Pag. 30 Wat ontbreekt is een vergelijking tussen het (beoogde)steekproefplan en de gerealiseerde steekproef mbt leeftijd/sekse/Ned-Vl/onderwijsniveau. Het is niet aanvaardbaar dat de gegevens over onderwijsniveau ontbreken terwijl op pag. 31-32 wel de, veel minder relevante, gegevens over regio en bevolkingsdichtheid worden gegeven.
19 Het feit dat het opleidingsniveau in Nederland bij het voortgezet onderwijs belangrijk afwijkt, ook al heeft men dat proberen te compenseren met de Vlaamse groep, had duidelijk en met een goede toelichting vermeld moeten worden (van 13-16 jaar is het percentage HAVO/VWO 55% i.p.v. 35%). Nu wordt toch wel de indruk gewekt dat dit onder het kleed wordt geveegd. Het vertrouwen in de handleiding en in de kwaliteit van de normering wordt hiermee ondermijnd
20 Pag. 33 Laatste zin wijzigen. Bij de hier gebruikte methode, waarbij de informatie van alle leeftijdsgroepen is betrokken, is extra- en intrapolatie naar niet onderzochte leeftijden beter mogelijk. Hierdoor kunnen meer gedifferentieerde normtabellen worden geconstrueerd.
21 Pag. 34 Bovenaan. De verwijzing van Laros & Tellegen komt in de literatuurlijst achter Snijders, Tellegen & Laros, i.p.v. achter Kessels.
22 Pag. 35 Bovenaan. Gesteld wordt dat voor de totaalscore geen leeftijdseffecten meer aanwezig waren. Ik vraag het me af. Het is toch vreemd dat een 6-jarige die alle items goed heeft een IQ krijgt van 188 terwijl een 16-jarige die alles fout doet een IQ krijgt van 47. Zit er geen systematische verandering in scheefheid in de verdeling van de somscore?
Van belang zou zijn een tabel met per leeftijdsgroep de verdeling van IQ-scores met gem. sd. scheefheid en kurtosis.
Gemeld wordt dat schaalscores variëren van 1-19. Niet besproken worden bodem en plafond-effecten waardoor dit bij oudsten en jongsten niet altijd het geval is.
23 Pag. 36 Bovenaan: In tabel 2.11 wordt.. Bedoeld wordt tabel 2.12. De terminologie wordt toch niet aanbevolen door de COTAN maar is toch een voorstel van COTAN-leden?
24 Pag. 37 Tabel 2.12. De klassen voor IQ < 50 moeten nog maar eens bekeken worden aangezien de proporties onder de normaalverdeling niet corresponderen met de proporties ernstig zwakzinnigen en diep zwakzinnigen in de Nederlandse populatie.
25 De titel van tabel 2.10 en 2.11 is erg overeenkomstig. Kan 2.11 ook niet beter figuur worden genoemd?
Hoofdstuk 3: De testafname
26 Kan hoofdstuk 3 niet beter voorafgaan aan hoofdstuk 5, de subtestinstructies?
27 Pag. 44 Het testen van lichamelijk gehandicapte kinderen. Dit zou beter passen in samenhanh met pag. 9-10, leerproblemen, allochtonen, neurologisch onderzoek.
28 Pag. 45 'andere tests voor specifieke groepen'. Men stelt dat deze andere tests gebruikt kunnen worden als aanvulling op de WISC-III. Beter is te erkennen dat voor sommige groepen de WISC-III niet geschikt is en dat goede alternatieven voorhanden zijn.
Pag. 45 - 56 overgeslagen
29 Pag. 57 Antwoordformulier. Afdruk van een volledig, ingevuld formulier zou handig zijn.
30 Pag. 61 Ontbrekende scores. Voor de verbale schaal en performale schaal mag wel worden uitgegaan van 4 i.p.v. 5 subtests maar voor de totale schaal moeten tien subtests zijn afgenomen. Waarom daar niet 9 of evt. 8?
31 Pag. 61 Onderaan: 'is niet gelijk is'.
32 Pag. 61 Onderaan. De zin kan beter luiden: Opgemerkt dient te worden dat de Totale IQ-score niet gelijk is aan het gemiddelde van het Verbale IQ en het Performale IQ.
Een uitleg waarom het Totale IQ meer extreem ligt dan het gemiddelde zou voor veel gebruikers verhelderend zijn.
33 Pag. 62 Tweede alinea. Gesteld wordt dat totaal IQ in tabel A4 loopt van 40-160. In de tabel is het echter 47-188.
Voor alle IQ en factorscores kan men veel beter de grenzen aanhouden van 55 - 145 zoals ook bij de SON-R 5.5-17 is gedaan en bij de RAKIT. Daarbuiten komen scores zeer weinig voor, zijn de normen zeer onbetropuwbaar en zijn de schalen, kwa differentiatiemogelijkheden ook niet vergelijkbaar.
33 Pag. 63 Bepalen van de leeftijd. De test werd afgenomen op 23/9/2001 en niet op 20/9/2001. Wel pijnlijk dat hier ook al weer een fout is gemaakt. De berekening is exact gelijk aan figuur 3.3. Hoort hier niet figuur titel bij. Waarom niet een nieuw voorbeeld.
34 Pag. 64 Bepalen van de normscores. De som van de normscores klopt niet (66 i.p.v. 68).
35 Pag. 65 Figuur. 95% is niet ingevuld op formulier. Het is waarschijnlijk duidelijker als op deze figuur en op die van voorgaande pagina alles met de hand wordt ingevuld i.p.v. getypt.
Hoofdstuk 4: Betrouwbaarheid en validiteit
36 Pag. 67 Onderaan. Gesteld wordt dat de gemiddelde scores ook bij de oudere leeftijden nog toenemen hetgeen betekent dat de subtests ook bij de oudere leeftijdsgroepen nog duidelijk differentiëren. De opzet van de test is echter dat ze differentiëren binnen leeftijdsgroepen en niet noodzakelijkerwijs tussen de groepen. Als er geen verschil is bij de oudste groepen hoeft dat geen enkel probleem te zijn zoals wel wordt gesuggereerd.
37 Pag. 67 Onderaan. Alleen voor Cijferreeksen en Doolhoven zou gelden dat in oudste leeftijdsgroepen nauwelijks stijging is. Dit klopt niet. Het geldt ook voor: OT, PO, RE, BP, SV en DH (dit suggereert dat de normen voor 16 jarigen met de nodige voorzichtigheid ook wel voor ouderen gebruikt kunen worden. Met het normeringsmodel zou vrij gemakkelijk een extrapolatie gerealiseerd kunnen worden).
38 Pag. 69 Betrouwbaarheid. Beter is het om accuraatheid en stabiliteit niet door elkaar te gooien. Stabiliteit (zeker over langere tijd) is geen aspect van betrouwbaarheid in klassieke zin. Eerder, onder bepaalde condities, een noodoplossing om de betrouwbaarheid te bepalen.
39 Pag. 69 Niet zo duidelijk dat met homogeniteitscoefficiënt hetzelfde wordt bedoeld als interne consistentie en dat dit a is (waarom niet alpha). Split-half is ook interne consistentiemaaat.
40 Pag. 69 Geen alpha voor snelheidstests. Terecht. Maar hoe is betrouwbaarheid dan wel berekend. Namelijk in tabel 4.4 wel betrouwbaarheden voor de totaalscores en in tabel 4.6 wel standaardmeetfouten voor de snelheidstests.
41 Pag. 69 Betrouwbaarheidscoefficiënt. Geen aandacht voor het feit dat alpha betrouwbaarheid overschat bij adaptieve procedures zoals die bij deWISC-III zijn gebruikt. Zie handleiding SON-R 5.5-17 en de waarschuwing in 'Beoordelingssysteem voor de Kwaliteit van Tests' van de COTAN, 1999 (p. 25, ad. 4.2.b.).
42 Pag. 69 Tabel 4.4. De betrouwbaarheidscoeficiënten voor de totale groep geven een volslagen verkeerde en irrelevante indruk van de betrouwbaarheid van de test als intelligentie-instrument (leeftijdgerelateerd). Informatief zou zijn de gemiddelde waarde over de groepen. Bovendien heeft de kolom totaal een andere betekenis (en berekening) voor de subtests in vergelijking tot het IQ.
43 Pag. 69 Tabel 4.4. In de tabel horen ook thuis SU en SV met aantekening hoe daar betrouwbaarheid is berekend.
44 Pag. 70 Betrouwbaarheid niet zodanig hoog (=.80). Duidelijker (>.80).
45 Pag. 70 De bovenste alinea is onduidelijk. Eerst concludeert men dat voor alle subtests geldt dat beter geen aandacht kan worden besteed aan onderlinge verschillen en vervolgens heeft men het weer over specifieke subtests. De volgorde kan beter omgedraaid.
46 Pag. 70 Split-half en tabel 4.5. De split-half voegt niets toe en kan beter weg. Dat de waarden hoger zijn dan alpha is trouwens wel een indicatie dat de adaptieve procedure leidt tot overschatting van de betrouwbaarheid.
47 Pag. 71 Standaardmeetfout. Het is niet correct om te zeggen dat de standaardmeetfout een schatting geeft van de foutenmarge (van schatten is namelijk geen sprake; het is de standaarddeviatie van geobserveerde scores rond de 'ware' score).
48 Pag. 71 Formule SEM. Het wortelteken is als kleine 'v' weergegeven.
49 Pag. 71 Tabel 4.6. Hier staan wel sem's van subtest SU en SV. Niet duidelijk hoe dit is berekend en bovendien blijkt dat voor SV geen onderscheid is gemaakt tussenleeftijdsgroepen. Onduidelijk waarom.
50 Pag. 71 Tabel 4.6. De meetfout voor totale groep is onduidelijk. Heeft men hier wel gemiddelde genomen? Hoe is het anders berekend.
51 Pag. 72 Betrouwbaarheidsinterval. Het betrouwbaarheidsinterval geeft volgens de auteurs het scorebereik aan waarbinnen de betrouwbare score naar alle waarschijnlijkheid zal liggen. De intervallen zijn weergegeven in tabel A.2 - A.7.(Bijlage).

Nergens wordt de formule gegeven hoe het interval is berekend. Met het volgende voorbeeld is dit wel te achterhalen. Bij de Performale schaal wordt (tabel A3) bij een IQ van 160 het 95% betrouwbaarheidsinterval gegeven van 142 - 162. Dit interval heeft een breedte van 21 punten (van 141.5 tot 162.5). De standaardmeetfout van de Performale schaal is 5.5. Blijkbaar is het interval berekend als 2 x 1.96 x 5.5 = 21.6.
Het midden van het interval is middels regressie berekend. De betrouwbaarheid van de Performale Schaal is .866. Het midden van het interval (dit is de geschatte 'ware' score) is 100 + alpha x 60 = 100 + .866 x 60 = 152. Aan beide zijden is het interval berekend als plus of min 1.96 x 5.5 = +/- 10.8. Terecht is dit naar beneden afgerond.

De grote fout hierbij is echter dat een betrouwbaarheidsinterval geconstrueerd wordt rond de geschatte ware score. Of men neemt een geschatte ware score met een waarschijnlijkheidsinterval, dat aangeeft hoe de ware scores rond de geschatte ware score verdeeld zijn (en volgens de omschrijving heeft men dit bedoeld) of men hanteert betrouwbaarheidsintervallen maar die liggen dan symmetrisch rond de geobserveerde score en hebben een toetsende betekenis. Zie Laros & Tellegen, 1991. In het Beoordelingssysteem voor de Kwaliteit van Tests (COTAN, 1999) is aan dit probleem uitgebreid aandacht besteed (ad 3.6).

De consequentie is dat de intervallen smaller zijn dan nu gepresenteerd. Voor de schattingsfout moet de standaardmeetfout met de wortel van de betrouwbaarheidscoefficiënt worden vermenigvuldigd. Voor het PIQ resulteert dit in een interval, bij een score van 160, van 142 tot 161. De verschilen zijn niet groot (omdat alpha hoog is) maar een correcte naamgeving, berekening en een goede uitleg mag toch verwacht worden.
52 Pag. 72 Betrouwbaarheid. De betrouwbaarheidsintervallen worden uniform, ongeacht leeftijd gepresenteerd. De motivatie ontbreekt, evenals de berekeningswijze van de 'gemiddelde' betrouwbaarheid. Voor de meeste schaalscores lijkt een gemiddelde waarde terecht, alleen voor VSF is de betrouwbaarheid bij jongste leeftijd lager.
53 Pag. 72 Interbeoordelaarsbetrouwbaarheid. De betrouwbaarheid moet per leeftijdsgroep worden vastgesteld. De huidige hoge waarden gebaseerd op zeer heterogene leeftijdsgroep hebben geen praktische betekenis.
54 Pag. 73 Verschillen in IQ en factorscores. In tabel B1 (bijlage) worden per leeftijdsgroep minimale verschilwaarden gegeven voor significantie (in de tekst staat 85% en 95% significantieniveau, bedoeld zal zijn 15% en 5%). Bij de betrouwbaarheidsintervallen werden alle leeftijden samengenomen, waarom nu opeens per leeftijdsgroep. Dit geeft wisselvalligheid die vermoedelijk als steekproefvariantie is te beschouwen.
55 Pag. 74 Verschil tussen statistisch en klinisch relevant. Waarom geen tabellen met frequentie PIQ-VIQ verschillen. Overigens is er veel voor te zeggen om bij het schatten van ware scores op PIQ en VIQ (geldt ook voor factoren) gebruik te maken van score op andere schaal door middel van multipele regressie (zie SON-R 5.5-17). In tabellen is het wat lastig maar met computerprogramma geen probleem. Dit voorkomt ook overschatting van de verschillen tussen PIQ en VIQ.
56 Pag. 73 Significante verschillen tussen subtests. In de tekst staat dat in tabel B2 verschil staat dat significant is op het 95% betrouwbaarheidsniveau (per leeftijdsgroep). In de tabel staan echter de waarden voor het 5% en het 15% significantieniveau. Op pag. 70 van de handleiding werd afgeraden om uitspraken te doen op basis van subtestscores. Hier wordt echter geheel niet gewezen op de valkuilen bij het toetsen van 45 verschillen tussen subtests (10 x 9 : 2). Een significantieniveau van 15% is dan al helemaal ongewenst. Bovendien wordt per leeftijdsgroep weer grote wisselvalligheid geïntroduceerd. Veel beter is om (voor totaal en apart voor PIQ en VIQ) de spreiding tussen subtestscores te berekenen en aan te geven of deze opvallend hoog zijn (zie SON-R 2.5-7). Met computerprogramma is dit weer eenvoudig te doen.
57 Pag. 74 Validiteit. De beschrijving van het onderscheid convergerende en divergerende validiteit is niet zo duidelijk. Zou ook verhelderd worden door de gemiddelde correlaties te vermelden van subtests binnen verbale en performale schaal en correlaties van subtests behorend bij verschillende schalen.
Waar zijn trouwens de correlaties tussen PIQ en VIQ en tussen de schalen. Verandert er iets met de leeftijd?
58 Pag. 76 Exploratieve factoranalyse. De zin ' Tevens zijn nog analyses uitgevoerd', moet zijn ' Tevens zijn nog andere analyses uitgevoerd.'
59 Pag. 77 Tabel 4.10. De weergave van deze tabel over twee pagina's is ongelukkig.
60 Pag. 78 Samenhang schoolresultaten. Wat zijn de resultaten Rekenen en Taal precies. Eindrapportcijfers, toetsen? In tabel 4.11 blijkt correlatie tussen taal en rekenen erg hoog (r=.72). Is het misschien een heel heterogene onderzoeksgroep. Nergens gemiddelden en spreiding van de scores (noodzaak). De leeftijd van de kinderen ontbreekt. Waarom geen correlaties met de factorscores.
61 Pag. 80 IQ en onderwijstype. Er wordt niet verteld dat een groot deel ontbreekt en waarom. Uitgaande van tabel 4.13 is 70% van het voortgezet onderwijs op Havo/VWO niveau. Geen informatie over samenhang op subtest en factorniveau.
Conclusie

De handleiding van de WISC-III dient grondig herschreven te worden. In de eerste plaats zal moeten worden nagegaan of de normering van voldoende kwaliteit is. Met name dient onderzocht of het onderwijsniveau vanaf 12 jaar representatief is. Een punt van zorg is ook of de totalescores wel een verdeling hebben die uniform is over de leeftijden.

Presentatie van kenmerken van genormeerde scores over leeftijd zodat de gevolgde normeringsmethode op juistheid kan worden beoordeeld.

Bij de toepassing van het normeringsmodel zijn de scoreverdelingen van de subtests gefit over de leeftijden. Het verdient aanbeveling om na te gaan of de andere kenmerken, zoals betrouwbaarheden en correlaties constant zijn over leeftijd. Anders kunnen ze ook beter gefit worden.

De normtabellen moeten bij de jongere leeftijden meer gedifferentieerd worden weergegeven. Nu is er verschil van 6 IQ-punten bij overgang van ene naar andere groep. De indeling van de SON-R 5.5-17 lijkt bruikbaar:

6 - 7;5 jaar: per 2 maanden
7;6 - 9;11 jaar: per 3 maanden
10;0 - 11;11 jaar: per 4 maanden
12;0 - 15;11 jaar: per 6 maanden
16;0 - 16;11 jaar: per 12 maanden

Het normeringsonderzoek en de samenstelling van de normgroep moet veel duidelijker beschreven (onderwijsniveau, allochtonen etc.)

Bij de validiteit moet aandacht besteed aan verschillen tussen Nederland en Vlaanderen, sekseverschillen, prestaties allochtonen, samenhang met demografische kenmerken.
Her en der wordt duidelijk gemaakt dat de WISC-III soms minder geschikt is. Voor allochtonen en bijv. doven/slechthorenden zal toch duidelijk moeten worden gesteld dat de WISC-III niet geschikt is (althans niet om intelligentieniveau te beoordelen) en dat goede alternatieven voorhanden zijn. De test wint aan kwaliteit door de beperkingen duidelijk te maken.

Aan het betrouwbaarheidsdeel moet veel gebeuren

Bij een test als de WISC-III zou toegevoegd kunnen worden een hoofdstuk over validiteit (en andere gegevens) van de WISC-R in Nederland en een hoofdstuk met validiteit (en andere gegevens) van de WISC-III in de VS en andere landen. Tevens zou een hoofdstuk kunnen worden gewijd aan de betekenis van WPPSI en WAIS. Over de Wechslertests is een ongelofelijke hoeveelheid aan empirisch onderzoek. Dat hoeft natuurlijk voor de WISC-III NL niet opnieuw uitgevoerd.

Een slechte handleiding kan niet in orde gemaakt met een aanvullende technische verantwoording. Wil de publicatie van een test onder de vlag van het NIP een toegevoegde waarde hebben, dan zullen de test, het constructieonderzoek en de kwaliteit van de handleiding van goede kwaliteit moeten zijn.


to top to top to top to top

homepage T&T homepage SON-tests