Verantwoord testgebruik Verantwoord testgebruik Standpunten en Verzinsels Standpunten en Verzinsels .


Dit artikel is ook te downloaden als Word document: klik.

Uit een email van Prof. dr. W.K.B. Hofstee (24 oktober 2000): "Langs deze weg een reactie op je artikel. Het is een indrukwekkend document. Het "moest geschreven worden", en dat kun je niet van elk artikel zeggen. De kunst is nu om het gepubliceerd te krijgen en het zo een plaats te geven in de geschiedenis van het vak."

Standpunten en verzinsels in de wetenschap

- Het niveau van de discussie over testgebruik bij allochtonen -

Peter Tellegen

Persoonlijkheids- en Onderwijspsychologie, RuG

april 2001

Inleiding

In 1999 hebben Evers en Te Nijenhuis in De Psycholoog een artikel gepubliceerd onder de titel "Liever speciale dan traditionele cognitieve capaciteitentests voor allochtonen? Een vergelijking." In dat artikel komen zij tot de conclusie dat testbias nauwelijks voorkomt, dat terughoudendheid in de assessment van allochtonen niet meer nodig is en dat er nauwelijks meer grond is voor de constructie en het gebruik van alternatieve tests. Op dit standpunt is door Van den Berg en Van Leest (2000) en door Tellegen (2000) kritiek geleverd. In het juli/augustus nummer van De Psycholoog hebben Te Nijenhuis en Evers een reactie op mijn stuk gepubliceerd. De titel hiervan is: "Is een wetenschappelijke benadering van testgebruik bij allochtonen onverantwoord? Een reactie op Tellegen (2000)."

Te Nijenhuis en Evers (2000b) vinden het een ernstig verwijt dat ik hun stellingname onwetenschappelijk noem. Onwetenschappelijk vond en vind ik het om iemand die niet Nederlandstalig is opgegroeid op grond van gebrekkige kennis van het Nederlands zwakbegaafd of minder intelligent te verklaren. Even onwetenschappelijk zou het zijn om de intelligentie van Evers, of van mijzelf, te beoordelen aan de hand van de afname van een Zweedstalige WAIS. Kritiek op hun stellingname had ik op logische, methodologische en empirische gronden. Hun reactie is op dezelfde gronden aanvechtbaar. Daarnaast zijn in hun reactie ook een groot aantal voorbeelden te vinden waarbij standpunten, informatie en onderzoeksresultaten onjuist, onvolledig of vertekend worden weergegeven. Hierna zal ik ingaan op een aantal van deze punten waarbij de auteurs niet waarheidsgetrouw te werk gaan. De meeste voorbeelden hebben betrekking op hun reactie in het recente juli/augustus nummer van De Psycholoog, aangevuld met enkele opmerkelijke voorbeelden uit andere publicaties. Om zo concreet mogelijk aan te geven waarom de opmerkingen van Te Nijenhuis & Evers niet juist en veelal misleidend zijn wordt uitvoerig geciteerd. Dit maakt deze reactie omvangrijk maar maakt het de lezer beter mogelijk zijn oordeel te vormen.

Sollicitanten met functioneel analfabetisme

Op het eind van het deel van hun reactie met betrekking tot sollicitanten, schrijven Te Nijenhuis en Evers (2000b, p. 327): "Na lezing van de bijdrage van Tellegen zou men de indruk kunnen krijgen dat wij aanbevelen analfabeten met traditionele tests te beoordelen. Dit zou een ernstig misverstand zijn. Op deze plek willen wij in de geest van de Testscreeningscommissie, en meer in het algemeen in de geest van professioneel verantwoord testgebruik, ervoor pleiten grote terughoudendheid te betrachten, bij het gebruik van alle soorten cognitieve tests bij allochtonen met een functioneel analfabetisme in de Nederlandse taal, totdat er grondige valideringsstudies zijn uitgevoerd. In de slotparagraaf van hun artikel vullen Te Nijenhuis en Evers (2000b, p. 331) dit aan met: "In tegenstelling tot wat Tellegen (2000) suggereert beweren Evers en Te Nijenhuis (1999) niet dat allochtonen die nauwelijks Nederlands spreken testbaar zijn met tests waarin beheersing van het Nederlands een substantiële rol speelt."

De indruk dat Te Nijenhuis en Evers geen oog hebben voor het negatieve ‘bias’ effect van gebrek aan kennis van de Nederlandse taal op de intelligentiemeting van allochtonen, is echter niet primair het gevolg van hetgeen ik daarover geschreven heb, maar van hetgeen de auteurs zelf daarover schrijven. In hun conclusie over hun onderzoek naar testbias schrijven Evers en Te Nijenhuis (1999, p. 254): "De terechte terughoudendheid in de assessment van allochtonen met traditionele tests voor het meten van cognitieve capaciteiten... , lijkt na het verschijnen van een grote hoeveelheid empirische valideringsstudies niet meer nodig..... De rationale voor de constructie en het gebruik van alternatieve intelligentietests is grotendeels verdwenen: testbias blijkt nauwelijks voor te komen...." Bij deze conclusies worden door de auteurs nergens restricties aangebracht, bijvoorbeeld dat zij alleen gelden voor allochtonen met een normale ontwikkeling van de Nederlandse taal.

In het eerste artikel van Evers en Te Nijenhuis wordt gesteld dat terughoudendheid in de assessment van allochtonen niet meer nodig is, in hun reactie pleiten ze opeens voor een grote terughoudendheid in testgebruik bij allochtonen die nauwelijks Nederlands spreken. Eerder waren de auteurs ook tot de conclusie gekomen dat de rationale voor het gebruik van alternatieve en niet-verbale intelligentietests grotendeels verdwenen is. Men zou denken dat dergelijke tests, zoals de SON-tests, juist nuttig zouden kunnen zijn voor de grote groepen allochtonen die nu volgens Te Nijenhuis en Evers met traditionele tests niet goed testbaar zijn. Echter de terughoudendheid in testgebruik dient echter volgens hen voor alle soorten cognitieve tests te gelden. Dit standpunt verrast, want elders worden door hen de SON-tests als volgt omschreven "The various versions of the SON are excellent tests for both normal and deaf children that consist solely of nonverbal subtests." (Te Nijenhuis & Van der Flier, 1999) en als "... voorbeeldig geconstrueerde en gevalideerde tests voor autochtone kinderen." (Te Nijenhuis & Evers, 2000b, p. 328). Ondanks het feit dat de SON-tests ‘excellent’ zijn en ‘voorbeeldig geconstrueerd’, blijft de waarde van deze eigenschappen voor Te Nijenhuis en Evers beperkt tot normale kinderen, dove kinderen en autochtone kinderen. Impliciet wordt de afname afgeraden bij allochtone kinderen die slecht Nederlands spreken. Toch zijn het juist de verbale aspecten van intelligentietests die volgens de auteurs allochtonen benadelen: "... there is concensus among testing experts on the small effects of bias. Only tests with a verbal component, such as verbal analogies, clearly are at the disadvantage of immigrants. " (Te Nijenhuis & Van der Flier, 2001).

Te Nijenhuis en Evers bepleiten nu grote terughoudendheid bij het gebruik van intelligentietests bij allochtonen die de Nederlandse taal gebrekkig spreken. Van terughoudendheid is echter geen sprake in een recent artikel van Te Nijenhuis en Van der Flier (2001) waarin een schatting wordt gemaakt van ‘de’ intelligentie van allochtonen in Nederland. Hierbij wordt gebruik gemaakt van uitkomsten van het RAKIT-onderzoek waarbij een deel van de kinderen minder dan drie jaar in Nederland woonde en van het onderzoek met de GATB waarbij de allochtonen, die allen buiten Nederland waren geboren, bij aankomst in Nederland een gemiddelde leeftijd hadden van circa 19 jaar. Een aanzienlijk deel van deze onderzoeksgroepen had ongetwijfeld ten tijde van de testafname een gebrekkige kennis van het Nederlands en uit de uitkomsten blijkt dat juist op de verbale onderdelen de prestaties extreem laag zijn. Onwetenschappelijk, en gezien de implicaties van dergelijke ‘uitkomsten’ ook schandalig, dat men op grond van dit soort onderzoeken met deels sterk verbale tests de conclusie meent te kunnen trekken dat de gemiddelde IQ-score van de Turkse en Marokkaanse bevolking in Nederland gelijk is aan 78.

Testscreeningscommissie

Eén van de aanbevelingen van de TSC is de volgende: "Vanwege hun etnocentrische inhoud dienen zeer veel Nederlandse tests of subtests grondig te worden gereviseerd" (Hofstee et al., 1990, p. 43). Met betrekking tot etnocentrisme (passages in de instructie, opgaven, dan wel aanwijzingen voor de interpretatie van de test, die blijk geven van onvoldoende besef dat de persoon kan behoren tot een allochtone groep) stelt de commissie dat etnocentrisme de toepasbaarheid van een test in sterke mate beperkt. Het gaat hierbij om een inhoudelijk criterium waarvan het effect bij voorbaat ongewenst is, afgezien van het eventuele effect op de score (zie Hofstee et al., 1990, p. 18). Tevens wordt in het rapport gesteld: "Essentieel is naar het oordeel van de TSC het onderscheid tussen inhoudelijke en psychometrische (empirische) criteria. .... Het criterium van racistische of etnocentrische inhoud is echter van andere aard. De vraag of allochtonen daardoor onevenredig worden benadeeld (test bias) komt daarbij op de tweede plaats; voorop staat dat een dergelijke inhoud indruist tegen elementaire omgangsnormen." (Hofstee et al., 1990, p. 15).

Het onderscheid tussen inhoudelijke en empirische criteria is door de voorzitter van de TSC nogmaals benadrukt in een artikel in De Psycholoog: "Gepubliceerde tests horen in principe onberispelijk te zijn. .... Een test kan etnocentrische inhoud vertonen of niet, en los daarvan allochtonen benadelen of niet. De beide criteria zijn onafhankelijk van elkaar (Hofstee, 1990, p. 292). De opmerking van Evers en Te Nijenhuis in hun eerste artikel, dat volgens de TSC tests met etnocentrische inhoud mogelijk niet geschikt zijn voor allochtonen geeft het standpunt van de TSC volstrekt verkeerd weer. Hun opmerking dat de werkgroep geen empirisch onderzoek deed naar de vraag of de gesignaleerde etnocentrische iteminhoud inderdaad een negatief effect heeft op de scores van allochtonen is gelet op het standpunt van de commissie niet relevant (Evers & Te Nijenhuis, 1999, p. 250),. Mijn kritiek hierop wordt door de auteurs verworpen, en is volgens hen misplaatst (Te Nijenhuis & Evers, 2000b, p. 328). Vervolgens wordt door hen een standpunt ingenomen dat haaks staat op dat van de commissie en wordt mij verweten dat ik meer belang hecht aan niet-empirisch getoetste hypothesen dan aan de uitkomsten van empirisch getoetste hypothesen. Een merkwaardig geconstrueerde tegenstelling die niet aan de orde is.

Kwalijk is het dat de auteurs, waarvan Evers nota bene namens het NIP lid was van de commissie, niet bereid zijn het standpunt van de Testscreeningscommissie correct weer te geven. De auteurs willen niet duidelijk maken dat hun standpunt afwijkt van dat van de commissie en de kritiek die zij hebben op het standpunt van de commissie (Te Nijenhuis & Evers, 2000b, p. 328: "Het is echter niet correct om de beslissing om items te vervangen, te baseren op de inhoudsanalyses van de Testscreeningscommissie in plaats van op empirische analyses.") wordt niet aan de commissie gericht, maar aan mij. Mogelijk is de reden hiervan dat de auteurs het graag voorstellen of hun werk in het verlengde ligt van dat van de commissie en daar in zekere zin de voltooiing van is. Bij de Testscreeningscommissie stond echter zorgvuldig en verantwoord testgebruik centraal, bij Te Nijenhuis en Evers lijkt eerder een onvoorwaardelijke verdediging van traditionele intelligentietests de drijvende motivatie te zijn.

Aan het eind van hun alinea over etnocentrisme en item-bias stellen Te Nijenhuis en Evers (2000b, p. 328): "Aangezien onderzoek bij intelligentietests zonder uitzondering laat zien dat item-bias weinig voorkomt, en dat als het voorkomt de effecten klein zijn, ..." Eerder zijn door hen echter een groot aantal voorbeelden genoemd van tests of subtests waarin juist sprake is van veel items met item-bias. In hun eerste stuk (Evers & Te Nijenhuis, 1999, p. 254) constateren zij dat bij de MCT-M het aantal partijdige items varieerde van 13% tot 53%. In een overzicht van Te Nijenhuis (1997) waarnaar de auteurs verwijzen, wordt vermeld dat in een onderzoek bij een schoolprestatietest een groot aantal biased items gevonden werd. Voor de GATB meldt Te Nijenhuis dat in twee subtests veel biased items aanwezig zijn. Ook in de CITO-toets werd een aanzienlijk aantal items met bias gevonden. Voor de RAKIT meldt Te Nijenhuis dat er weinig items met bias gevonden zijn, met uitzondering van de tests met een taalcomponent. Of de effecten van item-bias wel zo klein zijn als Te Nijenhuis en Evers stellen is ook de vraag. In de eerste plaats dient het effect op het niveau van het item te worden vastgesteld. Dergelijke effecten zijn veelal aanzienlijk en een gegronde reden om het item te verwijderen (mits men wil dat de test voor allochtonen geschikt is).

Of de effecten van item-bias op totaalscores klein zijn is ook de vraag. Evers en Te Nijenhuis (2000b, p. 254) noemen effecten van 0.1 SD op gemiddelde subtestscores. Een vertekening of benadeling van deze orde is niet triviaal. Vooral niet als wordt bedacht dat een dergelijke negatieve effecten voor een deel van de onderzoeksgroep niet of in beperkte mate gelden, maar voor een ander deel van de onderzochten juist sterk van invloed zijn. Gemiddeld is de benadeling misschien beperkt, maar in individuele gevallen kan deze aanzienlijk zijn.

Spearmans hypothese

Spearmans hypothese over de rol van de g-lading in testprestaties bij achterstandsgroepen, kan zeker een deel van de verschillen verklaren in prestaties tussen subtests bij allochtonen. Dat deze hypothese door Te Nijenhuis en Van der Flier (1997) in Nederland bij het allochtonen-onderzoek is geïntroduceerd, is dan ook een belangrijke bijdrage. Dat echter naast de g-factor ook testbias bij verbale testonderdelen een negatieve rol kan spelen bij de cognitieve assessment van allochtonen, werd in het onderzoek van Te Nijenhuis en Van der Flier ook aangetoond. Het zal niet zonder reden zijn dat Jensen zijn conclusie dat de gangbare cognitieve tests niet biased zijn, expliciet beperkt tot de populatie van "native-born, English-speaking racial or ethnic subgroups in the U.S. population" (Jensen, 1998, p. 360).

Gezien het verwijt van Te Nijenhuis en Evers dat ik weinig aandacht heb voor empirische gegevens en belangrijke bevindingen uit de literatuur negeer, is het jammer dat zij niet zijn ingegaan op het door mij aangedragen voorbeeld van de relatief zeer lage testprestaties van allochtonen op het onderdeel ‘Woordbetekenis’ bij de RAKIT, een achterstand die in het geheel niet door de g-lading van deze subtest verklaard wordt. Ook is het jammer dat zij niet zijn ingegaan op mijn vraag waarom zij bij de GATB wel vermelden dat de subtests ‘Verbaal Gestelde Rekenproblemen’ en ‘Namen Vergelijken’ allochtonen benadelen, maar dat de subtest ‘Woordenschat’ met het sterkste bias-effect niet wordt genoemd.

Uit een onderzoek dat wij samen met studenten van de RuG hebben uitgevoerd, blijkt dat de zeer hoge samenhang tussen g-lading en achterstand op testonderdelen, zoals door Te Nijenhuis en Evers genoemd voor de GATB en de DAT’83, niet typerend is voor andere intelligentietests. Uit ons onderzoek blijken de volgende correlaties (na correctie voor onbetrouwbaarheid): DAT’83 (.89), GATB (.67), SON-R 5.5-17 (.40), SON-R 2.5-7 (.38), RAKIT (.26), MCT-M (.26), LEM (.20).

Te Nijenhuis en Evers (2000b, p. 328) veronderstellen dat lagere scores van allochtonen op een verbale analogietest vooral met lagere intelligentie te maken hebben en slechts in beperkte mate met de lagere Nederlandse taalvaardigheid van veel allochtonen. Dit gaat eraan voorbij dat het voor iemand die de taal slecht spreekt, ongeacht zijn intelligentie of zijn vermogen abstract te redeneren, vrijwel onmogelijk is om op dergelijke tests met vaak een vrij hoge taalkundige moeilijkheid, een gemiddelde of goede score te halen. In de DAT’83 komen bij het onderdeel ‘Analogieën’ woorden voor als: ‘bakterie’, ‘boeten’, ‘slotgracht’, ‘ader’ en ‘muiterij’. Dit zijn woorden die men wanneer men niet in Nederland is geboren, en wanneer thuis niet Nederlands wordt gesproken, niet snel zal leren. Hierbij komt dat voor veel allochtonen de sociale contacten veelal beperkt blijven tot landgenoten, en dat kranten en televisieprogramma’s gevolgd worden in de eigen taal. Daardoor zal, ook wanneer men al langere tijd in Nederland is, de taalachterstand (met betrekking tot de Nederlandse taal) ten opzichte van Nederlanders vaak enorm zijn. Het nadelige effect hiervan op de testprestaties wordt in een andere context door de auteurs weer wel erkend: "... tests with a verbal component, such as verbal analogies, clearly are at the disadvantage of immigrants, ..." (Te Nijenhuis & Van der Flier, 2001). Deze nadelige effecten voor allochtonen (test-bias) zullen in nog sterkere mate gelden voor testonderdelen waar niet alleen sprake is van een verbale component, maar waarbij de tests zich specifiek op (Nederlandse) taalkennis en (Nederlandse) verbale vaardigheden richten. Deze discriminerende effecten van test-bias voor personen die anderstalig zijn opgegroeid, hebben in de Verenigde Staten tot wetgeving geleid waarbij het in nader omschreven gevallen verplicht is psychologische tests in de moedertaal af te nemen, tenzij dat absoluut onmogelijk is (Lopez, 1997).

Door Carroll wordt bij zijn classificatie van tests het belang benadrukt van afname van een test in de moedertaal. In het tweede deel van Human Cognitive Abilities, op de eerste bladzijde waarin hij de ‘Abilities in the Domain of Language’ beschrijft, spreekt hij over: "knowledge of his or her native language", "performance in that individual’s native language", "spoken form of the native language", "competence of a ‘native speaker’" (Carroll, 1993, p.145). Het onderscheid tussen kennis van de moedertaal en een taal die later wordt aangeleerd, is essentieel en wordt keer op keer door Carroll benadrukt. Wanneer men zich zo nadrukkelijk beroept op het model van Carroll, zoals Evers en Te Nijenhuis doen, kan men dit onderscheid niet negeren.

Te Nijenhuis en Evers menen dat benamingen als ‘verbale’ tests de essentie van een intelligentietest (namelijk cognitieve complexiteit) versluieren. Bij het testen van allochtonen is het beoordelen van de verbale kenmerken van een test echter noodzakelijk omdat anders het essentiële onderscheid versluierd wordt tussen testen van vaardigheid in de moedertaal en vaardigheid van een op latere leeftijd aangeleerde taal.

Scoreverschillen

Ten onrechte wordt door Te Nijenhuis en Evers (2000b, p. 328) de indruk gewekt dat de vergelijking die ik gemaakt heb tussen de scores van allochtone kinderen op de SON-tests en op de RAKIT, betrekking heeft op allochtone normgroepen voor beide tests. Noch voor de RAKIT, noch voor de SON-R tests vormen deze allochtonen normgroepen. Bij de SON-R hebben de genoemde aantallen betrekking op de allochtone kinderen die in de totale landelijke normgroep aanwezig waren. Bij de normering is echter geen onderscheid gemaakt tussen autochtone en allochtone kinderen. Naast de door Te Nijenhuis en Evers genoemde groepen, zijn ook andere groepen allochtonen in de normgroep van de SON-R opgenomen en zijn vele honderden allochtone kinderen met de SON-tests onderzocht in het kader van aanvullend valideringsonderzoek. Deze onderzoeken zijn in de handleidingen beschreven. Uit vergelijking van de prestaties op de SON-R 2.5-7 van 13 groepen deels allochtone kinderen met de prestaties van dezelfde kinderen op een andere test, bleek dat in 10 gevallen de allochtone kinderen, of kinderen waarvan één ouder allochtoon was, relatief beter presteerden op de SON-R 2.5-7; in één geval was er geen verschil, en op twee niet-verbale tests presteerden de allochtone kinderen relatief beter dan op de SON-R (Tellegen, Winkel, Wijnberg-Williams & Laros, 1998, p. 118). Het oordeel over de relatief goede prestaties op de SON-R in vergelijking tot deels verbale tests, is dus niet alleen gebaseerd op vergelijking met de gemiddelde scores in het RAKIT onderzoek.

Voor het verschil in testprestaties op de SON-R en de RAKIT komen Te Nijenhuis en Evers (2000b, p. 329) met de volgende verklaring: "Tevens gaat het bij de SON-R steekproeven steeds om een mix van eerste- en tweede-generatie kinderen met bij Tellegen et al. 76% tweede-generatie-kinderen, terwijl bij de RAKIT de groepen uitgesplitst worden, wat resulteert in een veel betere gemiddelde score voor de tweede-generatie-kinderen." Uit het onderzoek met de RAKIT blijkt echter dat het verschil in prestaties niet te maken heeft met het onderscheid tussen eerste- en tweede-generatie maar met de verblijfsduur bij eerste-generatie-kinderen. Resing, Bleichrodt en Drenth (1986, p. 184) schrijven hierover: "Nadere analyses geven aan dat het effect van verblijfsduur vooral veroorzaakt wordt door verschillen in gemiddelde scores van kinderen die korter dan 3 jaar in vergelijking met hen die langer dan 3 jaar in Nederland woonachtig zijn. Tussen de groepen ‘3-5 jaar’, ‘langer dan 5 jaar, doch in herkomstland geboren’ en ‘in Nederland geboren’ blijken geen significante verschillen te bestaan." Ook na controle voor verblijfsduur zijn er grote verschillen tussen de scores op de RAKIT en de SON-R. In het RAKIT-onderzoek ligt de gemiddelde IQ-score van de Turkse en Marokkaanse kinderen die in Nederland zijn geboren rond de 81. Bij de SON-R tests ligt het gemiddelde van alle Turks/Marokkaanse kinderen rond de 88. Dit verschil wijkt dus niet veel af van het eerder door ons genoemde verschil van 8 punten dat gebaseerd was op vergelijking van beide groepen ongeacht verblijfsduur.

Te Nijenhuis en Evers (2000b, p. 328) hebben nog een andere verklaring waarom allochtone kinderen op de SON-R relatief goed presteren: "Het is niet onwaarschijnlijk dat de subtests van de SON-R gemiddeld een iets lagere cognitieve complexiteit hebben dan de subtests van klassieke tests, zodat de aanwezige groepsverschillen in intelligentie minder duidelijk opvallen." Jammer genoeg nemen de auteurs niet de moeite om duidelijk te maken waarom dit niet onwaarschijnlijk is. Voor wie de moeilijke items van de SON-R 5.5-17 kent, is duidelijk dat deze gekenmerkt worden door een hoge mate van cognitieve complexiteit. De moeilijkheid wordt bij de items van de SON niet veroorzaakt doordat specifieke kennis is vereist, of doordat men met hoge snelheid simpele taken moet volbrengen, maar doordat in hoge mate een beroep wordt gedaan op het redeneervermogen van de proefpersoon. Dit in tegenstelling tot onderdelen zoals ‘Strepen Zetten’ en ‘Snelheid en Nauwkeurigheid’ uit de DAT’83 en de GATB, tests die door Te Nijenhuis en Evers juist gepresenteerd worden als goede voorbeelden van intelligentietests. Moeilijke items in verbale subtests bij de DAT’83 of de GATB, waarbij men moet weten dat ‘ronselen’ hetzelfde betekent als ‘werven’ of waarbij men de betekenis moet kennen van woorden als ‘cholerisch’ of ‘ijlhoofdig’ ontlenen hun moeilijkheid aan het gebruik van weinig frequente woorden, en niet aan een hoge mate van cognitieve complexiteit. Ook intelligente en begaafde allochtonen die redelijk Nederlands hebben leren spreken zullen items die van dit soort woorden gebruik maken, niet kunnen beantwoorden, hoezeer zij ook in staat zijn cognitief complexe taken te volbrengen.

Te Nijenhuis en Evers (2000b, p. 329) besluiten hun opmerkingen over de SON-tests met het volgende: "Te Nijenhuis en Van der Flier (2001) geven een overzicht van alle Nederlandse studies waar groepen allochtonen en autochtonen vergeleken worden, waaruit duidelijk wordt dat de SON-R gegevens sterk afwijken van de algemene trend." Opmerkelijk is dat in het artikel van Te Nijenhuis en Van der Flier deze conclusie dat de SON-R gegevens sterk afwijken, nergens wordt getrokken. Integendeel, zij schrijven (Te Nijenhuis & Van der Flier, 2001): "Snijders et al. (1988) also tested the entire Dutch population of deaf children within a specific age range. ... The difference between the complete groups of immigrant and majority group deaf children is practically the same as the difference between the complete groups of immigrant and majority group children in the sample of children without hearing difficulties. These studies that are based on the data of a complete but specific population replicate the findings of the methodologically carefully designed studies, namely a difference between immigrants and majority group members of approximately one standard deviation." Het wringt toch wel dat in de ene kontekst wordt gesteld dat de SON-uitkomsten zo goed met de andere onderzoeken overeenstemmen, terwijl Te Nijenhuis en Evers in hun reactie benadrukken dat uit het bovengenoemde artikel zou blijken dat de SON-uitkomsten zo sterk afwijken.

De constatering dat allochtonen beter presteren op de SON-tests is overigens wel juist. De gemiddelde afwijkingsscore die Te Nijenhuis en Van der Flier noemen voor de SON-tests is .67, corresponderend met een IQ van 90. Dit is aanzienlijk hoger dan de schatting van het intelligentieniveau van allochtonen die Te Nijenhuis en Van der Flier (2001) geven: " ..., a rough estimate of the mean IQ of Antillians and Surinamese immigrants would then be 85, and a rough estimate of the mean IQ of Turkish and Moroccon immigrants would be 78."

Het is ook merkwaardig dat in het artikel van Te Nijenhuis en van der Flier nergens duidelijk wordt gemaakt dat de SON een niet-verbale test is. Voor zover de lezer op grond van de resultaten in de tabel erachter komt dat allochtonen op de SON-tests wel degelijk veel beter presteren, moet zij of hij naar de meest voor de hand liggende oorzaak gissen. Alleen de literatuurlijst geeft uitsluitsel over het niet-verbale karakter van de test.

In het begin van het artikel van Te Nijenhuis en Van der Flier staat de volgende constatering: "... there is concensus among testing experts on the small effects of bias. Only tests with a verbal component, such as verbal analogies, clearly are at the disadvantage of immigrants, ...." Aangezien bijna alle traditionele intelligentietests een sterke verbale component hebben, is het moeilijk te verklaren hoe deze experts tot hun tegengestelde conclusie komen dat het effect van bias klein is. Wie zijn deze ‘testing experts’ trouwens, behalve natuurlijk de auteurs. Te Nijenhuis en Evers melden in hun repliek dat Te Nijenhuis en Van der Flier in hun artikel een overzicht geven van alle Nederlandse studies waar groepen allochtonen en autochtonen vergeleken worden. Bij alle studies ontbreekt jammer genoeg het vermoedelijk grootste en meest representatieve onderzoek. In het PRIMA-onderzoek (landelijk cohortonderzoek primair onderwijs en speciaal onderwijs) worden de prestaties van autochtone en allochtone kinderen vergeleken. De vergelijkingen in groep 4, groep 6 en groep 8 van het basisonderwijs (in totaal meer dan 40.000 leerlingen) hebben onder meer betrekking op taal, rekenen en niet-verbale intelligentie.

Uit de samenvatting van het Sociaal en Cultureel Planbureau (Tesser, Merens & Van Praag, 1999) blijkt dat de achterstand van allochtone groepen op niet-verbale intelligentie veel minder groot is dan op taal. De rekenprestaties nemen een tussenpositie in. De achterstand in intelligentie van de Surinaamse, Antilliaanse, Turkse en Marokkaanse kinderen is gemiddeld ongeveer een halve standaarddeviatie. Deze achterstand is aanzienlijk kleiner dan Te Nijenhuis en Van der Flier op grond van de "methodologically carefully designed studies" menen te kunnen vaststellen. Hoe zorgvuldig de door hun genoemde studies ook mogen zijn opgezet, onderzoeken zoals bijvoorbeeld met de DAT’83 en de GATB schieten methodologisch gezien tekort wanneer men meent hierop uitspraken te kunnen baseren over het intelligentieniveau van de Nederlandse allochtone bevolking.

In het PRIMA-onderzoek is de taalachterstand van de genoemde allochtone groepen ongeveer één standaarddeviatie. Twee keer zo groot als het verschil in (niet-verbale) intelligentie en meer in overeenstemming met het intelligentieniveau zoals dit door Te Nijenhuis en Van der Flier op grond van traditionele tests wordt ingeschat. Al met al een interessant onderzoek dat in het ‘volledige’ overzicht van deze experts niet had mogen ontbreken.

Verblijfsduur

Te Nijenhuis en Evers erkennen dat de verbetering in prestaties van allochtonen op testonderdelen met een verbale component samenhangt met een verbetering van de Nederlandse taalvaardigheid. Het kernpunt van de discussie is of deze verbetering een verbetering van de intelligentie impliceert. Naar mijn mening niet, en dat is ook de reden waarom de conclusie moet luiden dat tests met een verbale component voor grote groepen allochtonen biased zijn als meting van de intelligentie. " Er is een duidelijk effect van verblijfsduur op testscores met een verbale component, maar geen effect op alle andere tests." (Evers & Te Nijenhuis, 1999, p. 251) De relatief sterke stijging op verbale testonderdelen heeft belangrijke implicaties. Het betekent niet dat de intelligentie van de allochtonen sterk toeneemt, het betekent wel dat de mate waarin de intelligentie aanvankelijk wordt onderschat, afneemt. Helaas zijn Te Nijenhuis en Evers (2000b, p. 329) niet bereid deze conclusie te trekken. Zij sturen de discussie in een andere richting: "Voor wat betreft de algemene verbetering van testscores, dus ook van tests zonder een verbale component, noemt Tellegen alleen taalinvloeden, terwijl het veel waarschijnlijker is dat het om een reële stijging van de fenotypische intelligentie gaat. Onderzoek laat bijvoorbeeld zien dat voornamelijk biologisch bepaalde omgevingsvariabelen van invloed zijn op de intelligentie." Dat Tellegen alleen taalinvloeden noemt bij de verbetering van tests zonder verbale component, wordt door Te Nijenhuis en Evers verzonnen. Een dergelijke opmerking is door mij niet gemaakt. Wel heb ik naar voren gebracht dat veel testonderdelen die inhoudelijk als niet-verbaal worden gepresenteerd, door de instructies toch een sterk verbale component hebben (zie de eerder genoemde voorbeelden van de DAT’83; Tellegen, 2000, p. 234).

Uit het betoog van Te Nijenhuis en Evers kan geconcludeerd worden dat vooral biologisch bepaalde omgevingsvariabelen van invloed zijn op de intelligentie. Deze variabelen moeten dus ook de sterke stijging verklaren van testprestaties van allochtonen in samenhang met verblijfsduur. Toch blijft het moeilijk in te zien dat de door Te Nijenhuis en Evers genoemde factoren (vitaminen, mineralen, dierlijk eiwit en jodium in de voeding, en de aanwezigheid van parasitaire wormen) bij allochtonen vooral een groot effect hebben op de prestaties bij verbale testsonderdelen maar niet op prestaties op tests zonder verbale component. Blijkbaar hebben de parasitaire wormen het niet primair gemunt op cognitieve complexiteit, maar vreten ze eerst kennis van moeilijke Nederlandse woorden aan.

Classificatie van subtests

In mijn kritiek (Tellegen, 2000, p. 232) schrijf ik met betrekking tot de testopbouw: "Het valt op dat ‘Rekenvaardigheid’ van de DAT’83 en ‘Woordenschat’ van de GATB als tests voor ‘Fluid Intelligence’ worden beschreven terwijl in eerdere publicaties van de auteurs wordt benadrukt dat het hier om mengvormen van ‘Fluid’ en ‘Crystallized intelligence’ gaat." Te Nijenhuis en Evers (2000b, p.329) reageren hier als volgt op: "Tellegen wekt ten onrechte de indruk dat Evers en Lucassen (1992) de subtest ‘Rekenvaardigheid’ als Crystallized test benoemen. De termen Fluid en Crystallized worden in de publicatie van Evers en Lucassen niet eens genoemd. Wel wordt in de beschrijving van de betreffende subtest een dominante rol aan ‘inzicht in het omgaan met getallen toegekend’ en veel minder aan ‘goed en ijverig cijferen’. In Carrolls taxonomie zou dit betekenen dat Fluid intelligentie de belangrijkste dimensie is en Crystallized intelligentie een minder belangrijke dimensie." Niet voor iedereen een interessante discussie maar in dit deel van de geciteerde alinea van Te Nijenhuis en Evers staan twee onwaarheden. In de eerste plaats stel ik niet dat ‘Rekenvaardigheid’ volgens de auteurs een test voor ‘Crystallized intelligence’ is. In de tweede plaats wordt bij de beschrijving van ‘Rekenvaardigheid’ in de handleiding van de DAT’83 (Evers & Lucassen, 1992, p. 14) in het geheel niet een dominante rol toegekend aan ‘inzicht in het omgaan met getallen’. Opmerkelijk dat Te Nijenhuis en Evers het niet acceptabel vinden dat ik in dit verband de termen Fluid en Crystallized intelligentie gebruik terwijl zij dat zelf voor de karakterisering van deze subtest wel doen.

Volgens Te Nijenhuis en Evers is de classificatie van tests in hun eerste artikel empirisch gebaseerd op de hoogste lading op een factor. Dit is echter niet waar. Voor de subtest ‘Woordenschat’ van de GATB wordt voor de zogenaamde dominante lading op Fluid intelligentie, verwezen naar Te Nijenhuis & Van der Flier (1997). In de daar beschreven factoranalyse wordt echter geen onderscheid gemaakt tussen Fluid en Crystallized intelligentie (zie Te Nijenhuis & Van der Flier, 1997, p. 683). In de handleiding van de GATB (Van der Flier & Boomsma-Suerink, 1994, p. 51-55) worden twee factoranalytische onderzoeken beschreven waarbij de GATB is afgenomen in combinatie met andere tests. Uit beide onderzoeken blijkt dat ‘Woordenschat’ een hoge lading heeft op de Verbale factor (.66 en .53) en een matige lading op de factor Reasoning (.21 en .26). De Verbale factor komt bij Carroll grotendeels overeen met Crystallized intelligentie en Reasoning komt overeen met Fluid intelligentie. Op empirische gronden had men daarom ‘Woordenschat’ als test voor Crystallized intelligentie moeten indelen. Te Nijenhuis kende de eerde genoemde onderzoeken goed, één ervan gebruikte hij voor zijn promotieonderzoek.

Bij de subtest ‘Snelheid en Nauwkeurigheid’ van de DAT’83 is het merkwaardig dat deze door Evers en Te Nijenhuis is ingedeeld als test voor ‘Brede visuele waarneming.’ Deze test heeft in de analyse waarop de auteurs zich zeggen te baseren een lading van slechts .18 (autochtone groep), respectievelijk .16 (allochtone groep) op de factor ‘Brede visuele waarneming’, volstrekt onvoldoende om hem als zodanig te karakteriseren.

Te Nijenhuis en Evers (2000b, p. 329) schrijven verder in hun reactie: "Ook zou het volgens Tellegen tegen de DAT’83 pleiten dat deze in de Handleiding wordt gepresenteerd als een mengeling van intelligentieaspecten, specifieke vaardigheden en schoolvorderingen." Ook hier blijken de auteurs niet correct te kunnen weergeven. Ik bekritiseer het feit dat door Evers en Te Nijenhuis de DAT’83 wordt voorgesteld als ‘het’ voorbeeld van een evenwichtig samengestelde intelligentietest terwijl de test in de handleiding anders wordt gepresenteerd. Het pleit juist voor de DAT’83 dat goede informatie over de achtergrond en samenstelling van de test in de handleiding wordt vermeld. Er is ook niks mis met een test waarin diverse aspecten en benaderingen van de cognitieve ontwikkeling vertegenwoordigd zijn.

In het hoofdstuk ‘Verantwoording’ van de DAT’83 (Evers & Lucassen, 1992, p.1) staat onder meer: "Voorop stond de bedoeling een vernieuwde, maar wel duidelijk als "DAT" herkenbare, testserie te construeren, met zijn merkwaardige mengeling van intelligentie-aspecten (bijvoorbeeld Analogieën), specifieke vaardigheden (bijvoorbeeld Technisch Inzicht) en schoolvorderingen (bijvoorbeeld Woordbeeld)." Door de Testscreeningscommissie is dit onderscheid in meetpretentie positief gewaardeerd bij de beoordeling van de DAT. Uit de beschrijvingen van de subtests die ik in mijn eerdere reactie heb weergegeven blijkt dat de auteurs ook duidelijke beperkingen stellen aan de generalisatiemogelijkheden van de subtests. Dat Te Nijenhuis en Evers nu geen onderscheid meer kunnen maken tussen vorderingen- en aanlegtests, blijkbaar noch in samenstelling van de test, noch in meetpretentie en doel waarvoor zij gebruikt kunnen worden, is jammer. Prachtig dat dit allemaal het vermogen reflecteert om met cognitieve complexiteit te kunnen omgaan, maar een Frans proefwerk kan goed schoolvorderingen meten maar is weinig geschikt als intelligentietest wanneer Frans niet in het lespakket zit.

Met Evers en Te Nijenhuis ben ik het eens dat het doel (althans een belangrijk doel) van een intelligentietest is een valide schatting te geven van het vermogen om met cognitieve complexiteit om te gaan. Noodzakelijk hiervoor is een sterke lading van g in de score. Mijn opmerking dat ‘Strepen zetten’ van de GATB niet thuishoort in een intelligentietest heeft hierop betrekking. Ook Carroll (1993, p. 625) stelt dat de factor Algemene Psychomotorische Snelheid een minimale cognitieve inhoud heeft. Volgens Te Nijenhuis en Van der Flier heeft ‘Strepen zetten’ een lading van .14 op g terwijl de lading op g van de overige subtests rond de .60 ligt. Dit betekent dat door de subtest ‘Strepen zetten’ het relatieve aandeel van g in de totaalscore geringer wordt. Dat het onderdeel ‘Strepen zetten’ een beter onderbouwde schatting van de g-factor mogelijk zou maken, zoals Te Nijenhuis en Evers menen, is psychometrisch gezien flauwekul. De g-lading die door Te Nijenhuis, Evers en Mur (2000, p. 106) genoemd wordt voor ‘Snelheid en Nauwkeurigheid’ van de DAT’83 (gemiddeld .26 voor twee groepen) doet vermoeden dat ook deze subtest de totaalscore van de DAT als indicator van g verzwakt.

Te Nijenhuis en Evers vervolgen hun passage over Classificatie van subtests met de opmerking: "Overigens heeft Tellegen gelijk met de opmerking dat in de GATB, net als bij de MCT-M, de Crystallized factor is ondervertegenwoordigd." Een eer om van de auteurs gelijk te krijgen, alleen heb ik deze opmerking niet gemaakt. Het is ook niet mijn standpunt. De auteurs vervolgen met: "Daarentegen is de suggestie dat de schattingen van de g-ladingen van de GATB wel eens niet correct zouden kunnen zijn. op zijn minst bizar, ......." Inderdaad heel bizar. Het is ook bizar dat de auteurs dit beweren terwijl een dergelijke suggestie door mij in het geheel niet is gedaan. Ik stelde dat de relatie tussen achterstand en g-lading een artefact kan zijn van de beperkte samenstelling van de GATB, waarbij de minder verbale onderdelen een lagere g-lading hebben. Hierbij wordt de nauwkeurigheid van de schattingen van de g-ladingen door mij niet in twijfel getrokken.

De gegevens over de g-ladingen van de GATB subtests zijn afkomstig uit een dataset met tegen de vijftig cognitieve tests. Dat deze verzameling volgens Te Nijenhuis en Evers (2000b, p. 330) de op twee na grootste is op dit gebied, is wel ietwat overdreven. Carroll (1993, p. 43) noemt 44 datasets met 50 of meer tests. Dat het GATB-artikel volgens Te Nijenhuis en Evers juist een schoolvoorbeeld geeft van precieze schattingen van g-ladingen is niet juist. Een schoonheidsfoutje is dat niet verwezen wordt naar het oorspronkelijke artikel waarin de factorladingen vermeld staan (De Wolff & Buiten, 1963), maar naar een samenvatting in de GATB-manual waarin de relevante gegevens niet zijn te vinden.

Mijn opmerkingen over de wenselijkheid om bepaalde subtests uit de DAT’83 of de GATB te verwijderen, zijn gedaan in reactie op de meetpretentie die Te Nijenhuis en Evers nu aan deze tests geven, namelijk goed bruikbare algemene intelligentietests met uitkomsten die valide zijn als indicator van ‘g’. Hierboven is al aangegeven dat de meetpretentie bij de DAT’83, althans volgens de handleiding, geheel anders is. Ook uit de handleiding van de GATB (Van der Flier & Boomsma-Suerink, 1994, p. 3) blijkt dat de auteurs de totale test juist niet beschouwen als algemene intelligentietest. Hierover schrijven zij in het hoofdstuk over de meetpretentie: "De ‘leerfactoren’ [van de GATB] lopen vaak helemaal niet parallel aan de ‘intelligentiefactoren’; er kunnen zelfs factoren onder zijn, die wij, zoals ook meestal gebeurt, geheel buiten het terrein van de intelligentie zouden willen localiseren, zoals snelheid van eenvoudig denkwerk, motorische vaardigheden e.d." Voorlopig wordt door de auteurs, op grond van factoranalytisch onderzoek, aanbevolen de berekening van factor G (intelligentie) te baseren op de somscore van drie subtests (Van der Flier & Boomsma-Suerink, 1994, p. 55). Te Nijenhuis & Van der Flier (1997, p. 677) introduceren de GATB echter als: "The GATB 1002 B (General Aptitude Test Battery) is a test of general intelligence."

Predictieve validiteit

De auteurs beginnen hun alinea over predictieve validiteit als volgt (Te Nijenhuis & Evers, 2000b, p. 330): "Zoals reeds gesteld (Te Nijenhuis & Evers, 2000a) geven scores op tests met een verbale component weliswaar een onderschatting van het niveau van cognitieve capaciteiten van allochtonen, maar is de prijs die wordt betaald voor het weglaten van tests met een verbale component dat de criterium-gerelateerde validiteit wordt verlaagd. Deze bewering wordt ondersteund met onderzoek dat met de DAT’83 is verricht (Te Nijenhuis, Evers & Mur, 2000)." Het interessante van deze alinea is dat de auteurs hier expliciet zeggen dat tests met een verbale component voor allochtonen biased zijn. Zij onderschatten namelijk het niveau van cognitieve capaciteiten die deze tests pretenderen te meten. Hoewel Te Nijenhuis en Evers verwijzen naar hun eerdere publicatie, was dit standpunt daar niet op deze duidelijke wijze verwoord. In Te Nijenhuis en Evers (2000b) wordt de onderschatting van de intelligentie namelijk beperkt tot de situatie dat sprake is van een "extreem slechte taalscore", en stellen de auteurs verderop: "Nederlandse taalvaardigheid speelt evenwel slechts een kleine rol bij testbias."

Dat de criterium-gerelateerde validiteit lager wordt door het weglaten van tests met een verbale component, wordt ondersteund door het onderzoek dat met de DAT’83 is verricht. Het wordt echter, en het is toch wel jammer dat de auteurs hun eigen onderzoek niet wat vollediger samenvatten, ook tegengesproken door de uitkomsten van hun onderzoek met de DAT’83. Opmerkelijk is namelijk dat bij weglating van de drie Crystallized tests van de DAT’83 (op een totaal van acht) de samenhang toeneemt met zowel de wiskunde-toets als met het rapportcijfer voor wiskunde. Dat bij de taaltoets en andere rapportcijfers de correlatie wel afneemt door weglating van de drie onderdelen is op zich niet verwonderlijk. Wanneer men tests op willekeurige wijze uit een batterij verwijdert, zal de betrouwbaarheid afnemen en in het algemeen ook de validiteit. Of de negatieve effecten van het weglaten van de tests met een verbale component groter zijn dan bij een willekeurige selectie van subtests is helaas door Te Nijenhuis, Evers en Mur niet onderzocht. Des te opmerkelijker is de uitkomst dat de verbale tests dus een negatieve invloed hebben op de predictieve validiteit van de DAT-totaalscore in relatie tot wiskunde. Te meer daar wiskunde door Te Nijenhuis en Evers juist gekenmerkt wordt als vak met een grote mate van cognitieve complexiteit. Men zou dus ook kunnen concluderen dat de drie verbale onderdelen de DAT’83 minder geschikt maken om cognitieve complexiteit te voorspellen en minder geschikt zijn om uitspraken over intelligentie op te baseren.

De auteurs van het DAT-onderzoek zijn niet alleen in de vermelding en interpretatie van hun uitkomsten selectief. In de presentatie van het onderzoek zitten ook een paar opmerkelijke aspecten. Zo schrijven ze (Te Nijenhuis, Evers & Mur, 2000, p.102): "Of all tests in the Netherlands that are developed for the assessment of cognitive abilities for children of 12 years and older, and adults, the psychometric qualities of the DAT are rated highest by the Dutch Committee on Testing." Voor deze specifieke leeftijdsrange is er maar één test, de DAT is wat dit betreft zowel de als beste als de als slechtste beoordeelde test. Voor de leeftijdsgroep waarop het onderzoek betrekking heeft, zijn er echter intelligentietests die even goed zijn beoordeeld, zoals de GIVO (Van Dijk & Tellegen, 1994), of de SON-R 5.5-17 (Snijders, Tellegen & Laros, 1988) die zelfs beter is beoordeeld dan de DAT’83.

De leerlingen in het DAT-onderzoek werden in de ‘minority-group’ ingedeeld op grond van het oordeel van de school. Het geboorteland en het aantal jaren dat de kinderen in Nederland woonden was de onderzoekers niet bekend. Hierover schrijven Te Nijenhuis, Evers en Mur (2000, p. 101): "Because ethnic classification is a highly sensitive topic in the Netherlands, more detailed background information could not be collected." Wat gemakkelijk om een tekortkoming van het onderzoek zo weg te praten. Bij talloze onderzoeken op scholen, onderzoeken die ook door Evers en Te Nijenhuis (1999) worden aangehaald, zijn zonder grote problemen gegevens over geboorteland en verblijfsduur van de leerlingen verzameld.

In het vervolg van de alinea over predictieve validiteit schrijven Te Nijenhuis en Evers (2000b, p.330): "Bovendien, ook de auteurs van de bekendste Nederlandse non-verbale test stellen expliciet dat het niet-verbale karakter van de SON-R resulteert in lagere criterium-gerelateerde validiteiten dan batterijen met Crystallized subtests." Dit slaat op de volgende alinea in de handleiding van de SON-R 5.5-17 (Snijders, Tellegen & Laros, 1988, p. 78): "Gezien het niet-verbale karakter van de SON-R kan verwacht worden dat de relatie met schoolprestaties minder sterk zal zijn dan bij intelligentietests die (deels) verbale vaardigheden meten. Wanneer men uitspraken over de opleidingsmogelijkheden wil baseren op de IQ-score van de SON-R, kan dit een nadeel zijn. Het bezwaar van verbale subtests in intelligentietests is daarentegen dat verbale vaardigheden in sterke mate aangeleerd en cultuurgebonden zijn. Hierdoor is een verbale intelligentietest wat minder op cognitieve capaciteiten gericht en wat meer van cognitieve ervaringen afhankelijk. Het onderscheid is echter gradueel; verbale intelligentietests blijken sterk met niet-verbale tests samen te hangen." Deze alinea wordt voorafgegaan door de opmerking: "Wel wordt er bij goede intelligentietests naar gestreefd dat cognitieve vaardigheden op een wijze beoordeeld worden die zo min mogelijk van ‘schoolse’ kennis afhankelijk is." Uit het voorgaande valt moeilijk te concluderen dat de auteurs van de SON-R 5.5-17 expliciet stellen dat de criterium-gerelateerde validiteit door weglaten van verbale onderdelen wordt verlaagd. Te Nijenhuis en Evers verwijzen ook naar de handleiding van de SON-R 2.5-7. Zij blijken echter niet in staat aan te geven waar in de handleiding de auteurs zouden stellen dat het niet-verbale karakter resulteert in lagere criterium-gerelateerde validiteiten.

Bias in het criterium

In de relatie tussen testscores en criteriumscores is sprake van bias in het criterium indien de criteriumscores in belangrijke mate afhankelijk zijn van andere factoren dan die de test pretendeert te meten. Voor een intelligentietest is geen sprake van bias in het criterium indien het criterium gerelateerd is aan kennis van en vaardigheid in de moedertaal. Kennis van het Nederlands is echter een uitermate gebiased criterium voor allochtonen waarbij Nederlands de tweede taal is. Als kennis van de Nederlandse taal zowel in de test zoals bij traditionele intelligentietests, als in het criterium zoals bij schoolprestaties in het Nederlandstalig onderwijs, is opgenomen dan kan de predictieve validiteit wel verhoogd worden, maar op een oneigenlijke manier. De predictieve validiteit kan in dergelijke gevallen bovendien op een veel effectievere manier verhoogd worden door onderscheid te maken tussen intelligentie en kennis van de Nederlandse taal waarbij beide apart worden gemeten en gescoord. De weging van de taalfactor in bijvoorbeeld selectiesituaties, kan dan afhankelijk worden gemaakt van de voor de situatie vereiste taalvaardigheid en van de mogelijkheden die er zijn om aan de taalachterstanden wat te doen. Te Nijenhuis en Evers erkennen dat taalkundige bias in intelligentietests aanwezig is en rechtvaardigen dit met het argument dat in sommige situaties de predictieve validiteit wordt verhoogd. Aangezien deze predictieve validiteit eveneens, en waarschijnlijk veel beter verhoogd kan worden door kennis van het Nederlands apart te meten, kan dit validiteitsargument nimmer gebruikt worden om oneigenlijke benadeling van personen in de beoordeling van hun eigenschappen goed te praten.

Het is onzindelijk om te stellen dat "Verontrustend is dat handelen in de geest van Tellegens artikel juist zou leiden tot onverantwoord testgebruik, resulterend in positieve discriminatie van allochtonen, met alle bekende negatieve resultaten van dien." (Te Nijenhuis & Evers, 2000b, p. 331). Fair testen, en op een zorgvuldige manier de intelligentie beoordelen, is voor deze auteurs hetzelfde als ‘positieve discriminatie’. Wanneer kennis van het Nederlands een belangrijk criterium is, dient de psycholoog dat in zijn oordeel of advies te betrekken. Positieve discriminatie ontstaat niet wanneer goede non-verbale tests bij allochtonen worden gebruikt, maar wanneer de psycholoog niet in staat is andere relevante aspecten bij zijn oordeel te betrekken. Het lijkt haast of Te Nijenhuis en Evers menen dat alles wat relevant kan zijn voor de school- of werkprestaties, in de intelligentiescore thuis hoort.

Er zijn ook andere factoren dan kennis van het Nederlands die tot hele lage testprestaties kunnen leiden waarbij bovendien verwacht kan worden dat als gevolg van deze factoren de prestaties op het criterium laag zullen zijn. Zo zullen doven en blinden in allerlei onderwijs- en werksituaties niet of moeilijk kunnen functioneren, tenzij de situatie sterk wordt aangepast. Toch zullen de meeste psychologen niet overwegen om traditionele intelligentietests bij deze groepen af te nemen teneinde de intelligentie te bepalen, ook al zouden de lage testprestaties het mislukken in de traditionele onderwijs- of werksituatie goed kunnen voorspellen

Te Nijenhuis en Evers (2000b, p. 330) stellen dat uit een overzicht van onderzoek naar bias in het criterium blijkt dat, als het al voorkomt, het om uitermate kleine effecten gaat met weinig consequenties voor de praktijk. Het overzicht waarnaar Te Nijenhuis en Evers verwijzen (Evers, Van der Flier & Te Nijenhuis, 2000) richt zich op vooroordelen bij beoordelingen, voornamelijk gericht op het onderscheid blank versus zwart in de Verenigde Staten. Hoe interessant ook, met het probleem van bias in intelligentietests voor allochtonen heeft dit niets te maken. Aansluitend stellen zij (Te Nijenhuis & Evers, 2000b, p.330): "In een zeer grote, recente studie (Mount, Sytsma, Fisher Huzucha & Holt, 1997) blijken er echter lichte aanwijzingen te zijn voor een sterke positieve discriminatie van zwarte ondergeschikten door zwarte chefs." Voor wie nog mocht denken dat zwarten in de Amerikaanse arbeidssituatie wel eens gediscrimineerd worden, gaan nu de ogen open. De relevantie van deze opmerking van Te Nijenhuis en Evers voor de huidige discussie is echter ver te zoeken.

Door Te Nijenhuis en Evers zijn verschillende voorbeelden gegeven dat allochtonen op het criterium slechter presteren dan op grond van de testscores verwacht. Hieruit blijkt dan dat de test de prestaties van allochtonen niet onderschat maar juist overschat. Hét voorbeeld van bias in het criterium zoals die in onderzoek bij allochtonen naar voren komt, zijn volgens Te Nijenhuis en Evers (2000b, p. 330) de lagere CITO-scores van allochtonen bij gelijke rapportcijfers. Op grond hiervan stellen zij: "Kortom, bias in het criterium voor jonge allochtone kinderen is overduidelijk aangetoond, waarbij het echter gaat om bevoordeling en niet om benadeling; .. " Volgens de auteurs zijn de rapportcijfers gebiased. Aangezien ze als predictor worden gebruikt, heeft dit voorbeeld geen betrekking op bias in het criterium. De relatie kan echter ook worden omgedraaid. Wanneer de rapportcijfers worden voorspeld op grond van de CITO-scores dan worden de rapportcijfers van allochtone kinderen onderschat. Het zou hierbij dus niet om bevoordeling, maar om benadeling van allochtone leerlingen gaan. De CITO zou dus gebiased kunnen zijn als voorspeller van schoolprestaties omdat op school wel, maar bij de CITO niet, rekening wordt gehouden met de anderstalige achtergrond van de kinderen. Bij de keuze voor het vervolgonderwijs, en het voorspellen van het succes daarin, zal men natuurlijk wel rekening moeten houden met de situatie dat het vervolgonderwijs nog veel minder dan het basisonderwijs is aangepast aan de taalachtergrond van de leerlingen.

Het laatste voorbeeld dat Te Nijenhuis en Evers (2000b, p. 330) geven met betrekking tot bias in het criterium heeft betrekking op hun analyse van het onderzoek met de DAT’83 bij middelbare scholieren. Hierover schrijven zij: "Hierbij bleek dat naarmate de schoolvakken een grotere mate van cognitieve complexiteit bezitten, de allochtone leerlingen steeds lagere gemiddelde scores behalen." Deze uitspraak wordt beargumenteerd met de relatief grote achterstand van allochtonen op ‘Wiskunde’ in verhouding tot ‘Engels’. Uit de uitkomsten van het DAT-onderzoek (Te Nijenhuis, Evers & Mur, 2000, zie tabel VI) blijkt echter dat het rapportcijfer van allochtonen op Nederlands relatief lager is dan het cijfer voor Wiskunde; bij Biologie is de achterstand in vergelijking tot Wiskunde bijna drie keer zo groot en voor Aardrijkskunde is het verschil twee keer zo groot. Het is niet aannemelijk dat Nederlands, Biologie en Aardrijkskunde vakken zijn met een veel grotere cognitieve complexiteit dan Wiskunde. Dat de allochtone kinderen het relatief goed doen bij Engels en Frans zou kunnen komen doordat autochtone en allochtone kinderen bij het leren van een vreemde taal veel meer in dezelfde positie zitten dan bij vakken waarbij de leermiddelen en toetsen geheel Nederlandstalig zijn. Te Nijenhuis, Evers en Mur (2000) opperen als mogelijke verklaring voor de goede prestaties van de allochtonen bij Frans en Engels bekendheid met de vreemde taal: Marokkanen spreken veel Frans en Surinamers en Antillianen spreken vaak Engels als tweede taal. Voor onderzoekers die niet weten uit welke landen de leerlingen van de onderzoeksgroep afkomstig zijn, en ook niet of zij al dan niet in Nederland geboren zijn, is deze verklaring wel erg speculatief.

Methodologische opmerkingen

Naar de mening van Evers & Te Nijenhuis kan test-bias met betrekking tot de criterium-validiteit worden onderzocht door na te gaan of de regressie-lijnen tussen predictor en criterium in de allochtone en de autochtone groep gelijk zijn. Wanneer de regressielijn van de allochtonen lager ligt, dan overschat de test de prestaties van allochtonen en worden zij door de test bevoordeeld. In hun artikelen worden verschillende voorbeelden van deze bevoordeling gegeven die duidelijk moeten maken dat allochtonen door traditionele intelligentietests niet alleen benadeeld maar ook bevoordeeld worden. De aanname dat subgroepen uit een populatie, die verschillend presteren, dezelfde regressielijnen op een criterium zullen hebben is echter niet juist (enkele extreme situaties uitgezonderd). De regressielijn zal voor de laag scorende groep lager liggen omdat het lagere groepsgemiddelde in de regressievergelijking wordt verdisconteerd. Wil men op deze wijze met regressielijnen onderzoek doen naar testbias, dan moet men groepen van ongeveer gelijke vaardigheid nemen, of men moet eerst berekenen op welke wijze de regressielijnen zouden verschillen indien niet van bias sprake zou zijn. Vervolgens kunnen de geobserveerde waarden daarmee vergeleken worden. Door met deze effecten geen rekening te houden worden door Te Nijenhuis en Evers ten onrechte conclusies getrokken als zouden traditionele tests ook juist allochtonen bevoordelen.

Bij de bespreking van het onderzoek naar item-bias melden Evers en Te Nijenhuis over de MCT-M dat bij alle subtests partijdige items werden gevonden zowel ten voordele als te nadele van de allochtonen en dat het grootste effect werd gevonden in het voordeel van de allochtonen. Aannemelijk is echter dat methodologische tekortkomingen bij dit onderzoek (Bleichrodt & Van den Berg, 2000) de ‘voordelen’ voor allochtonen veroorzaken. Het onderzoek is namelijk gebaseerd op een twee-parameter-model uit de item-respons-theorie. Een gis-parameter die gezien de meerkeuze-vorm van de items noodzakelijk is, is in het model niet opgenomen. Dit betekent dat items die zeer moeilijk zijn in relatie tot de vaardigheid door ‘gokken’ beter worden gemaakt dan het model veronderstelt. Het relatief moeilijk zijn van de items komt vooral veel voor bij de laag scorende allochtonen. Het effect is dat zij het dan beter doen dan verwacht, echter niet omdat het item positief is gebiased maar omdat de aannames van het model niet juist zijn.

Conclusies

Te Nijenhuis & Evers pleiten nu voor onderzoek naar de grens van testbaarheid gebaseerd op mate van Nederlandse taalvaardigheid. Een minimale beheersing van het Nederlands kan als ondergrens beschouwd worden voor de mogelijkheid om bij allochtonen een test af te nemen. Wanneer de instructies niet worden begrepen is het uitgesloten een test op zuivere manier af te nemen. Per test kan deze ondergrens echter aanzienlijk verschillen. De voorbeelden die we eerder hebben gegeven van de instructies van de DAT’83 maken het aannemelijk dat ook autochtone MAVO-leerlingen moeite kunnen hebben om deze instructies te begrijpen. Begrip van de instructies is echter niet voldoende. Voor zover de prestaties op testonderdelen van een intelligentietest mede afhankelijk zijn van kennis, begrip en vaardigheid in de Nederlandse taal, zijn deze niet geschikt om af te nemen bij personen die niet Nederlandstalig zijn opgegroeid. Dit betreft dus vrijwel alle eerste-generatie-allochtonen en een groot deel van de tweede-generatie-allochtonen. Dit betekent niet dat taalvaardigheid van allochtonen bijvoorbeeld in selectiesituaties geen rol zou moeten, of mogen spelen. Er zijn verschillende goede tests die Nederlandse taalvaardigheid meten en men mag aannemen dat selectiepsychologen in staat zijn de relevantie van taalvaardigheid in combinatie met intelligentie te beoordelen.

Wanneer een intelligentietest wordt afgenomen, dienen de uitkomsten iets te zeggen over het intelligentieniveau. Voor bepaalde functies kan fysieke kracht een belangrijk criterium zijn. Het is echter niet zinvol krachtproeven in een intelligentietest op te nemen omdat deze in een specifieke context de predictieve validiteit verhogen. Net als kennis van het Nederlands kan de fysieke conditie dan beter apart gemeten worden. Een extra probleem bij de verbale onderdelen in intelligentietests is dat zij vaak een combinatie zijn van kennis van het Nederlands en een andere vaardigheid, bijvoorbeeld abstract redeneren bij een verbale analogieëntests. Daardoor is in een individueel geval steeds onduidelijk in hoeverre een lage subtestscore toe te schrijven is aan Nederlandse taalvaardigheid dan wel aan een beperkt redeneervermogen. Men kan wel stellen dat verbale onderdelen de predictieve validiteit verhogen van de IQ-score voor schoolsukses maar het is toch uitermate ongewenst wanneer men bij een lage score niet aan kan geven in hoeverre deze het gevolg is van gebrekkige kennis van het Nederlands.

Eerder schreven Te Nijenhuis & Evers (2000b, 254): "Een professioneel handelend selectiepsycholoog kan een verantwoorde beslissing nemen over allochtone sollicitanten op grond van traditionele intelligentietests." Ik zou dat anders willen formuleren: "Iedere psycholoog die een beslissing neemt of advies geeft over allochtone kandidaten die niet Nederlandstalig zijn opgegroeid, op grond van een traditionele (verbale) intelligentietest waarbij de uitkomst als intelligentieniveau wordt geïnterpreteerd, is niet professioneel bezig en maakt zich schuldig aan discriminatie."

Het non-discriminatieartikel van de ‘Nieuwe Beroepscode 1998’ (NIP, 1997) vereist dat de psycholoog zich rekenschap geeft en rekening houdt met culturele verschillen als gevolg van onder andere ras, etniciteit en taal en er zich voor inspant dat ondanks deze verschillen een ieder in dezelfde situatie dezelfde kansen krijgt. Het zal duidelijk zijn dat van gelijke kansen geen sprake is wanneer bij een autochtoon de intelligentietest in de moedertaal wordt afgenomen en wanneer bij een allochtoon de intelligentietest wordt afgenomen in een taal die pas op latere leeftijd wordt geleerd en die veelal thuis niet wordt gesproken. Op basis daarvan lijkt de hierboven aangehaalde uitspraak van te Nijenhuis en Evers op beroepsethische gronden aanvechtbaar.

Een vorm van discriminatie die zeker zo ernstig te nemen is als onverantwoord individueel testgebruik, is de wijze waarop Te Nijenhuis & Van der Flier (2001) tot uitspraken komen over ‘de’ intelligentie van allochtone groepen in Nederland. Van de terughoudendheid bij het gebruik van intelligentietest bij allochtonen die de taal gebrekkig beheersen, waarvoor Te Nijenhuis en Evers in hun reactie pleiten, is in de rapportage van de onderzoeken en in de interpretatie van de uitkomsten niets terug te vinden. Een deel van de onderzochte allochtonen woonde nog maar kort in Nederland of had geen Nederlands onderwijs gehad. Geen wonder dat de zij extreem laag scoren op het onderdeel ‘Woordbetekenis’ van de RAKIT of het onderdeel ‘Woordenschat’ van de GATB. Op grond van hun onderzoek met de RAKIT doen Resing, Bleichrodt en Drenth (1986, p. 186), de aanbeveling om voor leerlingen die nog maar kort in Nederland wonen de subtest ‘Woordbetekenis’ niet te betrekken bij de berekening van het IQ. Ofschoon ook Te Nijenhuis en Van der Flier (1997) de relatief grote afwijkingen bij de taaltests van de GATB interpreteren in termen van taal-bias, worden in de analyse van Te Nijenhuis en Van der Flier (2001) de talige onderdelen niet buiten beschouwing gelaten bij de schatting van het IQ. Deze tests, waarvan men weet dat ze biased zijn, worden in de berekening van het IQ meegenomen en vervolgens komt men tot de conclusie dat het gemiddelde IQ van Turkse en Marokkaanse allochtonen 78 is. Dit gemiddelde is extreem laag en ligt onder het niveau van 80-89 dat wel als zwakbegaafd wordt omschreven (Struiksma & Geelhoed, 1996). Het komt overeen met de gemiddelde score van leerlingen van MLK-scholen, een groep die in onderwijskundig opzicht ernstig is gehandicapt. Dat Nederlandse bevolkingsgroepen op deze wijze gestigmatiseerd worden is voor de psychologie beschamend.

Het eerste artikel van Evers en Te Nijenhuis (1999, p. 254) eindigde als volgt: "In plaats van tests de schuld te geven is het beter een volgende stap te zetten op weg naar integratie van allochtonen in de Nederlandse samenleving en het onderzoek naar extra scholing en begeleiding van allochtonen te intensiveren." In de reactie van Te Nijenhuis en Evers aan mij wordt beter duidelijk wat de auteurs met deze integratie voor ogen staat. Niet alleen weigert men opnieuw om verbale tests, waarvan zij zelf vaststellen dat deze allochtonen benadelen, buiten beschouwing te laten bij de beoordeling van de intelligentie van allochtonen, maar op grond van dergelijke tests en uitermate gebrekkig onderzoek komt men tot de conclusie dat het gemiddelde intelligentieniveau van Turkse en Marokkaanse Nederlanders onder het niveau ligt dat als zwakbegaafd wordt aangeduid.

Verder krijgen psychologen van Te Nijenhuis en Evers (2000b, p. 331) de volgende opdracht mee: "Bovendien zou de wens van een opdrachtgever het percentage allochtonen binnen een bedrijf te vergroten, gevolgd moeten worden door een uitgebreide uiteenzetting door de psycholoog over de voor en nadelen van en het prijskaartje aan een beleid van positieve discriminatie." Men mag verwachten dat bedrijven die het percentage allochtonen willen vergroten daar goed over hebben nagedacht. Dat de psycholoog uitgerekend in dit geval aan de bel zou moeten trekken doet vreemd aan. Of geldt deze opdracht ook voor bijvoorbeeld de Universiteit waar bij gelijke geschiktheid de voorkeur wordt gegeven aan een vrouw. Iets doen aan de enorme werkloosheid van allochtonen hoeft trouwens geen positieve discriminatie in te houden. Het zou ook kunnen betekenen dat men stopt met de negatieve discriminatie in testgebruik zoals die door Te Nijenhuis en Evers wordt aanbevolen. Als men zich als psycholoog wil bezig houden met het ‘prijskaartje’ voor de werkgever, dan zou men de werkgever er op kunnen wijzen dat discriminatie op grond van culturele achtergrond strafbaar is, en dat het zeker niet ondenkbaar is dat een allochtone sollicitant een schadevergoeding kan eisen indien hij op grond van een traditionele intelligentietest wordt afgewezen.

Aanbeveling

De titel van de reactie die Te Nijenhuis en Evers gaven op mijn kritische opmerkingen, luidde: "Is een wetenschappelijke benadering van testgebruik bij allochtonen onverantwoord?" De wijze waarop Te Nijenhuis en Evers deze discussie voeren is onverantwoord en gaat voorbij aan de belangen van degenen die getest worden. Hun benadering is in mijn ogen ook zeer onwetenschappelijk. De huidige situatie dat de keuze en interpretatie van intelligentietests bij de assessment van allochtonen min of meer wordt overgelaten aan de individuele psycholoog, of het bureau dat tests afneemt, is ongewenst. Het leidt, ook al is dit niet de opzet, in veel gevallen tot een zeer discriminerende beoordeling van allochtonen. In deze situatie is het wenselijk dat het NIP met een aantal concrete adviezen komt. Niet alleen als hulp en verduidelijking voor de testpraktijk, en om de belangen van de clienten te beschermen, maar ook omdat verwacht kan worden dat onverantwoord en discriminerend testgebruik zich als een boemerang tegen de testpsychologie zal keren.

Literatuur

Bleichrodt, N., Drenth, P.J.D., Zaal, J.N. & Resing, W.C.M. (1984). RAKIT: Instructie Normen Psychometrische Gegevens. Lisse: Swets & Zeitlinger.

Bleichrodt, N. & Van den Berg, R.H. (1999). Handleiding Multiculturele Capaciteiten Test - Middelbaar niveau. MCT-M. Amsterdam: Stichting NOA.

Brown, L., Sherbenou, R.J. & Johnsen, S.K. (1990). TONI-2. Test of Nonverbal Intelligence. Examiner’s Manual. Austin, TX: Pro-Ed.

Carroll, J.B. (1993). Human cognitive abilities: a survey of factor-analytic studies. Cambridge University Press.

COTAN (1999). Beoordelingssysteem voor de Kwaliteit van Tests.

De Wolff, C.J. & Buiten, B. (1963). Een factoranalyse van vier testbatterijen. Nederlands Tijdschrift voor de Psychologie, 18, 220-232.

Evers, A. (1999). Beoordelingssysteem voor de Kwaliteit van Tests. COTAN, Commissie Testaangelegenheden Nederland van het Nederlands Instituut van Psychologen, NIP.

Evers, A. & Lucassen, W. (1992). DAT’83 Differentiële Aanleg Testserie. Handleiding. Lisse: Swets & Zeitlinger.

Evers, A. & Te Nijenhuis, J. (1999). Liever speciale dan traditionele cognitieve capaciteitentests voor allochtonen? Een vergelijking. De Psycholoog, 34, 250-255.

Evers, A., Van der Flier, H. & Te Nijenhuis, J. (2000). Etnische bias in de personeelspsychologie. Een overzicht van resultaten en ontwikkelingen. Nederlands Tijdschrift voor de Psychologie, 55, 119-131.

Hofstee, W.K.B. (1990). Toepasbaarheid van psychologische tests bij allochtonen. De Psycholoog, 291-294.

Hofstee, W.K.B., Campbell, W.H., Eppink, A., Evers, A., Joe, R.C., Van de Koppel, J.M.H., Zweers, H., Choenni, C.E.S. & Van der Zwan, T.J. (1990). Toepasbaarheid van psychologische tests bij allochtonen. Utrecht: Landelijk Bureau Racismebestrijding. LBR-serie nr. 11.

Jensen, A.R. (1998). The g factor. The science of mental ability. Westport CT, USA: Praeger.

Lopez, E.C. (1997). The Cognitive Assessment of Limited English Proficient and Bilingual Children. In D.P. Flanagan, J.L. Genshaft & P.L. Harrison (Eds.), Contemporary Intellectual Assessment. Theories, Tests, and Issues. New York: Guilford Press.

NIP (1997). Beroepsethiek voor Psychologen. Nieuwe Beroepscode 1998. Amsterdam: Nederlands Instituut van Psychologen.

NIP (2000). Algemene Standaard Testgebruik. Amsterdam: Nederlands Instituut van Psychologen.

Resing, W.C.M., Bleichrodt, N. & Drenth, P.J.D. (1986). Het gebruik van de RAKIT bij allochtoon etnische groepen. Nederlands Tijdschrift voor de Psychologie, 41, 179-188.

Snijders, J.Th., Tellegen, P.J. & Laros, J.A. (1988). Snijders-Oomen niet-verbale intelligentietest: SON-R 5.5-17. Verantwoording en handleiding. Groningen: Wolters-Noordhoff.

Struiksma, A.J.C. & Geelhoed, J.W. (1996). Intelligentieonderzoek. In Th. Kievit, J. de Wit, J.H.A. Groenendaal en J.A. Tak (Red.), Handboek psychodiagnostiek voor de hulpverlening aan kinderen. Utrecht: De Tijdstroom.

Tellegen, P.J. (2000). Verantwoord testgebruik bij allochtonen. Een reactie. De Psycholoog, 35, 231-235.

Tellegen, P.J., Winkel, M., Wijnberg-Williams, B.J. & Laros, J.A. (1998). Snijders-Oomen Niet-verbale Intelligentietest: SON-R 2.5-7. Handleiding en Verantwoording. Lisse: Swets & Zeitlinger.

Te Nijenhuis, J. (1997). Comparability of test scores for immigrants and majority group members in the Netherlands. Academisch proefschrift, Vrije Universiteit.

Te Nijenhuis, J. & Evers, A. (2000a). De adviezen van Van den Berg en Van Leest (1999) voor testgebruik bij allochtonen. Zinnig of nutteloos? De Psycholoog, 35, 169-171.

Te Nijenhuis, J. & Evers, A. (2000b). Is een wetenschappelijke benadering van testgebruik bij allochtonen onverantwoord? Een reactie op Tellegen (2000). De Psycholoog, 35, 327-332.

Te Nijenhuis, J., Evers, A. & Mur, J.P. (2000). The validity of the Differential Aptitude Test for the assessment of immigrant children. Educational Psychology, 20, 99-115.

Te Nijenhuis, J. & Van der Flier, H. (1997). Comparability of GATB scores for immigrants and majority group members: some Dutch findings. Journal of Applied Psychology, 82, 675-687.

Te Nijenhuis, J. & Van der Flier, H. (1999). Bias research in the Netherlands: review and implications. European Journal of Psychological Assessment, 15, 165-175.

Te Nijenhuis, J. & Van der Flier, H. (2001). Group differences in mean intelligence for the Dutch and third world immigrants. Journal of Biosocial Science, 33, 469-475.

Tesser, P.T.M., Merens, J.G.F. & Van Praag, C.S. (1999). Rapportage minderheden 1999. Positie in het onderwijs en op de arbeidsmarkt. Den Haag: Sociaal en Cultureel Planbureau.

Van Dijk, H. & Tellegen, P.J. (1994). GIVO Groninger Intelligentietest voor Voortgezet Onderwijs. Handleiding. Lisse: Swets & Zeitlinger.

Van den Berg, R. & Van Leest, P. (1999). Praktisch testgebruik bij allochtonen. Wanneer zinnig, nuttig, of waardeloos? De Psycholoog, 34, 256-260.

Van den Berg, R. & Van Leest, P. (2000). Het testen van allochtonen: zorgvuldigheid een voorwaarde. De Psycholoog, 35, 172-174.

Van der Flier, H. & Boomsma-Suerink, J.L. (1994). GATB-Handboek (2de editie). Amsterdam/Utrecht: Stichting G.A.T.B.-Research.

Vedder, P. (1999). Migrantenkinderen, ontwikkelingsperspectieven en de psycholoog. De Psycholoog, 34, 261-266.

Correspondentie

Dr. P.J. Tellegen

Persoonlijkheids- en Onderwijspsychologie

Heymans Instituut, RuG

Grote Kruisstraat 2/1

9712 TS Groningen

p.j.tellegen@ppsw.rug.nl


to top to top to top to top

homepage T&T homepage SON-tests