Verschil SE-CE als kwaliteitsindicatie? Kwaliteit is meer gediend met standaarden

Bij een substantieel verschil tussen het gemiddeld CE-cijfer en het gemiddeld SE-resultaat is er iets raars aan de hand. Hetzij met het gegeven onderwijs of met de beoordeling. Aan de andere kant: ook als die gemiddelden wel dicht bij elkaar liggen zegt dat weinig over de kwaliteit van het onderwijs. Scholen straffen voor een te groot verschil draagt dus niet noodzakelijkerwijs bij aan de kwaliteit van het onderwijs. Daar zijn betere oplossingen voor.

Van de inspectie mag het verschil tussen het gemiddeld SE-cijfer en het gemiddeld CE-resultaat over alle vakken niet groter zijn dan 0.5. Heeft een school over een periode van 3 jaar telkens een groter verschil dan krijgt die het predicaat “zwak”. Daar is weer veel discussie over de laatste tijd.

Tegenstanders van die < 0,5-regel voeren vaak als argument aan dat zo’n verschil te verwachten en te rechtvaardigen is omdat je in het SE vaak andere dingen toetst dan in het CE. Dat lijkt logisch. Soms blijkt een leerling, die niet zo sterk is in lezen in een vreemde taal, je in die taal toch op een verrassend niveau de oren van het hoofd te kunnen praten. Maar zo’n verschil is alleen maar logisch op het niveau van de individuele leerling. Daar kijkt de inspectie niet naar en zulke verschillen vinden ze prima. Die twee examens, het SE en het CE, zijn juist bedoeld om zulke verschillen mogelijk en zichtbaar te maken.

Maar het is veel minder logisch om te verwachten dat dit verschil voor alle leerlingen altijd in de zelfde richting zal uitvallen. Het is veel waarschijnlijker dat tegenover elke leesblinde vlot-prater een verlegen type staat met spreekangst dat verrassend goed blijkt te kunnen lezen. Juist omdat leerlingen van elkaar verschillen zullen ze als groep gemiddeld weer op hetzelfde uitkomen.

Zelfs in het onwaarschijnlijke geval dat dit ‘iets anders meten’ bij een bepaald vak voor alle leerlingen een verschil in dezelfde richting oplevert, dan zou je op alle scholen voor dat vak hetzelfde verschil moeten zien. Dat is niet zo. Bij de ene school is het verschil vooral groot bij bv. Duits en klein bij geschiedenis en bij de andere school is het precies omgekeerd. Zelfs binnen een school zie je dikwijls dat bij hetzelfde vak zo’n verschil bij de ene docent wel en bij de andere niet optreedt.

Maar zelfs als aannemelijk gemaakt zou kunnen worden dat bij een bepaald vak leerlingen gemiddeld allemaal altijd beter zijn in de dingen die in het SE worden getoetst, hoe plausibel is het dan te veronderstellen dat een verschil in positieve richting in dat geval ook voor alle andere vakken zou gelden?

De onzuiverheid van het argument zit in de slordige formulering. Tegenstanders laten het woord ‘gemiddeld’ weg en rechtvaardigen verschillen tussen SE en CE met een argument dat geldt op HET NIVEAU VAN DE INDIVIDUELE LEERLING. En natuurlijk mogen per individuele leerling de verschillen groot zijn. Daaraan kun je zien dat een school zijn leerlingen de kans geeft hun verschillende talenten over een breed front te laten zien. Op die manier wordt de leerlingen extra gewaardeerd om de specifieke kwaliteiten waarin zij zich van anderen kunnen onderscheiden. Dat mag niet alleen, daar is ook veel voor te zeggen.

Maar daar gaat die < 0,5- regel niet over. Die gaat niet over individuele, maar over GEMIDDELDE verschillen. En dan ook nog OVER ALLE VAKKEN en ook nog OVER EEN PERIODE VAN DRIE JAAR. Als dat GEMIDDELDE hoger uitkomt dan 0,5 is er weinig tegen in te brengen dat er in zo’n geval iets mis moet zijn in de beoordeling. En een school die dat constateert heeft alle reden om zich eens achter het oor te krabben. Voor het beleid betekent dit dat naar manieren moet worden gezocht om deze verschillen klein te laten zijn.

ECHTER: Helpt het om scholen met een duurzaam gemiddeld verschil te straffen?

Of te wel: draagt het hanteren van de < 0,5-regel iets aan de handhaving of verhoging van de onderwijskwaliteit bij. Dat blijkt niet zonder meer het geval. Want met zo’n regel pak je het probleem aan de verkeerde kant aan. Je kijkt alleen maar naar het cijfer en niet naar de inhoud en/of de beoordelingscriteria waarop dat cijfer is gebaseerd. Daarmee stimuleer je cosmetische oplossingen. Zo wordt het bv. voor een school buitengewoon eenvoudig om, zonder iets aan de inhoud te doen een ‘sterke’ school te worden.

Dat gaat als volgt: Je neemt als directie voor elk vak het gemiddeld CE-cijfer van vorig jaar. Vervolgens roep je de sectievoorzitters bij je en zegt: “Vorig jaar was voor jouw vak het gemiddeld CE-cijfer 6,35. Als we nou eens begonnen daar dit jaar iets boven uit te komen. Bv. op 6,5. Ga daar dus vooral op trainen. Verder wordt het gemiddelde voor het SE dus ook 6,5. Hoe je daarop uit komt interesseert me niet. Geef een toets over 18 woordjes, laat ze wat proefjes doen of een werkstukje inleveren, je ziet maar. Hoe je het beoordeelt en de voldoendegrens vaststelt interesseert me ook niet, als het gemiddelde maar op 6,5 uitkomt.”

Dat is wat overdreven neergezet, maar in wezen is het wel een tendens die op een aantal scholen zichtbaar wordt. Met het risico van overaccentuering van het CE (Daar moet je je punten halen. Dat is immers niet manipuleerbaar en bepaalt je positie t.o.v. het landelijk gemiddelde) terwijl het SE een restpost wordt. (Daar wordt van buiten toch niet serieus naar gekeken, terwijl je de beoordeling grotendeels zelf in de hand hebt)

Wat dan wel?
Als het verschil tussen SE en CE te groot is, wijst dat op een inhoudelijk kwaliteitsprobleem. Als je daar iets aan wilt doen, moet je iets aan die INHOUD en aan die KWALITEIT doen. Niet aan de beoordelingscriteria.

In sommige gevallen kunnen we iets doen aan verbreding van wat in het CE wordt getoetst. Bij de vreemde talen bv. bestaat het CE maar uit één vaardigheid (lezen). In het SE zitten de overige vier (!) (luisteren, spreken solo, gespreksvaardigheid en schrijven). Het resultaat van die ene vaardigheid (lezen) bepaalt voor 50% het eindcijfer. Dat heeft organisatorisch/financiële redenen. Als je wilt dat aan die andere vaardigheden serieuzer wordt gewerkt, zou je het CE inhoudelijk kunnen verbreden. Bv. door daar luistervaardigheid in op te nemen. Daarmee lever je zeker en bijdrage aan een evenwichtiger beoordeling die tot uiting zal komen in een kleinere discrepantie tussen de gemiddelden van SE en CE. Als je geen evenwichtig examen wilt organiseren omdat dit te duur is , mag je niet klagen over onevenwichtigheid in de huidige situatie.

Maar nog veel meer kwaliteitswinst valt te boeken door de inspectiecriteria niet te richten op makkelijk manipuleerbare uitkomsten, maar op inhouden. Bv. door het vaststellen van nationale standaarden voor te bereiken resultaten in het SE. Zulke standaarden moeten helder omschrijven wat het onderwijs waarvan het SE de resultaten toetst, concreet moet opleveren. Je kunt dan van scholen gaan vragen dat ze documenteren dat leerlingen bij een voldoende eindcijfer ook aan de gestelde eisen hebben voldaan.

Dat mes snijdt aan meerdere kanten. Niet alleen werk je zo aan waarborging van het niveau. Je bevordert ook dat een beoordeling op de ene school hetzelfde betekent als op de andere. Maar je draagt ook nog bij aan het bereiken van betere resultaten. In een eerdere blog heb ik een overzicht gegeven van succesfactoren in het onderwijs, aan de hand van John Hattie’s meta-meta analyses (Visible Learning). Hattie concludeert dat het betere leerresultaten blijkt op te leveren als alle betrokkenen helder voor ogen hebben wat de leeractiviteit concreet aan vaardigheden of inzichten moet opleveren (in Hattie’s termen: heeft een ‘groot effect’ ). En in zijn vervolgboek (Visible Learning for Teachers) is dit een van de centrale thema’s.
Dat is bij sommige vakken lastiger dan bij andere. Maar er zijn vakken waar de mogelijkheden kant en klaar voorhanden zijn. Bij de moderne vreemde talen bv. ligt al een paar jaar een uitstekend instrument klaar in de vorm van het Europees Referentiekader (ERK).

Het ERK beschrijft vaardigheidsniveaus van taalbeheersing, in termen van:
– taalomvang: wat moet je kunnen, in welke contexten en voor welke doelen?
– taalcomplexiteit en mate van correctheid : hoe goed moet je het kunnen?
Voor meer informatie zie http://www.erk.nl

Er zijn allerlei testinstituten die toetsen welk ERK-niveau een kandidaat heeft bereikt. Als we bv. zouden vast stellen dat een leerling voor gespreksvaardigheid minimaal prestaties moet laten zien op niveau B2, dan kan een school zelf meetinstrumenten maken, toetsen van het Cito afnemen, leerlingen massaal aan de Cambridge-examens laten deelnemen of anderszins goed controleerbaar laten zien dat ze aan de standaarden voldoen.

Alleen maar eisen dat er geen verschil mag zijn tussen de gemiddelden van SE en CE is een maatregel die cosmetische oplossingen in de hand werkt. Kwaliteit wordt beter gewaarborgd via standaarden. Dan verdwijnen die verschillen in gemiddelden van zelf.