13. maj 2019

Drop kritikken af de nationale tests

Kronik af større forskergruppe inkluderende adjunkt Miriam Gensowski (Økonomisk Institut) og lektor Mette Gørtz (Økonomisk Institut) i Politiken den 13. maj 2019.

»Forskning baseret på de nationale tests - kan vi stole på den?«, spørger Jeppe Bundsgaard og Svend Kreiner i deres rapport om de nationale tests' måleegenskaber.

I rapporten og i en Kronik i Politiken 2. april konkluderer de, at det kan vi ikke uden fornyet revision. Ifølge de to forskere er resultaterne af de nationale tests behæftet med usikkerhed og fejl, blandt andet fordi opgavernes sværhedsgrad har ændret sig, siden sværhedsgraden blev fastlagt i 2010 og 2014. Konsekvensen er ifølge de to forskere, at de nationale tests må droppes, og at »alle beslutninger foretaget på baggrund af nationale tests må tages op til revision. () Og det gælder forskningsresultater, som bygger på de nationale tests«. Som forskere inden for uddannelsesområdet vil vi gerne slå fast, at vi sætter stor pris på enhver analyse, der kan bidrage til at forbedre de nationale tests.

Bundsgaard og Kreiner har udført et stort stykke arbejde med henblik på at vurdere, om de nationale tests regner rigtigt, når de måler børns læseniveau i 8. klasse.

Vi værdsætter dette arbejde, men vi mener af flere grunde, at deres konklusioner er forhastede og i nogle tilfælde helt forkerte.

Vi er ikke tilhængere af test for testens skyld, men de nationale tests måler evner hos eleverne, som har tæt sammenhæng med, hvordan de klarer sig videre i uddannelsessystemet.

Og forskning baseret på de nationale tests har bidraget til at give ny vigtig viden om for eksempel betydningen af frikvarterer, indsatser for tosprogede elever, effekten af at have to lærere i klassen og meget mere.

Netop derfor er det vigtigt at gå Bundsgaard og Kreiners konklusioner og analyser efter i sømmene for at vurdere, hvor holdbare de er, og hvad de betyder for anvendelsen af de nationale tests i pædagogisk og forskningsmæssigt øjemed.

EN AF BUNDSGAARD og Kreiners vigtigste konklusioner er, at de »nationale tests for mange elevers vedkommende ikke måler så præcist som lovet«. Det er en ofte fremført kritik af de nationale tests, at en elev kan tage den samme test to gange uden at få det samme resultat.

Dette gælder imidlertid enhver pædagogisk test. Det overrasker næppe nogen, hvis en golfspiller, som spiller den samme bane flere gange, ikke bruger præcis lige mange slag på hver runde.

Det burde heller ikke overraske folk med kendskab til test af elevers dygtighed, at det samme gælder de nationale tests.

Bundsgaard og Kreiners fremstilling af den statistiske usikkerhed er imidlertid misvisende. De skriver nemlig: »Når læreren får at vide, at en elev scorer 50 point på en skala fra 1 til 100, så er usikkerheden så stor, at man med sikkerhed kun kan sige, at resultatet ligger mellem 20 og 80«. Denne påstand er fundamentalt forkert på flere måder. Man kan ikke med sikkerhed sige, at resultatet ligger mellem 20 og 80. Eleven, som scorer 50, ligger med størst sandsynlighed på 50.

Det er rigtigt, at eleven kunne score 20 - eller 19 for den sags skyld - det er bare ikke nær så sandsynligt.

Bundsgaard og Kreiner giver således det indtryk, at testresultatet på 50 lige så godt kunne være 20 eller 80.

Det er forkert. En test vil sandsynligvis aldrig ramme helt præcist, men testresultaterne viser, hvad der er det mest sandsynlige niveau, og jo længere væk fra testresultatet man kommer, jo mindre sandsynligt er det, at elevens faktiske niveau befinder sig der.

I figuren har vi beregnet eksamensgennemsnit i dansk for elever i 9. klasse opdelt efter deres resultater i de nationale læsetests i 8. klasse.

Figuren viser, at elever, der scorede 20, havde et eksamensgennemsnit på cirka 4, dem, der scorede 50, havde et snit på godt 6, og dem, der scorede 80, havde et snit på lidt under 9. Der er altså en stærk sammenhæng mellem, hvordan folkeskoleelever klarer sig i læsetesten i 8. klasse, og hvordan de klarer sig til eksamen året efter. Dette skulle man ikke forvente, hvis de nationale tests var så dårlige, som de beskyldes for.

Endvidere viser figuren, at denne sammenhæng er cirka den samme, uanset om vi bruger de nationale tests fra 2010 eller dem fra 2016 (den seneste årgang, som har været til eksamen i 9. klasse) - selv om Bundsgaard og Kreiner hævder, at de nationale tests er blevet meget dårligere i perioden.

Resultaterne i figuren betyder ikke, at alle elevers færdigheder er målt præcist.

Det er de ikke, og det er ønskværdigt at få nedbragt den usikkerhed gennem en forbedring af testen. Men sammenhængen med eksamenskaraktererne, som jo bedømmes af lærer og censor på et bredt udsnit af danskfaget, ville ikke være så stærk som i figuren, hvis elevernes resultater i de nationale tests var mere eller mindre tilfældige, eller hvis de målte forhold, som kun har marginal relevans for danskfaget generelt.

Så når Bundsgaard og Kreiner konkluderer, at de nationale tests skal stoppes øjeblikkelig, svarer det til at sige, at alle golfturneringer skal spilles om, fordi vi ikke kan være helt sikre på, at hver spiller altid har fået præcis den placering, der svarer til spillerens reelle niveau. Men ligesom i golf er sandsynligheden for at vinde turneringen markant højere, hvis man er dygtig til spillet, selv om den bedste spiller ikke vinder hver runde.

EN ANDEN konklusion, som Bundsgaard og Kreiner drager, er, »at resultater fra forskning og evaluering, der har taget udgangspunkt i data fra nationale tests, tages op til fornyet undersøgelse«. Uden at angive præcist, hvori problemet består, mistænkeliggør de dermed et stort antal forskningsartikler, som flere af os har bidraget til. Vel at mærke forskningsartikler, der er publiceret i anerkendte internationale tidsskrifter, hvor de har været igennem grundig bedømmelse fra redaktører og anonyme fagfæller, der hver især er udvalgt ud fra deres ekspertise til at vurdere kvaliteten af forskningen.

Forskningsresultaterne tager højde for, at der altid er en vis måleusikkerhed forbundet med de enkelte elevers resultater.

Dette sker ved at teste, om forskelle mellem forskellige grupper af elever er så store i forhold til den usikkerhed, der er på testresultaterne, at det er meget usandsynligt, at forskellene skyldes tilfældigheder.

Det kaldes statistisk signifikanstest og er standardpraksis.

Ligeledes sammenligner mange forskningsartikler resultater for grupper af elever inden for samme skoleår. Ændringer i testens måleegenskaber over tid eller mislykkede testforløb, som rammer nogle elever tilfældigt, vil derfor ikke påvirke forskningsresultaterne.

Derfor er det en urimeligt generaliserende konklusion, at alle forskningsresultater skal tages op til revision. Selv hvis Bundsgaard og Kreiner havde ret i kritikken af måleusikkerhed og fejl, er mange forskningsresultater upåvirket af det, fordi de tager højde for måleusikkerheden og ikke studerer emner, der har med de mislykkede testforsøg at gøre.

EN TREDJE konklusion i rapporten er, at opgavernes sværhedsgrader i de nationale tests er forkerte. Det er en vigtig kritik, da opgavernes sværhedsgrad bruges til at udvælge passende opgaver til hver elev og dermed til at beregne, hvor dygtige eleverne er.

Desværre fremgår det ikke klart af rapporten, præcis hvordan forfatterne har beregnet opgavernes sværhedsgrad, og det bliver let meget teknisk at forklare de nationale tests' såkaldt adaptive princip i denne Kronik.

Men tilsyneladende tager Bundsgaard og Kreiner ikke højde for, at de dygtigste elever har fået de sværeste opgaver, og de mindre dygtige elever har fået de letteste opgaver.

Hvis ikke man tager højde for dette, kommer de sværeste opgaver til at se lettere ud, end de er, og de letteste opgaver kommer til at se sværere ud, end de er.

Det er netop den konklusion, som Bundsgaard og Kreiner når frem til, men det kan altså muligvis skyldes Bundsgaard og Kreiners beregninger og ikke fejl i testsystemets beregninger.

DET ER SOM nævnt prisværdigt, at der til stadighed arbejdes på at optimere testene.

Fra vores perspektiv er det væsentligste problem ved at bruge de nationale tests imidlertid ikke, at der er måleusikkerhed på resultaterne. Det er der på alle tests.

Problemerne opstår, hvis de nationale tests bliver tillagt alt for stor betydning.

Eksempelvis fortæller Politiken 4. april meget følelsesladet om en dygtig pige, som fik 11,2 i snit i gymnasiet, men som desværre stadig er påvirket af en oplevelse i 7. klasse, hvor hun fik sit resultat af den nationale test: »Kroppen blev kold, øjnene slørede, hovedet blev tungt, og blodet suste ned til tæerne. () Har man lyst til at åbne sin skæbne foran andre mennesker?«.

Hvem har givet pigen det indtryk, at de nationale tests afgør hendes skæbne? I stedet bør man tage testene for, hvad de er: én blandt mange forskellige måder at følge elevernes udvikling på, som giver brugbar viden om elevernes kompetencer inden for centrale områder som afkodning og sprogforståelse set i forhold til andre elever på samme klassetrin. De i alt cirka 10 timer, som en elev bruger på at tage de 10 obligatoriske nationale tests fra 2. til 8. klasse, udgør en forsvindende lille del af de omkring 7.000 timer, som eleverne går i skole i den periode.

VI MENER DERFOR, at det er forhastet og potentielt skadeligt, når Bundsgaard og Kreiner ønsker testene standset med øjeblikkelig virkning.

Der er snarere brug for en grundig gennemgang af deres egen analyse, så det bliver tydeligt, hvilket forskningsmæssigt belæg der er for deres konklusioner, og hvilke slutninger det er rimeligt at drage på grundlag heraf. Derudover sidder Bundsgaard og Kreiner begge med i den rådgivningsgruppe, der støtter Undervisningsministeriet i den igangværende evaluering af de nationale tests, og det er oplagt af afvente resultaterne af dette arbejde, inden der konkluderes om de nationale tests' fremtidige skæbne.

Hvis konklusionen på dette bliver, at der er behov for at forbedre de nationale tests, anbefaler vi, at man afprøver et alternativ, før man sætter de nuværende tests på standby.

Der er nemlig så mange modstridende ønsker til de nationale tests i den aktuelle debat, at man næppe kan udvikle et testredskab, der opfylder alle. For eksempel vil det koste på måleusikkerheden eller kræve længere prøver, hvis testen skal måle flere elementer af danskfaget, eller hvis man dropper den adaptive mekanisme, som nogle har ytret ønske om.

Det er meget muligt, at der kan findes gode og brugbare alternativer til de nuværende nationale tests på sigt. I mellemtiden har vi med de nationale tests faktisk et redskab, der giver udmærkede målinger af elevernes dygtighed og samtidig bidrager til at skabe stærke danske forskningsresultater, der kommer samfundet og ikke mindst børn og unge til gavn.

En test vil sandsynligvis aldrig ramme helt præcist, men testresultaterne viser, hvad der er det mest sandsynlige niveau Det er forhastet og potentielt skadeligt, når Bundsgaard og Kreiner ønsker testene standset med øjeblikkelig virkning.