Insigt i Angoff-metoden: resultater fra en simuleringsundersøgelse

Denne undersøgelse anvendte simulerede data baseret på 4900 unikke dommerpaneler, hvilket gjorde det muligt at måle forskellen mellem panelernes fastsatte Angoff-skæringsscore og den ‘sande’ skæringsscore. De vigtigste resultater var:

  1. (a)

    En forøgelse af antallet af dommere reducerer variationen i panelets cut-scores, men, hvad der er vigtigere, øger også præcisionen af panelets cut-score; effekten på præcisionen var dog mindre tydelig for prøver med et stort antal emner;

  2. (b)

    Dommernes strenghed og, i mindre grad, dommernes nøjagtighed påvirker præcisionen af cut-score, og

  3. (c)

    Anvendelse af anden runde af Angoff-processen uden hensyntagen til eksaminanderne eller prøvedata har ikke en meningsfuld indvirkning på præcisionen af cut-score.

Fundene diskuteres i tre afsnit. I det første diskuteres simuleringens fortjeneste og hensigtsmæssighed; i det andet diskuteres resultaterne og deres konsekvenser for forskere og praktikere; og i det tredje afsnit diskuteres denne undersøgelses fortjeneste og begrænsninger og mulige retninger for yderligere forskning.

Simuleringen

Simulerede data er tidligere blevet anvendt i uddannelsesmæssig vurderingsforskning til videnbaserede prøver og til præstationsbaseret vurdering . Simuleringsundersøgelser inden for standardfastsættelse er imidlertid sparsomme, og der blev ikke fundet nogen, som simulerede dommeres beslutninger baseret på deres simulerede egenskaber og sammenlignede dem med en simuleret “sand værdi” . De fleste tidligere simuleringsundersøgelser på dette område simulerede elevernes præstationer/eksamensresultater, der skulle anvendes af Angoff-paneler bestående af rigtige dommere, men ingen af disse undersøgelser har målt dommernes egenskaber og deres indvirkning på præcisionen af cut-scoren . B. Clauser et al. sammenlignede dommernes skøn over andelen af korrekte svar med empiriske data om eksaminandernes andel af korrekte svar. Denne fremgangsmåde er ganske vist vigtig, men den måler dommernes evne til at vurdere eksaminandernes præstationer på en bestemt prøve, men uden at der foreligger empiriske beviser for, hvilken cut-score der adskiller kompetence fra inkompetence . Den aktuelle undersøgelse bygger på tidligere arbejder og udvider brugen af simulation på dette område ved at simulere dommernes egenskaber, som antages at påvirke deres beslutninger, samt måle præcisionen af cut-score ved at sammenligne panelernes fastsatte cut-score med den “sande” cut-score.

Alle tidligere undersøgelser, der er identificeret i litteraturen, anvendte variansen inden for dommerne (eller overenskomsten mellem) som et mål for nøjagtighed eller præcision. Anvendelse af et sådant mål betyder, at hvis et panel af dommere var meget strenge, men alle var enige med hinanden, ville deres aftalte cut-score blive anset for at være mere nøjagtig end en cut-score, der blev givet af et afbalanceret panel bestående af nogle strenge og nogle lempelige dommere, hvilket naturligvis ville give en større varians. I det virkelige liv er der ingen mulighed for at kende den sande cut-score, der skelner mellem kompetence og inkompetence, og derfor anvendes der standardisering. F.eks. præsenterede (, s. 158) data, der viser, at tre forskellige paneler, der vurderer de samme emner, giver forskellige aftalte cut-scores og forskellig varians mellem bedømmere, selv når der anvendes den samme standardiseringsmetode (Angoff eller Nedelsky). Andre undersøgelser (f.eks. ), som anvendte generaliseringsanalyse til at måle replikerbarheden af en Angoff-procedure, konkluderede, at en stor del af den samlede fejlvarians kom fra dommerne, men de havde ingen guldstandard, hvormed de kunne måle afvigelsen fra den sande cut-score. Dette er indlysende, da generaliserbarhedsanalysen er baseret på fejlkilder, samtidig med at man antager, at gennemsnittet ligger meget tæt på den sande score . Når man måler præcisionen af en standardiseringsproces, har simuleringsundersøgelser som den, der præsenteres i dette dokument, den unikke fordel, at de omfatter den sande cut-score som en gyldig standard til sammenligning.

Ræsonnementet for at retfærdiggøre simuleringen af hver af variablerne er diskuteret i detaljer i afsnittet om metode og gentages ikke her. Men er det gyldigt at simulere dommernes attributter? Verheggen et al. viste, at ved standardfastsættelse afspejler en dommers individuelle beslutning om et individuelt emne den “iboende strenghed hos dommeren og hans/hendes fagrelaterede viden” (, s. 209). Dette begreb blev i vid udstrækning nævnt i litteraturen . Hvis alle emner er lige svære (dvs. sværhedsgrad = 0), består den resulterende cut-score af summen af skævheder, dvs. dommernes stringens, og summen af tilfældige fejl, dvs. nøjagtighed og andre tilfældige fejl. Da tidligere undersøgelser tyder på, at eksperter er mere stringente end ikke-eksperter, og at de anses for at have større indflydelse i panelet, har vi medtaget disse antagelser i simuleringsparametrene. Det absolutte omfang, hvormed hver enkelt egenskab påvirker bedømmelsen, er ukendt, og derfor bestod simuleringen af standardiserede parametre (SD ≅ 1) for at gøre det muligt at fastslå de relative virkninger af hver enkelt parameter på cut-scorerne. Det skal bemærkes, at som alle simuleringsundersøgelser måler den aktuelle undersøgelse interaktioner for givne simulerede forhold med henblik på at opnå en bedre forståelse af en vurderingsmodel. Denne undersøgelse handler ikke om at måle naturen . Denne undersøgelse ligner imidlertid forskning, der anvender reelle data, idet en undersøgelse måler den virkning, der er observeret på en bestemt stikprøve, og en anden undersøgelse anvender lignende foranstaltninger på en anden stikprøve. Ofte er resultaterne forskellige, men forskellen betyder ikke, at den ene undersøgelse er mere korrekt end den anden. I betragtning af overensstemmelsen med tidligere undersøgelser, hvor der er anvendt reelle data , foreslås det, at resultaterne af denne simuleringsundersøgelse vil kunne anvendes på enhver population af dommere med egenskaber, der ikke er helt forskellige fra dem, der blev simuleret i denne undersøgelse.

Overordnet set giver en simuleringsundersøgelse altid resultater, som er bestemt af simuleringsparametrene. Denne undersøgelses bidrag til litteraturen om standardfastsættelse er, at den måler virkningen af dommernes egenskaber på individuelt niveau på præcisionen af panelets cut-score. Så vidt vi ved, er disse sammenhænge aldrig tidligere blevet målt, hverken ved hjælp af simulerede eller observerede data. Overensstemmelsen mellem resultaterne af denne undersøgelse og tidligere undersøgelser, især hvor resultaterne kunne sammenlignes (f.eks. fig. 2 vs. Hurtz og Hertz’ arbejde , fig. 1 ), understøtter gyldigheden af simuleringsforudsætningerne og -parametrene, hvilket giver yderligere styrke til undersøgelsens resultater.

Implikationer af resultaterne

Angoff bruges ofte til at fastsætte standarder i store uddannelsesvurderinger . Inden for rammerne af medicinsk uddannelse er Angoff blevet anvendt til test af medicinsk viden (f.eks. MCQ’s ) , eller kliniske færdighedsprøver (f.eks. OSCE) .

I kliniske prøver (f.eks. OSCE) kan antallet af emner (eller stationer) være mellem 10 og 20 . Da det således er usandsynligt at øge antallet af emner af hensyn til gennemførligheden, tyder vores resultater på, at hvis Angoff blev anvendt, ville en optimal kombination være ca. 30 dommere for 10 emner, med et minimum på 20 dommere for 15 emner eller mere. For MCQ’er, hvor antallet af spørgsmål er stort, bør et minimum på 15 dommere være tilstrækkeligt til at opstille en forsvarlig Angoff-skæringsscore for eksamener bestående af 80 spørgsmål eller derover (fig. 2). Det bemærkes, at en forøgelse af antallet af emner gav flere datapunkter , således højere pålidelighed og derfor sandsynligvis også øger præcisionen.

Disse resultater ligger inden for det interval, der anbefales i litteraturen, hvilket tyder på, at der kan opnås en acceptabel cut-score, hvis der anvendes 5-25 dommere . Da der ikke findes nogen guldstandard for nogen definition af “hvad der er godt nok” i forbindelse med standardisering , kan det være berettiget at anvende Angoff med forskellige antal dommere afhængigt af konteksten for undersøgelserne.

Forrige undersøgelser med observerede data har bestemt Angoff-præcisionen ved variansen på tværs af dommerne . Andre undersøgelser, der anvendte observerede data, anvendte IRT-parametre eller cut-scores genereret ved alternative metoder til at estimere kvaliteten af de Angoff-genererede cut-scores . Disse metoder er hensigtsmæssige, når der anvendes observerede data. I den aktuelle undersøgelse blev præcisionen bestemt ved afvigelsen af panelets cut-score fra den “sande” cut-score. Forskellen mellem disse definitioner er mere end semantisk. Jalili et al. og andre anvendte indirekte foranstaltninger til at vurdere validiteten, idet Jalili et al. f.eks. erklærede: “Vi har ikke en referencestandard, som vi kan teste validiteten ud fra”. Deres elegante løsning var at bruge korrelationen mellem panelernes cut-scores og de gennemsnitlige observerede scorer (scorer, som eksaminanderne gav eksaminanderne) for hvert emne som et mål for vurdering af validiteten. Den aktuelle undersøgelse har den fordel, at den har en referencestandard, som validiteten kan testes ud fra, da den er medtaget i simuleringsparametrene (sand cut-score = 0). Vores konstatering af, at korrelationen var lav (r = .226, p < .0001), viser, at selv om der var en korrelation, forklarede SD inden for panelet (dommernes enighed) kun 5,1 % af variansen i cut-score-præcisionen. Dette resultat er vigtigt, da det tyder på, at selv om identifikation af fejlkilden (dvs. i generaliseringsundersøgelser) er en gyldig måde at måle pålideligheden af en metode til fastsættelse af standarder på, er anvendelse af den sande cut-score eller en acceptabel proxy af den (hvis der anvendes reelle data) en uvurderlig reference til måling af validitet . Derfor støtter dette resultat en nytænkning af sammensætningen af Angoff-paneler.

Litteraturen antyder, at Angoff-dommerne bør være eksperter , men den anerkender, at eksperter er mere stringente og kan have større indflydelse på andre dommere . Fig. 3 giver et indblik i denne uoverensstemmelse ved at vise samspillet mellem stringens og nøjagtighed (at være ekspert). Det ser ud til, at paneler, der hverken er for strenge eller for lempelige, er mere præcise, da de er mindre tilbøjelige til at være forudindtagede. Nøjagtighedsniveauet (den enkeltes evne til at vurdere den korrekte cut-score) har imidlertid kun en lille indvirkning på panelets cut-score-præcision. Dette er plausibelt, da cut-score bestemmes af gennemsnittet af alle dommernes karakterer . Uden skævhed i bedømmelsen (under forudsætning af, at Stringency holdes konstant) kommer dommernes gennemsnitsscore tættere på den sande værdi, efterhånden som antallet af dommere stiger . Strenghedens indvirkning på præcisionen er indlysende (da det var en af simuleringsparametrene), men det tyder også på, at et panel, der kun består af eksperter eller kun af ikke-eksperter, vil give en cut-score, der er mindre præcis end en cut-score, der gives af et panel med blandet ekspertise (fig. 3), især i betragtning af den allerede dokumenterede sammenhæng mellem strenghed og ekspertise . Samlet set tyder disse resultater på, at den optimale sammensætning af et Angoff-panel bør omfatte en bred vifte af dommere med hensyn til ekspertise og stringens (hvis den er kendt). I betragtning af den lille indvirkning af dommerens enighed på cut-scorepræcisionen (forklaret varians = 5,1 %) anbefales denne praksis på trods af sandsynligheden for øget uenighed inden for panelet mellem dommerne.

Denne undersøgelse viste, at virkningen af en anden Angoff-runde, hvor dommerne kan påvirkes af andre (dvs. indflydelse af “lederskab”), er ubetydelig. Selv om dette resultat var ubetydeligt, selv når det blev målt ved hjælp af standardiseret effektstørrelse (Cohen’s d = -0,083), skal det fortolkes med forsigtighed, især fordi målingerne alle er standardiserede, og den anden runde kun var forskellig fra den første ved dommernes indflydelse. Dette resultat støttes af tidligere empiriske undersøgelser, der påviser mindre forskelle mellem to Angoff-runder . Andre faktorer, som f.eks. præsentation af testdata, blev ikke medtaget i denne undersøgelse. Det er muligt, at en anden vægtningsmetode ville have givet en større virkning, og dette bør testes i fremtidige undersøgelser. I litteraturen begrundes anden runde som en måde at øge overensstemmelsen mellem dommerne på, men som anført ovenfor kan en forøgelse af overensstemmelsen inden for dommerne have ringe indvirkning på cut-scorepræcisionen, hvilket forklarer den observerede manglende indvirkning af en anden runde på cut-scorepræcisionen. Den uundgåelige konklusion af disse noget overraskende resultater tyder på, at forudsat at der er nok dommere, er den oprindelige uændrede Angoff-metode robust nok, og at diskussionen blandt paneldeltagerne ikke forbedrer præcisionen af Angoffs cut-score betydeligt.

Nuvel, de ændrede Angoff-metoder, der giver yderligere oplysninger om selve testpræstationen (f.eks. item- og elevparametre baseret på IRT-analyser), er velkomne. Sådanne modifikationer vil sandsynligvis øge dommernes præcision uden indvirkning på Stringency, da denne yderligere viden kun er relateret til testparametre og ikke til ekspertiseniveauet.

Begrænsninger i undersøgelsen

Denne undersøgelse har begrænsninger, hvoraf den vigtigste er, at det er en simuleringsundersøgelse. Validiteten af resultaterne afhænger af validiteten af datasimuleringen, især variablerne og antagelserne. Vi antog, at dommernes attributter er normalfordelte og ikke ikke-parametriske. Det er naturligvis muligt, at en bestemt eksamen og/eller et bestemt sæt eksaminander og/eller et bestemt sæt dommere i det virkelige liv vil have andre egenskaber end dem, der er beskrevet i denne undersøgelse, og at anbefalingerne i denne undersøgelse derfor ikke vil være anvendelige for dem. I betragtning af det store antal (4900) unikke paneler, der er genereret til denne undersøgelse, og overensstemmelsen med tidligere resultater, der er genereret på grundlag af virkelige data, er det dog rimeligt at tro, at resultaterne kan generaliseres. Desuden er de antagelser, der er gjort i forbindelse med genereringen af dataene, som allerede forklaret, baseret på teorier om uddannelsesmåling og standardindstillinger og resultater i praksis . Bemærk, at som forventet fra en simuleringsundersøgelse måler denne undersøgelse kvaliteten af en model snarere end at analysere nogen observerede data .

Der er behov for yderligere forskning for at identificere virkningen af andre funktioner i modificerede Angoff-metoder på cut-score-præcisionen, samt for at gentage denne undersøgelse med ændrede antagelser.